?

Log in

чисто посмеяться - jemmybutton

> Recent Entries
> Archive
> Friends
> Profile

December 9th, 2011


Previous Entry Share Next Entry
12:31 am - чисто посмеяться
Тут какая-то каша следующего содержания:
0. Коротко
1.1 «ненормальное» распределение явки на выборах в бундестаг 2002 (придираться к округам вместо участков и географии)
1.2 связь между голосами за хдс+хсс и явкой на тех же выборах (то же)
2. пики на красивых числах (частью объяснены, частью — нет)
3. коибы
4. соцопросы и экзит-поллы (тоже ничего толком нет)
5. недействительные бюллетени + партии с небольшим числом голосов и их распределения + незатейливая модель вбросов (есть подозрение что рост явки за счет вбросов должен был бы привести к определенному искажению распределений других партий)
6. на каком уровне в основном портится распределение и появляется корреляция
7. данные по переписанным протоколам с kartaitogov и ruelect (непохоже что вбросы так уж сильно влияют на явку)
8. для смеха еще зависимость результата от израсходованных средств
9. модели зависимости голосов за ер от явки
10. модели, касающиеся распределения
11. списочный состав и перепись населения



0. Коротко
Никаких серьезных доводов в пользу «нормального» распределения мне найти не удалось, равно как никаких моделей, показывающих как именно должно меняться распределение разных партий в случае фальсификаций того или иного свойства. Мои неловкие попытки разобраться (п. 5) с энтузиазмом не столкнулись, так что их не считаю (http://lleo.me/dnevnik/2011/12/13.html или http://rksmb.org/get.php?5011 это вот еще хуже чем у меня модели, так что их уж совсем не считаю). Так что все истории про «Гаусса против Чурова» пока, как мне кажется, чистой воды пропаганда (впрочем, ничего кроме фраз и плакатегов на этом толком и не строится). Единственная более или менее обсосанная особенность распределения — пики на «красивых числах», за вычетом кое-каких артефактов (см. конец п. 2) не является чем-то повсеместным (насколько можно судить).
Корреляция между явкой и голосами за партию (ЕР), предположительно возникающая в следствие фальсификаций, встречается и в других странах (п. 1 и ссылки внизу него) (тот факт, что по другим странам нет данных по участкам не отменяет вопроса о наличии самой корреляции, а уровень, на котором она возникает остается вопросом открытым, как и УИКи в качестве «единицы лжи»), где, по общему мнению, их происхождение не связано с какими-либо махинациями. Приписки за ЕР, как один из потенциальных источников корреляции оправдывают себя (http://vladislav-01.livejournal.com/5366.html), но далеко не везде (см. п. 7), с другой стороны, положительная корреляция между голосами за ЕР существует как по предположительно более или менее «чистым» участках с КОИБ, как минимум по Москве (п. 3), так и по протоколам без «переписок» (п. 7)
Таким образом, несмотря на вполне правдоподобные и многочисленные данные по конкретным фактам фальсификаций (напр. ruelect.comхорошего моста между ними и какими-либо общими картинками в масштабах страны пока нет, а то что есть — требует серьезной проверки и уж точно не может служить твердым ориентиром в оценке масштабов фальсификаций.

1, 2. Про Германию и пики на «красивых» числах скинул сюда: http://jemmybutton.livejournal.com/1638.html

3. КОИБы
Для начала Москва:

Имеет место значимая положительная корреляция (p < 0.001, критерий Спирмана) по участкам с КОИБами

4. Соцопросы и экзит-поллы
Этот вопрос более подробно распишу, наверное, позднее. Пока просто общий фон.

Это доля голосов за ЕР от общего числа определившихся с партией, по данным соцопросов перед выборами (ФОМ, ВЦИОМ, Левада-центр, Башкирова и партнеры, ИСИ) от количества месяцев до выборов (признаться честно, стянул из википедии http://ru.wikipedia.org/wiki/Выборы_в_Государственную_думу_(2011)). Последние три точки — это три экзит-полла (ВЦИОМ, ИСИ, та что в середине — апокрифические 43 процента от ФОМ). Красная черта — результат подсчетов. 
Либо все эти опросы сфальсифицированы тоже, либо можно как-то оценить в свете их результатов вероятность того, что итоговый результат, а также все выкладки сторонников теорий массовой фальсификации, соответствуют действительности.

UPD: да-да, в москве экзит-поллы у фом и иси (про вциом не знаю) сильно не сошлись с итоговыми результатами. этот факт говорит в пользу того чтобы доверять данным этих двух организаций.

UPD: Пока очень грубо.
Ниже результаты последних соцопросов и экзит-поллов:

доля потенциальных голосов за ер от количества месяцев до выборов (плюс-минус полшапки).
последние три точки — экзит-поллы. в форме доверительных интервалов тут изображена доля неопределившихся в опросах и отказавшихся отвечать в экзит-поллах (сколько отказалось отвечать в экзит-полле иси (нижний) не указано, поэтому взял по минимуму — 20 процентов, для фом и вциом это 30 и 23 соответственно). красная линия — официальный результат, синяя и зеленая — подсчеты, приведенные в этой записи http://kobak.livejournal.com/101512.html (38 и 34 процента соответственно).
справа то же, но без вциом.
если не делать смелых предположений о распределении голосов среди неопределившихся (или отказавшихся отвечать, в случае экзит-поллов), то принципиально с результатами экзит-поллов неплохо на вид совместимы все три оценки, а с результатами последних опросов лучше всего совместим официальный результат.
два опроса с большим количеством неопределившихся — это иси и «башкирова и партнеры». опросы, в диапазон которых попадает оценка с более оптимистичной коррекцией — фом (20 ноября) и иси (11–17 октября).
конечно, у опросов и экзит-поллов (если им верить) есть и собственная погрешность, которую тоже нужно учитывать, но этим пока можно пренебречь. + еще одно важное допущение: если считать что выборка репрезентативна, то на выборы пошли не все, кто определился с кандидатом, а распределение прогульщиков по партиям нам тоже неизвестно, так что к интервалам, в принципе, можно накинуть еще по полтора десятка процентов в среднем.
(http://slon.ru/russia/predvybornye_prognozy_razvyazali_ruki_falsifikatoram-722908.xhtml аргументация вида «предсказание правильное — значит все подстроено, неправильное — тем более» выглядит, мягко говоря, спорно)

5. Недействительные бюллетени + партии с небольшим числом голосов
Возможно где-то уже было, не знаю. Если принять, что значительная часть голосов за ЕР приписывается или вбрасывается, мы должны видеть странности не только в распределении явки, но и в распределении доли недействительных бюллетеней от общего числа заполненных. А именно — перекос в меньшую сторону. Так ли это?

Количество участков от доли недействительных бюллетений (от общего числа проголосовавших)
Сверху — распределение «как есть». Снизу — убраны все участки, где нет ни одного испорченного бюллетеня. Распределение снизу лично мне на вид нравится, а пик на нуле на верхнем выглядит подозрительно. если убрать все участки, где никто и ничего не испортил, то получится 46 за ЕР, а если посчитать только их — 81.
убрал взвешенную гистограмму
В зависимостях доли недействительных бюллетеней от голосов за партию пока ничего особо интересного не нашел. Наврал, чем меньше испорченных, тем таки больше за ЕР. правда, масштабы пока неясны.
Отсекаем участки с маленькой долей недействительных бюллетеней.

количество голосов за ер от доли недействительных бюллетеней, до которой происходит отсечение. минимум слева примерно равен 40%

и аналогичная картинка для кпрф. максимум на 21
что бы это могло значить? буквально это можно понять так: ер обязана значительным числом голосов участкам, с долей недействительных бюллетеней до 2 процентов (таких большинство), а кпрф (и у других выглядит похоже) — от двух до пяти, причем это, по-видимому, не связано с увеличением числа участков с небольшой долей недействительных бюллетеней (их распределение не выглядит странно).
UPD: распределения логитов (см. ссылки в первом разделе)

Это распределения логитов ( log(x/(1-x)) ) доль голосов за все партии и недействительных бюллетеней. Синим — ЕР, красным — недействительные бюллетени. Ноль соответствует 50 процентам. + важно: тут не учитываются участки, где у любой партии ровно 0 или ровно 100 процентов и данные не взвешены

Если бы ЕР была обязана своим правым плечом именно вбросам и припискам (отчего, как предполагают, растет и явка), то следовало бы ожидать, что у остальных партий и недействительных бюллетеней вырастет левое плечо и распределение логитов величин везде окажется одинаково несимметричным.
Я взял тыщу раз по 50 случайных участков и каждый раз провел тест на нормальность для распределения каждой партии.  Вот медианы полученных значений p (критерий Лиллиефорса) и коэффициенты асимметрии через запятую (довольно условно, но все же).  UPD: хотя если взвесить по количеству проголосовавших, то расколбашивает довольно сильно (второе число через запятую), но даже если включить места, где по ноль голосов, со значением 0.01, то все равно асимметрия НБ, ПР, Я и ПД заметно ниже чем у остальных. Фиг поймешь, конечно, может это ничего и не значит.
Недействительные — 0.15, -0.39, -2.14
СР — < 0.01, -1.94, -4.15
ЛДПР — < 0.01, -2.02, -3.83
ПР — 0.08, -0.73, -2.4
КПРФ — < 0.01, -2.03, -4.94
Яблоко — 0.42, -0.28, -2.99
ЕР — < 0.01, 1.70, 5.59
ПД — 0.31, -0.10, -2.29

UPD: если смотреть по отдельным регионам, то асимметрия в среднем около нуля для недействительных бюллетеней если не взвешивать, и аж минус полтора и всегда меньше нуля если взвешивать. (вообще может я неправильно взвешиваю?)

UPD: простая модель
ну, значит, простецкая модель для трех партий, получается такое вот распределение:

количество «участков» от доли «голосов». красным будет П1 (очень мало «голосов»), синим П2 (нормально «голосов») и зеленым П3 (много «голосов»)
коэффициенты асимметрии для распределений логитов крохотулечные: 0.03, 0.02 и -0.03
теперь сымитируем «вброс», добавив случайным образом к отдельным «участкам» для П3 некое случайное количество «голосов»:

коэффициенты асимметрии для логитов стали для П1 — -2.9, для П2 — -2.6 и для П3 — +2.6
модель, конечно, очень условная, но отсюда видно, что распредление логитов должно портиться (если считать что по умолчанию оно нормальное) примерно одинаково у всех партий (и даже больше у маленьких) в случае вброса, а это в рф, судя по всему, не совсем так (или даже совсем не так). справа — зависимость «голосов» за п3 от «явки»
UPD: перенос голосов с повышением доли ер, судя по данным ruelect, бывает сопряжен со вмешательством в число недействительных бюллетеней и чаще в большую сторону, но в целом, довольно редко. приписки же закономерно уменьшают долю недействительных бюллетеней. ну и плюс сочетания обоих вариантов

6. На каком уровне что происходит
Пока в общем. (Спасибо kobak, который попросил проделать это для Германии и ixodus, который в итоге не без пользы потроллил по поводу агрегированности данных)
Комиссий максимум 5 уровней от ЦИК до УИК, иногда меньше. В 59 СФ уровня 4 и в 25 их все 5. Ниже уровни считаются не сверху-вниз, а снизу-вверх, т. е. комиссии небольших субъектов федерации на одном уровне с комиссиями второго уровня больших.
В следующей таблице — доля комиссий в ведении которых между явкой на участках и голосами за ЕР есть значимая корреляция (с двумя уровнями значимости). Чтобы точно не зависеть от распределения, использован коэффициент Спирмана.
1234
p<0.05100%    100%    88%    49%
p<0.001100%100%81%24%

Интересно, что результат ЕР по комиссиям последних двух уровней, где нет значимой корреляции (p>0,05) (если я ничего не напутал), не безумно сильно отличается от результата по комиссиям, где корреляция есть (p<0,05). На 3-м уровне 50% и 42%, на 4-м 52% и 46% соответственно.

А здесь — квартили значений коэффициента асимметрии распределения логита явки (эээ) на разных уровнях (первый уровень — страна, поэтому значение одно):
1234
0%2,34    0,55    -0,34    -3,64
25%2,342,151,810,32
50%2,342,802,810,95
75%2,343,643,502,22
100%    2,344,567,606,68


Тут тоже прикольно (если, опять же, ничего не напутал): на последних двух уровнях, там где коэффициент асимметрии меньше единицы, результат ЕР выше, то есть там, где больше голосов за ЕР, распределение наверняка не похоже на горб с толстым хвостом справа, как по всей стране. Правда, конечно, это не значит что оно там нормальное (логит-нормальное), это надо еще проверять. Ну и плюс к тому, надо взвешивать данные, а тут КА невзвешенный. Та же фигня и с тестом на нормальность (там, где тест не проходит, результат ЕР ниже), но это, как и для Германии, очень условно.

7. Переписанные протоколы по данным kartaitogov и ruelect
решил тут посмотреть (наверняка уже даже не десятый), где на графике голоса за ер — явка находятся участки, в которых, если верить фотографиям протоколов, переписаны результаты (http://www.kartaitogov.ru/diff).

Москва (upd: переправил на ruelect.com). На картинке — как изменились результаты (красным) по сравнению со сканами протоколов (зеленым)
upd: распределения недействительных бюллетеней для Москвы

синим — КОИБы, зеленым — протоколы, красным — протоколы после переписки, черным — все данные по Москве.


Санкт-Петербург (upd: переправил на ruelect.com) На картинке — то же, что и по Москве. upd: Вторая картинка — то же для ЛДПР (где голоса за ЛДПР растут). upd: Чтоб не искать: от региональной группы N81 (Санкт-Петербург) ЛДПР прошел Д. Волчек.
UPD: распределения для питера

Зеленым — протоколы с ruelect без правок, красным — те же протоколы с правками, черным — все участки Питера по данным ЦИК. Слева — явка, справа — голоса за ЕР.

Во-первых видно что в большинстве случаев тут явка тупо не повышается, во-вторых, что добавление голосов за ЕР не сильно связано с высоким процентом за ЕР (да и вообще, там есть много интересного, типа переписывания голосов от ер к кпрф и т. п. и куча просто чьих-то ляпов. хорошо б посмотреть на данные из сверенных протоколов без расхождений). Т. е. более или менее задокументированный способ фальсификации, видимо, не приводит к тем симптомам (кроме искажения распределения голосов за ЕР, наверное), на которых строятся основные оценки масштабов фальсификаций.  С другой стороны, эти симптомы совсем небесспорны сами по себе.
UPD: пресловутая Нижегородская область для сравнения

видно что здесь ситуация заметно отличается. Справа — выборка участков, где растут голоса за КПРФ. (линия, идущая откуда-то справа — это прикольный глючный протокол http://ruelect.com/ru/?panel=uik&uik_id=55539, где линии направлены вниз — это участки, где хорошо кпрф: http://ruelect.com/ru/?panel=uik&uik_id=54796http://ruelect.com/ru/?panel=uik&uik_id=54930http://ruelect.com/ru/?panel=uik&uik_id=54971). В процентах КПРФ в Нижегородской области теряет, но в общей сложности прибавляет больше десяти тыщ голосов по тем протоколам, которые есть. upd: чтобы не искать, по региональной группе N50 (Нижегородская область - Арзамасская, Кстовская, где сосредоточены вроде почти все интересности) КПРФ прошли А. Тарнаев и Д. Вороненков.
UPD: что вообще происходит с протоколами по данным ruelect.com
Вот это, разница в явке и голосах за ЕР между данным на сайте цик и данными по протоколам, как это указано в таблице на ruelect:

видно, что чаще всего явка не меняется, хотя бывает, что и меняется вместе с голосами за ЕР.
Вот это гистограмма изменения явки для тех участков, где у ЕР увеличился процент (в таблице много участков, где этого не произошло):

опять тот же ноль во всей красе. Ну и тут я отрезал какие-то редкие участки, где явка сильно снизилась.
Если в цифрах, то в 46% случаев явка не менялась вообще, в 59% изменение явки до одного процента и в 62% случаев до пяти. Если учесть, что явка увеличивалась не одинаково (в Питере и Москве, видимо, не сильно, а вот в Нижегородской области весьма значительно), то ценность повышенной явки, как универсального показателя фальсификаций вызывает много сомнений. 
Ну и для красоты: гистограмма увеличения голосов за ЕР (там, где оно было):

UPD: 
В данных по «честным» протоколам от ruelect и по Москве и по всей РФ (тем регионам, что представлены в таблице) есть корреляция между явкой и голосами за ЕР. Спирман: rho = 0.4267094, p-value = 1.052e-05 и  rho = 0.3119848, p-value < 2.2e-16 соответственно.

UPD: Не только наблюдатели, фотографирующие протоколы, но и бездушные КОИБы не смогли ничего сделать с корреляцией между явкой и голосами за ЕР в Москве, см. п. 3

UPD: Как меняется явка в регионах, по тем участкам, где увеличена доля голосов за ЕР по данным ruelect (в процентах, невзвешенное среднее по участкам), upd: а также значимость корреляции голосов за ер и явки (критерий Спирмана) там, где достаточно участков. Красным выделено там, где корреляция отрицательная. (естественно, и там и там только участки с ruelect)

UPD: kobak справедливо заметил, что корреляция может возникать и от смешения переписанных результатов с непереписанными. так как нам неизвестно в каком отношении они смешиваются, в качестве очень условной модели можно посмотреть корреляцию для данных вместе переписанных и непереписанных (последняя колонка). 

Регион  n+% за ЕР  +% явка  p прот.  p ЦИК  p вместе
Нижегородская область206  19.1620.830.012 *0.004 **<0.001 ***
Город Санкт-Петербург7823.770.050.1330.2410.472
Город Москва4518.762.070.003 **0.007 **0.001 ***
Московская область3920.333.770.6410.016 *0.078 .
Краснодарский край3816.642.350.5050.028 *0.043 *
Ростовская область3726.12-0.530.009 **0.1380.149
Самарская область3436.660.040.003 **0.170.111
Костромская область2615.41-0.070.099 .0.5470.293
Республика Коми2225.077.460.2670.1820.028 *
Республика Тыва2111.2111.080.7450.320.088 .
Саратовская область1315.727.680.1250.1570.013 *
Пензенская область1219.531.860.2660.7830.886
Тюменская область1214.09-1.30.079 .0.026 *0.02 *
Ставропольский край711.382.770.7130.5560.387
Челябинская область729.6416.730.7820.4440.115
Республика Хакасия520.520.540.2330.083 .0.351
Волгоградская область416.69-0.18NANANA
Республика Татарстан (Татарстан)310.066.65NANANA
Республика Башкортостан213.42-1.17NANANA
Ивановская область2108.06NANANA
Новгородская область239.710NANANA
Иркутская область28.180NANANA
Брянская область128.9322.94NANANA
Кемеровская область110.270NANANA
Ярославская область10.02-0.06NANANA
Мурманская область124.780NANANA
Владимирская область11.15-1.85NANANA
Астраханская область125.180NANANA
Воронежская область112.940NANANA
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Видно что в большом количестве случаев явка в среднем меняется мало (не только Питер и Москва), а корреляция между голосами и явкой даже бывает ослабляется. 

UPD: Разница между протоколами и данными ЦИК по разным партиям

СР, ЛДПР, ПР, КПРФ, Я, ПД по осям ординат и ЕР по оси абсцисс. Во сколько раз изменилось количество голосов за партию по данным с ruelect. Там есть глюки, так что часть точек — это как раз они. Много точек за ПР в Питере, где они, похоже, получили голосов вместе с ПД (участок где по данным ЦИК у ПД аж 700 голосов я тут подрезал) как все равно «непроходные» (типа такого http://ruelect.com/ru/?panel=uik&uik_id=89293). Сходная, видимо, ситуация с «Яблоком» в Нижнем Новгороде (как-то так http://ruelect.com/ru/?panel=uik&uik_id=54877)



8. Результат партии, как функция от объема израсходованных средств

Количество голосов от объема израсходованных средств (http://cikrf.ru/banners/duma_2011/finance/sved_post_sredstv/sved_post_sredstv.pdf), шкала логарифмическая.
И в голосах на израсходованную тысячу рублей:
«Яблоко» — 13,40
«Патриоты России» — 139,21
ЛДПР — 14,75
«Правое Дело» — 54,67
КПРФ — 57,84
«Справедливая Россия» — 27,24
«Единая Россия» — 18,00
UPD: Аналогичная для выборов 2007 года:

9. Модели зависомости голосов за ЕР от явки
http://jemmybutton.livejournal.com/2147.html

10. Модели, касающиеся распределения
Отступление для очевидного замечания: всё, что мы тут видим на страшных графиках с пилами/расческами/драконьими хвостами и т. п. — это результат агрегации данных, а не что-то другое, значит все модели (что для естественных объяснений, что для фальсификационных) должны касаться именно агрегации данных. Это легко проверить: достаточно сравнить распределения данных УИКов по настоящим ТИКам и сравнить его с распределением УИКов, объединенных случайным образом, в группы, размером с настоящие ТИКи:

Зеленым — настоящие ТИКи, синим — случайные «ТИКи». Все корреляции явки с голосами при этом, конечно, никуда не деваются.
Само по себе это ничего не значит, разумеется, просто иллюстрация. Но сразу надо понимать, что данные могут быть агрегированы очень по-разному (вплоть до, большинству, наверное, известного способа манипуляции результатами), адекватная модель может быть очень сложной (даже в самом честном случае) и нормальных условий для работы ЦПТ тут нет (два избирателя на одном участке не независимы, два участка в одном ТИКе не независимы и т. п.) и это совсем не странно.
Дальше — позднее

11. Списочный состав и перепись населения
начинаю фигачить сюда http://jemmybutton.livejournal.com/1851.html


(374 comments | Leave a comment)

Comments:


[User Picture]
From:kobak
Date:December 12th, 2011 12:31 pm (UTC)
(Link)
Спасибо за подробную запись!

Я разобрался в ситуации и могу утверждать наверное, что пики на графике результатов ЕР -- это не артефакты. Вот, посмотрите: http://kobak.livejournal.com/102646.html
[User Picture]
From:jemmybutton
Date:December 12th, 2011 12:41 pm (UTC)
(Link)
спасибо.
в вашей модели величины распределены равномерно, а это влияет на распределение пиков(на частоту тех или иных сочетаний). попробуйте добавить шум с амплитудой в единицу в голоса за ер и в общее число проголосовавших, тогда все артефакты уйдут, а останутся только настоящие пики, возникшие по другим причинам.
[User Picture]
From:kobak
Date:December 12th, 2011 12:42 pm (UTC)
(Link)
Не очень понимаю, что это значит, можете пояснить? Вы имеете в виду добавить шум в реальные данные или в модель? Я не пытался смоделировать выборы, я просто взял простейшее отношение двух случайных целочисленных величин, чтобы показать принцип.
[User Picture]
From:jemmybutton
Date:December 12th, 2011 12:48 pm (UTC)
(Link)
картина пиков зависит от распределения величин. при равномерном распределении картина одна, при нормальном — другая, а при том, которая есть — третья. вы, насколько я понял, заключили что пики имеют иную природу, потому что они относительно друг-друга иной высоты, чем в вашей модели, а это, насколько я могу судить, следствие различий в распределении величин на выборах и равномерном распределении у вас.
я предлагаю добавить незначительный шум в настоящие данные (по полголоса в каждую сторону). это не может повлиять на итоговый результат (особенно, если убрать маленькие участки), но устранит все артефакты, возникающие таким образом. если и правда участков с 50 процентами больше положенного, то мы это все равно увидим.
[User Picture]
From:kobak
Date:December 12th, 2011 12:52 pm (UTC)
(Link)
1. Разная высота пиков -- это только один из доводов, а главный довод -- периодичность пиков в реальных данных. Думаю, никакая модель не даст периодичные пики, т.к. эффект артефактов всегда завязан на простые дроби.

2. Простите, я торможу (не выспался). Вы имеете в виду на каждом участке добавить к количеству голосов за ЕР случайным образом +-1 голос? Могу легко это сделать, но не вижу, как это может устранить артефакты. При микроскопическом бине 0.0001% наверняка все равно будут видны артефакты.
[User Picture]
From:jemmybutton
Date:December 12th, 2011 12:58 pm (UTC)
(Link)
1. периодичность может зависеть от величины бина и его положения относительна пика. бин, который обязательно пападает серединой на целые проценты (если он 0,25, к примеру) обязательно словит пик, а тот, что попадет боком на 0.(3) может все сильно сгладить.
2. предлагаю добавить не целочисленный шум (+-1), а нецелочисленный (например -1/2:+1/2 с шагом в 1/10000, например. чем меньше шаг, тем меньше вы сможете делать бин, пока не упретесь в количество данных)
[User Picture]
From:kobak
Date:December 12th, 2011 01:07 pm (UTC)
(Link)
1. Да, но посмотрите в моей записи график 2: там взяты реальные данные и очень-очень маленький бин. Мы явно видим все артефакты, и они явно находятся в других местах, не в 60,65,70... Разве этого не достаточно?

2. Гениально. Я сделал это, добавил на каждой уик случайное число, равномерно распределенное на (-0.5...0.5), без шага. ВСЕ ПИКИ ИСЧЕЗЛИ!

Как такое может быть?! Особенно в свете пункта (1).
[User Picture]
From:jemmybutton
Date:December 12th, 2011 01:11 pm (UTC)
(Link)
так не должно быть, вроде, у меня на 75 и далее что-то осталось
[User Picture]
From:kobak
Date:December 12th, 2011 01:08 pm (UTC)
(Link)
А, черт, я добавил число к проценту, а не к количеству бюллетеней. Секунду.
[User Picture]
From:corbulon
Date:December 12th, 2011 01:08 pm (UTC)
(Link)
+/- 1/2 уберет артефакты. А иррациональное число <1 тем более.
И что?
[User Picture]
From:jemmybutton
Date:December 12th, 2011 05:14 pm (UTC)
(Link)
да, с иррациональным числом мысль интересная, но шум как-то понятнее как себя поведет.
ну так в этом и соль.
[User Picture]
From:corbulon
Date:December 12th, 2011 05:20 pm (UTC)
(Link)
Я следил за вашей работой с Кобаком с интересом.
Дело в том, что я тоже задумал было делать это и как раз тут он, умница (!), и опубликовал свой пост.
[User Picture]
From:kobak
Date:December 12th, 2011 01:11 pm (UTC)
(Link)
Добавил к количеству бюллетеней, график вообще никак не изменился, все пики на месте. Спасибо большое, сейчас добавлю это в свою запись
[User Picture]
From:jemmybutton
Date:December 12th, 2011 01:13 pm (UTC)
(Link)
а пик на 1/7 за ср у вас остался?
[User Picture]
From:kobak
Date:December 12th, 2011 01:15 pm (UTC)
(Link)
А с каким бином вы видите этот пик в исходных данных? Я его не вижу.
[User Picture]
From:jemmybutton
Date:December 12th, 2011 01:16 pm (UTC)
(Link)
его видно уже на 0.1% (приведена картинка наверху) и специально на него смотрел на 0.005% (картинка есть наверху)
[User Picture]
From:kobak
Date:December 12th, 2011 01:23 pm (UTC)
(Link)
1. Бин 0.005 не имеет смысла -- с таким бином на исходных данных я получаю картинку вроде правой картинки на графике 2 в моем записи, то есть одни сплошные артефакты.

2. С бином 0.1 пик у СР на 1/7 очень маленький, больше похож на шум, честно говоря. Кажется, уменьшается после добавления шума. Но главное не это. Главное:

3. У меня была дурацкая ошибка. Сейчас я ее устранил и заново посчитал гистограммы с моим бином 0.25 после добавления шума. Пик на 50% ПОЛНОСТЬЮ исчез, а пики на 60,65,70... не изменились. Феноменально. Сейчас везде обновлю эту информацию. Нужно все гистограммы всегда так вычислять, и никак иначе.
[User Picture]
From:jemmybutton
Date:December 12th, 2011 01:23 pm (UTC)
(Link)
просто я не понимаю куда у меня пропал пик на 50
[User Picture]
From:jemmybutton
Date:December 12th, 2011 12:50 pm (UTC)
(Link)
кроме того, мне кажется, может иметь значение размер бина, и куда попадет в нем пик. бин в 0.25 хорошо выявит пики на 1/10 и хуже на 1/6
[User Picture]
From:oude_rus
Date:December 12th, 2011 02:18 pm (UTC)
(Link)
а если брать в 3% (как волшебнег), так вообще все пропадет!
(простите, не удержался; щас работаю, вечером отпишусь)
[User Picture]
From:jemmybutton
Date:December 12th, 2011 02:36 pm (UTC)
(Link)
ну если они в масштабах страны пропадут — значит их там сравнительно кот наплакал и искать надо по отдельным регионами, например. мне так кажется.
[User Picture]
From:oude_rus
Date:December 12th, 2011 03:45 pm (UTC)
(Link)
да не, там не в этом дело: просто сетка в 3% не совпадает с 10% (или 5%), вот и все.

а участков, если оценить их количество, действительно кот наплакал -- от силы 0.5%, если не брать 100%.
[User Picture]
From:jemmybutton
Date:December 12th, 2011 05:08 pm (UTC)
(Link)
ну все равно большие пики так не скрыть, а так да, хороший ход
[User Picture]
From:ilya_gie
Date:December 15th, 2011 05:55 pm (UTC)
(Link)
А это ничего, что у него бин 1%, просто подписи через 3% идут?
[User Picture]
From:corbulon
Date:December 15th, 2011 06:00 pm (UTC)
(Link)
Подписи у него идут вообще весьма странно: стоят на равном расстоянии,
но то через 1, то через 3:
33, 36, 37, 38, 41...

> Go to Top
LiveJournal.com