?

Log in

No account? Create an account
чисто посмеяться (про Германию и пики на «красивых» числах) - jemmybutton

> Recent Entries
> Archive
> Friends
> Profile

December 9th, 2011


Previous Entry Share Next Entry
12:10 am - чисто посмеяться (про Германию и пики на «красивых» числах)
вычленил отсюда http://jemmybutton.livejournal.com/1359.html



1. Распределение участков по явке
Во-первых нормального распределения (распределения Гаусса) в случае когда случайная величина (в данном случае — явка) по определению принимает значения только в определенном диапазоне быть не может + нормальное распределение, вообще говоря, симметрично (то что проходит под названием «нормальное» меняет форму в зависимости от расположения на шкале и вообще интересно как себя должно вести вблизи нуля или единицы), тут надо говорить о чем-то вроде бета-распределения или логит-нормального распределения (не знаю как по-людски называется, но именно логит log(x/(1-x)) величины, а не саму величину анализируют для таких данных, насколько я понял, см., например, здесь  или тут, upd: впрочем, логит-нормальное распределение мне не нравится, бета-распределение круче или SB Джонсона, может) (это все не очень важно (до поры), просто для справки любителям помянуть «гауссиану» к месту и не к месту). Во-вторых, причудливая форма распределения может объясняться неоднородностью электората. Для примера, вот распределение для выборов в бундестаг 2002 (данные отсюда http://www.bundeswahlleiter.de/en/bundestagswahlen/fruehere_bundestagswahlen/btw2002.html , только по избирательным округам).

плотность вероятности от явки (если шкалу заменить на количество округов, то вместо 20 будет где-то 60). да, выборка небольшая, но 300 значений для общего представления о распределении обычно вполне достаточно.

Небольшой пик слева (в районе 75), насколько можно судить, соответствует меньшей явке в Восточной Германии (впрочем, дело не только в этом, см. ниже). Распределение, следовательно, не обязано подчиняться каким-то определенным простым законом (и по определению не может быть «нормальным»)

UPD: тут люди говорят, что распределение нормальное, просто кривенькое, по причине малого количества точек.
нормальность распределения, вообще, проверяется не на глаз, а при помощи специальных критериев.
парочка вот (нулевая гипотеза — расределение под вопросом является нормальным).

Shapiro-Wilk normality test
W = 0.909, p-value = 7.397e-13

Lilliefors (Kolmogorov-Smirnov) normality test

D = 0.1667, p-value < 2.2e-16

около трехсот значений (звиняйте, данных по отдельным участкам найти не удалось) как правило уже вполне достаточно (вообще может даже многовато), чтобы результат не вызывал сомнений, а при таких значениях p и говорить не о чем. правда это ни о чем не говорит в любом случае.
Кстати, услышите что распределение где-то «нормальное» или «ненормальное», сразу требуйте результат проверки на нормальность. Правда да, на таких больших выборках это бессмысленно.
UPD: распределение по регионам и так ли все просто

распределения явки по отдельным землям. зеленым — те что прошли проверку на нормальность, красным — та что не прошла (а именно — Северный Рейн-Вестфалия, совсем не граница фрг и гдр, к слову). особого смысла тут искать не стоит, впрочем (с одной стороны выборки маленькие и тест на нормальность может показать все что угодно, с другой — на таких данных тест на нормальность вообще может показать все что угодно). Земли не все, а только те, где больше 10 округов (если включить с 10 округами, будет еще одна «ненормальная» линия)

UPD: закрыт ли вопрос с «гауссианой» у немцев?
Нет, и вот почему: когда точек мало (а их мало), тесты на нормальность выдают могут выдавать сущую дичь:


shapiro.test(1:50)
Shapiro-Wilk normality test
W = 0.9556, p-value = 0.05809

lillie.test(1:50)
Lilliefors (Kolmogorov-Smirnov) normality test
D = 0.0649, p-value = 0.8633

Это значит что для простой последовательности чисел от 1 до 50 таким образом отвергнуть гипотезу о нормальности нельзя. Северный Рейн-Вестфалия — это, к слову, самое большое количество точек (аж 64).

UPD: пользователь ixodus (см. комментарии) уделил внимание более высокому уровню агрегации данных по германии (округа вместо участков). этот факт, в принципе, может повлиять на распределение в масштабах страны, если разброс явки по участкам в пределах округа достаточно велик и действительно случаен. начиная от примерно 10 процентов (что, справедливости ради, по сравнению с рф довольно мало) пик слева начинает пропадать. впрочем, распределение не становится ни нормальным, ни логит-нормальным, даже когда размазано до полной утраты всяких деталей.
на корреляцию между явкой и голосами увеличение разброса даже в совершенно лашадиных масштабах никак существенно не влияет.

2.1 Зависимость голосов за какую-либо партию от явки
Ровно таким же образом голоса за какую-либо партию могут зависеть от явки избирателей. Те же выборы в бундестаг, зависимость от явки голосов за ХДС+ХСС (синим) и ПДС+СвДП+ЗЕЛЕНЫЕ+СДПГ (зеленым) (доля от общего числа избирателей в округе)

(количество голосов за партии/общее число избирателей в округе) от явки
Estimate Std. Error t value Pr(>|t|)
1.4333 0.1438 9.966 < 2e-16 ***
-1.3380 0.1460 -9.165 <2e-16 ***


(количество голосов за партии/количество проголосовавших) от явки

UPD: корреляция между явкой и голосами по землям

Слева — ХДС+ХСС, справа — СДПГКрасным отмечены те линии, которые отражают значимую (p<0.05) линейную зависимость. Опять же, для определенного ответа выборки слишком маленькие. Тут тоже земли больше 10 округов. Две красные линии на графике про ХДС+ХСС — это Берлин и Северный Рейн-Вестфалия. Три красные на графике про СДПГ — Берлин, Северный Рейн-Вестфалия и Шлезвиг-Гольштейн (если включить с 10 округами, будет еще одна красная линия в том же направлении).

Слева — две земли со значимыми корреляциями для ХДС+ХСС, справа — три для СДПГ 

Слева — все земли, кроме перечисленных для ХДС+ХСС, справа — для СДПГ. p = 2.20e-15 и p = 7.90e-05
соответственно. Если убрать земли, где меньше 10 округов, то для ХДС+ХСС p = 4.422e-15, для СДПГ p = 0.0001248
Даже если убрать кроме перечисленных еще и все земли, где средняя явка < 78 (последняя картинка), для ХДС+ХСС все равно p = 0.0133 и p = 0.010961 для СДПГ (что, как считается, достаточно, чтобы говорить о значимой связи)
UPD: тут для британии более наглядный и качественный разбор http://users.livejournal.com/_ab_/139002.html#cutid1
тут для израиля http://levrrr.livejournal.com/31427.html
Даже стало интересно, а где не так?

2. Пики на «красивых» числах
Это на вид очень хороший аргумент, который и правда сложно связать с какими-то «естественными» процессами. Поэтому резонно проинспектировать и другие партии на предмет таких аномалий. Выборы в думу 2011 (сырые данные отсюда http://hist-kai.livejournal.com/243639.html, шаг в 0.1%, каждый процент помечен бледненькой такой линеечкой)



Количество участков от доли голосов за партию. Эти пики на дробях похожи на какую-то херню, может где-то что-то налажал опять.

UPD: про дроби
вот распределение для СР в окрестностях 1/7. шаг = 0.005% в середине 1/7

количество участков от процента СР


явка на тех участках, где голоса за СР в окрестности 1/7


голоса за ЕР участках, где голоса за СР в окрестности 1/7

Не вижу для тех участков, где странная доля голосов за СР никаких безумных аномалий для явки и голосов за ЕР. Что это может значить — понятия не имею, но интересно. Число проголосовавших на всех этих участках нацело делится на 7 (7–1799), так что, видимо, пики на таких значениях — просто артефакт. другие пики, включая пик на 50 за ЕР очень похожи в этом отношении.

UPD: Откуда могут браться пики на «круглых» цифрах
Пока не придумал как это доходчиво объяснить, поэтому просто приведу картинки (если коротко, то это вроде как связано с делимостью на простые числа и тем, что их соотношения дают пики на целых долях всего диапазона, как флажолеты на струне, к примеру).  
+UPD: Можно объяснить так: из набора случайных целых чисел, принимающих значение от нуля до n, случайно сочетаемых в обыкновенной дроби, больше способов получить, скажем, ровно 1/7, 1/2 или 3/4, чем, например, 11/70, 201/400 или 61/80 
  

это распределение для отношения двух равномерно распределенных целых случайных величин x и y.
x — от одного до 800 (чуть больше среднего участка), y — произвольная доля от x (округленное до целого).

> sample(800, 1000000, replace = TRUE) -> x$x
> sample(10000, 100000, replace = TRUE)/10000 -> x$y
> x$y <- round(x$x*x$y)
> hist(x$y/x$x, breaks = 200)

если убрать «участки» с x<100 пики уменьшаются, но не пропадают.

если ограничить значения y (в данном случае y < 1/2x, что ближе к реальности), пики становятся сильно более выраженными (шкала внизу до 0,5, обращаю внимание)

так-то

UPD: та же модель, только для распределения, похожего на настоящее
итак, вот распределение сгенерированных случайных чисел, имитирующих распределение количества явившихся на участки людей:

вот распределение, имитирующее распределение голосов за ер (сглаженное, без пиков, здесь и далее шаг в 0,2%):

далее я помножил «явившихся» из распределения сверху на «голоса» из распределения снизу, округлил до целых чисел и снова поделил на «явившихся» (можно было просто сымитировать распределение голосов за ер, но я что-то не подумал об этом). вот что из этого получилось:

убираем «участки» где «явилось» менее 400:

по-мойму так красота.

UPD: проверка на настоящих данных
Для проверки я добавил случайный шум с амплитудой в 1 голос к числу проголосовавших и к голосам за ер.
до:

после:

более или менее очевидную фигню мне видно только на 75 и 85.

убрал две картинки с распределением голосов за «остальных». они, по понятным причинам, такие же, как и за ЕР, но в зеркальном отражении

Пики не пропадают, если отбросить маленькие участки (кое-кто считает это аргументом против чисто стохастических объяснений), потому, что имеет значение не только размер участка, но и количество участков относительно их размера.

UPD: тем, кого это не убедило
и правильно что не убедило, поэтому призываю проверить все самостоятельно. если нигде тут нет лажи (а на этот предмет было бы здорово, если бы кто-нибудь проверил это дело независимо), то пики на дробях с небольшим знаменателем возникают неизбежно при таких данных (почему, интересно, в настоящих данных они такие маленькие? аномалия?) и чтобы найти настоящие аномалии, нужно их устранить (например, добавив шум). таким образом, думаю, что тем, кто действительно ищет фальсификации (и сам почему-то до такого объяснения не дошел), я, наверное, помог, а тем кто уже напечатал плакатов с, вероятно, артефактами — увы. и что за фигня творится на 75% и 85% и, возможно, в районе 90–100%% по прежнему не ясно

Обращаю еще раз внимание, что так объясняются только «узкие» пики с одинаковыми значениями (=1/2; = 1/3; =1/7 и т. п.), которые видны только при достаточно маленьком шаге. если пик широкий, это объяснение не подходит.


UPD: Спасибо Dmitry Kobak, он провел проверку этих результатов 
выходит, что что-то исчезает, а что-то остается (начиная от 65), а у того что осталось вроде можно найти прописку. Словом, рекомендую http://kobak.livejournal.com/102646.html#cutid1

Словом, про пики резюмирую так (а то одним мерещится что тут написано будто выкладки сверху объясняют все пики, а другим — что я скрываю, что на самом деле они ничего не объясняют):


тут была неинтересная фигня

Может у кого есть для «хороших людей» годное объяснение?




(31 comments | Leave a comment)

Comments:


From:8cinq
Date:January 8th, 2012 07:59 pm (UTC)
(Link)
Проверил на данных выборов в Польше - тоже есть пики на красивых цифрах. Но там мало УИК, не достаточно наглядно. Пытался найти данные по выборам в германии, как второй по численности страны в Европе, но не нашел. Вам не попадалось?

Еще вопрос к вам. В чем логический смысл отсечения УИК с определенным числом избирателей? Т.е. я читаю анализ в разных блогах, то отсекают, то присекают - но в чем смысл? Я вижу только одну зависимость - чем меньше количество голосов на УИК, тем более хаотичны на них будут результаты - т.е. уменьшается репрезентативность. Но в чем смысл их отсекать?
[User Picture]
From:jemmybutton
Date:January 9th, 2012 11:44 am (UTC)
(Link)
А там «артефактные» пики или «настоящие» тоже есть? По Германии не нашел, к сожалению, только по округам, то что выше приведено.
Особого смысла нет, просто было такое объяснение предложено кем-то, что пики возникают от мелких участков, их кто-то отсек и ничего не поменялось, поэтому я тут тоже это проделал. А в РФ, как я понял, небольшие участки распределены еще и сильно неслучайно, так что просто отсекать их, конечно, нельзя.
From:8cinq
Date:January 9th, 2012 12:04 pm (UTC)
(Link)
Я пока не экспериментировал с Польшей. Завтра будет пост. Вообще, мне кажется, что из настоящих пик только пару и есть на графике ЕР. Вы наверняка читали материал anpaza на эту же тему, у него вполне наглядный пример на тему того, что шум не есть полное решение проблемы квантования: http://anpaza.livejournal.com/21894.html?thread=96902#t96902
Т.е. случайные данные не полностью сгладились, несмотря на шум - а их заподозрить в фальсификации сложно. Да и сама идея фальсификаторов-педантов - асбурдна.
[User Picture]
From:jemmybutton
Date:January 9th, 2012 12:15 pm (UTC)
(Link)
Насколько я понял, есть места, где действительно полно участков с «красивыми» значениями (типа http://oude-rus.livejournal.com/542821.html и конкретно Стерлитамак, откуда в основном и берутся эти 75%), так что вполне верю в то, что это не сплошь артефакты целочисленного деления. Шум не может не убрать все артефакты такого плана, но, возможно, что есть и другие, которые надо искать отдельно, но у меня пока мыслей на этот счет нет.
From:8cinq
Date:January 10th, 2012 01:38 am (UTC)
(Link)
Будьте добры, подскажите ЧЯДНТ. Я сделал копию анализа kobak, с реальными данными, с бином 0,25, с добавлением шума +-0,5 к бюллетеням за ЕР и мой результат - полное исчезновение пик: http://gyazo.com/bea11f4e374ac254a7df8ebb1bdc9fff.png?1326159184 (Было/стало)

Каким образом у юзернейма kobak мог получится такой график? Я не хочу спрашивать у него лично, потому что подозреваю, что он может улизнуть от ответа в случае своей ошибки.
From:8cinq
Date:January 10th, 2012 03:43 am (UTC)
(Link)
Похоже моя ошибка, нужно дальше разбираться.
[User Picture]
From:kobak
Date:January 11th, 2012 12:17 am (UTC)
(Link)
:)
[User Picture]
From:katmoor
Date:January 10th, 2012 07:01 am (UTC)
(Link)
Вас не затруднит коротко подъитожить смысл Ваших интересных исследований (для менее образованных чем Вы людей) в виде:
"полученный мною результат означает,что........"
[User Picture]
From:jemmybutton
Date:January 10th, 2012 07:37 am (UTC)
(Link)
В начале корневого поста (http://jemmybutton.livejournal.com/1359.html) промежуточные выводы висят. Смысла особого нет, просто «в интернете кто-то неправ»
[User Picture]
From:hyperpov
Date:January 11th, 2012 10:05 pm (UTC)
(Link)
Вот скажите, пожалуйста, зачем брать по горизонтали шаг в 0.2%? Ведь известно же, что характерное число проголосовавших на одном участке около 1000, стало быть, если брать шаг порядка 1/1000, то полезут выбросы на дробях со всевозможными знаменателями. Полпроцента - очень разумный шаг для усреднения большинства выбросов. Еще очень полезно те точки, которые попадают точно в границу между интервалами (1/2, например), разбить пополам и скинуть одну половинку влево, другую вправо. Выброс на 1/2 исчезает полностью сразу и "забор" в целом сглаживается. Но кратные 5% ближе к правому краю торчат все равно заметно. На собственный график с добавлением шума посмотрите, немного отодвинувшись от экрана, и убедитесь.

Что касается нормальных распределений, то хоть режьте, трамплина у 0% или 100% быть не должно. По крайней мере, если это густонаселенный город с телевидением и интернетом. Постройте графики для Новосибирска без области и удивитесь. Там "гаусс" почему-то действует.

Кстати, а не знаете, где скачать окончательные данные одним файлом? У меня данные на тот момент, когда еще где-то 500 тыс было не посчитано.
[User Picture]
From:jemmybutton
Date:January 11th, 2012 10:34 pm (UTC)
(Link)
Во-первых это не число проголосовавших, а проценты. Теоретически мы имеем под сто тыщ значений от 0 до 1 (от 0% до 100%) и шаг можно было бы в теории делать очень маленьким, поэтому никто и не парился особо. Ну и нашли какие-то пики при таком шаге (чуть больше-чуть меньше). Среди прочих я тут нашел проблему (эти 90 тыщ значений распределены неравномерно, хошь-нехошь, а с пиками на дробях). Чтобы от них избавиться, можно добавить шум к исходнымому числителю (голосам за партию) или знаменателю (общему числу проголосовавших) или и туда и тода. Если шум достаточно дробный и случайный то все артефакты целочисленного деления уходят (если у нас разных значений больше чем всего значений, то какие тут артефактные пики?). Во-вторых, это не я придумал такой бин брать. Пик на 50 (который в очень большой степени артефакт) появился давно как раз из-за маленького шага и его преподносили в числе прочих доказательств фальсификаций.
На собственный график с добавлением шума я не только сразу посмотрел, но и написал, что какая-то фигня остается. И ссылка на пост kobak висит, где у него все расписано с красивыми картинками. И картинка висит, где отметчено что ушло, а что осталось). И вначале написано несколько раз, что что-то ушло (например пики на 40-50-60 и большинство пиков у других партий ушло), а что-то осталось (например на 75 и 85 у ЕР). Из того что какие-то пики где-то остались никак не следует что устранение артефактных пиков — фигня.

«Гаусс» (если Вы имеете в виду нормальное распределение) — это модель. Она тут неадекватна (безо всяких рассуждений о хвостах и трамплинах, просто данные такие, дробь от 0 до единицы). ОК, Вам лично нравятся графики для Новосибирска, постройте модель, которая надежно опишет это распределение и отсечет те случаи, которые Вам не нравятся. Используйте тесты на нормальность (если считаете что распределение нормальное), q-q plot соответствующий, посмотрите как ведет себя распределение для таких дробей вблизи нуля и единицы. Этого никто не делает (насколько мне известно). Посмотрите в мой основной пост, там есть кое-какие наметки, как это можно пытаться делать (может не слишком удачные). Если хочется плакат напечатать, то это можно ограничиться тем что «"гаусс" почему-то действует», а если типа «научно» что-то доказать, то это не так делается, вот и все что я хотел сказать.

Вроде на http://www.kartaitogov.ru/ есть окончательные данные в нормальном виде
[User Picture]
From:hyperpov
Date:January 12th, 2012 07:28 am (UTC)
(Link)
== Теоретически мы имеем под сто тыщ значений от 0 до 1 (от 0% до 100%) и шаг можно было бы в теории делать очень маленьким, поэтому никто и не парился особо. ==

Грубо неверно. Хоть миллион значений, но если весь миллион состоит из дробей со знаменателем порядка 1000, не надо брать шаг порядка 1/1000. Этим Вы усиливаете эффект красивых дробей, закрывая им явные признаки фальсификации. Зачем?

Кроме того, если шаг по горизонтали меньше пикселя, выбросы становятся просто выбросами, а ямы рядом с ними исчезают. При большем шаге безо всякого добавления шума видно, что на 1/2 значительный арифметический эффект, а на 13/20 - нет. А 17/20 - что за красивая дробь такая? И еще, вот прямо пока писал, нарисовал две гистограммы голосования за ЕР - по участкам, где (якобы) проголосовало меньше 600 и больше 600 человек. Таких участков примерно поровну. Казалось бы, там, где знаменатели меньше, забор должен быть забористее. Но получается почему-то ровно наоборот. Сильно торчат только 17/20 и 19/20. А на больших участках выбросы на всех кратных 1/20, начиная с 13/20.

== Пик на 50 (который в очень большой степени артефакт) появился давно как раз из-за маленького шага и его преподносили в числе прочих доказательств фальсификаций. ==

Да, большой выброс с ямой непосредственно перед ним - эффект перебрасывания всех 1/2-х направо от барьера. Но даже после перебрасывания поровну туда и сюда какой-то подозрительный зуб на 50-52% при симметричной яме перед ним остается. Красивые дроби относительно 1/2 симметрично расположены, так что они здесь точно не при делах. И зуб этот на участках с явкой < 600 человек почему-то не наблюдается. Так что "разоблачители" были скорее правы, указав на этот выброс, хотя, возможно, приплюсовали сюда и арифметический выброс.

== «Гаусс» (если Вы имеете в виду нормальное распределение) — это модель. Она тут неадекватна ==

Я прекрасно понимаю, что в точности гаусса здесь нет и быть не может. Это так же верно, как и то, что Земля и другие планеты не круглые, и даже не шарообразные. Но есть масса разных по природе причин, которые заставляют многие случайные величины иметь распределение, похожее на гауссово. Похожее чисто качественно - узкий пик с примерно симметричными склонами. Не надо мне напоминать о том, что люди, пришедшие на участки, не бросают монеты и не являются независимыми друг от друга. Кинетическая энергия молекул в газе распределяется по Гауссу вовсе не потому, что кто-то суммирует независимые случайные величины, а потому, что молекулы сталкиваются. При этом как именно выглядит диаграмма рассеяния, не имеет значения, важно только, насколько я помню, чтобы энергия при рассеянии сохрянялась. В мегаполисе люди постоянно перемещаются и "сталкиваются" друг с другом, причем взаимодействие происходит не только и даже не столько по территориальному признаку, так как общаются люди очень много с коллегами и друзьями, которые живут не в соседнем доме. Возьмите любую модель со взаимодействием и однородным внешним влиянием (у всех одно и то же показывают по дуроскопу и энторнету) и получите в распределениях нечто гауссоподобное. Почему в Новосибирске и Екатеринбурге это действует, а Москве и Питере - нет? Ну, я понимаю, что всякие там спекуляции на тему голосования по приказу в армии могут давать где-то объяснения для 100% голосования, хотя эффект по-моему переоценивается. Но безумный выброс на 45% в Питере - это что? Разумеется, большая часть вклада в этот выброс сосредоточен всего в двух ТИК. Какая модель это может объяснить, кроме очевидной: "так, ребята, сильно не наглеем, рисуем 45% плюс-минус процент".

Просто смешно смотреть на попытки применять тут какие-то статистические методы, когда бОльшая часть данных фальсифицирована так или иначе, причем принципы фальсификации разнообразны, и даваемые ими статистические эффекты перемешаны. Если вам в тарелку попала муха или даже таракан, можно побороть брезгливость, вынуть насекомое из тарелки и продолжать есть. Но если в тарелку, извините, поверх еды просто насрали, то разбирать, что там было, азу или гуляш, бессмысленно. В тарелке говно. 100%.

== Вроде на http://www.kartaitogov.ru/ есть окончательные данные в нормальном виде ==
Спасибо, понюхаю посмотрю.
[User Picture]
From:jemmybutton
Date:January 12th, 2012 07:43 am (UTC)
(Link)
Вы хоть читаете что я пишу? Артефакты целочисленного деления возникли сначала не у меня, а у ребят, которые выборы разоблачают. Я эти артефакты отделил от реальных данных, они сами это подтверждают (http://kobak.livejournal.com/102646.html#cutid1, http://oude-rus.livejournal.com/548240.html#cutid1). Что Вы мне пытаетесь объяснить? Что что-то осталось? Я с этим не спорю.

С «гауссом» проблема не в монетках и всеми любимой ЦПТ, а в том, что «гауссиана» — не единственное в мире распределение. И для случайных величин, практически и по определению ограниченных определенным диапазоном (таких как дроби типа процентов на выборах) есть другие распределения. И про выброс в Питере у меня написано (по данным с ruelect) и про Москву и про НН и про многое другое.

Давайте сначала читать, а потом комментировать.
[User Picture]
From:hyperpov
Date:January 13th, 2012 10:21 pm (UTC)
(Link)
== Я эти артефакты отделил от реальных данных, они сами это подтверждают ==

Не отделили. Вы сначала их усилили (может, это сделал и кто-то до Вас), взяв слишком малый шаг. На плакате "Верим Гауссу" шаг 0.5%. Зачем вообще брать меньше? На этом плакате пила есть? Есть. Она арифметикой объясняется? Не объясняется. То, на чем Вы написали "фигня" вовсе не фигня. Фигня то, чем Вы занимаетесь, когда шаг берете в 0.1% и делаете его меньше пикселя.

Насчет сначала чтения замечу вот что. Вы выложили большой массив технической информации, понятной специалистам, но непонятной подавляющему большинству. Большинство, зайдя сюда, ничего не поймет, кроме одного: есть сомнения в том, что фальсификации такие уж масштабные.

Плакат, который Вы называете пропагандой, гораздо честнее и научнее, чем все Ваши выкладки. Вот у меня был учитель физики в школе, равных которому я не встречал. Он был, в частности, очень строг. Если он видел, что кто-то в лабораторной работе в ответе написал больше значащих цифр, чем позволяла точность, человек получал "два" без разговора. Это был жесточайший принцип - все, кто порет х**ню, идут на **й. Вас бы он на порог не пустил. Потому что Вы с лупой изучаете на предмет съедобности тарелку ДЕРЬМА. Вы сеете сомнения в умах тех, что заглянет на эту страницу, в том, что это дерьмо. Вы позорите свою профессию.

== «гауссиана» — не единственное в мире распределение ==

А Вы читаете, что я Вам написал. Я знаю, что бывают другие распределения. Я знаю, что бывают не только мясные блюда, но и супы, десерты и т.д. Но дерьмо не подлежит изучению на предмет содержания витаминов и калорий. Его можно только смыть в унитаз.

Если имеется много похожих друг на друга индивидуумов, которые жульничают и выдают фальсифицированные данные, но жульничают, в силу схожести друг с другом, по какой-то примерно одной модели, полученные от них данные имеет смысл анализировать и определять степень жульничества. Но в данном случае фальсификация в разных местах носит сильно разный и по-разному скоординированный характер, на каждую модель этой фальсификации имеется крошечная выборка, поэтому единственное, что может сделать настоящий профессионал - это смыть эти данные в унитаз. Они не подлежат статистическому анализу в принципе.

А шаг делать меньше пикселя - это даже для нормальных данных дикость. Не видно же ни хрена.
[User Picture]
From:jemmybutton
Date:January 13th, 2012 10:38 pm (UTC)
(Link)
Проверьте сами, если не верите kobak и oude-rus, ссылки на посты которых, где пик на 50 пропал и у них я Вам привел. Или Вы думаете, что эти джентельмены тоже заинтересованы в сокрытии правды о громадном пике на 50 процентах? Поверьте, не я начал «с лупой изучать на предмет съедобности тарелку дерьма» и «позорить свою профессию» (какую, кстати?), вся моя заслуга в том, что я своим скудным умом обнаружил очевидную для Вас (но неочевидную для большинства простых смертных) вещь — пики от целочисленного деления, и указал на эту ошибку заинтересованным (в объективном поиске фальсификаций) людям, чем, смею надеяться, оказал им хорошую услугу.

Если Вам угодно думать, что раз фальсификации были, то все надо объяснять ими — я Вас не неволю. У меня на этот счет другое мнение
[User Picture]
From:hyperpov
Date:January 16th, 2012 11:54 am (UTC)
(Link)
== ссылки на посты которых, где пик на 50 пропал и у них я Вам привел ==

Ну да, привели. Только надо быть слепым, чтобы не заметить, что кроме пика в виде палки есть еще большой толстый зуб на 50+ и провал на 50- на фоне общего убывания графика.

Я кое-чего написал по поводу данных голосования у себя. Думаю, Вам интересно будет взглянуть на "корреляцию". Как у Вас только язык поворачивается сравнивать ЭТО с Германией?
[User Picture]
From:hyperpov
Date:January 16th, 2012 11:59 am (UTC)
(Link)
Виноват, ссылка битая почему-то получилась. Попробую без тэгов: http://hyperpov.livejournal.com/7529.html
[User Picture]
From:jemmybutton
Date:January 16th, 2012 12:49 pm (UTC)
(Link)
Давайте так: артефакты были? Были. Их можно убрать? Можно. Про что этот раздел у меня? Про это и есть. Вас не устраивает, что я не ищу после этого странностей в распределении специально (как «слепой»)? А какого, простите, лешего мне этим заниматься, когда этим уже занимаются другие заинтересованные люди? Ссылку на подобную информацию я дал в посте сразу как разобрался где и что, так в чем претензии ко мне?

Да, Вы не первый, кто заметил этот излом. Ну так вперед, исследуйте его как следует, а то весь этот треп про «удалось фальсифицировать явку, то результат этой явки как правило делали больше 50%» и «перекидыванием в умеренных масштабах медиану далеко не столкнешь» вообще ничего не стоит без доказательств. И вот не надо только говорить что фальсификаторы перед Вами не отчитываются, есть вам ruelect, там прямо в экселе табличка с переписанными протоколами, разоблачай-нехочу (да-да, конечно, там откуда нет протоколов все может быть иначе и т. п., но это не значит что данные нужно игнорировать).
[User Picture]
From:hyperpov
Date:January 16th, 2012 01:21 pm (UTC)
(Link)
Артефакты были на плакате "Не верим Чурову". Вы их убрали? Нет, не убрали. Там убирается только часть пика на 50%, возможно, еще чуть-чуть подпилится пик на 60%. Так какого ж черта Вы на этом плакате пишете "фигня"? Вот на своих гистограммах с шагом меньше пикселя и пишите. Это вернее будет.

Вы про негауссовость хоть один качественный пример привели? Не привели. Везде по краям убывание в ноль. Корреляции ТАКОЙ с явкой нигде нет. Так зачем Вы эту лабуду вообще писали? Нет ничего общего у немецких данных с нашими.

Насчет медианы - я не стал писать детали, но это элементарно прикидывается, насколько она двинется при небольших процентах подделки. Я не интересовался конкретным значением этой величины, я интересовался тем, чтобы эта величина была оцениваема и имела какое-то внятное поведение при широких допущениях. 0 или 1 с какой-то вероятностью - это совсем не то же самое, что человек задумал число из каких-то соображений (указ свыше - совесть = ?). Добавляем сюда то, что там, где не было фальсификации явки, эти 0 или 1 выпадают с малой зависимостью от явки (основная зависимость - от выдержки и подготовленности наблюдателей), вот вы и получаете, что до того момента, как начинаются вбросы, медиане нет особых причин колебаться. Это некое объяснение. А Вы что объяснили, кроме того, что, когда делаешь фантастические глупости вроде шага меньше пикселя, возникают артефакты, которые Вы потом можете доблестно убрать? У Вас модель есть, как НЕ получить убывание распределения на краях интервала? Нет. Ну и не надо нам про негауссовы распределения у немцев.
[User Picture]
From:jemmybutton
Date:January 16th, 2012 01:52 pm (UTC)
(Link)
Это Вы их не убрали, а я как раз убрал. Нельзя просто разбросать на полпроцента влево и вправо (с бином как раз в полпроцента). Нужно либо брать количество голосов вместо количества участков, либо добавлять шум. Правда, у kobak все очень хорошо видно на картинке, а он как раз все делает правильно, почитайте его пост внимательно. На 50 остается может какая-то ступенька, но точно не пик, как на плакате. Если Вам угодно, могу и я привести картинки с бином 0.5, где происходит то же самое, если все делать нормально.

А я интересовался и в корневом посте у меня есть таблица сколько прибавляется процентов к ЕР и сколько к явке по данным ruelect (если лень считать самостоятельно, можете глянуть).

Еще раз: пик на 50 в том виде, в котором он есть на плакате — артефакт, фигня, нет там такого. Бин 0.1 просто позволяет более наглядно выявить артефактную сущность части пиков (как пик на 50 за ЕР или на 1/6 и 1/7 за СР и других, на который ранее мне указывали как на явную «вброс» http://jemmybutton.livejournal.com/1359.html?thread=4687#t4687), но и при 0.5 пик на 50 виден и исчезает после добавления шума. Если Вы хотите где-то найти, по Вашему выражению «фантастическую глупость», то доищитесь источника картинки на плакате, а не докапывайтесь до меня, я-то как раз пытаюсь отделить глупости от реальных фактов.
[User Picture]
From:hyperpov
Date:January 16th, 2012 02:12 pm (UTC)
(Link)
Если разбрасывать симметрично все, что попало на границу между ячейками, то НИКАКИХ артефактов, не симметричных относительно 1/2 остаться не может вне зависимости от измельчения. Все "красивые" дроби располагаются относительно 1/2 симметрично и будут давать симметричные выбросы. Если перед 1/2 мы имеем провал, а сразу после - горб, причем это все на фоне убывающего графика, это ни малейшего отношения к обсуждаемым артефактам не имеет. На плакате из-за наложения артефакта на этот вираж получился более острый зуб. Но это не повод писать "фигня". Фигня - это шаг меньше пикселя.
[User Picture]
From:hyperpov
Date:January 16th, 2012 02:17 pm (UTC)
(Link)
И кстати, Вы не поняли. Я не разбрасывал ничего на полпроцента. Я разбрасывал то, что попало в стык между ячейками поровну между этими ячейками. Размер ячейки воообще ни при чем.
[User Picture]
From:jemmybutton
Date:January 16th, 2012 02:35 pm (UTC)
(Link)
Охохо, Вы просто ответьте, если такие пики, как на плакате, или нет? Повторите по-чесноку вот картинку с плаката, в том же масштабе с добавлением шума в исходные данные и без, докажите что я не прав и что эта картинка не содержит артефактов. А то ведь если действительно не содержит, то Вам просто срочно надо рассказать об этом kobak и oude-rus, а то я их запутал, похоже.
[User Picture]
From:hyperpov
Date:January 16th, 2012 02:45 pm (UTC)
(Link)
В реальности есть вот это:



Но это отнюдь не совсем ничего. Это вполне себе повод для сомнения в естественности происхождения данных.
[User Picture]
From:jemmybutton
Date:January 16th, 2012 03:00 pm (UTC)
(Link)
Уж и не знаю как замазывание чего-то белым на картинке отражает реальность. Куда же честнее и круче самостоятельно все повторить и проверить.
А сомнения — ну они есть по многим причинам, но приукрашивать-то зачем.
[User Picture]
From:jemmybutton
Date:January 16th, 2012 07:26 pm (UTC)
(Link)
Кстати, если Вам интересно, то таки да, если верить ruelect, то там где явка значительно увеличивается (больше чем на 4–5 процентов от исходной, итоговая явка почти везде больше 50. Правда там в основном НН, но не суть.
[User Picture]
From:politic_discuss
Date:March 2nd, 2012 04:33 pm (UTC)
(Link)
:) что-то про пики я вообще не догнал. Т.е. Вы утверждаете, что вероятность того, что за Партию проголосуют от 50 до 51% проголосовавших существенно выше, чем вероятность того, что за партию проголосуют от 49% до 50%?..
[User Picture]
From:jemmybutton
Date:March 2nd, 2012 04:59 pm (UTC)
(Link)
нет, вероятность того что проголосует ровно 50 выше чем 50.1 или 49.9. ступенька 49-50, если она есть, так не объясняется. советую обратиться к записи kobak, на которую приведена ссылка
[User Picture]
From:politic_discuss
Date:March 2nd, 2012 05:56 pm (UTC)
(Link)
Если я не ошибаюсь, в исходной диаграмме они округляли данные до целых процентов. Т.е. они считали количество УИК, в которых за партию отдали 49% т.е. 49..49,9(9)% и 50% т.е. 50..50,9(9)% голосов...
[User Picture]
From:politic_discuss
Date:March 2nd, 2012 06:00 pm (UTC)
(Link)
То есть там "бин" был в 1%.
[User Picture]
From:jemmybutton
Date:March 2nd, 2012 06:43 pm (UTC)
(Link)
на плакате написано — бин 0.5. если двигать рамку, то так примерно и получится при желании. тут я больше ничего прокомментировать не могу, все есть в посте и по ссылкам.

> Go to Top
LiveJournal.com