corbulon заметил, что если брать последнюю цифру количества проголосовавших за Единую Россия по каждому из 3373 московских участков, то их распределение довольно сильно отличается от равномерного. Я предложил ему для строгой оценки этого отклонения воспользоваться классическим критерием Пирсона.
( Read more... )
corbulon после этого
посчитал значения статистики Пирсона для распределений последних цифр в каждом из российских регионов. Его
таблица составлена следующим образом: для каждого из регионов (83 субъекта федерации плюс Байконур плюс остальные участки за границей - всего 85) и каждой из исследуемых величин (количество избирателей в списках, количество выданных бюллетеней, количество действительных бюллетеней, количество голосов за КПРФ, количество голосов за ЕР) бралось распределение последних цифр по всем избирательным участкам этого региона, после чего вычислялось значение статистики Пирсона для сравнения этого эмпирического распределения с гипотетическим равномерным. В таблице цветом отмечены значения, превышающие квантили распределения
χ2 с 9 степенями свободы уровней .9, .95, .975, .99 и .999. Иначе говоря, в предположении "нулевой гипотезы" о том, что последние цифры представляют собой выборку из равномерного распределения, вероятность, например, того, что значение статистики Пирсона превышает 16.92, составляет 5%. Кстати - придется побыть адвокатом дьявола - гипотезу о равномерной распределенности последней цифры числа проголосовавших за ЕР по московским избирательным участкам критерий Пирсона все-таки не отвергает. В этом случае значение статистики Пирсона составляет вполне допустимые 12.64 (соответствующая кумулятивная вероятность для
χ2 равна .82).
corbulon интерпретирует, значения статистики Пирсона следущим образом: чем она больше, тем больше фальсификации. Это, разумеется, так, если значения превосходят всякие разумные пределы - как, например, для Дагестана (см. опять же
таблицу). К сожалению, мне
не удалось убедить
corbulon'а, что в предположении нулевой гипотезы о "честных выборах" набор значений статистики Пирсона для разных регионов должен сам быть независимой выборкой из распределения
χ2, и поэтому, скажем примерно 10% значений должны будут превышать соответствующее пороговое значение 14.7. Я проверил соответствие данных из все той же таблицы распределению
χ2 с 9 степенями свободы (т.е., нулевая гипотеза для каждого столбца заключается в том, что он является выборкой независимых случайных величин с распределением
χ2) с использованием
критерия Крамера - фон Мизеса (для всех регионов из таблицы количество участков не меньше 50, за исключением Байконура, который я исключил). Полученные значения статистики Крамера - фон Мизеса
ω2 составляют для, соответственно, количества избирателей в списках - .095, количества выданных бюллетеней - .059,
количества действительных - .470,
голосов за КПРФ - 1.914, голосов за ЕР - .057. Критические значения статистики
ω2 для уровней значимости .1, .05 и .01 составляют, соответственно, .173, .220 и .34. Таким образом, нулевая гипотеза отвергается (и с большим запасом) только для распределений количества действительных голосов и количества голосов за КПРФ.
Интерпретация этих результатов мне неясна.
PS Пока я сочинял и писал этот пост (что заняло в силу разных обстоятельств больше недели),
corbulon выложил еще одну
таблицу, где, в частности, есть совершенно зашкаливающие значения статистики Пирсона (точнее, соответствующих вероятностей) для всей России - в том числе и для распределений количества избирателей в списках, количества выданных бюллетеней и голосов за ЕР, которые по моим подсчетам в целом по России вели себя вполне прилично. Не знаю пока, как объяснить это расхождение. Возможно, дело в накапливании небольших отклонений, которые вполне допустимы для каждого региона в отдельности, но начинают быть заметными только в кумулятивной выборке.