rwalk: (Default)
[personal profile] rwalk

[livejournal.com profile] corbulon заметил, что если брать последнюю цифру количества проголосовавших за Единую Россия по каждому из 3373 московских участков, то их распределение довольно сильно отличается от равномерного. Я предложил ему для строгой оценки этого отклонения воспользоваться классическим критерием Пирсона.



В случае сравнения с равномерным распределением этот критерий имеет особенно простой вид. Предположим, что у нас имеется N цифр, принимающих значения от 0 до 9. Обозначим через N0 количество нулей, через N1 количество единиц, и т.д., через N9 количество девяток, так что сумма N0+N1 +  ... + N9 будет совпадать с N. В качестве так называемой нулевой гипотезы (это то предположение о стохастической природе наблюдаемых данных, которое мы пытаемся подтвердить или опровергнуть их анализом) примем, что каждая из N цифр выбиралась независимо от других, и все возможные 10 ее значений равновероятны, т.е., каждое принимается с одной и той же вероятностью 1/10. Иначе говоря, вероятностная модель нашего набора из N цифр такова: мы берем "честную" 10-гранную кость, на гранях которой написаны значения от 0 до 9, подбрасываем ее, записываем выпавшую цифру, и так N раз. Все статистические критерии устроены одинаково и заключаются в вычислении некоторой функции от исследуемых данных (так называемой статистики) и сравнении найденного значения с теоретическим распределением статистики в предположении справедливости нулевой гипотезы. Если полученное значение статистики маловероятно, то нулевая гипотеза отвергается. С другой стороны, если значение статистики является "типичным", то это говорит всего лишь о том, что исследуемые данные не противоречат нулевой гипотезе, которая вполне может отвергаться каким-нибудь другим тестом. В нашем случае статистика критерия Пирсона - это

X
2 = [(N0n)2 + (N1n)2 + ... + (N9n)2]/n
где n=N/10 - ожидаемое значение числа появлений каждой цифры,

т.е., деленная на n сумма квадратов отклонений наблюденных значений Ni от ожидаемого n. Хотя распределение значения X2 (в предположении нулевой гипотезы) и зависит от N , с ростом N оно быстро сходится к предельному распределению, называемому χ2  (в нашем случае - это распределение χ2  с 9 степенями свободы). Принято считать, что для использования предельного распределения ожидаемые значения (в нашем случае это n=N/10) не должны быть меньше 5, т.е., в нашем случае N должно быть не меньше 50. Таким образом, проверка по Пирсону на равномерность распределения последних цифр заключается в следующем: вычисляем X , после чего по таблице распределения χ2  с 9 степенями свободы (или с использованием калькулятора) находим соответствующее значение p функции распределения χ2  (т.е., вероятность того, что в предположении нулевой гипотезы статистика Пирсона не превосходит найденную величину). Если p очень мало (распределение слишком равномерно) или наоборот p очень близко к 1 (распределение слишком отличается от равномерного), то нулевая гипотеза отвергается. Популярными значениями уровня значимости (порога отвержения) являются 10%, 5%, 1% и 0.1%. Мы будем пользоваться односторонним критерием Пирсона (т.е., отвергать нулевую гипотезу только при наличии слишком большой неравномерности). Тогда соответствующие критические значения для статистики Пирсона составляют, соответственно, 14.7, 16.9, 21.7, 27.9. Таким образом, например, если значение статистики Пирсона составляет 23, то, поскольку вероятность (в предположении верности нулевой гипотезы) превышения значения 21.7 составляет 1%, мы можем отвергнуть нулевую гипотезу с уровнем значимости 1%. Значение 32 было бы еще куда менее вероятным - в этом случае нулевая гипотеза отвергалась бы с уровнем значимост .1%. С другой стороны, значение 12 нулевой гипотезе не противоречило бы.



[livejournal.com profile] corbulon после этого посчитал значения статистики Пирсона для распределений последних цифр в каждом из российских регионов. Его таблица составлена следующим образом: для каждого из регионов (83 субъекта федерации плюс Байконур плюс остальные участки за границей - всего 85) и каждой из исследуемых величин (количество избирателей в списках, количество выданных бюллетеней, количество действительных бюллетеней, количество голосов за КПРФ, количество голосов за ЕР) бралось распределение последних цифр по всем избирательным участкам этого региона, после чего вычислялось значение статистики Пирсона для сравнения этого эмпирического распределения с гипотетическим равномерным.  В таблице цветом отмечены значения, превышающие квантили распределения χ2  с 9 степенями свободы  уровней .9, .95, .975, .99 и .999. Иначе говоря, в предположении "нулевой гипотезы" о том, что последние цифры представляют собой выборку из равномерного распределения, вероятность, например, того, что значение статистики Пирсона превышает 16.92, составляет 5%. Кстати - придется побыть адвокатом дьявола - гипотезу о равномерной распределенности последней цифры числа проголосовавших за ЕР по московским избирательным участкам критерий Пирсона все-таки не отвергает. В этом случае значение статистики Пирсона составляет вполне допустимые 12.64 (соответствующая кумулятивная вероятность для χравна .82).

[livejournal.com profile] corbulon интерпретирует, значения статистики Пирсона следущим образом: чем она больше, тем больше фальсификации. Это, разумеется, так, если значения превосходят всякие разумные пределы - как, например, для Дагестана (см. опять же таблицу). К сожалению, мне не удалось убедить [livejournal.com profile] corbulon'а, что в предположении нулевой гипотезы о "честных выборах" набор значений статистики Пирсона для разных регионов должен сам быть независимой выборкой из распределения χ2, и поэтому, скажем примерно 10% значений должны будут превышать соответствующее пороговое значение 14.7. Я проверил соответствие данных из все той же таблицы распределению χ2 с 9 степенями свободы (т.е., нулевая гипотеза для каждого столбца заключается в том, что он является выборкой независимых случайных величин с распределением χ2) с использованием критерия Крамера - фон Мизеса (для всех регионов из таблицы количество участков не меньше 50, за исключением Байконура, который я исключил). Полученные значения статистики Крамера - фон Мизеса ω2 составляют для, соответственно, количества избирателей в списках - .095, количества выданных бюллетеней - .059, количества действительных - .470, голосов за КПРФ - 1.914, голосов за ЕР - .057.  Критические значения статистики ω2 для уровней значимости .1, .05 и .01 составляют, соответственно, .173, .220 и .34. Таким образом, нулевая гипотеза отвергается (и с большим запасом) только для распределений количества действительных голосов и количества голосов за КПРФ.

Интерпретация этих результатов мне неясна.

PS Пока я сочинял и писал этот пост (что заняло в силу разных обстоятельств больше недели), [livejournal.com profile] corbulon выложил еще одну таблицу, где, в частности, есть совершенно зашкаливающие значения статистики Пирсона (точнее, соответствующих вероятностей) для всей России - в том числе и для распределений количества избирателей в списках, количества выданных бюллетеней и голосов за ЕР, которые по моим подсчетам в целом по России вели себя вполне прилично. Не знаю пока, как объяснить это расхождение.  Возможно, дело в накапливании небольших отклонений, которые вполне допустимы для каждого региона в отдельности, но начинают быть заметными только в кумулятивной выборке.

Date: 2012-02-19 02:08 pm (UTC)
From: [identity profile] corbulon.livejournal.com
А как вы можете интерпретировать приведенные у меня графики?
Все-таки имеется закономерное изменение результатов в зависимости от уровня отсечения по вероятности.

В таблице исправлена одно число: общая вероятность для всей России (теперь 2Е-7) и добавлена общая вероятность для России с КОИбами (0,22) и Швеции (0,5).
Edited Date: 2012-02-20 11:30 am (UTC)

Date: 2012-02-20 01:07 pm (UTC)
From: [identity profile] corbulon.livejournal.com
1) Попробую все же объяснить, почему неверно считать, что "набор значений статистики Пирсона для разных регионов должен сам быть независимой выборкой из распределения χ2".
Вся совокупность значений под названием "Россия" чрезвычайно неоднородна, функции распределения аномальны, так что и выборки из этой совокупности под названием "регионы" вовсе НЕ являются случайными флуктуациями одной совокупности. Поэтому, как мне кажется, в данном случае статистика ω2 не применима.

2) Вы правы, считая, что "накапливание небольших отклонений.. начинают быть заметными.. в кумулятивной выборке." Так и есть.

Date: 2013-01-18 06:47 pm (UTC)
From: [identity profile] tretiykon.livejournal.com
"Лет двадцать назад Н.Н.Константинов сообщил мне, что первые цифры населений стран мира распределены так же, как первые цифры степеней двойки (табл. 2)."

А почему corbulon последние цифры рассматривает? Как доказать, что если последние цифры распределены неравномерно, то выборы фальсифицированы? Для первых цифр это, например, скорее всего не так.

http://vivovoco.rsl.ru/VV/JOURNAL/QUANTUM/ARNOLD/ARN.HTM

Date: 2013-01-18 07:52 pm (UTC)
From: [identity profile] corbulon.livejournal.com
Я отвечу, если вы не против.
Закономерность, о которой вы пишете (известная также как «закон Бенфорда» - см. даже Вики), для выборов в России не работает, так как размер избирательных участков ограничен (3000 чел). Точнее закономерности становятся много сложнее и сильно зависят от распределения участков по величине. В результате ясного и простого вывода сделать невозможно.
А распределение последних цифр (РПЦ) проверялось мною и для многих стран; и для выборов в России в разные годы; и для отдельных подмножеств этих выборов; и для различных оснований (систем счисления). В выборах заведомо чистых, в тестовых экспериментах, в недесятичных системах счисления, РПЦ равномерно. Но ясно, что РПЦ - метод грубый, он «ловит» лишь самые примитивные, «арифметические», фальсификации, но все же ловит их.
Подробнее об этом у меня в ЖЖ по тэгам «выборы» или (популярно) в ТрВ
http://trv-science.ru/2012/03/13/pro-arifmetiku-i-nemnozhko-pro-vybory/

Profile

rwalk: (Default)
rwalk

September 2018

S M T W T F S
      1
234567 8
9101112131415
16171819202122
23242526272829
30      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 4th, 2025 12:41 pm
Powered by Dreamwidth Studios