31 березня 2019 року відбувся І тур президентських виборів України, в якому брали участь 39 кандидатів. Студенткою 3-го курсу спеціальності Статистика Подрушняк Вікторією були опрацьовані кількісні і відсоткові дані голосів  підтримки за кожного із кандидатів із сайту Центральної виборчої комісії по 200 округах. Орієнтовна кількість виборців – 30 225 048.

000

Для оцінки результатів виборів широко застосовуються методи математичної статистики: аналіз кореляційних полів, перевірка розподілів на нормальність,  аналіз описових статистик та кореляційний аналіз. Також цікаво застосовувати кластерний аналіз для визначення територіальної підтримки кандидатів.

Важливим етапом попереднього аналізу результатів виборів є перевірка нормальності розподілів голосів за кожного кандидата по округах. Вона дозволяє виявляти територіальні особливості підтримки, а також різні аномалії, наприклад фальсифікації на виборчих  округах. 

Розглянемо графіки щільностей розподілу голосів для кандидатів, які отримали найбільшу кількість голосів за результатами виборів.

001

Виявилось, що гіпотеза про нормальність приймається лише для розподілу голосів Зеленського В.О., що свідчить про те, що розподіл голосів відносно середнього значення 30,24 % приблизно симетричний. Аналогічний ефект спостерігався на минулих виборах для переможця Петра Порошенка.

На графіках кореляційних полів це також видно. Наприклад, на графіку розподілу голосів за Зеленського В.О, спостерігаємо, що рівень підтримки (точки-округи) розміщені рівномірно симетрично вздовж уявної прямої, тобто чим більший округ, тим більший рівень підтримки. А ось на кореляційному полі розподілу голосів за Бойка Ю.А. ми спостерігаємо, що на більшості великих округів рівень підтримки низький, а на округах середньої величини рівень підтримки високий.

002003

Далі проведемо кластерний аналіз областей України за результатами виборів. Об’єктами класифікації виступатимуть області, а ознаками виступатимуть середні відсоткові результати голосів відданих за кожного претендента у цих областях (кандидати, які отримали менше, ніж 3% голосів ми не враховували). Кластерний аналіз буде проведений з метою виявлення схожих регіонів за результатами голосування. Утворилась таблиця по рядках якої будуть області ( 24 області + м.Київ + закордонні дільниці), а по стовпцях – кандидати (8 кандидатів), у комірках – відсотки голосів. Проведемо Ієрархічний кластерний аналіз за допомогою програми SPSS.

РОЗБИТТЯ ОБЛАСТЕЙ УКРАЇНИ НА КЛАСТЕРИ ЗА РІВНЕМ ПІДТРИМКИ КАНДИДАТІВ

004

У наступній таблиці наведені середні значення голосів по кластерам для кандидатів.

005

Червоним кольором позначено найменший відсоток голосів кожного кандидата в певному кластері, блакитним кольором – найбільший відсоток. наприклад, в 4 кластері спостерігається найменша підтримка голосів за Зеленського, а в 2 кластері – найбільша, але найменша в Порошенка.

Таким чином, за допомогою кластерного аналізу були чітко виявлені регіони України, які схожі за рівнем підтримки для всіх кандидатів одночасно. Окремим кластером виділились закордонні дільниці і м.Київ в який найвищий рівень підтримки кандидатів Порошенко  і Смешко серед інших кластерів і надзвичайно низький рівень підтримки кандидата Ляшко.

Найбільший кластер по територіальному охопленню областей утворив перший кластер. Саме середні значення по даному кластеру приблизно відповідають результатам виборів для двох кандидатів, які перейшли у другий тур (остаточні значення першого туру виборів: Зеленський — 30,24 % голосів, Порошенко — 15,95 %).