Введение
Целью этого проекта моделирования было предсказать исход выборов 2024 года с использованием данных общественного здравоохранения, демографических и исторических данных. Уникальный подход опирается на предикторы, которые являются косвенным показателем общественной поддержки Демократической партии среди населения. В США мы сталкиваемся с бинарным выбором, демократ или республиканец, и наши выборы определяются голосами выборщиков из каждого штата. Поэтому прогнозируемая метрика ответа была просто перевесом в победе в штате.
Из-за коллегии выборщиков прогнозирование выборов по сути является вопросом прогнозирования нескольких штатов. Большинство штатов имеют надежную историю большого перевеса побед той или иной партии, в то время как некоторые нет. Данные и модель будут точными в той степени, в которой они точно предсказывают эти штаты. Из-за меньшего размера выборки недавних национальных выборов и важности последних точек данных в модели, она не сможет производить высокоточные прогнозы для штатов с небольшим перевесом побед. Поэтому успех этой модели будет зависеть от ее способности определять, какие колеблющиеся штаты могут иметь большую поддержку демократов (или республиканцев), чем та, что в настоящее время обнаруживается в опросах.
Предыстория и предположения
За последние два цикла президентских выборов мы стали свидетелями серьезных провалов в опросах общественного мнения. В 2016 году почти все основные опросы и СМИ не смогли определить степень общественной поддержки среди демократов и независимых, которая привела к победе Трампа в ключевых колеблющихся штатах и Ржавом поясе. В 2020 году опросы общественного мнения снова недооценили поддержку Трампа в ключевых штатах. С тех пор доверие к способности СМИ расследовать и докапываться до истины еще больше подорвалось.
Этот анализ направлен на поиск предикторов, которые отражают более точное состояние политических предпочтений общественности, которые не подвержены слабостям предвзятости опросной индустрии. Из-за гиперполяризованной природы пандемии Covid-19 и явно четких линий, где поддержка прививки от Covid-19 упала, общественное восприятие «новой» версии прививки от Covid-19 каждого года сильно коррелирует с поддержкой Демократической партии. Поскольку каждый год появляется новая прививка от Covid-19, предполагается, что продолжающееся восприятие указывает на лояльность демократов к голосам. Другие показатели, такие как уровень внутренней миграции и запросы на голосование по почте, сильно коррелируют с поддержкой демократов за последние четыре года.
Кроме того, данные о населении из источников общественного здравоохранения использовались в качестве контролирующих или прогностических переменных, включая уровень смертности, рождаемости и психического здоровья. Некоторые демографические и демографические показатели связаны с более республиканскими штатами, а другие — со штатами с демократическими, и эти связи сохранялись в течение долгого времени в недавней истории. Другие показатели, такие как чистый коэффициент миграции, имеют сильные ассоциации, но они более недавние и были затронуты пандемией Covid-19, во время которой многие закрытые синие штаты понесли чистые убытки, а красные открытые штаты — чистый прирост. Популярность теперь ежегодной прививки от Covid-19 снижается из года в год, и данные были скорректированы для измерения относительной популярности, при этом штаты с более высоким общим охватом, чем в среднем, отражают более высокую поддержку Демократической партии.
В целом, этот анализ стремится объединить как долгосрочные тенденции, так и более поздние тенденции, чтобы оценить текущий уровень поддержки Демократической партии. Поскольку модель должна быть обучена на данных, доступных только в месяцы (Covid-Vax) и недели (запросы на заочное голосование), предшествующие выборам, она не сможет обнаружить никаких 11-часовых сдвигов.
Как сказал Джордж Бокс, «Все модели неверны, но некоторые полезны». Я надеюсь, что этот анализ может быть полезен для обнаружения сигналов, которые могут отсутствовать в традиционных опросах о выборах. В дополнение к прогнозированию (которое в основном сделано ради развлечения), я включил некоторый анализ колеблющегося штата, который, как я думаю, может пролить свет на ключевые сдвиги, произошедшие за последние четыре года.
методы
Поскольку объяснимость и интерпретация имеют решающее значение в контексте выборов, я придерживался простых моделей. Модели обобщенного линейного моделирования, логистической регрессии и случайного леса были обучены на данных за 2020–2022 годы. Результатом или ответом был перевес в пользу победы Демократической партии. Для логистической модели прогнозируемый ответ был бинарным выигрышем или проигрышем для этого штата. Поскольку каждая модель имеет свои собственные сильные и слабые стороны, а также свои собственные показатели ошибок, окончательная классификация выигрыша или проигрыша будет определяться большинством голосов. Я загрузил свой код и данные на GitHub, и любой желающий может критиковать, исправлять или оставлять отзывы.
ограничения
Из-за моего решения использовать в качестве предиктора уровень прививок от COVID-19 среди штатов, это ограничивает временные рамки и данные, которые можно собрать. Из-за этого я ожидаю, что модель будет иметь смещение в сторону демократов. Из 50 штатов пять попали в диапазон ошибок. Все пять из этих штатов считаются колеблющимися. Для целей категоризации только штаты, которые явно выходят за пределы ошибок моих моделей, будут классифицированы как победители для этой партии. Те, которые находятся в пределах диапазонов ошибок, будут классифицированы как жеребьевка.
Обсуждение
Поскольку в США выборы являются бинарным выбором, анализ рассматривает только демократов и республиканцев и не может обнаружить сдвиги в поддержке кандидата среди избирателей противоположной партии. Это раскрывает основное предположение модели, что эти выборы по-прежнему в первую очередь касаются партийной лояльности, а не индивидуального кандидата.
Для кандидата от Демократической партии Камалы Харрис, я считаю, это предположение верно, поскольку она не была избрана путем всенародного голосования во время предварительных выборов, и большая часть кампании была посвящена созданию стратегически продуманной персоны из женщины, которую до недавнего времени в значительной степени игнорировали, отвергали и даже высмеивали. Мы видим, что за последние несколько месяцев дебаты, покушения и другие важные моменты просто не оказали существенного влияния на тенденции опросов.
Я не верю, что это предположение справедливо для Дональда Трампа. Известный образ Трампа доминирует и вездесущ. Победа Трампа, начиная с его президентства с 2017 по 2021 год и его продолжающихся битв с судебными исками, покушениями и одержимостью СМИ, говорит о нем гораздо больше, чем о Республиканской партии. Демократическая партия — это машина, и Республиканская партия лишь неохотно укрепила поддержку Трампа после многих лет внутренних распрей и разногласий среди ее лидеров.
Поскольку модель использует данные как президентских выборов 2020 года, так и выборов в Сенат 2022 года, она обучена моделировать партийную поддержку, что является ее неотъемлемой слабостью. Недавние опросы сместились в пользу Трампа, но основные колеблющиеся штаты находятся в ничьей. Придерживаясь моих методов и цели этого упражнения, ни одна из этих данных не включена.
Анализ состояния колебания
Исход выборов определит горстка штатов. В настоящее время близкие расы в Аризоне, Неваде, Висконсине, Мичигане, Северной Каролине, Джорджии и Пенсильвании достаточны, чтобы склонить выборы в пользу любого из них. Из этих штатов модель отнесла Мичиган и Пенсильванию к категории уверенно колеблющихся демократов. Все остальные штаты находились в пределах погрешности модели и поэтому были отнесены к категории «жеребьевки».
Чтобы обеспечить наглядный контекст того, как работает этот анализ, ниже приведены несколько разбивок некоторых предикторов для штатов, которые обычно считаются колеблющимися штатами.
Показатели внутренней миграции: 2019-2023*
В целом, существует отрицательная связь между чистой миграцией и перевесом демократов. За последние 4 года многие синие штаты теряли людей, в то время как красные Штаты получили. Для этих колеблющихся штатов некоторые из них являются «красными» в отношении губернаторов и правительства штата, а другие — «синими». В целом, Пенсильвания и Мичиган — единственные два штата, в которых за последние 2 года наблюдался отрицательный уровень миграции.
Запросы на голосование по почте
Некоторые штаты, такие как Калифорния, Колорадо и Невада, являются штатами «All Mail». Это означает, что каждому зарегистрированному избирателю по умолчанию отправляется бумажный бюллетень. За исключением Юты (и, возможно, Невады), почти все эти штаты являются синими штатами и полностью синими. Невада — единственный колеблющийся штат, который является штатом all Mail, как вы можете видеть, его запросы остаются неизменными. Общая тенденция большинства других, за исключением Аризоны, — снижение запросов Mail-In-Ballot.
Ежегодное количество прививок от COVID-19**
Поскольку модель использует ежегодный показатель вакцинации от COVID в качестве сильный предиктор поддержки Демократической партии, но общая популярность снижается, модель использует относительный балл для сравнения каждого штата друг с другом в течение года. За исключением Висконсина, в остальных штатах уровень прививок от Covid-19 в 2021**, 2022 и 2024 годах был немного ниже среднего.
*Показатели внутренней миграции соответствуют показателям предыдущего года.
**Поскольку прививки от Covid-19 были доступны только в 2021 году, данные за 2021 год были сопоставлены с данными о результатах выборов 2020 года. Данные за 2022 и 2024 годы отражают использование новой версии того года.
Чтобы понять, насколько важны предикторы для модели, в приведенной ниже таблице каждый показатель ранжируется по степени его влияния на один из прогнозов модели. Как вы можете видеть, уровень вакцинации от Covid-19 ранжируется прямо под «предыдущей победой демократов».
Результаты
Модель предполагает, что Харрис уверенно выигрывает 260 голосов выборщиков в штатах, которые, по ее прогнозам, будут надежно демократическими. Если Пенсильвания и Мичиган на самом деле находятся в борьбе, то только 226 из них надежно демократические.
Согласно модели, Трамп уверенно выигрывает 219 голосов выборщиков в штатах, которые, по ее прогнозам, будут надежно республиканскими.
Нерешительные штаты Висконсин, Джорджия, Северная Каролина, Невада и Аризона все доступны для раздачи и представляют 59 голосов выборщиков. Если Пенсильвания и Мичиган в этой смеси, это 93 голоса выборщиков доступны для раздачи.
Путь Харриса к победе
Путь Харрис к победе выглядит самым простым. С более высоким начальным голосованием выборщиков «в кармане» она может собрать несколько колеблющихся штатов. Пенсильвания и Мичиган показаны как ее победы в модели, и если она их выиграет, ей просто понадобится любой из Аризоны, Северной Каролины, Висконсина или Джорджии, чтобы закрепить победу. Если она выиграет один или другой из Пенсильвании или Мичигана, ей тогда нужно будет компенсировать потерю 1-2 дополнительными колеблющимися штатами.
Путь Трампа к победе
Важно смотреть на путь Трампа с точки зрения «всякое может случиться». Он превзошел ожидания на обоих предыдущих выборах. Большинство информационных гейткиперов, мейнстримных экспертов и избирательных социологов ошибались в прошлом.
С 219 в кармане, Трамп должен взять каждый штат, где подбрасывают жребий: Аризону, Джорджию, Северную Каролину, Висконсин и Неваду. Если Трамп победит в Пенсильвании и/или Мичигане, то его путь станет проще, то есть ему все равно понадобится 2-3 из оставшихся подбрасываний.
Взгляните на панель управления ниже. Взаимодействуйте, чтобы увидеть, как каждый из кандидатов идет к победе, выигрывая жеребьевку, и посмотрите диаграммы рассеивания для прогнозов, измеренных по штатам.
Мои личные прогнозы, основанные на модели
У меня больше интуиции относительно Северной Каролины и Джорджии, поскольку я провожу там время, и я называю их в пользу Трампа. У меня нет такой интуиции относительно Аризоны, Невады или Висконсина. Так что воспринимайте это с долей скепсиса. Но, будучи верным методу, моя модель называет Пенсильванию и Мичиган в пользу Харрис, и я считаю, что она возьмет по крайней мере 2-3 дополнительных колеблющихся штата. Надеюсь, я ошибаюсь.
Ссылки:
Лаборатория выборов Массачусетского технологического института https://electionlab.mit.edu/data#data
Факты о США https://usafacts.org/economy/
Лаборатория выборов в Университете Флориды https://election.lab.ufl.edu/voter-turnout/
Голосование и регистрация на выборах ноября 2022 г. https://www.census.gov/data/tables/time-series/demo/voting-and-registration/p20-586.html
CDC https://data.cdc.gov/NCHS/Indicators-of-Anxiety-or-Depression-Based-on-Repor/8pt5-q6wp/about_data
CMS https://data.cms.gov/provider-data/dataset/avax-cv19
CDC https://www.cdc.gov/covidvaxview/weekly-dashboard/vaccine-administration-coverage-jurisdiction.html
Пять тридцать восемь https://github.com/fivethirtyeight/election-results/blob/main/election_results_senate.csv
Монитор вакцины KFF https://www.kff.org/coronavirus-covid-19/dashboard/kff-covid-19-vaccine-monitor-dashboard/
Лаборатория выборов в Университете Флориды https://election.lab.ufl.edu/2024-presidential-nomination-contests-turnout-rates/
Национальный центр статистики здравоохранения https://www.cdc.gov/nchs/data_access/VitalStatsOnline.htm CDC https://www.cdc.gov/nchs/data/vsrr/vsrr035.pdf Перепись. Правительство https://www.census.gov/data/tables/time-series/demo/popest/2020s-state-total.htmlCDC https://www.cdc.gov/covidvaxview/interactive/adults.html
Национальный центр статистики здравоохранения https://www.cdc.gov/nchs/fastats/state-and-territorial-data.htm
Перепись населения - Бедность https://www.census.gov/data/tables/time-series/demo/income-poverty/historical-poverty-people.html
Перепись населения — изменение численности населения по штатам https://www.census.gov/newsroom/press-kits/2023/national-state-population-estimates.html
Проект выборов в США https://electproject.github.io/
Переиздано с сайта автора Substack
Опубликовано под Creative Commons Attribution 4.0 Международная лицензия
Для перепечатки установите каноническую ссылку на оригинал. Институт Браунстоуна Статья и Автор.