Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд Страница 19
Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд читать онлайн бесплатно
Дополнительным проявлением предвзятости подтверждения является также то, что люди склонны забывать опровергающие доказательства, если они противоречат их первоначальным убеждениям.
Существуют и другие причины, по которым люди делают неправильные выводы, подсознательно игнорируя часть данных. Среди них можно выделить феномен негативного восприятия – тенденцию легче вспоминать неприятные события, чем приятные; эффект уступчивости, из-за которого респонденты говорят то, что, по их мнению, интервьюер желает услышать; эффект повального увлечения, когда люди склонны примыкать к большинству; ошибку правдоподобия, при которой ответ зависит от того, насколько правдоподобным считает его респондент; и эффект причудливости, из-за которого все необыкновенное запоминается лучше, чем привычное. На фоне всего этого кажется просто поразительным, что мы хоть что-то умудряемся делать правильно!
Явления, описанные в этом разделе, закономерно ведут к излишней самонадеянности: если большинство доказательств, которые вы можете вспомнить, говорят в пользу определенной позиции, то у вас есть все основания полагать, что эта позиция верна. И проблема усугубляется так называемыми эхо-камерами, которые мы обсудим в главе 5.
Знание о когнитивных искажениях в какой-то степени помогает избегать их в исследованиях, но они все равно могут подкрасться к нам с неожиданной стороны. Это хорошо показывают исследования влияния формулировок опроса, когда по-разному заданный вопрос приводит к противоречивым ответам. Например, когда одной и той же группе задают и положительную, и отрицательную версии вопроса («Вам понравился фильм?» и «Вам не понравился фильм?»), число людей, отвечающих «нет» на первый и «да» на второй вопрос по идее должно быть одинаковым (при условии, что есть только два варианта ответа без опции «не знаю»). Но часто это не так. Ошибка измерения, которая скрывает истинные значения, может находиться в сознании самих респондентов.
Определения и темные данные
Что именно вы хотите узнать?
Начнем с очевидного: полезность данных зависит от того, то ли мы собираем и не допускаем ли при этом искажений. Каждое из этих условий чувствительно к темным данным. Фактически число потенциальных рисков, связанных с темными данными, настолько велико, что составить их полный перечень просто невозможно. Тем не менее представление о типовых ситуациях, на которые нужно обращать внимание, может быть жизненно важным при работе с темными данными. В этой главе мы рассмотрим постановку целей для сбора данных, а в следующей – то, как этих целей достигать, причем и то и другое сквозь призму нашей основной темы.
Одна из фундаментальных причин возникновения темных данных – использование неподходящих определений или (что часто одно и то же) непонимание, о чем идет речь. Давайте разберем это на примерах.
Иммиграция
Опросы всегда проводят с конкретной целью, административные же данные собирают по множеству причин. Это означает, что административные данные могут не содержать ответа на интересующий вас вопрос. Например, в Великобритании недавно возник спор о точности статистики по долгосрочной международной миграции (LTIM). Национальная статистическая служба в соответствии с данными Отчета по международным пассажирским перевозкам сообщила, что за год, завершившийся в сентябре 2015 г., в Великобританию иммигрировало из Евросоюза 257 000 человек. В то же время число граждан Евросоюза, зарегистрировавшихся для получения номеров социального страхования, за этот период составило 655 000 человек. Номера социального страхования – это личные счета всех, кто работает в Великобритании, обеспечивающие надлежащий учет налоговых платежей и взносов в систему национального страхования (куда относятся в том числе медицинские страховки и пенсии), поэтому несоответствие кажется по меньшей мере странным. Похоже, что цифры Национальной статистической службы далеки от реальности. По этому поводу британский политик Найджел Фарадж выразился так: «Они пускают нам пыль в глаза. Номера социального страхования – это простое и четкое отражение реального числа людей в этой стране, так как без такого номера вы не сможете ни легально работать, ни претендовать на получение пособия» [39].
Отчет по международным пассажирским перевозкам, который учитывает основные пассажиропотоки через британские воздушные и морские порты, а теперь еще и Евротоннель, выпускается с 1961 г. Ежегодно проводится 700 000–800 000 интервью. Хотя это число представляет лишь небольшую часть людей, приезжающих в Великобританию, ответы могут быть использованы для оценки общего числа мигрантов. Но это всего лишь оценка, и с ней неизбежно связана погрешность. Национальная статистическая служба определила величину этой погрешности как ±23 000, получив интервал от 234 000 до 280 000, и заявила, что на 95 % уверена в попадании истинных цифр в этот диапазон. Погрешность, хотя и существенная, явно не объясняет такое большое отличие от числа номеров социального страхования.
Когда Национальная статистическая служба подробно изучила расхождение между своей оценкой и числом номеров социального страхования, оказалось, что основной причиной этой разницы была краткосрочная миграция (мигранты, прибывающие на срок от 1 до 12 месяцев) [40]. Долгосрочные мигранты остаются на 12 месяцев и более. Краткосрочные мигранты могут работать и подавать заявки на получение номеров социального страхования, но определяющим показателем в данном случае должна быть статистика LTIM (по долгосрочной международной миграции). Национальная статистическая служба заявила, что «различие определений этих данных является фундаментальным и невозможно обеспечить согласование двух типов учета, просто “складывая” и “вычитая” номера страховок. Эти регистрационные данные не могут служить показателем LTIM». Короче говоря, административные данные были полезны в тех вычислениях, для которых они были собраны, и не подходили для других целей. Неподходящие или несоответствующие определения эффективно скрывают интересующие нас данные и превращают их в темные данные DD-тип 8: неверно определяемые данные. Ключевой момент в том, что данные становятся или не становятся темными в зависимости от того, что вы хотите узнать.
Преступность
Другой пример темных данных, возникающих из-за различий в определениях, дает нам статистика преступности. На национальном уровне такая статистика по Англии и Уэльсу поступает из двух основных и довольно далеких друг от друга источников: Обзор преступности в Англии и Уэльсе (CSE & W) и полицейская статистика правонарушений (PRC). CSE & W является эквивалентом Национального обзора преступности и виктимизации в США. Он был запущен в 1982 г. (одновременно с Британским обзором преступности) для изучения опыта столкновения с преступностью в течение последнего года. Данные PRC предоставляются 43 полицейскими управлениями Англии и Уэльса, а также Британской транспортной полицией, и анализируются Национальной статистической службой.
Жалоба
Напишите нам, и мы в срочном порядке примем меры.
Comments