Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд Страница 50
Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд читать онлайн бесплатно
Почему же предпочтение оригинального и необычного может приводить к невоспроизводимым результатам? Да, экстремальные, нестандартные или аномальные значения могут возникать в силу истинности некоего явления: возможно, этот препарат действительно намного эффективнее, чем другие, или этот сплав действительно химически менее активен, чем ожидалось. Но такие значения чаще возникают по причине случайных колебаний. Случайное совпадение исходных условий (примеси в препарате или сплаве, участники психологического эксперимента, подверженные погодному влиянию) или простая ошибка измерения могут привести к неожиданно высоким или низким значениям. В конце концов, как мы успели убедиться, никакие измерения не являются абсолютно точными и никогда две экспериментальные установки или образцы не будут полностью идентичными.
Из этого следует, что маловероятно, чтобы такая же случайная конфигурация или ошибка измерения повторилась при воспроизведении эксперимента. В среднем, как мы уже видели в главе 3, когда исследовали возврат к среднему значению, следует ожидать, что последующие репликации приведут к значениям, которые будут менее экстремальными. Нас не должно удивлять, если аномальный результат исчезнет, и мы должны ожидать, что «заявленные результаты исследований окажутся ложными», как выразился Иоаннидис. С точки зрения этой книги необычно экстремальные значения возникают из-за определенного вида темных данных – ошибки измерения, которая искажает базовые значения.
Склонность редакторов научных журналов публиковать только будоражащие воображение результаты – лишь конечное звено цепи. За ним скрывается тот факт, что авторы сегодня стараются не писать статей, которые, по их мнению, имеют слабые шансы быть принятыми к публикации, а это уже имеет довольно неожиданные последствия.
Особый престиж исследованиям придают публикации в авторитетных журналах, таких как Nature или Science, имеющих значительный коэффициент влиятельности, или импакт-фактор. Это показатель, основанный на количестве цитирований журнальных статей, то есть характеризующий степень уделенного им внимания. Исследователи с большей вероятностью предоставят престижным журналам впечатляющие «прорывные» результаты, чем результаты более скромные, но не менее важные просто потому, что понимают их предпочтения (DD-тип 4: самоотбор). Это, в свою очередь, означает, что журналы, как правило, выделяют и публикуют наиболее захватывающие достижения из предложенных к публикации, что еще выше поднимает и без того высокий престиж впечатляющих результатов (DD-тип 11: искажения обратной связи и уловки). Но такие выдающиеся результаты будут, скорее всего, невоспроизводимы по причине возврата к среднему значению, о чем мы уже говорили. Кроме того, подобная ситуация провоцирует некоторых исследователей подгонять результаты своей работы, чтобы увеличить шансы на публикацию в журналах с высоким импакт-фактором (как мы увидим позже, зачастую честный выбор значений от выбора мошеннического отделяет очень тонкая грань). Вследствие этого, более престижные журналы, скорее всего, будут публиковать менее достоверные результаты.
Как ни странно, но информация, публикуемая в ведущих научных журналах, с меньшей вероятностью оказывается истинной. Однако, похоже, именно к такому выводу сегодня приходят авторы. Так, Феррик Фанг и его коллеги сообщают, что ими «была обнаружена значимая корреляция между импакт-фактором журнала и частотой отзыва научных статей из-за допущенных ошибок, намеренного искажения результатов или подозрений на это» [121].
Ирония заключается в том, что следует избегать публиковаться в источниках, которые имеют высокий уровень ложных результатов. Иначе говоря, сторониться наиболее престижных журналов?.. Да, все это крайне запутанно! Но не стоит забывать, что причинно-следственные связи порой бывает довольно сложно установить. Чем влиятельнее журнал, тем по определению шире круг его читателей, а значит, публикуемые в нем статьи подвергаются более тщательному анализу, который подразумевает, что сомнительные выводы с высокой вероятностью будут обнаружены, даже если их уровень не выше, чем в других журналах.
Частичное решение проблемы состоит в том, чтобы публикации новых результатов основывались на более чем одном исследовании, то есть независимые воспроизведения должны проводиться до момента публикации (вспомним «негласное правило» Брюса Бута). Так уже делается, например в фармацевтическом секторе, где лекарства, представленные на одобрение регулирующими органами, должны иметь подтверждение нескольких клинических испытаний. Но в других контекстах, особенно в академических исследовательских кругах, приоритет публикаций является ключевым показателем эффективности, и исследователи не хотят рисковать, давая другим возможность застолбить открытие (вспомните стремление Лайнуса Полинга опубликовать свою статью о структуре нуклеиновых кислот). Они предпочитают поскорее объявить об открытии, которое может стать крупным прорывом, даже если существует риск признания его ошибочным.
Стремление сделать эффектное открытие привело к практике препарирования данных бесконечным множеством методов и реконфигурирования наборов данных до тех пор, пока не будет найдено что-то существенное. Например, сравнивая две группы пациентов, мы можем измерить 100 характеристик каждого пациента, а затем сравнить средние значения двух групп по каждой из них. Было бы удивительно, если бы при этом не обнаружилось хотя бы несколько существенных отличий между группами – исключительно из-за случайных ошибок измерения. Такую манипуляцию иногда называют p-хакингом. Этот любопытный термин пришел из статистики и описывает явление, с которым стоит разобраться.
Для начала нужно признать тот факт, что если мы изучаем данные (особенно большие наборы данных) многочисленными и отличающимися друг от друга методами, то, по сути, это говорит о нашей убежденности в том, что необычные закономерности могут случайно выявляться даже тогда, когда реальные данные не имеют таких взаимосвязей. Например, если задействовано много переменных, то какие-то их пары в конечном наборе данных могут иметь высокую корреляцию, даже если реальные базовые значения никак не коррелируют, – просто в силу случайности или ошибок измерения. Применительно к исследованиям, в которые вовлечено много объектов (например, людей), это означает, в частности, наличие небольших групп, которые так же случайно будут удивительно похожи друг на друга по тем или иным признакам.
Для наглядности представим, что мы случайным образом сгенерировали строку из 1000 цифр. Вот первые 30 из них:
678941996454663584958839614115.
После этого мы можем начать поиск, например, последовательных 10 вхождений в нее одной и той же цифры. Если это ничего не даст, можно попытаться найти последовательность из девяти цифр, идущих по порядку (123456789). Затем, в случае неудачи, мы можем заняться поиском последовательности чередующихся цифр (например, 2323232323). Если и эта затея не удастся… В итоге, если продолжать в том же духе достаточно долго, мы обязательно найдем в наших данных некоторую повторяющуюся структуру. Но вот проблема: эта структура, эта аномалия не будет иметь ничего общего с реальной закономерностью. Если повторить этот эксперимент и сгенерировать еще одну тысячу цифр в случайном порядке, то нет никаких оснований предполагать, что мы найдем среди них такую же необычную конфигурацию. Открытия не состоится – оно не будет воспроизводимым.
Жалоба
Напишите нам, и мы в срочном порядке примем меры.
Comments