Искусство мыслить рационально. Шорткаты в математике и в жизни - Маркус Дю Сотой Страница 56
Искусство мыслить рационально. Шорткаты в математике и в жизни - Маркус Дю Сотой читать онлайн бесплатно
Каждый день, лавируя по расширяющемуся цифровому миру, который мы помогаем заселять, мы генерируем все больше и больше данных. Сейчас человечество производит каждые два дня столько же данных, сколько было произведено с самого времени зарождения цивилизации до 2003 года. Цифровой мир, который мы можем исследовать, огромен. В данных скрыты сокровища, ценные для компаний, старающихся выявить шаблоны, которые могут помочь в предсказании будущей цифровой деятельности потребителей. Ориентироваться в этих цифровых джунглях нелегко, но математики открыли целый набор хитроумных шорткатов, помогающих находить сокровища и избавляющих от необходимости обследовать весь этот мир.
Уже в XVII веке, как только началась научная революция, мы тонули в данных, которые сами же и производили. В 1663 году Джон Граунт, один из первых демографов, сетовал на «непосильное количество информации», которой он оказался завален в исследовании бубонной чумы, бушевавшей в то время в Европе. Такие данные необходимы для борьбы с пандемией. Именно поэтому генеральный директор Всемирной организации здравоохранения Тедрос Аданом Гебреисус сказал на пресс-конференции в Женеве, что ключевой элемент преодоления вспышки коронавируса 2020 года – «тестирование, тестирование и еще раз тестирование». Без данных правительства понятия не имели бы, где и какие ресурсы следует применять.
Однако данные бесполезны, если нет способов выделять сигналы из шума. В 1880 году комиссия по переписи населения США жаловалась, что собранные данные оказались настолько обширными, что на их анализ уйдет более десяти лет, а к тому времени уже придет новая волна данных переписи 1890 года. Требовались инструменты, дающие шорткат к смысловому содержанию тех огромных массивов чисел, которые мы производили и собирали.
Мой герой Карл Фридрих Гаусс всегда был любителем данных. Он упивался полной чисел книгой, которую ему подарили на пятнадцатилетие: в ней были и таблицы логарифмов, и в самом конце список простых чисел. «Вы и представить себе не можете, сколько поэзии заключено в таблице логарифмов», – писал он. Часами напролет он пытался выискать закономерности, скрытые внутри кажущихся случайно расположенными простых чисел, и в конце концов понял, что существует связь между ними и приведенными в начале книги логарифмами. Это откровение впоследствии привело к появлению теоремы о распределении простых чисел, предсказывающей вероятность того, что случайно выбранное число может быть простым.
Ему удалось предсказать траекторию движения Цереры по ночному небу, исходя из наблюдений, сделанных астрономами до того, как этот астероид скрылся за Солнцем. Он вызвался анализировать данные переписи населения, проведенной правительством Ганновера, заявив: «Я надеюсь заняться редактированием переписи, списков родившихся и умерших по местным округам, не в качестве работы, а для собственного моего удовольствия и удовлетворения». Он даже потратил некоторое время на анализ пенсионной схемы для вдов профессоров Геттингенского университета и заключил, вопреки всеобщим опасениям, что пенсионный фонд находится в прекрасном состоянии и даже может позволить себе увеличить выплаты вдовам.
Залогом успешного выделения положения Цереры из хаоса ночного неба была разработанная им стратегия, названная методом наименьших квадратов. Предположим, у вас есть данные с большим количеством шума, и вы хотите выбрать прямую или кривую, лучше всего соответствующую этим данным. Гаусс показал, что это должна быть кривая, для которой сумма квадратов расстояний всех точек данных от кривой будет наименьшей.
Рис. 7.1. Гауссов метод наименьших квадратов
В опубликованной в 1809 году статье, в которой Гаусс обрисовал этот метод, он также указал, что данные часто образуют распределение, которое мы называем теперь гауссовым. По сути дела, если изобразить распределения многих и самых разных наборов данных – роста людей, артериального давления, экзаменационных оценок, ошибок астрономических наблюдений или геодезических съемок, – всюду получится одна и та же картина: большинство случаев скапливается в середине, а по краям оказываются немногочисленные отклонения. Эту кривую часто называют колоколообразной, так как ее форма напоминает колокол.
Статистические методы, созданные Гауссом и другими, стали теперь самыми используемыми шорткатами для всех, кто хочет разобраться в современном мире, богатом данными.
В детстве меня всегда приводила в недоумение одна реклама кошачьего корма, которую регулярно передавали по телевизору. В ней утверждалось, что 8 из 10 кошек предпочитают Whiskas – корм рекламируемой марки [96]. Мне это казалось странным, потому что я не помнил, чтобы кто-нибудь приходил спросить нашу кошку, какую еду предпочитает она. Интересно, сколько кошек они опросили, чтобы это позволило им сделать такое решительное заявление? – думал я.
Может показаться, что для того, чтобы такое заявление было обоснованным, необходимо проделать огромную работу. В конце концов, считается, что в Великобритании около 7 миллионов владельцев кошек. Понятно, что производители Whiskas не обошли со своим опросом 7 миллионов домов. Однако оказывается, что математические методы статистики открывают поразительный шорткат к определению корма, самого любимого кошками всей страны. Если смириться с небольшой неточностью, число кошек, которых нужно опросить, становится на удивление небольшим. Предположим, я готов допустить в определении доли кошек, утверждающих, что им нравится Whiskas, 5-процентную погрешность. Такая неточность приведет к тому, что из моего опроса могут выпасть 5 процентов кошек. Это не страшно, но 5 процентов от 7 миллионов – это всего 350 000 кошек. Кошек, которых по-прежнему нужно опросить, все еще остается чрезвычайно много.
Но дело в том, что мне должно уж очень сильно не повезти, чтобы все 350 000 кошек, исключенные из опроса, не любили Whiskas. В большинстве случаев распределение этих 350 000 будет очень похоже на общее распределение всей популяции. Тут-то и открывается хитроумный шорткат. Предположим, я готов использовать выборку такого размера, чтобы в 19 случаях из 20 доля любящих Whiskas кошек в этой выборке отличалась от их доли во всей популяции не более чем на 5 процентов. Какого размера должна быть такая выборка? Как это ни удивительно, для определения предпочтений всех 7 миллионов кошек Соединенного Королевства с таким уровнем достоверности нужно опросить всего 246 кошек. То есть поразительно малое количество. Таково могущество математической статистики: она позволяет делать обоснованные утверждения по результатам опроса такого небольшого числа кошек. Когда я прошел курс статистики, я понял, почему нашу кошку никто не спрашивал, какая еда ей нравится.
Жалоба
Напишите нам, и мы в срочном порядке примем меры.
Comments