Идиот или гений? Как работает и на что способен искусственный интеллект - Мелани Митчелл Страница 25
Идиот или гений? Как работает и на что способен искусственный интеллект - Мелани Митчелл читать онлайн бесплатно
Чтобы двигаться вперед, необходимо было создать новые эталонные данные, в которые вошло бы гораздо больше категорий и фотографий. Молодая специалистка по компьютерному зрению из Принстона Фей-Фей Ли задалась этой целью и случайно узнала о проекте другого принстонского профессора, психолога Джорджа Миллера, который хотел создать базу данных английских слов, выстроенных в иерархическом порядке от самых специфических к самым общим, с группировкой синонимов. Возьмем, например, слово “капучино”. В базе данных, получившей название WordNet, содержится следующая информация об этом термине (стрелками обозначена принадлежность к определенной категории):
капучино ⇒ кофе ⇒ напиток ⇒ пища ⇒ вещество ⇒ физическая сущность ⇒ сущность
В базе данных также содержится информация о том, что, скажем, “напиток” и “питье” – это синонимы, что слово “напиток” входит и в другую цепочку, включающую слово “жидкость”, и так далее.
База данных WordNet использовалась (и продолжает использоваться) в исследованиях психологов и лингвистов, а также в системах ИИ по обработке естественного языка, но у Фей-Фей Ли появилась другая идея – создать базу данных изображений, структурированную по принципу существительных в WordNet, где каждое существительное будет связано с большим количеством изображений, содержащих примеры объектов, обозначаемых им. Так родилась идея ImageNet.
Вскоре Ли с коллегами приступили к сбору огромного количества изображений, используя существительные WordNet в качестве запросов на таких поисковых системах, как Flickr и поиск по картинкам Google. Однако, если вы хоть раз пользовались поиском по картинкам, вам известно, что его выдача часто далека от идеала. Например, если написать в строке поиска по картинкам Google “macintosh apple”, на фотографиях вы увидите не только яблоки и компьютеры Mac, но и свечи в форме яблок, смартфоны, бутылки яблочного вина и другие не относящиеся к теме предметы. В связи с этим Ли с коллегами пришлось привлечь людей, чтобы они определили, какие изображения не иллюстрируют заданное существительное, и удалили их из базы. Сначала этим в основном занимались студенты. Работа шла ужасно медленно и требовала большого напряжения сил. Вскоре Ли поняла, что при такой скорости на решение задачи уйдет девяносто лет [111].
Ли с коллегами стали искать возможные способы автоматизации работы, но дело в том, что определение, изображен ли на фотографии объект, обозначаемый конкретным существительным, – это и есть задача на распознавание объектов! И компьютеры справлялись с ней из рук вон плохо, что и стало поводом к созданию ImageNet.
Группа зашла в тупик, но затем Ли случайно наткнулась на созданный тремя годами ранее сайт, который мог обеспечить проект рабочими руками, необходимыми ImageNet. У сайта было странное название Amazon Mechanical Turk.
По словам Amazon, платформа Mechanical Turk представляет собой “рынок труда, который требует человеческого разума”. На платформе заказчики, то есть люди, у которых есть задача, не подходящая для компьютеров, находят работников, готовых за небольшую плату использовать свой разум для выполнения задачи заказчика (например, присваивать метки объектам на фотографиях, получая по десять центов за фотографию). Имея сотни тысяч зарегистрированных работников со всего мира, Mechanical Turk воплощает максиму Марвина Минского “простые вещи делать сложно”, ведь работников привлекают к выполнению “простых” задач, которые пока слишком сложны для компьютеров.
Названием Mechanical Turk (“Механический турок”) платформа обязана знаменитой ИИ-мистификации XVIII века: так называли шахматную “разумную машину”, в которой прятался человек, делавший ходы за куклу (“турка”, одетого на манер османского султана). По всей видимости, на розыгрыш купились многие видные люди того времени, включая Наполеона Бонапарта. Платформа Amazon не пытается никого обмануть, но, как и первый “механический турок”, по сути, представляет собой “искусственный искусственный интеллект” [112].
Фей-Фей Ли поняла, что если ее группа заплатит десяткам тысяч работников Mechanical Turk, чтобы они удалили несоответствующие изображения для каждого из существительных WordNet, то при относительно небольших затратах весь набор данных можно будет обработать за несколько лет. Всего за два года более трех миллионов изображений было связано с соответствующими существительными из WordNet – и появился набор данных ImageNet. Для проекта ImageNet платформа Mechanical Turk стала “спасением” [113]. Исследователи ИИ продолжают активно использовать ее для создания наборов данных, и сегодня заявки ученых на гранты в сфере ИИ, как правило, включают строку бюджета “услуги работников Mechanical Turk”.
В 2010 году проект ImageNet провел первый конкурс ImageNet Large Scale Visual Recognition Challenge (Конкурс по широкомасштабному распознаванию образов в ImageNet) с целью подстегнуть развитие более общих алгоритмов распознавания объектов. В нем приняли участие тридцать пять программ, созданных исследователями компьютерного зрения из научных организаций и технологических компаний всего мира. Участникам соревнований выдали размеченные тренировочные изображения – 1,2 млн фотографий – и список возможных категорий. Натренированные программы должны были выдавать верную категорию для каждого входного изображения. Если в конкурсе PASCAL было всего двадцать возможных категорий, то в состязании ImageNet их количество возросло до тысячи.
Тысячу категорий сформировало выбранное организаторами подмножество терминов из WordNet. Категории представляют собой внешне случайный набор терминов в диапазоне от знакомых и непримечательных (“лимон”, “замок”, “рояль”) до менее распространенных (“виадук”, “рак-отшельник”, “метроном”) и совсем редких (“шотландский дирхаунд”, “камнешарка”, “мартышка-гусар”). На долю редких животных и растений – во всяком случае таких, которые я бы не опознала, – приходится около десятой части целевых категорий.
На одних фотографиях представлен лишь один объект, а на других – много объектов, включая “верный”. Из-за этой неоднозначности программа выдает для каждого изображения пять категорий, и если среди них оказывается верная, то считается, что программа справилась с задачей. Такая степень точности называется “топ-5”.
Жалоба
Напишите нам, и мы в срочном порядке примем меры.
Comments