Идиот или гений? Как работает и на что способен искусственный интеллект - Мелани Митчелл Страница 53
Идиот или гений? Как работает и на что способен искусственный интеллект - Мелани Митчелл читать онлайн бесплатно
Искусственный интеллект и естественный язык
В компании слов
Пора рассказать вам одну историю.
Ресторан
Мужчина вошел в ресторан и заказал гамбургер “с кровью”. Когда ему принесли заказ, гамбургер оказался пережарен до хруста. К столику гостя подошла официантка. “Вам нравится бургер?” – спросила она. “О, он просто великолепен”, – ответил мужчина, отодвинул стул и гневно зашагал прочь, не оплатив счет. Официантка крикнула ему вслед: “Эй, а кто платить будет?” Она пожала плечами и буркнула себе под нос: “И что он так раскипятился?” [227]
Теперь позвольте мне задать вам вопрос: съел ли мужчина гамбургер?
Полагаю, вы уверены в ответе, хотя напрямую в истории об этом не говорится. Нам, людям, легко читать между строк. В конце концов, понимание языка – включая недосказанности – фундаментальный компонент человеческого разума. Неслучайно Алан Тьюринг сделал знаменитую “имитационную игру” состязанием в генерации и понимании языка.
В настоящей части книги речь пойдет об обработке естественного языка, то есть “попытках научить компьютеры работать с человеческим языком”. (На жаргоне ИИ “естественный” значит “человеческий”.) Обработка естественного языка (ОЕЯ) включает такие направления, как распознавание речи, поиск в интернете, создание вопросно-ответных систем и машинный перевод. Подобно тому, что мы увидели в предыдущих главах, движущей силой большинства недавних прорывов в сфере ОЕЯ стало глубокое обучение. Я опишу некоторые из этих прорывов, используя историю о ресторане, чтобы проиллюстрировать ряд серьезных проблем, с которыми сталкиваются машины при использовании и понимании человеческого языка.
Допустим, мы хотим создать программу, которая может прочитать фрагмент текста и ответить на вопросы о нем. Сегодня вопросно-ответные системы – одно из основных направлений исследований в сфере ОЕЯ, потому что люди хотят общаться с компьютерами при помощи естественного языка (вспомните Siri, Alexa, Google Now и других “виртуальных помощников”). Однако, чтобы отвечать на вопросы о таком тексте, как история о ресторане, программе потребуются продвинутые лингвистические навыки и основательные знания об устройстве мира.
Съел ли мужчина гамбургер? Чтобы с уверенностью ответить на этот вопрос, гипотетической программе нужно знать, что гамбургеры входят в категорию “пища”, а пищу можно есть. Программа должна понимать, что если человек заходит в ресторан и заказывает гамбургер, то обычно он планирует его съесть. Кроме того, ей следует знать, что после подачи заказа в ресторане гамбургер становится доступен для еды и что если человек заказывает гамбургер “с кровью”, то ему, скорее всего, не захочется есть “пережаренный” гамбургер. Программа должна понимать, что в словах “он просто великолепен” кроется сарказм, “он” здесь означает “бургер”, а “бургер”, в свою очередь, служит синонимом “гамбургера”. Программе нужно догадаться, что человек, который “зашагал прочь” из ресторана, не заплатив, вряд ли съел заказанное блюдо.
Сложно представить все фоновые знания, которые необходимы программе, чтобы уверенно отвечать на вопросы об истории. Оставил ли мужчина чаевые официантке? Программе нужно знать о традиции давать чаевые в ресторанах с целью вознаградить официантов за хорошее обслуживание. Почему официантка спросила: “А платить кто будет”? Программе следует понять, что “платить” нужно не за новую куртку и не за свои прегрешения, а за блюдо. Поняла ли официантка, что мужчина разозлился? Программе необходимо установить, что в вопросе “И что он так раскипятился?” “он” – это мужчина, а слово “раскипятился” употреблено в значении “рассердился”. Поняла ли официантка, почему мужчина ушел из ресторана? Программе было бы полезно узнать, что жест “пожала плечами” говорит, что официантка не поняла, почему мужчина убежал.
Представляя, какие знания нужны гипотетической программе, я вспоминаю о своих попытках ответить на бесчисленные вопросы, которые задавали мне дети, когда были совсем маленькими. Однажды, когда моему сыну было четыре года, я взяла его с собой в банк. Он задал мне простой вопрос: “Что такое банк?” Мой ответ породил, казалось, бесконечный каскад вопросов “почему?” и “зачем?”. “Зачем людям деньги?” “Почему люди хотят, чтобы у них было много денег?” “Почему они не могут хранить деньги дома?” “Почему нельзя печатать собственные деньги?” Все это хорошие вопросы, но ответить на них, не объясняя множество вещей, незнакомых четырехлетнему ребенку, весьма нелегко.
С машинами дело обстоит еще хуже. Слушая историю о ресторане, ребенок уже имеет представление о таких понятиях, как “человек”, “стол” и “гамбургер”. У детей есть зачатки здравого смысла: так, они понимают, что, выходя из ресторана, мужчина перестает быть внутри ресторана, хотя столы и стулья, вероятно, остаются на месте. А когда гамбургер “приносят”, его, вероятно, приносит официантка (а не загадочные “они”). Современные машины не умеют оперировать детализированными, взаимосвязанными понятиями и здравым смыслом, к которому при понимании языка прибегает даже четырехлетний ребенок.
В таком случае не стоит удивляться, что использование и понимание естественного языка относится к одной из самых сложных задач, стоящих перед ИИ. Язык по природе своей неоднозначен: он сильно зависит от контекста и задействует огромный объем фоновых знаний, имеющихся у взаимодействующих сторон. Как и в других сферах ИИ, в первые несколько десятилетий исследователи ОЕЯ уделяли основное внимание символическим подходам на основе правил, то есть разрабатывали программы и прописывали грамматические и лингвистические правила, которые необходимо было применять к входным предложениям. Такие методы работали не слишком хорошо – судя по всему, набор четко определенных правил не может учесть все тонкости языка. В 1990-х годах подходы к ОЕЯ на основе правил уступили место более успешным статистическим подходам, в рамках которых огромные наборы данных используются для тренировки алгоритмов машинного обучения. В последнее время статистический подход на основе данных применяется к глубокому обучению. Может ли глубокое обучение в комбинации с большими данными привести к появлению машин, которые смогут гибко и надежно работать с человеческим языком?
Автоматическое распознавание речи – транскрибирование устной речи в текст в реальном времени – стало первым крупным успехом глубокого обучения в ОЕЯ, и можно даже сказать, что на текущий момент это самый серьезный успех ИИ в любой области. В 2012 году, когда глубокое обучение производило революцию в компьютерном зрении, исследовательские группы из Университета Торонто, Microsoft, Google и IBM опубликовали знаковую статью о распознавании речи [228]. Эти группы разрабатывали глубокие нейронные сети для различных аспектов распознавания речи: распознавания фонем по акустическим сигналам, предсказания слов на основе комбинаций фонем, предсказания фраз на основе комбинаций слов и так далее. По словам специалиста по распознаванию речи из Google, применение глубоких сетей привело к “самому значительному прогрессу за 20 лет исследования речи” [229]. В тот же год появилась созданная на основе глубокой сети новая система распознавания речи, которая сначала стала доступна пользователям Android, а через два года – пользователям iPhone. Один из инженеров Apple при этом отметил: “В этой сфере произошел такой значительный скачок [производительности], что тесты пришлось повторять, чтобы убедиться, что никто не потерял десятичную запятую” [230].
Жалоба
Напишите нам, и мы в срочном порядке примем меры.
Comments