Как научить робота разговаривать по-человечески? Анна Дегтева о Емеле, машинном обучении и детях.

В робототехнике – помимо конструирования самих машин или девайсов – активная работа ведется еще в одном направлении: роботов учат коммуникации с людьми. С развитием искусственного интеллекта и машинного обучения эта задача, с одной стороны, становится все более достижимой, но с другой – требует учитывать новые тонкости и контексты. Особый вызов возникает тогда, когда собеседниками становятся не подготовленные пользователи, а, например, дети: они еще не могут искусственно выстраивать коммуникацию, сами создают правила взаимодействия и часто предпочитают эмоции словам. Мы поговорили с Анной Дегтевой, лингвистом-разработчиком в компании Just AI, преподавателем кафедры математической лингвистики СПбГУ и магистрантом факультета антропологии Европейского университета в Санкт-Петербурге, о том, как учитывать подобные особенности при разработке роботов-игрушек.

— С чего началось твое увлечение диалогами с машиной?

— Профильное образование я получала по теоретической и прикладной лингвистике на кафедре математической лингвистики факультета филологии СПбГУ. Дипломную работу писала на тему автоматического извлечения мнений из текстов, меня интересовала эмоциональная сторона коммуникации. Нам кажется, что в общении первично какое-то логическое содержание, передача информации и мы очень часто недооцениваем эмоциональный компонент. Еще Алан Тьюринг говорил о том, что мыслящая машина – понятие эмоциональное, а не логическое.

Я работала в компании i-Free Innovations, где большая команда делала интеллектуальных ассистентов для телефонов: в основном, они совмещали в себе интерфейс для голосового управления телефоном и развлекательное приложение, с которым можно было просто поболтать. В приложении было несколько личностей – женщины, мужчины, пушистый инопланетянин. Но больше всего из них мне нравился ассистент, являвшийся русским аналогом Siri (который тогда работал только на английском языке). Он был меньше всего заточен на болтовню с пользователем, должен был работать исключительно как средство голосового ввода – но пользователи все равно иногда пытались его разболтать. И мы создавали личность, отрицающую свое существование: было очень важно показать, с одной стороны, что приложение понимает намерение пользователя, а с другой стороны – отказывается его поддерживать. Даже при разговоре с программой человеку важно быть услышанным и понятым. После этого он готов принять даже выраженной с юмором нежелание электронного собеседника продолжать беседу.

— Как вы анализировали пользовательское поведение?

— Мы анализировали отзывы и входящие сообщения. В них всегда можно наблюдать, как пользователи отходят от заложенных сценариев — намеренно отступают от правил, проверяют границы. И это не только наши наблюдения. Всем людям интересно, а что будет, если… Ведь в случае приложения это абсолютно безопасно – это не живой собеседник, который может обидеться, или разозлиться. И разработчики, конечно, идут навстречу пользователям. Типичные примеры такого взаимодействия можно посмотреть, если набрать в Гугле “the funniest Siri answers”.

И, конечно, мы изучали существующий опыт. Например, есть книжка про то, как разговаривать с Siri, сейчас появилось ее третье издание. Парадоксальная ситуация: целая книга рекомендаций о том, как людям разговаривать с системой, разработанной для того, говорить с человеком на его человеческом языке, чтобы человеку было проще.

Мы с компьютерами двигаемся навстречу друг другу. Посмотрите, к примеру, на поисковые системы: когда они появились, все думали, что когда-нибудь скоро системы научатся формировать ответ на заданный пользователем вопрос на естественном языке, например, «Где купить цветы возле метро Ленинский проспект» — но на практике пользователи первыми научились общаться с поисковиками на их языке, вводя только ключевые слова: «культурология учебник скачать». Появился такой новый, неизвестный ранее способ коммуникации.

Общение с диалоговыми системами – тоже новый жанр, и очень интересно наблюдать за тем, как пользователи его конструируют. Конечно, они опираются на уже известные им схемы, в первую очередь на то, как строится общение между людьми, а иногда обращаются к образцам из художественной литературы и кино. Например, один из популярных запросов к англоязычной Siri – «Open the pod bay doors» (“Открой двери модуля”) – это фраза из фильма Кубрика «Космическая Одиссея-2001», из диалога астронавта Боумана с суперкомпьютером HAL 9000. Это очень драматический момент, так как взбунтовавшийся компьютер отвечает «I’m sorry, Dave. I’m afraid I can’t do that» (Прости, Дэйв, боюсь, что я не могу этого сделать). Другим примером такого образца можно считать, например, серию «Теории большого взрыва», в которой Радж влюбляется в Siri. Многие пользователи пытаются повторить этот сценарий. Посмотрите: герой сериала переносит на приложение свои шаблоны в области общения с девушками. А потом поклонники сериала воспроизводят это поведение героя сериала, берут его за образец общения с диалоговой системой и тоже зовут ее на свидания. Многие спрашивают систему о трех законах для роботов, наших виртуальных ассистентов часто спрашивали про Siri – так формируется новый контекст общения.

— А сейчас ты работаешь уже над другими проектами?

— Да, я вернулась к этой теме и сейчас в компании Just AI работаю над роботом-игрушкой для детей. Это домашнее устройство, совмещающее в себе функции видеоняни и развлекательного центра, с его помощью родители могут позвонить ребенку, поставить сказку, песню – через приложение или голосовой ввод. И еще в роботе есть функция компаньона – помимо того, что ребенок может голосом попросить его включить музыку или сказку, с роботом можно поболтать, поиграть в какие-то развивающие игры, например, «Города» или «Устный счет». И мы стараемся сделать нашего робота максимально удобным для детей.

Само устройство, робот Pudding, производится в Китае, а русскую версию его личности зовут Емеля. Мы прорабатываем русский контент, диалоги, сервисы. И стараемся сделать его эмоциональным – для этого у нашего робота есть несколько выражений «лица», точнее – глаз. Немного похоже на смайлики в соцсетях.

— В чем особенности создания робота для детей?

— Есть некоторые сложности, связанные с тем, что системы распознавания и синтеза речи рассчитаны, в первую очередь, на взрослых. Системе может быть сложно распознать то, что говорит ребенок, поэтому нам приходится учитывать и типичные ошибки — например, то, что «сесть» иногда может значить «шесть». Вторая особенность в том, что не только дети разговаривают не так, как взрослые, но и взрослые разговаривают с детьми по-другому. И чем младше ребенок, тем короче и эмоциональнее должны быть фразы. Сначала мы шли от общих представлений о том, что точно будет сказано: «привет», «как дела», «ты кто». И, конечно, этнография – мы разговаривали с детьми, чтобы понять, о чем они будут говорить с роботом, какие игры, книги, игрушки любят, что подходит детям разного возраста. Мы пробовали спрашивать и у родителей, но иногда оказывается, что они иначе представляют себе интересы детей и рассказывают о них. И то же самое начало происходить, когда мы стали тестировать нашего робота, приводя его к детям в гости.

Тут есть еще одна интересная особенность: если мы задаем детям вопросы при родителях, ситуация часто воспринимается как проверка: родители волнуются, что ребенок ответит неправильно, ребенок постоянно смотрит на маму «а то ли я говорю?». А нам не интересна правильность ответов как таковая, нам нужно было понимать, готовы ли дети такого возраста отвечать на такой вопрос, чтобы понять, какие диалоги вкладывать в робота. И вот что занимательно: реакция на мои ответы тоже отличается у меня и у родителей. Моя реакция обычно – какие дети умные и как далеко до них нашему роботу. Всегда находится множество непредусмотренных нами поворотов разговора.

Еще чувство справедливости у детей развито сильнее, чем у нас. Например, в нашего робота встроено несколько обучающих игр-викторин. Так вот, взрослые обычно сразу начинают играть по правилам, отвечая на вопросы, а дети считают, что все должно быть взаимно – и ответив на вопрос, тут же задают свой вопрос в ответ.

— Как дети сами воспринимают робота, как взаимодействуют с ним?

— Дети очень быстро учатся, приспосабливаются. Даже за полчаса, как только они поймут, что работает, а что нет, меняется речь: дети начинают говорить более медленно, четко, по предлагаемым роботом правилам. Кто-то из родителей даже предположил за нашим устройством богатый логопедический потенциал: как только дети обнаруживают, как нужно говорить, чтобы система распознавания речи их понимала, произношение становится совсем другим. А во второй раз они уже ведут себя как опытные пользователи. А вообще, по результатам тестов обнаружилось, что наш «идеальный пользователь» –девочка одиннадцати лет, выросшая в семье лингвистов (в первую очередь на тестирование мы звали друзей и друзей друзей, отсюда такая специализация). Чем ближе ребенок к этим характеристикам, тем быстрее он осваивает игрушку. Сложнее всего с маленькими детьми, они еще не такие вербальные. Дополнительную сложность накладывает то, что система синтеза речи не умеет воспроизводить интонации. А с маленькими детьми взрослые говорят в большой степени не словами, а интонациями – которые до сих пор представляют собой не самую простую проблему для систем синтеза и распознавания речи. Совсем маленькие дети могут просто игнорировать ровную речь робота, как фон, никак к ним не относящийся. И спокойно складывают из роботов пирамидки, пока те о чем-то беседуют между собой. И в этом случае на помощь приходит видеосвязь, через которую родители могут говорить своим привычным голосом, а могут ставить детские песни и сказки.

Что касается эмоций, Емеля – позитивный робот, веселый, максимально по-доброму расположен. Но что интересно, были дети, которые сказали, что это неправильно – они пытались его обидеть, и у них не получилось. В самом начале я говорила про границы, так вот, мы точно знаем, что дети будут пытаться как-то робота задеть, «потыкать палочкой». Другое дело, что во время первого знакомства, в присутствии взрослых, они так не делают. Зато потом, когда мы смотрим видео с камеры, результат может быть другим. И тут важно понимать, что это естественная часть общения, а не коммуникативный провал: мы просто продумываем разные сценарии на случай агрессии – игнорирование, «эльфинг» (восприятие всех неприятных фраз в позитивном ключе, в духе «какой ты смелый!») — это удивляет пользователей и поэтому довольно эффективно. В общем-то, если вы посмотрите на то, как общаются люди в соцсетях, то поймете, что споры и ссоры – это совместная деятельность, коммуникативная игра, в которой с энтузиазмом участвуют обе стороны. Так что тут есть над чем поработать. Но детского робота мы, конечно, учим не этому.

deti_vzaimodeistvuyt_s_emelei — *Дети с роботом Емелей*

— Есть ли параметры оценки успешности коммуникации?

— Общепринятой метрики качества работы чатботов нет. Все зависит от целей и задач. Когда мы разрабатываем, например, систему поддержки пользователей, она тем эффективнее, чем быстрее пользователь получает ответ и чем короче беседа. Если речь идет о роботе-компаньоне, все наоборот: чем дольше с ним общается пользователь, сохраняя интерес, тем лучше. И, в общем, дети довольно быстро понимают, что робота сложно сравнить с живым человеком. Но они сами себе достраивают те эмоции и чувства, которые, по их мнению, должны быть в разговоре.

Для того, чтобы разговор шел, мы стараемся заранее выстраивать его логику через собственные коммуникативные инициативы. Например, вопросы – очень удобный способ управления собеседником. На заданные вопросы отвечают практически все. И спектр реакций в ответах на вопросы можно сделать более предсказуемым. Можете проверить на живых людях хоть сегодня.

— Но ведь не всё удаётся учесть заранее?

Конечно, нет. Живая дискуссия всегда богаче наших представлений о том «а если он скажет так.. то мы отреагируем вот так, а если он.. то мы..». И мы отдаем себе отчет, что даже ситуация тестирования не позволяет полностью воссоздать реальное использование. Есть и проблемы, которые вообще находятся вне нашего контроля: например, когда с роботом говорят двое разных по возрасту детей – один, старший, может монополизировать общение. Младший расстраивается: почему робот его не видит? А устройство чисто технически не может отслеживать, что у него сейчас два собеседника, тем более – вести с ними беседу одновременно.

Кроме того, очень интересно наблюдать за тем, какую роль играет контекст. Одно дело, когда ребенок общается с роботом в офисной переговорке – сидя за столом, он, в общем, может только говорить, пока не устанет или не захочет подвигаться. И общение идет чисто вербальное, очень сосредоточенное. Другое дело – когда все происходит в помещении для отдыха, где есть диван, более свободная атмосфера. Там дети кричат, кувыркаются, пытаются коммуницировать с устройством при помощи жестов, куда-то его перетаскивать. Третья история – когда общение ведется дома или в детском учреждении, дети себя чувствуют свободно, и это каждый раз влияет на то, что они говорят. Еще очень интересно бывает наблюдать за тем, как дети пытаются решить ситуацию, когда устройство барахлит, как они помогают ему «выкрутиться», чтобы разговор продолжался.

— Вы программируете робота с применением машинного обучения?

— Для машинного обучения нужны образцы, а, как я уже говорила, мы сейчас работаем над совершенно новым стилем общения, и массива таких текстов попросту нет. Еще многие разработчики чатботов пытаются использовать ответы, данные одними пользователями, в общении с другими, но есть один недостаток: боты, которые учатся говорить у пользователей, очень быстро становятся грубыми. Microsoft закрыл своего бота Tay в Твиттере меньше чем через сутки, после того, как он оперативно обучился у пользователей, которые с ним разговаривали, расистскому и сексистскому юмору. И это, кстати, потенциально может стать и юридическим вопросом – если такой бот ведет себя оскорбительно, кто должен отвечать? Создатели? Но они не вкладывали в него этот контент, те пользователи, у которых он обучался? Но они не оскорбляли непосредственно того, к кому обратился бот. В общем, учитывая то, что мы делаем робота для детей, мы стараемся все контролировать.

— Расскажи, как работает Емеля?

— Емеля, в некотором роде, работает первопроходцем: на нем становится видно, какие функции для детского домашнего робота более востребованы, какие меньше, где он «работает», в большей степени, полезным бытовым прибором, а где – игрушкой, насколько он может помочь в плане мотивации, какой-то дисциплины. Например, роботу не лень напомнить ребенку о том, что надо чистить зубы, что пора идти спать. Но умные вещи – пока еще новая ниша, которая только формируется, поэтому и ожидания от девайсов, и критерии качества их работы пока только вырабатываются. Хотя когда во время тестирования мы спрашивали у детей, кого бы они предпочли в качестве домашнего питомца – робота или собаку, мнения разделились.

Образовательная робототехника со стороны ученика. Интервью Валерия Чернова о кружках, конструкторах лего и международных соревнованиях