Сотрудники МегаФона и Nlogic с помощью нейросети создали бота на основе трудов Черчилля. Он отвечает на любые вопросы - сообщает РБК.
С чего всё начиналось
МегаФон не первый год использует ботов, которые работают на основе нейронных сетей. Ранее оператор сотовой связи в партнерстве с Nlogic создали бота-юриста LegalApe. Его несколько месяцев обучали на основе информации из книг, судебных разбирательств и практических тренировок. Компании продемонстрировали работу бота на Петербургском международном юридическом форуме в 2018 году. Там LegalApe соревновался с реальным юристом - Романом Бевзенко. По итогу человек выиграл машину со счётом 243 против 178 очков. Несмотря на это, бот произвел положительное впечатление на публику.
И баттл между человеком и юридическим ботом, и интервью с исторической личностью в своей основе похожи. Эти проекты опираются на семантический поисковик, настроенный на работу в определенной тематике. Бот-юрист обучен на юридической литературе, а бота Черчилля обучали на многочисленных трудах самого британского политика.
Как шла разработка виртуального Черчилля
Разработка бота Уинстона Черчилля началась в августе 2021 года. Специалисты компаний МегаФон и Nlogic использовали для этого самые новые технологии: генеративную модель GPT-3 от компании OpenAI, которую обучали на нескольких десятках книг Черчилля. Сперва всё шло хорошо: в сообщениях бота чувствовалась стилистика Черчилля. Вместе с тем сразу же появились трудности. Первая проблема - тексты не имели внятного смысла. Они выглядели так, будто политик не хочет высказывать свое мнение, а просто уходит от ответа за счет нагромождения умных слов. Вторая проблема - это то, что виртуальный Черчилль путал факты и ошибался в датах.
После первых проб и ошибок, компании приняли решение переделать чат-бота с нуля. За основу нового подхода взяли систему фактчек, чтобы бот всегда мог подтвердить свои высказывания отсылкой к конкретной книге или выступлению Черчилля.
В результате работы получился неплохой поисковик по трудам Черчилля. Однако для проведения интервью этого было недостаточно. Поэтому разработчики стали заниматься улучшением бота: они составили датасет из нескольких тысяч вопросов на самую разную тематику. В автоматическом режиме бот генерировал ответы на вопросы, а живым людям предстояло их обработать: указать, где нейросеть справилась хорошо, а где — не очень. И это сильно помогло. На этапе тестирования полученного алгоритма выяснилось, что человек не всегда оказывается умнее машины. И это уже была маленькая победа.
На заключительном этапе разработки специалисты сделали ответы бота похожими на речь живого человека. Для этого они изучили множество интервью с известными политиками и выявили общие моменты: в ответе на вопрос человек чаще всего выражает несколько идей, никто не перечисляет их по пунктами, а связывает вместе в непрерывную речь.
А что дальше? Будущее виртуального Уинстона Черчилля
Интервью с виртуальным Черчиллем состоялось, оценить глубину его естественности вы можете сами по этой ссылке. Однако, что же будет с ботом дальше, как его можно использовать в будущем?
Разработчики не отрицали, что для них создание бота имело больше игровую цель, нежели практическую. Несмотря на это, уже сейчас есть несколько вариантов применения данной технологии. Первый и самый очевидный вариант, бот поможет сэкономить время на поиске цитат Уинстона Черчилля. Во-вторых, технология позволяет создать уже на готовой основе бота, обученного на текстах любой исторической личности — от Платона до Маркса.