• Образ жизни
  • Технологии
Технологии

Поделиться:

Петербургские программисты научили смартфон читать по губам и понимать эмоции и язык жестов! Вот, как это работает

Петербургские программисты обучили нейросеть читать по губам! Их технология позволяет правильно понять, что сказал человек в 9 из 10 случаев. Правда, пока таких результатов удалось добиться только для английского языка. Однако сейчас ученые и инженеры работают над тем, чтобы достигнуть такой же точности и для русского языка. Зачем вообще это нужно? Как может изменить жизнь людей? И какие еще проекты ведет команда исследователей? Об этом редакции «Собака.ru» рассказал научный сотрудник Федерального исследовательского центра Российской академии наук (СПб ФИЦ РАН) Денис Иванько.

KingVector ./ Shutterstock

Как вообще родилась идея обучить нейросеть читать по губам?

На самом деле эта идея далеко не такая новая, как может показаться. Еще в 1976 году было экспериментально доказано, что человек лучше понимает речь, если видит лицо собеседника. Это явление получило название эффект Мак-Гурка. Так что уже давно было ясно, что системы распознавания речи будут лучше работать, если дать им второй поток информации — данные о мимике говорящего.

Однако проблема в том, что обработка видео требует слишком много вычислительных ресурсов. До недавнего времени не было высокомощных видеокарт, чтобы обрабатывать визуальный сигнал. Не хватало вычислительных мощностей на старых смартфонах, чтобы использовать эту технологию широко. Плюс к этому не хватало данных и софта для обучения нейросетей.

Однако несколько лет назад, году в 2015—2016, компьютерное зрение стало активно развиваться. Началось огромное количество экспериментов с распознаванием дорожных знаков для беспилотных автомобилей, с распознаванием жестов для разных приложений. Все это привело к тому, что сейчас у нас есть все необходимое. Более того, учитывая тенденцию развития компьютерного зрения, стало понятно, что в скором времени такую технологию — распознавание речи по движению губ — можно будет широко использовать.

И вы взялись за решение этой задачи. Как работает ваша система?

Если на пальцах, то первый шаг — найти на изображении область интереса. Сначала программа должна найти на изображении лицо, а затем распознать область губ. Эта часть изображения вырезается и направляется в обученную нами нейросетевую модель. Та в свою очередь на выходе говорит, какая именно фраза или слово было произнесено человеком.

Здесь интересно рассказать, как мы, собственно, нейросетевую модель обучали. Проблема в том, что для русской речи существует очень мало данных, проще говоря, записей людей, которые что-то говорили бы на камеру. Поэтому изначально мы обучали нашу модель на распознавание английской речи. Там этой проблемы нет, есть большие открытые базы данных, которые используются разными группами по всему миру. Это тем более удобно, что обученные на одних и тех же данных модели легче сравнивать между собой в смысле эффективности.

В итоге мы привезли свою модель в прошлом году на Европейскую конференцию по обработке сигналов. И там наша модель показала наивысшую точность распознавания речи по губам — порядка 88,7%. Мы поняли, что наша модель адекватна, хорошо обучаема и перспективна. Тогда мы приступили к ее адаптации для русской речи.

haomskii / Shutterstock

Что было самым сложным в ходе разработки вашей модели?

Смотря что считать сложным. Наша модель использует уникальный набор архитектур нейросетей. Не скажу, что именно мы его изобрели, но мы смогли его улучшить за счет добавления функциональных блоков. Мы очень тщательно исследовали, добавление каких блоков или модулей дает нам прирост в качестве распознавания речи: позволяет лучше найти губы на лице, точнее определить, какие слова произносятся.

Есть и сложность, о которой я только что сказал, — для русской речи есть очень небольшое количество данных для обучения нейросети. Поэтому нам приходится искусственно увеличивать количество примеров для обучения нейросети.

Как это искусственно?

Мы можем взять наши видео и с помощью программ их менять: увеличивать или уменьшать масштаб, корректировать цветность, поворачивать под разными углами. За счет этого изображение для нейросети становится немного другим, и это позволяет обогатить нашу базу.

Для чего может применяться ваша технология?

Основная идея достаточно проста — добавить в системы распознавания речи возможность воспринимать не только акустическую информацию, но и визуальную. То есть сделать так, чтобы система могла анализировать и аудио, и видео сразу или в какие-то моменты переключаться между этими двумя потоками. Соответственно, чтение по губам — не самоцель (оно в любом случае будет менее точным). Наша главная задача — за счет него улучшить технологии распознавания речи.

Плюс надо понимать, что компьютерное чтение по губам много хуже работает для свободного словаря. Но нейросеть хорошо обучается таким образом понимать некоторый ограниченный набор команд. Все это определяет сферу применения, которую мы для себя определили — транспорт.

Если вы едете за рулем, обстановка в машине часто довольно шумная: может быть открыто окно, играть музыка, кто-то рядом сигналит. Все это сильно ухудшает качество распознавания речи. Если добавить видеоинформацию со встроенной камеры или смартфона, то бортовой компьютер и навигатор смогут лучше распознавать команды водителя.

Iconic Bestiary / Shutterstock

А вы уже тестировали систему в реальной машине?

Мы изначально при работе с русским языком опирались на записи водителей. Мы даже разработали специальную программу, которая позволяла безопасно записывать то, как они произносят команды. Программа озвучивала необходимое слово, а водитель должен был его повторить, не отвлекаясь от дороги.

На первых этапах в записи участвовали мы сами. Я, к примеру, в основном ездил по Васильевскому острову, где расположен наш институт СПИИРАН (Санкт-Петербургский институт информатики и автоматизации Российской академии наук, подразделение СПб ФИЦ РАН, — Прим. ред.) и произносил команды под запись. Потом, когда мы обкатали технологию записи, ее передали людям, которые не связаны с институтом. Они проговаривали команды во время езды по автостраде, во время поездок с открытыми окнами, ночью, в пасмурную погоду.

Работу системы непосредственно в машине мы тоже проверяли. Хотя все же непосредственным внедрением мы не занимаемся. Мы — научный институт, поэтому наша задача — разработать и обкатать именно методику обучения нейросети чтению по губам. Потом уже большие корпорации, если их заинтересует эта разработка, смогут обучить нашу систему на огромном массиве данных.

Когда ваша технология будет готова для того, чтобы предложить ее этим самым крупным IT-корпорациям?

Хороший вопрос, в данный момент мы сфокусированы на научной разработке. Но наш научный проект заканчивается в этом году, поэтому до декабря прототип, который можно было бы показать потенциальному заказчику, должен быть готов.

Также в следующем году мы планируем выпустить открытую библиотеку для исследователей или обычных пользователей, знакомых с методикой обучения нейросетей. Она позволит самому создать приложение для распознавания речи по губам и самому обучить его под себя, чтобы программа узнавала именно ваше лицо.

А такая технология может применяться еще для чего-то, кроме распознавания команд водителей?

Да, конечно. Применение в автомобилях — лишь частный случай, на который мы обратили внимание. Такую систему можно использовать для «умных камер» в шумных местах вроде метро, в системах «умного дома». К примеру, чтобы мой телевизор лучше понимал мои команды издалека, и мне не приходилось бы ему кричать. Конечно, необходимо решить вопрос с безопасностью данных, но в целом внедрение этой технологии значительно улучшит технику распознавания речи и ее адаптивность.

В завершение вы не могли бы сказать несколько слов о команде, которая работает над этой технологией?

Это Лаборатория речевых и многомодальных интерфейсов, которая действует в Федеральном исследовательском центре Российской академии наук. Если точнее, в рамках СПИИРАН. Нас в ней работает 12 человек, хотя в проект вовлечены и другие лаборатории, которые нам, в частности, помогают данными для обучения нейросетей.

К примеру, соседняя лаборатория занимается разработкой приложения для безопасного вождения. Они собирают записи водителей, которые мы также используем.

А над чем еще работают ваши коллеги?

Лаборатория много чего разрабатывает. Есть проекты по распознаванию эмоций на видео, по распознаванию пола и возраста. Есть отдельное направление по распознаванию жестовой речи. Мои коллеги записывают базы данных жестовой речи в павловской школе глухонемых. То есть речь идет не о чтении по губам, а о понимании языка жестов.

Также ведется работа по распознаванию малоресурсных языков (то есть тех языков, для хорошего распознавания которых пока не хватает данных или технических возможностей. — Прим. ред.). Вообще у нас в лаборатории один доктор наук и три кандидата, и каждый из них возглавляет какое-то направление работы.

Следите за нашими новостями в Telegram

Комментарии (0)

Купить журнал: