18+
  • Город
  • Наука и образование
Наука и образование

Как ученые ИТМО научили искусственный интеллект распознавать ложь и дипфейки на видео?

Ученые и инженеры Университета ИТМО создали прототип системы, которая умеет выявлять ложь в речи человека, снятой на видео. Анализируя с помощью нейросетей лицо спикера, его интонации и сам его текст, алгоритм сообщает пользователю, насколько говорящему можно доверять и в какой мере человек сам уверен в том, что говорит. С помощью этого же алгоритма можно определять дипфейки. Редакция «Собака.ru» побеседовала с разработчиком системы и выяснила, как работает программа, за счет чего она смогла уличить политиков во лжи, для чего может применяться и почему идеей заинтересовался Роскомнадзор.

local_doctor

В Университете ИТМО создали прототип новой системы Expert, который, по словам разработчиков, умеет находить на видео с речью человека разного рода фейки: от прямого искажения фактов самим спикером до сложных технологий обработки записи, к примеру, наложения говорящему другого лица (дипфейков).

Работы ведут ученые и инженеры Национального центра когнитивных разработок университета. Возглавляет проект Олег Басов, доктор технических наук, профессор факультета цифровых трансформаций ИТМО.

«Эта система позволяет проанализировать видеозапись человека, которого принято считать экспертом в той или иной области, и понять, насколько его мнению можно доверять, — объяснил Басов назначение разработки редакции «Собака.ru», — Сейчас создан MVP (от англ. minimal viable product — Прим. ред.), то есть минимально жизнеспособный прототип. Он может работать как со специально загруженными в него видео, так и сам "ходить" в YouTube и искать видео с нужным человеком».

Четыре составляющие фейка

Как объясняет профессор Басов, система анализирует видео с выступлением того или иного человека по четырем комплексным характеристикам. Первая из них — конгруэнтность. «Это термин из психологии, он означает согласованность информации, передаваемой вербальным и невербальным способом, — рассказывает Олег Басов, — по сути, когда мы говорим об неконгруэнтности, то имеем в виду, что информация, выражаемая по различным каналам: мимикой, голосом, текстом, — расходится».

Также система проверяет, насколько спикер уверен в том, что говорит. «При проверках выявились интересные вещи, показатель уверенности на записях падал в определенные моменты, — поясняет Басов, — к примеру, в рассказе одного из экспертов об исследовании поведения людей на данных мобильных операторов в какой-то момент система показала резкое падение уверенности. Мы спросили спикера, в чем дело: выяснилось, он говорил, что исследование опирается на базы нескольких компаний, а на самом деле у них была только база одной компании».

Также система выявляет агрессию, причем как внешнюю, выраженную в словах и жестах, так и внутреннюю, которую спикер старается скрыть. Наконец, последним этапом является проверка на то, насколько данные, о которых говорит человек на записи, согласуются с общеизвестными представлениями о том или ином вопросе.

local_doctor

Как это работает?

Анализ видео занимает столько же времени, сколько и его воспроизведение, то есть на проверку часовой лекции уйдет около 60 минут.

В ходе анализа запись раскладывается на три составляющих: собственно видео, аудио, и транскрибированный текст. После этого нейросети анализируют все эти три потока информации по определенным характеристикам.

«Для определения уверенности система использует около 350 различных параметров, — говорит Олег Басов. — Так, лицо человека описывается сеткой из 317 точек, и нейросеть на протяжении всего видео анализирует, как они движутся, выражая те или иные эмоции. Параллельно она следит за изменением интонаций в звуковой дорожке по 16 параметрам (повышение, понижение голоса, изменение тона) и за маркерами тех или иных эмоций в распознанном тексте».

Примерно так же система анализирует агрессию и конгруэнтность. Все это позволяет выявить сознательную ложь или манипулирование мнением, однако не дает возможности говорить о компетентности эксперта (к примеру, человек может быть искренне уверен в том, что, скажем, Земля плоская). Для этого проводится анализ на непротиворечивость. «Мы загружаем в систему эталонные тексты, которым мы доверяем, касающиеся темы выступления, и система сравнивает факты из распознанной речи спикера с ними. Так мы хорошо видим, что "эксперт" со стопроцентной уверенностью говорит о том, в чем совершенно не разбирается», — объясняет принцип проверки профессор Басов.

local_doctor

Зачем это все нужно?

Сегодня система может работать с видео на русском и английском языках. Англоязычную версию проверяли на записях выступлений кандидатов на промежуточных выборах в США, которые состоятся 8 ноября (в ходе них переизбирают весь состав Палаты представителей и треть Сената). У троих из шести политиков, записи которых «пропускались» через Expert, были выявлены следы скрытой агрессии, а у одного — прямой лжи.

Аналогичные тесты проводились и на русском языке. «Так, мы проверяли записи выступлений студентов на экзамене, — говорит Олег Басов. — В среднем у них низкий уровень уверенности (что естественно на экзамене), они нервничают, но хорошо видны моменты, когда уровень уверенности резко падает еще ниже, хороший признак того, что в этом моменте студент не может точно вспомнить и пытается придумать или лихорадочно вспомнить».

Летом разработку представили на Экспертном совете Главного радиочастотного центра, подведомственного Роскомнадзору. «Нам сказали, что у нас хорошая разработка и систему ждут на тестирование», — вспоминает Олег Басов.

«Возникает вопрос, а зачем это все? — добавляет Олег Басов. — Мы разрабатывали эту систему как инструмент для оценки экспертного мнения. К примеру, когда я учился в школе у меня были Алла Ивановна и Нина Ивановна, учителя русского и математики (одна из них была еще и классной руководительницей). Я им беспрекословно верил. Они говорили мне: "Вот это хорошо, а вот это плохо". А кто сейчас учителя у современной молодежи? Блогеры. У тех, кто постарше — какие-то известные люди. Им верят тысячи людей, а наша система позволяет показать, где эти спикеры не уверены в том, что говорят, где говорят то, в чём не компетентны, где улыбаются, но при этом злятся…».

Впрочем, в ИТМО отмечают, что потребностями Роскомнадзора возможности их системы не ограничиваются. Так, ее можно использовать в организациях для проверки экспертов перед приглашением их для консультаций в компанию. При кадровом профайлинге при трудоустройстве на важные должности. Или для оценки записей переговоров. «Много случаев, когда переговоры вроде бы идут хорошо, но дальше не двигаются. Мы можем проверить запись беседы и понять, не было ли скрытой агрессии у потенциальных партнеров, были ли они уверены, когда озвучивали то или иное предложение, был ли налажен между ними психологический контакт», — добавляет Олег Басов.

Также технологию можно использовать для того, чтобы распознавать дипфейки. «Даже лучший дипфейк, который глазами не отличить от реальной записи, не может полностью воспроизвести эмоции. Получается, что голос, интонации, текст говорят об одном настроении, а "лицо" о другом», — объясняет технологию профессор Басов.

Вскоре после того, как о разработке стало известно, СМИ начали активно писать о ней. При этом со ссылкой на источники игроки IT-рынка говорили о том, что пока подобные системы в мире далеки от совершенства и часто могут ложно срабатывать. В ИТМО подтверждают, что технология пока дорабатывается, однако настаивают, что доведение системы до коммерческого прототипа может быть выполнено довольно быстро. «Это далеко не годы», — заключил руководитель проекта Олег Басов.

Следите за нашими новостями в Telegram

Комментарии (0)