• Образ жизни
  • Технологии
Технологии

Поделиться:

«Это почти пугает»: представлен человекоподобный робот на основе ChatGPT! Сколько до появления дроидов из «Звездных войн»?

В середине марта появилось две новости, которые заставили всех обсуждать роботов: сначала компании OpenAI и Figure показали совместного андроида, работающего на базе технологий ChatGPT! Затем технологический гигант Nvidia представил проект GR00T — свою платформу для создания человекоподобных роботов, которые смогут учиться выполнять ту или иную работу, наблюдая за людьми! Кажется, до появления дроидов из «Звездных войн» или «Кибердеревни» остался один шаг? Или больше? Отвечает профессор факультета систем управления и робототехники, руководитель лаборатории BE2R ИТМО Сергей Колюбин.

Что случилось?

«ChatGPT внедрили в тело робота», «Теперь у ChatGPT есть тело» — такие заголовки появились в новостных лентах в середине марта. Так мировые СМИ отреагировали на презентацию прототипа Figure 1 — человекоподобного робота, который стал плодом сотрудничества стартапа Figure и компании OpenAI, создавшей ChatGPT. Среди инвесторов проекта такие гиганты, как Microsoft, Intel, основатель Amazon Джефф Безос.     

Хотя в коротком промо-видео не говорится ни о коммерческих перспективах Figure 1, ни о создании промышленного продукта на его основе, видео произвело фурор, набрав почти 1,5 млн просмотров меньше чем за неделю. Пользователей поразило, как робот описывает находящиеся перед ним предметы, на просьбу передать что-то съедобное реагирует тем, что дает человеку яблоко и объясняет, почему он выбрал этот предмет, одновременно собирая мусор со стола. «Этот робот-гуманоид с возможностями OpenAI почти пугает», — пишет Yahoo News.

И без того большой эффект, который произвела презентация OpenAI, через несколько дней усилила компания Nvidia, известная как один из главных производителей видеокарт на планете. Она представила свою платформу GR00T, которая должна стать основой для создания человекоподобных роботов. Самое сенсационное в анонсе проекта — обещание, что роботы сами смогут учиться движениям, наблюдая за людьми.    

Почему GR00T и Figure 1 наделали столько шума?

Сергей Колюбин, профессор ИТМО: Презентации нам действительно показывают большой прогресс, и он заключается не в том, насколько четко и быстро двигаются роботы, а в том, что появилась технология, на основе которой  решаются задачи верхнего уровня управления.

Что я имею в виду? Типичная система управления роботом строится из трех уровней. На верхнем происходит  оркестровка — это поиск причинно-следственных связей между объектами в окружающем пространстве и принятие решений, что и в какой последовательности делать. На среднем, тактическом, — идет расчет траекторий и координация конкретных движений. На нижнем — реализуется управление локальными приводами для отработки спланированного движения.

Так вот, робототехника уже давно получила методы и модели для решения задач среднего и нижнего уровней, а вот эффективных и универсальных инструментов для верхнего уровня долгое время не было. Большие языковые модели (вроде GPT) могут рассматриваться как enabling technology, то есть обеспечивающая технология, открывающая новые возможности.

Что в GROOT и Figure 1 самое впечатляющее?

Сергей Колюбин, профессор ИТМО: Многие обсуждают, что в ответ на просьбу передать что-то съедобное Figure 1 протягивает человеку яблоко. Честно скажу, мне кажется, это как раз достаточно дешевый трюк. Ранее существовавшие технологии вполне могли бы с этим справиться. Сначала надо прописать свойства для каждого класса объектов, а затем сделать так, чтобы робот, снабженный системой компьютерного зрения, соотносил результат распознавания предметов с этой "табличкой". Конечно, для этого в ней должна быть графа «съедобное/несъедобное». Хотя, конечно, здорово, что Figure 1 справляется с этой задачей очень быстро, без каких-то затыков и раздумий на несколько минут.

А вот что более интересно — это начало ролика, когда робот объясняет, что находится перед ним: вот стоит стол, рядом человек, на столе лежит яблоко. Это называется Scene understanding — понимание сцены, того, как объекты располагаются в пространстве и какие отношения их связывают. Это как раз то, что  обеспечивают технологии OpenAI в виде мультимодальных визуально-языковых моделей (VLM).

Следующим шагом в этом направлении станет создание общих моделей понимания физического мира, желательно описывающих все наши знания о законах природы не в терабайтах статистической информации, а в компактной форме, наподобие формулы второго закона Ньютона, только в интерпретируемом машиной виде. Над этим сейчас бьются многие сильные научные группы. И это, на мой взгляд, станет поворотным моментом не только в робототехнике, но и в концепции общего или сильного ИИ в целом.

Что касается заявленного в GR00T постоянного обучения в ходе наблюдения за людьми — это известный подход адаптивного или непрерывного обучения (continual learning), но здесь нужно победить проблему катастрофического забывания. Нейросети хорошо помнят то, что было недавно, но из их памяти стирается более отдаленное прошлое. Поэтому самый большой вызов как раз не в том, чтобы сделать робота, который будет постоянно учиться, наблюдая за людьми, а в том, чтобы он не забывал те навыки, которыми овладел. Способность отслеживать долгосрочные связи через механизм внимания является одним из преимуществ трансформенных моделей, на которых строится GPT. Но специалисты по когнитивным архитектурам говорят, что для воспроизведения умственных способностей человека система должна включать сразу несколько механизмов памяти: рабочей, процедурной, ассоциативной, темпоральной, короткой и длинной. Так что, возможно, в скором времени мы упремся в очередной технологический барьер, для преодоления которого придется вновь возвращаться к серьезным исследованиям.

Еще крайне интересным здесь является способ программирования роботов через методы передачи навыков (skill transfer). Сначала роботы так могут учиться кодировать навыки, просматривая демонстрации, выполняемые или контролируемые человеком, а потом еще и обмениваться этими способностями друг с другом. То есть один робот научился чему-то и может передать эти знания другому: как в фильме «Матрица» — воткнул флешку и научился летать на вертолете или овладел навыками карате. В целом это уже наметившийся тренд, и его последствия могут по-настоящему впечатлить.      

Что все это значит?

Сергей Колюбин, профессор ИТМО: Если коротко, это может серьезно продвинуть робототехнику именно с точки зрения создания автономных универсальных роботов. Не «умных машин», которые настроены под одну конкретную задачу, а именно роботов, которые обладают большим, а главное, расширяемым набором навыков и способны работать в динамическом окружении, когда пространство вокруг постоянно меняется, и нет какой-то заданной карты передвижения. Проще говоря, это может привести к появлению роботов, которые могут выполнять разные задачи в открытом мире.

Под задачами я подразумеваю сложные операции вроде теста Возняка, то есть приготовления кофе на чужой кухне или ремонта автомобиля, когда робот поднимает капот, находит неисправность и устраняет ее. Или представьте робота-работника нефтедобывающей платформы, который может перемещаться по конструкциям и проверять, нет ли где утечки. А если обнаруживается проблема, робот сам поймет, как ее устранить или минимизировать угрозу. При этом он будет опираться не на строгие инструкции, а сам решит, какие движения ему нужно совершить.

Это в свою очередь приведет к тому, что ручной труд на открытом пространстве вроде фермерства, работы лесоруба, автомеханика может быть очень серьезно автоматизирован. Куда больше, чем это представлялось совсем недавно.

То есть роботы из «Звездных войн» уже здесь?

Сергей Колюбин, профессор ИТМО: Смотря о ком речь — об R2D2 или о C3PO. Но если серьезно, то нет. Есть такое известное когнитивное искажение, когда человек переоценивает эффект от каких-то изменений в короткой перспективе и  недооценивает их влияние на долгосрочном уровне. Сейчас идет хайп по поводу возможностей генеративного ИИ, люди ждут, что все поменяется прямо сейчас. Глава Nvidia Дженсен Хуанг говорит о том, что в робототехнике настал GPT-момент и что большой прорыв прямо за углом. Я согласен, что 2024-2025-й будут полны впечатляющих достижений ИИ в робототехнике, которые способны затмить поднадоевшие “болталки” и “рисовалки”, но есть нюансы.

Как робототехник я совершенно четко понимаю, что как только вы пытаетесь масштабировать какое-то решение, поместить его в физическое пространство, то требования к его функционированию, надежности и безопасности очень заметно вырастают. Вы можете сколько угодно радоваться, когда в ходе демонстрации чат-бот в 50% случаев отвечает лучше, чем человек, но вряд ли кто-то согласится купить робота, который верно выполняет лишь каждую вторую просьбу.

Кроме того, сейчас стало очевидно, что  мозги роботов развиваются быстрее, чем тело — приводы, датчики, сенсоры. Соответственно, рывок нужен и здесь. Поэтому я бы стал ждать появления каких-то понятных и успешных применений автономных мультизадачных роботов в течение ближайших лет 5–7. Кстати, вовсе не обязательно, чтобы они были полностью антропоморфными. Да, наша среда построена под человека, но не следует отказываться от возможности придать роботу тот вид, который может наилучшим образом помочь ему выполнять ту или иную функцию.

И в завершение хотелось бы сказать еще одну вещь. На примере ChatGPT и творческих профессий мы увидели, что технологии не заменили человека, а скорее профессионалы получили очень удобный инструмент для работы — нейросети заменили лишь неквалифицированный труд в этих областях. Вполне возможно, что то же самое произойдет и с ручным трудом благодаря интеллектуальным роботам.


Сергей Колюбин

Профессор факультета систем управления и робототехники, руководитель лаборатории BE2R ИТМО:

Если подводить итог, могу ли я сказать, что меня настолько впечатлили премьеры GR00T и Figure 1? Возможно, у меня профессиональная деформация, но все же нет. Как говорится, свои дети растут незаметно. Я занимаюсь робототехникой давно и постоянно слежу за новостями из этой области. Поэтому пока я вижу хороший прогресс, но все же не революцию.

При этом надо понимать, что появление у искусственного интеллекта своего «тела» — это дорога с двусторонним движением. Это не просто означает, что робототехника сразу расцветет пышным цветом. Если вы устанавливаете ИИ на физических агентов, то это позволяет вам собрать куда больше информации о физическом мире. Эти данные в свою очередь позволят вам обогатить технологии ИИ и дадут возможность подступиться к совершенно иному классу задач. Именно это, кажется, вызывает большой интерес таких игроков, как Microsoft, Google, Tesla, OpenAI. В России задачу выйти на международный технологический паритет в этой области решает Центр робототехники Сбера с партнерами, с которым мы активно сотрудничаем.

Комментарии (0)

Купить журнал:

Выберите проект: