Когда-то давно OpenAI занимались направлением Robotics, но его пришлось закрыть. Ilya Sutskever
говорил, что основной преградой были данные — реальные или синтетические — для обучения роботов. В последнее время всё больше и больше прорывов случается именно в этой области — я уже писал и про
RT-X, и про
работу из Berkeley, и вот даже вчерашний пост был про обучение навыкам из 50 демонстраций.
Вчера DeepMind дропнули блогпост «
Shaping the future of advanced robotics», где описывают сразу 3 (!) работы, которые лягут в основу следующей
Foundational Model. Мне захотелось поделиться с вами одной очень интересной.
AutoRT: Harnessing large models to better train robotsAutoRT — система, использующая существующие модели для масштабируемого развертывания
флота роботов в совершенно новых сценариях с минимальным контролем человека (💀 может не надо?). Давайте по порядку:
1. Робот катается по месту и снимает окружение на камеру
2. Vision-Language-Model (VLM) делает описание пространства
3. LLM генерирует текстовое описание задачи, с которой роботу нужно справиться
4. LLM описывает пошаговый процесс выполнения задачи
5. Описание подвергаются критике со стороны другой LLM, использующей — ВНИМАНИЕ — конституцию, обеспечивающую более безопасное поведение. И да, часть конституции — это пересказывание Законов Азимова (но также добавляется и описание робота, что у него одна рука — поэтому критик будет убирать задачи, требующие двух робо-кутяп)
6. Прошедшие критику и автоматически отобранные задачи передаются роботу на исполнение
7. Данные собираются в общий пул, который может использоваться для дообучения роботов (а пока просто оценивается разнообразие датасета)
Система предусматривает, что для малой части задач может вмешаться человек (скажем, отсматривать 10% задач), но это необязательный компонент.
Как вы понимаете, система не зависит от количества роботов, и может запускаться параллельно на огромном флоте — в случае DeepMind это было всего лишь 20 машинок. Можно оставить 100500 роботов на складе на полгода — и появятся и грузчики, и прорабы, и (наверное) халтурщики, коротающую смену в кафе.
Очень жду RT-3, обученную на десятках тысяч разных задач — ведь из
прошлых работ мы знаем, что это существенно увеличивает качество и поднимает планку «понимания» роботом ситуаций и инструкций. Ну и ждём симметричного ответа от Tesla до конца. 2024 🙂