Nvidia представила Eureka — ИИ-агента для обучения роботов выполнять сложные физические действия

В своём блоге Nvidia рассказала про ИИ-систему Eureka, которая обучает роботов выполнять сложные физические действия. К примеру, с её помощью роботизированная рука научилась пенспиннингу, а манипулятор — открывать выдвижные ящики.

Nvidia представила Eureka — ИИ-агента для обучения роботов выполнять сложные физические действия

ИИ-агент Eureka помогает автоматизировать одну из рутинных задач в области нейросетей — разработку алгоритмов обучения с подкреплением. В исследовании отмечается, что в большинстве случаев программистам приходится вручную пробовать разные варианты вознаграждений, анализировать результат обучения и после этого корректировать алгоритм. 

Nvidia представила Eureka — ИИ-агента для обучения роботов выполнять сложные физические действия

Eureka используется GPT-4 и генеративные модели для написания кода. ИИ-агент принимает комментарии от человека и редактирует алгоритм. При этом системе понимает естественный язык и ей необязательно сообщать точные параметры, которые надо исправить. Для более эффективного обучения Eureka может анализировать большие выборки кандидатов на вознаграждение, выбирая из них лучших.

После этого система составляет сводную статистику из результатов обучения, анализируя эффективность. На основе этих данных формируются новые параметры обучения и вознаграждения. Таким образом одна нейросеть обучает другую, получая указания от разработчика.

Eureka уже испытали на моделях четвероногих роботов, двуногих, роботизированных рук и других. К примеру, система обучила роборуку пенспиннингу — быстрому жонглированию ручки пальцами. Также в исследовании опубликованы результаты обучения манипулятора открывать выдвижной ящик, а двуногого робота бегать. Все эксперименты проводились в среде Nvidia Isaac Gym.

Согласно результатам исследования, алгоритмы Eureka в 80% случаев превосходят программы, разработанные экспертами в области. Благодаря этому удалось повысить общую производительность более чем на 50%.

Источник: habr.com