Москва, Россия — 25 июля 2024 г.
Ученые из лаборатории исследований искусственного интеллекта (ИИ) T-Bank AI Research и Института AIRI разработали первую
в мире модель в области контекстного обучения (In-Context Learning), которая умеет самостоятельно обучаться новым действиям
всего на нескольких примерах.
Ранее ИИ-системы умели выполнять только фиксированный набор действий, а при появлении новых задач должны были переобучаться
с нуля. Это требовало дополнительных финансовых и вычислительных ресурсов, чтобы дообучить ИИ для практического применения.
Теперь же открытие российских ученых позволяет создавать ИИ-системы, которые будут адаптироваться к изменениям внешней среды
и новым задачам без участия человека. Решение поможет в различных областях: от космических аппаратов до домашних
роботов-помощников.
Разработанная российскими учеными модель, названная Headless-AD, умеет выполнять в пять раз больше действий, чем заложено
в нее при обучении.
Один из потенциальных сценариев применения такой модели — создание персональных роботов-помощников по дому. Они могут
быть обучены на стандартном наборе действий и выполнять одни и те же задачи в каждом доме. Модель Headless-AD,
в свою очередь, предполагает возможность адаптации к индивидуальному контексту и особенностям быта, что позволяет домашним роботам
без переобучения осваивать новые действия, необходимые для быта каждого отдельного домохозяйства. Другой пример применения модели — адаптация
беспилотного автомобиля, который будет способен работать после замены детали, даже если она имеет другой принцип работы. Например, при установке
двигателя с более сильной тягой или новой шины.
Результаты исследования были признаны мировым научным
сообществом и представлены на одной из самых престижных и крупных конференций в области ИИ — международной конференции
по машинному обучению ICML (International Conference on Machine Learning), которая в этом году проходит в 41-й раз
в Вене, Австрия.
Рис. 1. Модель Headless-AD может работать с различными типами действий независимо от их количества
и комбинации: теми, на которых ее обучали, и теми, с которыми она сталкивается впервые
Суть открытия
Обучение в контексте (In-Context Learning) — это одна из самых перспективных областей в сфере искусственного
интеллекта. Оно позволяет ИИ-агентам адаптироваться к новым ситуациям без необходимости повторного обучения.
Теоретически ИИ-агенты должны уметь адаптироваться к окружающей среде по четырем компонентам:
- Состояние (State) — то, что агент видит или знает о текущей ситуации.
- Переход (Transition) — изменение состояния агента.
- Награда (Reward) — оценка выполненного агентом действия, может быть положительной или отрицательной.
- Действие (Action) — доступные агенту способы взаимодействия со средой.
Ранее ИИ-агенты умели адаптироваться по первым трем компонентам. Например, беспилотные автомобили адаптируются к меняющимся
погодным условиям (State), скорости движения (Transition) и пунктам назначения (Reward). Последняя из этих компонент — адаптация
по действиям (Action) — не была до конца изучена и не использовалась в создании моделей. Агенты умели выполнять
только фиксированный набор действий, а при появлении новых требовали переобучения с нуля.
Ученые из T-Bank AI Research и AIRI решили эту проблему, создав модель Headless-AD, которая научилась
адаптироваться к окружающей среде по действиям. Для этого они взяли за основу модель дистилляции алгоритма (Algorithm Distillation,
AD), ранее самую передовую разработку в In-Context Learning. Однако ее применение ограничено только тем набором действий, что
доступен на этапе обучения.
Headless-AD была создана на основе AD с помощью трех модификаций:
-
Отказ от конечного линейного слоя, который ранее ограничивал количество и набор доступных действий, — отсюда
название Headless-AD.
-
Кодировка действий случайными векторами - позволяет избежать необходимости дообучения для каждого нового
действия, обеспечивая автоматическую адаптацию.
- Внедрение контекста, который позволяет информировать модель о доступных действиях.
Результаты экспериментов
Было проведено несколько экспериментов, сравнивающих Headless-AD и ближайшие аналоги на разных задачах. Например,
в модели рекомендательных систем «Контекстуальные бандиты» задача агента — рекомендовать пользователю наиболее подходящие товары.
Headless-AD может рекомендовать в пять раз больше товаров по сравнению с тем количеством, которому ее обучали.
В то время как модель AD требует переобучения для каждого нового набора товаров и не способна достигать исходного качества
при увеличении их количества.
При этом адаптация Headless-AD к новым действиям происходит без потери качества. Задача «Многорукие бандиты», где требуется найти
оптимальное действие за наименьшее количество попыток, показала, что Headless-AD работает на уровне специализированного
алгоритма, созданного конкретно под эту задачу.
Рис. 1. Сравнение качества работы Headless-AD с AD, специализированным алгоритмом Thompson Sampling и случайным
агентом (Random). График c кумулятивной ошибкой показывает, насколько далеко предсказание модели от идеального варианта. Искривление
графика вниз говорит о том, что с каждым новым шагом модель совершает меньше ошибок.
Другие эксперименты также подтвердили, что Headless-AD способна к выполнению любой комбинации и количества действий, при этом
сохраняя качество их выполнения и не затрачивая дополнительные вычислительные ресурсы. Это делает применение ИИ более быстрым
и дешевым.
Подробное описание модели и результаты экспериментов доступны в статье
In-Context Reinforcement Learning for Variable Action Spaces.
Исходный код и дополнительные материалы можно найти
на GitHub.
Лаборатория T-Bank AI Research
T-Bank Al Research — это одна из немногих российских лабораторий, которые занимаются фундаментальными научными
исследованиями на базе бизнеса. Лаборатория входит в состав Центра искусственного интеллекта Т-Банка.
Ученые из T-Bank Al Research исследуют наиболее перспективные области ИИ: обработку естественного языка (NLP), компьютерное
зрение (CV) и рекомендательные системы (RecSys). По результатам экспериментов они пишут научные статьи для наиболее авторитетных
международных научных конференций: NeurIPS, ICML, ACL, CVPR и других.
За три года существования команды более 20 статей были приняты на крупнейшие конференции и воркшопы в области ИИ. Научные работы
T-Bank Al Research цитируются учеными из университетов Беркли и Стэнфорда, а также исследовательского проекта
Google по изучению искусственного интеллекта Google DeepMind.
Команда курирует исследовательские лаборатории T-Bank Lab в МФТИ и Omut AI в. Центральном университете
и помогает талантливым студентам совершать научные открытия.