banner
Дом / Новости / Далеко
Новости

Далеко

Jan 18, 2024Jan 18, 2024

Изображения для загрузки на веб-сайте офиса новостей MIT предоставляются некоммерческим организациям, прессе и широкой публике в соответствии с некоммерческой лицензией Creative Commons «С указанием авторства». Вы не можете изменять предоставленные изображения, кроме как обрезать их до нужного размера. При воспроизведении изображений необходимо использовать кредитную линию; если оно не указано ниже, укажите авторство изображений в «MIT».

Предыдущее изображение Следующее изображение

Представьте себе, что две команды сражаются на футбольном поле. Игроки могут сотрудничать для достижения цели и соревноваться с другими игроками с конфликтующими интересами. Вот как работает игра.

Создание агентов искусственного интеллекта, которые могут научиться конкурировать и сотрудничать так же эффективно, как люди, остается острой проблемой. Ключевой задачей является предоставление агентам ИИ возможности предвидеть будущее поведение других агентов, когда все они учатся одновременно.

Из-за сложности этой проблемы современные подходы, как правило, близоруки; агенты могут только угадывать следующие несколько ходов своих товарищей по команде или конкурентов, что в конечном итоге приводит к снижению производительности.

Исследователи из Массачусетского технологического института, Лаборатории искусственного интеллекта MIT-IBM Watson и других организаций разработали новый подход, который дает агентам ИИ дальновидную перспективу. Их система машинного обучения позволяет кооперативным или конкурирующим агентам ИИ учитывать, что будут делать другие агенты, когда время приближается к бесконечности, а не просто в течение нескольких следующих шагов. Затем агенты соответствующим образом адаптируют свое поведение, чтобы влиять на будущее поведение других агентов и прийти к оптимальному долгосрочному решению.

Эта система может использоваться группой автономных дронов, работающих вместе, чтобы найти потерявшегося туриста в густом лесу, или беспилотными автомобилями, которые стремятся обеспечить безопасность пассажиров, предвидя будущие движения других транспортных средств, движущихся по оживленному шоссе.

«Когда агенты ИИ сотрудничают или конкурируют, самое главное — это когда их поведение сходится в какой-то момент в будущем. На этом пути встречается множество временных моделей поведения, которые не имеют большого значения в долгосрочной перспективе. Достижение такого совмещенного поведения это то, что нас действительно волнует, и теперь у нас есть математический способ реализовать это», — говорит Донг-Ки Ким, аспирант Лаборатории систем информации и принятия решений (LIDS) Массачусетского технологического института и ведущий автор статьи, описывающей эту структуру.

Старший автор — Джонатан П. Хау, профессор аэронавтики и астронавтики Ричарда К. Маклорена и член лаборатории искусственного интеллекта MIT-IBM Watson AI. В число соавторов входят другие сотрудники MIT-IBM Watson AI Lab, IBM Research, Мила-Квебекского института искусственного интеллекта и Оксфордского университета. Исследование будет представлено на конференции по нейронным системам обработки информации.

Больше агентов, больше проблем

Исследователи сосредоточились на проблеме, известной как мультиагентное обучение с подкреплением. Обучение с подкреплением — это форма машинного обучения, в которой агент ИИ учится методом проб и ошибок. Исследователи вознаграждают агента за «хорошее» поведение, которое помогает ему достичь цели. Агент адаптирует свое поведение, чтобы максимизировать это вознаграждение, пока в конечном итоге не станет экспертом в выполнении задачи.

Но когда одновременно обучается множество взаимодействующих или конкурирующих агентов, ситуация становится все более сложной. Поскольку агенты все больше учитывают будущие шаги своих коллег-агентов и то, как их собственное поведение влияет на других, проблема вскоре требует слишком больших вычислительных мощностей для эффективного решения. Вот почему другие подходы фокусируются только на краткосрочной перспективе.

«ИИ действительно хотят подумать об окончании игры, но они не знают, когда игра закончится. Им нужно подумать о том, как продолжать адаптировать свое поведение к бесконечности, чтобы они могли победить в какой-то отдаленный момент в будущем. Наша статья, по сути, предлагает новую цель, которая позволит ИИ думать о бесконечности», — говорит Ким.

Но поскольку невозможно включить бесконечность в алгоритм, исследователи разработали свою систему так, чтобы агенты сосредоточились на будущей точке, где их поведение сойдется с поведением других агентов, известной как равновесие. Точка равновесия определяет долгосрочную эффективность агентов, и в многоагентном сценарии может существовать несколько состояний равновесия. Следовательно, эффективный агент активно влияет на будущее поведение других агентов таким образом, что они достигают желаемого равновесия с точки зрения агента. Если все агенты влияют друг на друга, они сходятся к общей концепции, которую исследователи называют «активным равновесием».