100 наименее популярных профессий в Америке
Jul 09, 2023100 наименее популярных профессий в Америке
Oct 23, 2023Глава Snowy Hydro признал, что на составление подземных карт было потрачено 100 миллионов долларов, прежде чем начались проблемы с туннелями
Aug 10, 202310 бушующих металлических каверов классического агро 80-х
May 25, 202313 гениальных кухонных инструментов, о которых вы даже не подозревали
Aug 20, 2023Решение машины
Изображения для загрузки на веб-сайте офиса новостей MIT предоставляются некоммерческим организациям, прессе и широкой публике в соответствии с некоммерческой лицензией Creative Commons «С указанием авторства». Вы не можете изменять предоставленные изображения, кроме как обрезать их до нужного размера. При воспроизведении изображений необходимо использовать кредитную линию; если оно не указано ниже, укажите авторство изображений в «MIT».
Предыдущее изображение Следующее изображение
Большие языковые модели, такие как GPT-3 от OpenAI, представляют собой массивные нейронные сети, способные генерировать текст, похожий на человеческий, от поэзии до программного кода. Эти модели машинного обучения, обученные с использованием большого количества интернет-данных, берут небольшой фрагмент входного текста, а затем прогнозируют текст, который, скорее всего, будет следующим.
Но это еще не все, на что способны эти модели. Исследователи изучают любопытный феномен, известный как контекстное обучение, при котором большая языковая модель учится выполнять задачу, просмотрев всего несколько примеров — несмотря на то, что она не была обучена для этой задачи. Например, кто-то может передать модели несколько примеров предложений и их настроения (положительные или отрицательные), а затем подсказать новое предложение, и модель сможет дать правильное мнение.
Обычно такую модель машинного обучения, как GPT-3, необходимо переобучить с использованием новых данных для этой новой задачи. В ходе процесса обучения модель обновляет свои параметры по мере обработки новой информации для изучения задачи. Но при контекстном обучении параметры модели не обновляются, поэтому создается впечатление, что модель изучает новую задачу, вообще ничего не изучая.
Ученые из Массачусетского технологического института, Google Research и Стэнфордского университета стремятся разгадать эту тайну. Они изучали модели, очень похожие на модели больших языков, чтобы увидеть, как они могут обучаться без обновления параметров.
Теоретические результаты исследователей показывают, что эти массивные модели нейронных сетей способны содержать в себе более мелкие и простые линейные модели. Затем большая модель может реализовать простой алгоритм обучения для обучения этой меньшей линейной модели выполнению новой задачи, используя только информацию, уже содержащуюся в более крупной модели. Его параметры остаются фиксированными.
«Являясь важным шагом на пути к пониманию механизмов контекстного обучения, это исследование открывает двери для дальнейшего изучения алгоритмов обучения, которые могут реализовать эти большие модели», — говорит Экин Акюрек, аспирант компьютерных наук и ведущий автор статьи, исследующей это явление. Благодаря лучшему пониманию контекстного обучения исследователи смогут позволить моделям выполнять новые задачи без необходимости дорогостоящего переобучения.
«Обычно, если вы хотите точно настроить эти модели, вам нужно собрать данные, специфичные для предметной области, и выполнить некоторые сложные инженерные работы. Но теперь мы можем просто ввести в него пять примеров, и он выполнит то, что мы хотим. Итак, в -Контекстное обучение — это неоправданно эффективный феномен обучения, который необходимо понять», — говорит Акюрек.
В работе над статьей к Акюреку присоединяются Дейл Шурманс, научный сотрудник Google Brain и профессор компьютерных наук в Университете Альберты; а также старшие авторы Джейкоб Андреас, доцент X-консорциума факультета электротехники и информатики Массачусетского технологического института и член Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL); Тенгю Ма, доцент кафедры информатики и статистики в Стэнфорде; и Дэнни Чжоу, главный научный сотрудник и директор по исследованиям Google Brain. Исследование будет представлено на Международной конференции по обучению представлений.
Модель внутри модели
По словам Акюрека, в исследовательском сообществе машинного обучения многие учёные пришли к выводу, что большие языковые модели могут выполнять контекстное обучение благодаря тому, как они обучаются.
Например, GPT-3 имеет сотни миллиардов параметров и был обучен путем чтения огромных объемов текста в Интернете, от статей в Википедии до сообщений на Reddit. Таким образом, когда кто-то показывает примеры моделей новой задачи, он, вероятно, уже видел что-то очень похожее, поскольку его набор обучающих данных включал текст с миллиардов веб-сайтов. Он повторяет шаблоны, которые видел во время обучения, вместо того, чтобы учиться выполнять новые задачи.