Після 2010 року почалося серйозне вдосконалення програмних алгоритмів, і це разом із потужними комп’ютерами дало поштовх до бурхливого розвитку нейронних мереж. Програмні моделі тренуються і навчаються на тисячах прикладів для формування згодом своїх власних дій. Сьогодні найвідоміша нейронна мережа – це OpenAI GPT-3. Це модель машинного навчання, яка навчається за допомогою безлічі інтернет-даних, може брати невеликий фрагмент тексту і дописувати недостатній фрагмент на досить високому рівні. І це стосується не лише тексту оповідального характеру, а й віршів, а також рядків програмного коду.
Але це не все, на що здатні моделі подібного плану. Дослідники вивчають цікавий феномен, відомий як “навчання в контексті”, при якому велика мовна модель вчиться виконувати завдання, побачивши лише кілька прикладів, незважаючи на те, що вона не була навчена цьому завданню.
Вчені з Массачусетського технологічного інституту, Google Research та Стенфордського університету прагнуть розгадати цю таємницю. При контекстному навчанні параметри моделі не оновлюються, тому створюється враження, що модель вивчає нове завдання, взагалі нічого не вивчаючи.
Теоретичні результати дослідників показують, що ці масивні моделі нейронних мереж здатні містити дрібніші і простіші лінійні моделі, заховані всередині них. Потім велика модель може реалізувати простий алгоритм для навчання цієї меншої лінійної моделі задля виконання нового завдання, використовуючи тільки інформацію, що вже міститься у більшій моделі.
Завдяки глибшому розумінню контекстного навчання, вчені зможуть реалізувати виконання нових завдань моделями без дорогого перенавчання. Тобто спочатку для будь-якої специфічної задачі необхідно попередньо зібрати великий масив даних, на базі яких відбуватиметься навчання. А так можна буде надати нейронній мережі лише кілька прикладів, завдяки яким і відбудеться навчання.
“Контекстне навчання – це необґрунтовано ефективне явище навчання, яке необхідно зрозуміти”.
Було висунуто гіпотезу, що в моделях нейронних мереж є дрібніші моделі машинного навчання, які можуть навчати виконанню нового завдання старшу модель. Для перевірки своєї теорії вчені взяли модель нейронної мережі, яка за своєю архітектурою дуже схожа на GPT-3, але була побудована спеціально для навчання в контексті. Тобто всередині більш ранніх шарів була реалізована модель, яка займалася навчанням лінійної моделі, реалізуючи прості алгоритми навчання.
“Ці результати є сходинкою до розуміння того, як моделі можуть вивчати складніші завдання, і допоможуть дослідникам розробити ефективніші методи навчання мовних моделей для подальшого підвищення їхньої продуктивності”.
Читайте також: