MIT alimləri maşın öyrənməsinin sirrini həll etdilər

2010-cu ildən sonra proqram təminatı alqoritmlərinin ciddi təkmilləşdirilməsinə başlanıldı və bu, güclü kompüterlərlə birlikdə neyron şəbəkələrinin sürətli inkişafına təkan verdi. Proqram modelləri sonradan öz hərəkətlərini formalaşdırmaq üçün minlərlə nümunə üzərində öyrədilir və öyrədilir. Bu gün ən məşhur neyron şəbəkəsi budur OpenAI GPT-3. Bu, çoxlu İnternet məlumatlarının köməyi ilə öyrənən, mətnin kiçik bir hissəsini götürə və kifayət qədər yüksək səviyyədə qeyri-kafi fraqment əlavə edə bilən bir maşın öyrənmə modelidir. Və bu, təkcə povest mətninə deyil, həm də şeirlərə, eləcə də proqram kodu sətirlərinə aiddir.

Ancaq bu, bu planın modellərinin bacara biləcəyi bütün bunlar deyil. Tədqiqatçılar "kontekstdə öyrənmə" kimi tanınan maraqlı bir fenomeni öyrənirlər ki, bu zaman böyük bir dil modeli yalnız bir neçə nümunəni gördükdən sonra tapşırığı yerinə yetirməyi öyrənir, baxmayaraq ki, tapşırıq üzrə təlim keçməmişdir.

Massaçusets Texnologiya İnstitutu, Google Araşdırmaları və Stenford Universitetinin alimləri bu sirri açmağa çalışırlar. Kontekstual öyrənmə ilə model parametrləri yenilənmir, ona görə də görünür ki, model heç nə öyrənmədən yeni tapşırığı öyrənir.

Tədqiqatçıların nəzəri nəticələri göstərir ki, neyron şəbəkələrin bu kütləvi modelləri onların içərisində gizlənmiş daha kiçik və daha sadə xətti modelləri ehtiva edə bilir. Böyük model daha sonra yalnız daha böyük modeldə olan məlumatdan istifadə edərək, bu kiçik xətti modeli yeni bir tapşırığı yerinə yetirmək üçün öyrətmək üçün sadə bir alqoritm tətbiq edə bilər.

Kontekstli öyrənmənin daha dərindən dərk edilməsi sayəsində alimlər bahalı yenidən hazırlıq tələb etmədən modellərlə yeni tapşırıqları həyata keçirə biləcəklər. Yəni, birincisi, hər hansı bir konkret tapşırıq üçün təlimin keçiriləcəyi əsasında çoxlu məlumat toplamaq lazımdır. Beləliklə, neyron şəbəkəni yalnız bir neçə nümunə ilə təmin etmək mümkün olacaq, bunun sayəsində təlim baş verəcəkdir.

"Kontekstli öyrənmə başa düşülməli olan əsassız effektiv öyrənmə hadisəsidir".

Neyron şəbəkə modellərində köhnə modelə yeni tapşırığı yerinə yetirməyi öyrədə bilən daha kiçik maşın öyrənmə modellərinin olduğu fərz edilib. Nəzəriyyələrini yoxlamaq üçün alimlər arxitektura baxımından GPT-3-ə çox oxşar olan, lakin kontekstdə öyrənmək üçün xüsusi olaraq qurulmuş neyron şəbəkə modelini götürdülər. Yəni, əvvəlki təbəqələrin içərisində xətti modeli öyrənməklə, sadə öyrənmə alqoritmlərini həyata keçirməklə məşğul olan bir model tətbiq edilmişdir.

"Bu nəticələr modellərin daha mürəkkəb tapşırıqları necə öyrənə biləcəyini başa düşmək üçün bir addımdır və tədqiqatçılara performanslarını daha da təkmilləşdirmək üçün dil modellərini öyrətmək üçün daha effektiv metodlar hazırlamağa kömək edəcək.".

Həmçinin oxuyun:

Jerelocsail.mit.edu

Qeydiyyatdan keçmək

0 Şərhlər

Daxil edilmiş rəylər

Bütün şərhlərə baxın

Digər məqalələr

Massaçusets Texnologiya İnstitutunun alimləri maşın öyrənməsinin sirrini həll ediblər

Son şərhlər