Научниците од МИТ ја решија мистеријата за машинското учење

По 2010 година започна сериозно подобрување на софтверските алгоритми, а тоа заедно со моќните компјутери даде поттик за брзиот развој на невронските мрежи. Софтверските модели се обучуваат и обучуваат на илјадници примери за подоцна да формираат свои акции. Денес, најпознатата невронска мрежа е оваа OpenAI GPT-3. Ова е модел за машинско учење кој учи со помош на многу интернет податоци, може да земе мал фрагмент од текст и да додаде недоволен фрагмент на прилично високо ниво. И ова се однесува не само на наративниот текст, туку и на песните, како и на линиите на софтверски код.

Нервна мрежа

Но, ова не е сè за што се способни моделите на овој план. Истражувачите проучуваат интересен феномен познат како „учење во контекст“, во кој голем јазичен модел учи да извршува задача откако видел само неколку примери, иако не бил обучен за таа задача.

Научниците од Технолошкиот институт во Масачусетс, Google Research и Универзитетот Стенфорд се обидуваат да ја решат оваа мистерија. Со контекстуално учење, параметрите на моделот не се ажурираат, па се чини дека моделот учи нова задача без воопшто да научи ништо.

Нервна мрежа

Теоретските резултати на истражувачите покажуваат дека овие масивни модели на невронски мрежи се способни да содржат помали и поедноставни линеарни модели скриени во нив. Големиот модел потоа може да имплементира едноставен алгоритам за да го обучи овој помал линеарен модел да извршува нова задача, користејќи ги само информациите веќе содржани во поголемиот модел.

Благодарение на подлабоко разбирање на контекстуалното учење, научниците ќе можат да спроведат нови задачи со модели без скапа преквалификација. Односно, прво, за која било конкретна задача, потребно е да се соберат голем број податоци врз основа на кои ќе се одвива обуката. И така ќе може да се обезбеди на невронската мрежа само неколку примери, благодарение на кои ќе се одвива обука.

„Контекстуалното учење е неразумно ефективен феномен на учење што треба да се разбере“.

Нервна мрежа

Се претпоставува дека постојат помали модели на машинско учење во моделите на невронски мрежи кои можат да научат постар модел да извршува нова задача. За да ја тестираат својата теорија, научниците зедоа модел на невронска мрежа кој е многу сличен во архитектурата со GPT-3, но е направен специјално за учење во контекст. Односно, внатре во претходните слоеви, беше имплементиран модел, кој се занимаваше со учење на линеарен модел, имплементирање на едноставни алгоритми за учење.

„Овие резултати се отскочна штица за разбирање како моделите можат да научат посложени задачи и ќе им помогнат на истражувачите да развијат поефикасни методи за обука на јазични модели за дополнително да ги подобрат нивните перформанси..

Прочитајте исто така:

Jerelocsail.mit.edu

Пријавете се

0 коментари

Вградени критики

Прикажи ги сите коментари

Други статии

Научниците од Технолошкиот институт во Масачусетс ја решија мистеријата на машинското учење

Неодамнешни коментари