1 оны тавдугаар сарын 2024, Лхагва гараг

ширээний v4.2.1

Root NationМэдээ мэдээлэлМэдээллийн технологийн мэдээМассачусетсийн Технологийн Их сургуулийн эрдэмтэд машин сургалтын нууцыг тайлсан байна

Массачусетсийн Технологийн Их сургуулийн эрдэмтэд машин сургалтын нууцыг тайлсан байна

-

2010 оноос хойш програм хангамжийн алгоритмыг ноцтой сайжруулж эхэлсэн бөгөөд энэ нь хүчирхэг компьютеруудтай хамт мэдрэлийн сүлжээг хурдацтай хөгжүүлэхэд түлхэц өгсөн. Програм хангамжийн загваруудыг дараа нь өөрийн үйлдлийг бий болгохын тулд мянга мянган жишээн дээр сургаж, сургадаг. Өнөөдөр хамгийн алдартай мэдрэлийн сүлжээ бол энэ юм OpenAI GPT-3. Энэ бол маш олон интернет өгөгдлийн тусламжтайгаар суралцдаг, текстийн жижиг хэсгийг авч, хангалтгүй фрагментийг нэлээд өндөр түвшинд нэмж чаддаг машин сургалтын загвар юм. Энэ нь зөвхөн өгүүлэмжийн текстээс гадна шүлэг, програм хангамжийн кодын мөрүүдэд хамаарна.

Мэдрэлийн сүлжээ

Гэхдээ энэ нь энэ төлөвлөгөөний загваруудын чадах бүх зүйл биш юм. Судлаачид "контекст суралцах" гэгддэг нэгэн сонирхолтой үзэгдлийг судалж байгаа бөгөөд том хэлний загвар нь даалгаврын талаар сургагдаагүй ч хэдхэн жишээ үзээд даалгавар гүйцэтгэж сурдаг.

Массачусетсийн Технологийн Институт, Google Research, Стэнфордын их сургуулийн эрдэмтэд энэ нууцыг тайлахаар оролдож байна. Контекст сургалтын үед загварын параметрүүд шинэчлэгдээгүй тул загвар нь юу ч сурахгүйгээр шинэ даалгавар сурч байгаа юм шиг харагдаж байна.

Мэдрэлийн сүлжээ

Судлаачдын онолын үр дүнгээс харахад мэдрэлийн сүлжээнүүдийн эдгээр асар том загварууд нь тэдгээрийн дотор нуугдаж буй жижиг, энгийн шугаман загваруудыг багтаах чадвартай болохыг харуулж байна. Дараа нь том загвар нь зөвхөн том загварт агуулагдсан мэдээллийг ашиглан шинэ даалгавар гүйцэтгэхийн тулд энэ жижиг шугаман загварыг сургах энгийн алгоритмыг хэрэгжүүлж чадна.

Контекст сургалтын талаар илүү гүнзгий ойлголттой болсны ачаар эрдэмтэд үнэтэй давтан сургахгүйгээр загвараар шинэ даалгавруудыг хэрэгжүүлэх боломжтой болно. Өөрөөр хэлбэл, нэгдүгээрт, аливаа тодорхой даалгаврын хувьд сургалт явуулах үндсэн дээр олон тооны өгөгдлийг цуглуулах шаардлагатай. Тиймээс мэдрэлийн сүлжээг хэдхэн жишээгээр хангах боломжтой бөгөөд үүний ачаар сургалт явагдах болно.

"Контекст суралцах нь ойлгох шаардлагатай үндэслэлгүй үр дүнтэй сургалтын үзэгдэл юм".

Мэдрэлийн сүлжээ

Мэдрэлийн сүлжээний загварт хуучин загварт шинэ даалгавар гүйцэтгэхийг заах боломжтой жижиг машин сургалтын загварууд байдаг гэсэн таамаглал дэвшүүлсэн. Эрдэмтэд өөрсдийн онолыг шалгахын тулд архитектурын хувьд GPT-3-тай маш төстэй, гэхдээ контекстэд суралцах зорилгоор тусгайлан бүтээсэн мэдрэлийн сүлжээний загварыг авсан. Өөрөөр хэлбэл, өмнөх давхаргуудын дотор шугаман загварыг сурч, энгийн сургалтын алгоритмуудыг хэрэгжүүлдэг загварыг хэрэгжүүлсэн.

"Эдгээр үр дүн нь загвар өмсөгчид илүү төвөгтэй даалгавруудыг хэрхэн сурч болохыг ойлгох шат болж байгаа бөгөөд судлаачдад хэл ярианы загварыг сургах илүү үр дүнтэй аргуудыг боловсруулахад нь туслах болно.".

Мөн уншина уу:

Эх сурвалжcsail.mit.edu
Бүртгүүлэх
тухай мэдэгдэх
зочин

0 Сэтгэгдэл
Суулгасан тойм
Бүх сэтгэгдлийг харах