پس از سال 2010، بهبود جدی الگوریتمهای نرمافزاری آغاز شد و این امر به همراه رایانههای قدرتمند، انگیزهای برای توسعه سریع شبکههای عصبی ایجاد کرد. مدلهای نرمافزاری بر اساس هزاران نمونه آموزش داده میشوند تا بعداً اقدامات خود را شکل دهند. امروزه معروف ترین شبکه عصبی همین است OpenAI GPT-3. این یک مدل یادگیری ماشینی است که با کمک بسیاری از داده های اینترنتی یاد می گیرد، می تواند یک قطعه کوچک از متن را بگیرد و یک قطعه ناکافی را در سطح نسبتاً بالایی اضافه کند. و این نه تنها در مورد متن روایی، بلکه اشعار و همچنین خطوط کد نرم افزار نیز صدق می کند.
اما این همه آن چیزی نیست که مدل های این طرح قادر به انجام آن هستند. محققان در حال مطالعه یک پدیده جالب به نام "یادگیری در زمینه" هستند که در آن یک مدل زبان بزرگ می آموزد که یک کار را تنها پس از دیدن چند نمونه انجام دهد، حتی اگر در مورد آن کار آموزش ندیده باشد.
دانشمندان موسسه فناوری ماساچوست، تحقیقات گوگل و دانشگاه استنفورد در تلاش برای حل این معما هستند. با یادگیری زمینهای، پارامترهای مدل بهروزرسانی نمیشوند، بنابراین به نظر میرسد که مدل در حال یادگیری یک کار جدید بدون یادگیری چیزی است.
نتایج نظری محققان نشان میدهد که این مدلهای عظیم شبکههای عصبی میتوانند مدلهای خطی کوچکتر و سادهتری را در درون خود پنهان کنند. سپس مدل بزرگ می تواند یک الگوریتم ساده را برای آموزش این مدل خطی کوچکتر برای انجام یک کار جدید، تنها با استفاده از اطلاعات موجود در مدل بزرگتر، پیاده سازی کند.
به لطف درک عمیق تر از یادگیری زمینه ای، دانشمندان قادر خواهند بود وظایف جدید را با مدل ها بدون بازآموزی گران قیمت اجرا کنند. یعنی ابتدا برای هر کار خاص، باید مجموعهای از دادهها را جمعآوری کرد که بر اساس آن آموزش انجام میشود. و بنابراین ارائه شبکه عصبی تنها با چند نمونه امکان پذیر خواهد بود که به لطف آنها آموزش انجام می شود.
"یادگیری زمینه ای یک پدیده یادگیری غیرمنطقی موثر است که نیاز به درک دارد.".
این فرضیه وجود دارد که مدلهای یادگیری ماشین کوچکتری در مدلهای شبکه عصبی وجود دارد که میتوانند به یک مدل قدیمیتر برای انجام یک کار جدید آموزش دهند. برای آزمایش نظریه خود، دانشمندان یک مدل شبکه عصبی را انتخاب کردند که از نظر معماری بسیار شبیه به GPT-3 است، اما به طور خاص برای یادگیری در زمینه ساخته شده بود. یعنی در داخل لایه های قبلی مدلی پیاده سازی شد که به یادگیری یک مدل خطی و پیاده سازی الگوریتم های یادگیری ساده مشغول بود.
این نتایج یک پله برای درک اینکه چگونه مدلها میتوانند وظایف پیچیدهتری را بیاموزند هستند و به محققان کمک میکنند تا روشهای مؤثرتری برای آموزش مدلهای زبانی برای بهبود عملکردشان توسعه دهند.».
همچنین بخوانید: