دانشمندان MIT معمای یادگیری ماشینی را حل کردند

پس از سال 2010، بهبود جدی الگوریتم‌های نرم‌افزاری آغاز شد و این امر به همراه رایانه‌های قدرتمند، انگیزه‌ای برای توسعه سریع شبکه‌های عصبی ایجاد کرد. مدل‌های نرم‌افزاری بر اساس هزاران نمونه آموزش داده می‌شوند تا بعداً اقدامات خود را شکل دهند. امروزه معروف ترین شبکه عصبی همین است OpenAI GPT-3. این یک مدل یادگیری ماشینی است که با کمک بسیاری از داده های اینترنتی یاد می گیرد، می تواند یک قطعه کوچک از متن را بگیرد و یک قطعه ناکافی را در سطح نسبتاً بالایی اضافه کند. و این نه تنها در مورد متن روایی، بلکه اشعار و همچنین خطوط کد نرم افزار نیز صدق می کند.

اما این همه آن چیزی نیست که مدل های این طرح قادر به انجام آن هستند. محققان در حال مطالعه یک پدیده جالب به نام "یادگیری در زمینه" هستند که در آن یک مدل زبان بزرگ می آموزد که یک کار را تنها پس از دیدن چند نمونه انجام دهد، حتی اگر در مورد آن کار آموزش ندیده باشد.

دانشمندان موسسه فناوری ماساچوست، تحقیقات گوگل و دانشگاه استنفورد در تلاش برای حل این معما هستند. با یادگیری زمینه‌ای، پارامترهای مدل به‌روزرسانی نمی‌شوند، بنابراین به نظر می‌رسد که مدل در حال یادگیری یک کار جدید بدون یادگیری چیزی است.

نتایج نظری محققان نشان می‌دهد که این مدل‌های عظیم شبکه‌های عصبی می‌توانند مدل‌های خطی کوچک‌تر و ساده‌تری را در درون خود پنهان کنند. سپس مدل بزرگ می تواند یک الگوریتم ساده را برای آموزش این مدل خطی کوچکتر برای انجام یک کار جدید، تنها با استفاده از اطلاعات موجود در مدل بزرگتر، پیاده سازی کند.

به لطف درک عمیق تر از یادگیری زمینه ای، دانشمندان قادر خواهند بود وظایف جدید را با مدل ها بدون بازآموزی گران قیمت اجرا کنند. یعنی ابتدا برای هر کار خاص، باید مجموعه‌ای از داده‌ها را جمع‌آوری کرد که بر اساس آن آموزش انجام می‌شود. و بنابراین ارائه شبکه عصبی تنها با چند نمونه امکان پذیر خواهد بود که به لطف آنها آموزش انجام می شود.

"یادگیری زمینه ای یک پدیده یادگیری غیرمنطقی موثر است که نیاز به درک دارد.".

این فرضیه وجود دارد که مدل‌های یادگیری ماشین کوچک‌تری در مدل‌های شبکه عصبی وجود دارد که می‌توانند به یک مدل قدیمی‌تر برای انجام یک کار جدید آموزش دهند. برای آزمایش نظریه خود، دانشمندان یک مدل شبکه عصبی را انتخاب کردند که از نظر معماری بسیار شبیه به GPT-3 است، اما به طور خاص برای یادگیری در زمینه ساخته شده بود. یعنی در داخل لایه های قبلی مدلی پیاده سازی شد که به یادگیری یک مدل خطی و پیاده سازی الگوریتم های یادگیری ساده مشغول بود.

این نتایج یک پله برای درک اینکه چگونه مدل‌ها می‌توانند وظایف پیچیده‌تری را بیاموزند هستند و به محققان کمک می‌کنند تا روش‌های مؤثرتری برای آموزش مدل‌های زبانی برای بهبود عملکردشان توسعه دهند.».

همچنین بخوانید:

منبعcsail.mit.edu

ثبت نام

0 نظرات

بررسی های جاسازی شده

مشاهده همه نظرات

مقالات دیگر

دانشمندان موسسه فناوری ماساچوست معمای یادگیری ماشینی را حل کردند

نظرات اخیر