Модель штучного інтелекту Phi від Microsoft – маленька, дешева і не страждає “галюцинаціями”. Ось що кажуть про нову мовну модель, якій пророкують чудове майбутнє.
GPT абсолютно чудовий, але він, в той же час, жахливо дорогий, крім того, він не може бути ідеальним для всіх і кожного. З цих та багатьох інших причин Microsoft експериментує з набагато меншими моделями штучного інтелекту. Кажуть, що Phi-3-mini може навіть посоромити роботу інженерів OpenAI.
Також цікаво: Транзистори майбутнього: На нас чекає нова ера чипів
ChatGPT – це винахід, який фінансується, курується та вдосконалюється Microsoft. Власне, він належить не Microsoft, а компанії OpenAI, якою Microsoft не володіє (вона є провідним, хоча і не найбільшим, інвестором). Мовна модель GPT дала Microsoft гігантську перевагу перед рештою великих технологічних корпорацій, які зараз поспішають надолужити згаяне. Однак проблем з GPT величезна кількість, багато з яких поки що неможливо вирішити.
Перш за все, це дуже ресурсомістка мовна модель. Веб-орієнтований Microsoft Copilot або ChatGPT від OpenAI генерують дуже високі операційні витрати для Microsoft. Це особливість не лише GPT, а й усіх великих мовних моделей. Крім того, GPT, як і його конкуренти, має схильність до “галюцинацій”, тобто може генерувати відповіді на запити, які містять хибну або оманливу інформацію. Чим більше даних поглинає така модель, тим більше вона схильна генерувати подібний контент. Тому галюцинації і хибні твердження не є висмоктаним з цифрового пальця міфом. Користувачі нерідко відмічають, що великі мовні моделі часто помиляються, дають неточні дані, оперують неіснуючими фактами.
Обидві проблеми дуже серйозні, саме тому OpenAI, Microsoft, Meta, Google та інші працюють над розробкою не лише технології Large Language Model, а й Small Language Model, яка на практиці може давати набагато кращі результати.
Цифровому помічнику бухгалтера не обов’язково багато знати про квантову фізику. Він може бути набагато меншим і менш складним (а отже, дешевшим), і, тренуючись лише на даних, необхідних для його призначення, теоретично повинен менше галюцинувати. Хоча, це легше сказати, ніж зробити. Технологія GenAI все ще залишається “диким заходом” ІТ. І хоча робота просувається безпрецедентними темпами, практично зробити прориви з принципових питань все одно важко. Але компанія Microsoft нещодавно оголосила про такий прорив. Мова про малу мовну модель Microsoft Phi.
Також цікаво: Як Тайвань, Китай і США борються за технологічне домінування: велика війна чипів
В першу чергу, слід зауважити, що експеримент проводився без участі компанії OpenAI. Тобто, це розробка саме інженерів Microsoft.
Моделі Microsoft Phi – це серія малих мовних моделей (SLM), які досягають виняткових результатів у різноманітних тестах. Перша модель, Phi-1, мала 1,3 мільярда параметрів і досягла найкращих результатів кодування на Python серед існуючих SLM.
Потім розробники зосередилися на розумінні мови та мисленні, створивши модель Phi-1.5, яка також мала 1,3 мільярда параметрів і показала продуктивність, порівнянну з моделями у п’ять разів більшими за параметрами.
Phi-2 — це модель з 2,7 мільярдами параметрів, яка демонструє видатні здібності до мислення і розуміння мови, працюючи на рівні найкращих базових моделей з 13 мільярдами параметрів. Phi-2 виділяється серед інших моделей завдяки своїм інноваціям у масштабуванні моделей та навчанні кураторству даних.
Вона доступна у каталозі моделей Azure AI Studio, який сприяє дослідженням і розробкам у галузі мовних моделей. Phi-2 була випущена у грудні 2023 року. Розробники запевняють, що вона працює так само добре, як Mistral або llama 2 від Meta. А Phi-3 працює ще краще, ніж попередня версія.
Однак модель Phi-3, яка тільки що була анонсована, є абсолютно новою за якістю. Принаймні, про це можна судити з інформації, наданої Microsoft. За запевненнями компанії, згідно з показниками усіх відомих бенчмарків, Phi-3 працює краще, ніж будь-яка інша модель аналогічного розміру, в тому числі, в аналізі мови, роботі з програмування або математичній роботі.
Phi-3-mini, найменший варіант цієї моделі, щойно став доступним для всіх зацікавлених осіб. Тобто, він доступний вже з 23 квітня. Phi-3-mini має 3,8 мільярда параметрів і, згідно з вимірами Microsoft, вдвічі ефективніша, ніж будь-яка інша модель такого ж розміру. Її можна буде знайти в каталозі ШІ-моделей хмарного сервісу Microsoft Azure, платформі моделей машинного навчання Hugging Face та фреймворку для запуску моделей на локальному комп’ютері Ollama.
Як стверджує Microsoft, для Phi-3-mini не потрібні потужні чипи Nvidia. Модель може працювати на звичайних комп’ютерних чипах. Або поміститися навіть на телефон, який не під’єднаний до інтернету.
Менша потужність означає й те, що моделі будуть не такі точні. Phi-3 не підійдуть для медиків чи податківців, але допоможуть у простіших завданнях. Наприклад, для таргетування реклами чи узагальнення відгуків в інтернеті.
Оскільки менші моделі потребують менше обробки, їхнє використання буде дешевшим для приватних компаній. Тобто у Microsoft з’явиться більше клієнтів, які хотіли б залучити ШІ у свою роботу, але вважали це надто дорогим. Однак поки незрозуміло, скільки вони коштуватимуть.
Поки що не відомо, коли з’являться моделі small і medium. Але остання буде потужнішою та дорожчою. Хоча вже відомо, що Phi-3-small матиме 7 млрд параметрів, а Phi-3-medium аж 14 млрд параметрів.
Читайте також:
GPT-4 Turbo вимагає потужних чипів для штучного інтелекту, які коштують поки що дуже дорого. Мала мовна модель Phi-3 може працювати в автономному режимі, без хмари, навіть за допомогою чипа на мобільному телефоні.
Phi-3 – це не продукт для кінцевих користувачів, а технологія, яку розробники зможуть використовувати і впроваджувати в свої програми – як хмарні, тобто, віддалено розміщені, а так і ті, що працюють локально і офлайн. Передбачається, що він безперебійно працюватиме з пристроями та їхніми компонентами, такими як мобільні телефони, автомобілі та їх інформаційно-розважальні системи, або навіть датчики Інтернету речей. У деяких сценаріях ця технологія може виявитися безцінною.
Microsoft навіть наводить конкретний приклад, щоб нам не доводилося напружувати свою уяву. Уявіть собі фермера, який оглядає свої посіви і бачить ознаки хвороб на листках, стеблах і гілках. Перебуваючи далеко від телекомунікаційних щогл, йому потрібно буде лише дістати телефон, сфотографувати пошкодження, помістити його в застосунок, який використовує технологію Phi-3 – і модель швидко та офлайн проаналізує фото та надасть поради, як саме боротися з цією хворобою.
Як пояснює Microsoft, ключ до успіху GPT полягав у залученні величезної кількості даних для навчання. З такими великими масивами даних не може бути й мови про високу якість даних. Тим часом, при навчанні моделі Phi використовувався абсолютно протилежний OpenAI підхід. Замість того, щоб наповнювати модель інформацією, основна увага приділялася поступовому та ретельному навчанню.
Замість того, щоб використовувати необроблені інтернет-дані, дослідники Microsoft створили набір даних TinyStories, згенерувавши мільйони мініатюрних “дитячих” історій. Ці історії використовувалися для тренування дуже маленьких мовних моделей. Потім дослідники пішли далі, створивши набір даних CodeTextbook, який використовував ретельно відібрані, загальнодоступні дані, що були відфільтровані за освітньою цінністю та якістю контенту. Потім ці дані фільтрувалися кілька разів і поверталися назад у велику мовну модель (LLM) для подальшого синтезу.
Все це дозволило створити масив даних, достатній для навчання більш здібного SLM. Крім того, в процесі розробки моделі Phi-3 був використаний багаторівневий підхід до управління ризиками та мінімізації, включаючи оцінку, тестування та ручне коригування. В результаті, як стверджує Microsoft, розробники, що використовують сімейство моделей Phi-3, можуть скористатися набором інструментів, доступним в Azure AI, для створення більш безпечних і надійних застосунків.
Читайте також: Телепортація з наукової точки зору та її майбутнє
Зовсім ні. Малі мовні моделі (SLM), навіть якщо вони навчені на високоякісних даних, мають свої обмеження і не призначені для глибокого засвоєння знань. Великі мовні моделі (LLM) перевершують SLM у складних міркуваннях завдяки своєму розміру та обчислювальній потужності. LLM є і залишатимуться особливо корисними в таких областях, як, наприклад, відкриття ліків, де потрібно шукати у величезних колекціях наукових робіт і аналізувати складні закономірності. З іншого боку, SLM можна використовувати для простіших завдань, таких як узагальнення основних моментів документа з довгим текстом, створення контенту, або забезпечення роботи чат-ботів служби підтримки клієнтів.
Microsoft, за її словами, вже внутрішньо використовує гібридні набори моделей, де LLM бере на себе провідну роль, спрямовуючи певні запити, які вимагають меншої обчислювальної потужності, на SLM, в той час як сама вона опрацьовує інші, більш складні запити. Рhi позиціонуються для обчислень на пристроях, без використання хмари. Однак все одно існуватиме розрив між малими мовними моделями та рівнем інтелекту, який можна отримати за допомогою великих моделей у хмарі. Ця прогалина, завдяки постійному розвитку LLM, навряд чи зникне найближчим часом.
Phi-3 ще має бути перевірений зовнішніми незалежними сторонами. Microsoft іноді говорить про у 25 разів більш високу ефективність або енергоефективність в крайніх випадках, в порівнянні з конкурентами, що звучить досить-таки казково. Хоча, з іншого боку, не можна забувати, що за ці роки Microsoft трохи відучила нас від того, що вона є явним лідером в IT-інноваціях, і, можливо, саме тому ми цьому не дуже віримо. Програми на основі штучного інтелекту, які миттєво реагують і працюють в автономному режимі, а не генерують? Це було б гідною кульмінацією нинішньої революції. На жаль, є одна ключова проблема.
Читайте також: Все про чип Neuralink Telepathy: що це таке і як працює
Phi-3 масово не пожирав петабайти, кинуті в його бік. Ретельне і скрупульозне навчання моделі передбачає одну незначну проблему. Phi-3 пройшов навчання з інформацією англійською мовою і поки що не має уявлення про жодну іншу мову. Не тільки українську, але й німецьку, іспанську, французьку або китайську. Звичайно, це значно знижує його привабливість для більшості користувачів по всьому світу.
Але в Microsoft запевнили, що ведеться робота над його розвитком і удосконаленням. Хоча не варто обманювати себе тим, що український ринок є пріоритетним для будь-якої з великих корпорацій. Тому на підтримку української мови прийдеться чекати дуже довго. Але ж цей факт ніколи не зупиняв ентузіастів і тих, хто хоче йти в ногу з прогресом.
Читайте також:
Leave a Reply