Українська LLM уже близько: на якому зараз етапі розробка

Торік Україна поставила амбітну мету – увійти до трійки світових лідерів у розвитку штучного інтелекту. Одним з ключових кроків на цьому шляху стане запуск національної великої мовної моделі, створеної та навченої на унікальних українських даних.

Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.

Розробка великої мовної моделі потребує значних ресурсів, а в умовах повномасштабної війни державні кошти передусім спрямовуються на оборону. Саме тому технічним партнером ініціативи став Київстар. Компанія бере на себе фінансування створення національної LLM, після чого модель буде передана у власність держави.

Ukrainian LLM

Українська LLM навчатиметься на сімействі моделей Gemma від Google – стратегічного партнера проєкту. Йдеться про сучасні технологічні рішення, які адаптують під українську мову, реалії та специфіку використання. А якість та надійність майбутньої мовної моделі перевірятиме незалежна група експертів з різних сфер. Вони тестуватимуть систему з погляду технічної досконалості, етичності та безпеки для користувачів, глибини володіння українською мовою, а також здатності коректно працювати з національним контекстом і чутливими темами.

Наразі команда зосереджена на найкритичнішому етапі – зборі даних для навчання LLM. Для досягнення високої якості звичайних відкритих джерел з інтернету недостатньо, тому до процесу залучені державні органи, медіа, університети та інші інституції. У результаті формується масив з терабайтів унікальних даних, який стане фундаментом для тренування моделі.

Ukrainian LLM

Паралельно з технічною частиною розробники вибудовують юридичний фреймворк, що регулює відповідальну роботу з даними, переданими для навчання. Це необхідно для захисту прав, прозорості процесів і довіри з боку партнерів та суспільства. Окремий напрям роботи – створення власних бенчмарків. Над ними вже працює експертна команда, формуючи тести, які дадуть змогу об’єктивно оцінювати якість, ефективність і безпеку мовної моделі та системно її вдосконалювати.

Уже в січні цього року команда планує мати готову першу базу текстів для тренування, удосконалений токенізатор, який пришвидшить і підвищить точність обробки української мови, а також власні інструменти для оцінки якості моделі. Наступним кроком стане запуск бета-тестування, запланований на весну 2026 року.

Ukrainian LLM

Назву для української великої мовної моделі обиратимуть самі громадяни. У січні стартує голосування в застосунку Дія, що дозволить кожному долучитися до створення національного AI не лише як користувачу, а і як співавтору.

Читайте також:

Джерелоthedigital

Підписатися

0 Comments

Найновіше

НайстарішіНайбільше голосів

Інші статті

Українська LLM уже близько: на якому етапі знаходиться розробка мовної моделі

Останні коментарі