DeepSeek випустила полегшену версію AI-моделі R1- Root-Nation.com

Оновлена модель штучного інтелекту R1 від DeepSeek може стати головною темою в AI-спільноті цього тижня. Китайська лабораторія випустила компактну, «дистильовану» версію – DeepSeek-R1-0528-Qwen3-8B, яка, за заявами DeepSeek, перевершує інші моделі подібного розміру в окремих тестах. За даними компанії, ця версія може працювати на одиночному GPU з 16 ГБ пам’яті.

Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.

Дослідження показали, що нова модель R1-0528 досягла вражаючих результатів у тестах, зокрема, підвищила точність у тесті AIME 2025 з 70% до 87,5%. Це свідчить про глибше розуміння та обробку запитів, зокрема, у складних задачах з математики та програмування.

Проте, тестування моделі виявило, що R1-0528 є більш цензурованою, ніж попередні версії. Зокрема, вона менш охоче відповідає на запитання, пов’язані з чутливими темами, такими як політика Китаю, що може бути пов’язано з жорсткими правилами контролю інформації в країні.

DeepSeek також зазначає, що нова модель доступна під ліцензією MIT, що дозволяє її комерційне використання без обмежень. Вже кілька сервісів, включаючи LM Studio, пропонують доступ до цієї моделі через API. Розробники можуть використовувати її для своїх проєктів, а також отримати доступ до детальної документації для інтеграції в свої програми.

Для навчання DeepSeek-R1-0528-Qwen3-8B використовували текстові дані, згенеровані оновленою моделлю R1, що допомогло точно налаштувати Qwen3-8B. На офіційній сторінці моделі на платформі Hugging Face DeepSeek позиціонує DeepSeek-R1-0528-Qwen3-8B як інструмент «для академічних досліджень моделей міркувань та промислових розробок, орієнтованих на маломасштабні моделі».

Читайте також:

Джерелоtechcrunch

Підписатися

0 Comments

Найновіше

НайстарішіНайбільше голосів

Інші статті

DeepSeek випустила полегшену версію AI-моделі R1 для конкуренції з OpenAI

Останні коментарі