Оновлена модель штучного інтелекту R1 від DeepSeek може стати головною темою в AI-спільноті цього тижня. Китайська лабораторія випустила компактну, «дистильовану» версію – DeepSeek-R1-0528-Qwen3-8B, яка, за заявами DeepSeek, перевершує інші моделі подібного розміру в окремих тестах. За даними компанії, ця версія може працювати на одиночному GPU з 16 ГБ пам’яті.
Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.
Дослідження показали, що нова модель R1-0528 досягла вражаючих результатів у тестах, зокрема, підвищила точність у тесті AIME 2025 з 70% до 87,5%. Це свідчить про глибше розуміння та обробку запитів, зокрема, у складних задачах з математики та програмування.

Проте, тестування моделі виявило, що R1-0528 є більш цензурованою, ніж попередні версії. Зокрема, вона менш охоче відповідає на запитання, пов’язані з чутливими темами, такими як політика Китаю, що може бути пов’язано з жорсткими правилами контролю інформації в країні.
DeepSeek також зазначає, що нова модель доступна під ліцензією MIT, що дозволяє її комерційне використання без обмежень. Вже кілька сервісів, включаючи LM Studio, пропонують доступ до цієї моделі через API. Розробники можуть використовувати її для своїх проєктів, а також отримати доступ до детальної документації для інтеграції в свої програми.

Для навчання DeepSeek-R1-0528-Qwen3-8B використовували текстові дані, згенеровані оновленою моделлю R1, що допомогло точно налаштувати Qwen3-8B. На офіційній сторінці моделі на платформі Hugging Face DeepSeek позиціонує DeepSeek-R1-0528-Qwen3-8B як інструмент «для академічних досліджень моделей міркувань та промислових розробок, орієнтованих на маломасштабні моделі».
Читайте також:
- Україна вперше застосувала дрон-матку на базі AI
- Відеоогляд ігрового ноутбука Acer Predator Helios Neo 16 AI (PHN16-73)
