Дослідники з MIT та MIT-IBM Computing Research Lab розробили проєкт ChartNet для навчання візуально-мовних моделей інтерпретації діаграм. Нова база даних містить понад мільйон синтетичних графіків, створених спеціальною автоматизованою системою.
Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.
Ця система переводить наявні зображення в цифровий код і модифікує їх, змінюючи тип, колір та кодовані цифрові параметри. Кожен елемент ChartNet містить код, текстовий опис, таблиці з числами, блоки запитань і відповідей, а також частину даних, яку верифікували людські експерти.

Читайте також: AERONAUT – про все, що літає вище землі: авіація, БПЛА та дрони, ракети та космос
Створення ChartNet зумовлене тим, що сучасні системи AI часто припускаються помилок під час аналізу мультимодальних даних у фінансових звітах. Розробники протестували набір даних на моделях серії Granite Vision від IBM та кількох інших безкоштовних алгоритмах з відкритим кодом. Інтеграція ChartNet покращила точність систем у завданнях із реконструкції графіків, збору інформації, формування звітів та відповідей на запитання. Малі відкриті моделі після навчання продемонстрували вищу ефективність у зборі інформації та резюмуванні трендів, ніж значно більші за розміром комерційні продукти.

Результати цієї наукової роботи будуть офіційно оприлюднені на Конференції з комп’ютерного зору та розпізнавання образів IEEE. У майбутньому автори планують масштабувати проєкт, додаючи складніші типи візуальних даних та аналізуючи відгуки наукової спільноти. Використання ChartNet допоможе невеликим компаніям з обмеженим фінансуванням безкоштовно оптимізувати аналітичні процеси та інтерпретацію наукових ілюстрацій без залучення великих обчислювальних потужностей.
Читайте також:
- AI-війна спецслужб: Китай блокує розбудову цифрової імперії США
- AI від корпоративного рівня до периферії: ASUS презентує інновації майбутнього на Computex 2026
