Root NationСтаттіВійськова техніка та зброяВід нуля до AI: Як 19-річний українець створює систему комп'ютерного зору для FPV-дронів

Від нуля до AI: Як 19-річний українець створює систему комп’ютерного зору для FPV-дронів

-

© ROOT-NATION.com - Використання цього контенту на інших сайтах дозволено лише за умови розміщення зворотного посилання на оригінальну сторінку.

blank

Цей матеріал отримано через Програму підтримки стартапів, редакція не несе відповідальності за достовірність викладених у статті фактів та даних, по всім питання прохання звертатись до автора та розробника.

Ще декілька тижнів тому 19-річний українець Олександр Шинкаренко майже нічого не знав про машинне навчання. А сьогодні він керує AI-проєктом, який розпізнає військові цілі з відеозаписів дронів з точністю 79%. Розробник поділився з Root-Nation історією проєкту “Ворон”. Це система комп’ютерного зору, створена за 48 годин з нульовим бюджетом. Автор використовував лише Google Colab, open-source інструменти та штучний інтелект, щоб навчити себе… створювати штучний інтелект.

Ворон

“Два тижні тому я побачив відео, де нейронні мережі відстежують цілі з відеопотоку FPV-дронів. Це було захоплююче – і породило питання: якщо інші можуть це робити, чому Україна не може мати власні рішення? На той момент мій досвід у ML/CV був практично нульовим, – ділиться Олександр Шинкаренко. – Все, що я знав про нейронні мережі, походило з кількох статей та відео на YouTube. Але я вирішив, що найкращий спосіб навчитися – почати будувати”. Розробник збирав відео, витягував кадри, вручну анотував цілі. Частину матеріалу записав сам, а частину взяв з відкритих джерел. Це був його перший досвід створення датасету для комп’ютерного зору.

Два тижні кропіткої роботи

Для анотації хлопець використав CVAT (Computer Vision Annotation Tool). Це відкрита платформа, яка дозволяє розмічати об’єкти у відео та зображеннях. Щоправда, процес виявився набагато складнішим, ніж очікувалося. Кожен кадр вимагав ретельного аналізу: намалювати bounding box навколо об’єкта, призначити йому правильний клас. Автор розмітив п’ять категорій:

  • Людина
  • Броньована техніка
  • Легка військова техніка
  • Дрон
  • Автомобіль (цивільний та військовий).

Ворон

На анотацію даних пішло два тижні, але ця виснажлива робота стала фундаментом всього проєкту, оскільки якість моделі безпосередньо залежить від якості датасету. “Я перевіряв кожен кадр двічі, виправляючи помилки та уточнюючи межі об’єктів. Найбільшим викликом було робити це вперше. Без досвіду, без ментора, – зізнається Олександр. – Мені довелося самостійно шукати відповіді: як правильно розмічати частково закриті об’єкти? Що робити з розмитими кадрами? Як працювати з малими об’єктами на горизонті?” В результаті двотижневої роботи в автора був готовий датасет для експериментів.

А коли дані були готові, розробник вирішив перевірити, чи зможе створити робочу модель з нуля за 48 годин. Це був свідомий виклик – мінімум сну, мінімум перерв, повна концентрація на одній меті. Олександр встановив чіткі межі: 48 годин на тренування двох моделей різної складності та порівняння їхніх результатів.

Технологічний стек

Розробник працював з Python 3 та використовував OpenCV для обробки зображень та підготовки відео. А для самої моделі було обрано відкритий фреймворк для задач виявлення об’єктів Ultralytics YOLO. YOLO (You Only Look Once) – це сімейство архітектур нейронних мереж, які спеціалізуються на швидкому розпізнаванні об’єктів у реальному часі. Для порівняння було обрано дві архітектури:

  • YOLOv8s (Small) для швидкого прототипу v0.1 (легка модель, розроблена для максимальної швидкості)
  • YOLOv8m (Medium) для потужнішої моделі v0.2, яка мала показати кращі результати розпізнавання.

Ворон

Тренування проводилися в Google Colab з GPU T4. Це безплатне, але потужне середовище дозволяє швидко експериментувати без власного дорогого обладнання. Автор вважає це рятівним колом для студента чи самоучки, у якого немає доступу до коштовних серверів.

Тренування моделей: цифри та факти

“Я тренував обидві моделі протягом 100 епох. Епоха – це один повний прохід через весь датасет під час тренування, – каже Олександр. – Більше епох дозволяють моделі краще “вивчити” дані, але також збільшують ризик перенавчання”.

Ворон

mAP (mean Average Precision) – це стандартна метрика для оцінки моделей виявлення об’єктів. Вона показує, наскільки точно модель знаходить об’єкти й наскільки правильно визначає їхні межі. Результат v0.2 з mAP@50 = 0.794 означає, що модель правильно ідентифікує близько 80% об’єктів з прийнятною точністю. Для моделі, створеної за 2 доби самоучкою без досвіду, це досить солідний результат.

Різниця між v0.1 і v0.2

Основна відмінність між двома моделями – обсяг тренувальних даних. Модель v0.1 тренувалась на 2100 зображеннях і слугувала швидким “proof of concept”. Вона тренувалась лише 40 хвилин. Модель v0.2 мала доступ до 13890 зображень, і це дозволило їй навчитися розпізнавати об’єкти в більш різноманітних умовах: різні висоти польоту, різні пори доби, різні погодні умови, різні кути огляду. Час тренування v0.2 перевищив 7 годин.

Якщо подивитися на те, як моделі “бачать”, різниця очевидна: v0.1 часто “сліпа” до цілей, пропускає об’єкти або неправильно їх класифікує.

Ворон

Але v0.2 стабільно розпізнає об’єкти у відеозаписах, навіть коли вони частково приховані або на складному фоні.

Ворон

Розробник зазначає, що не писав код з нуля, але керував усім іншим: готував та анотував кадри, налаштовував конфігурації YOLO, обирав оптимальні гіперпараметри тренування та тренував моделі, проводив аналіз метрик та вибір архітектури, а також тестував модель на реальних відео. У Олександра немає формальної IT-освіти, і його основним джерелом знань були AI-асистенти. “За два тижні я пройшов шлях від повного новачка до людини, яка може самостійно тренувати модель комп’ютерного зору з пристойними метриками, – зазначив він. – Це доводить, що бар’єр входу в ML/CV сьогодні значно нижчий, ніж здається”.

Тестування та поточні обмеження

Поки що всі тести проводились на записаних відео, а не в реальному часі. Модель ще не інтегрована в систему керування дроном і не працює в бойових умовах. Мета цього етапу – довести, що українські розробники навіть без значних ресурсів можуть створювати такі рішення. Це proof of concept, демонстрація можливостей та перший крок до чогось більшого.

Швидкість обробки на GPU T4 становить приблизно 38 FPS для обох моделей. Це достатньо швидко для застосування в реальному часі, але в реальних умовах швидкість може знизитись через додаткові системні затримки, обробку сигналу камери, передачу даних тощо.

Чому “Ворон”?

Назва має глибоке символічне значення. Компанія Олександра називається “Сварог” на честь давнього слов’янського бога-коваля, і розробник хотів, щоб усі проєкти мали українські назви, пов’язані з культурою та історією України. У слов’янській міфології ворон символізує мудрість, пророцтво та здатність бачити те, що приховано від інших. Ворони мають гострий зір та можуть помітити найдрібніші деталі.

Крім того, у багатьох культурах ворони асоціюються з полями битв, охоронцями та провідниками. Тому “Ворон” є ідеальною назвою для системи комп’ютерного зору, призначеної допомогти українським військовим бачити краще, швидше та точніше.

Етика та відповідальність

Створення технологій для військового застосування завжди несе етичні питання, тому розробник зробив для себе кілька висновків. По-перше, він вирішив, що модель не буде open-source, а всі передачі відбуватимуться тільки під NDA (угодою про нерозголошення). Також перед будь-якою реальною імплементацією розробник працюватиме над системами захисту, які максимізують безпеку цивільних. Модель повинна розпізнавати лише військові об’єкти та уникати хибних спрацювань на цивільних транспортних засобах, будівлях або людях у невійськовому одязі. Він передаватиме технологію лише українським військовим структурам після ретельної перевірки.

Ворон

Мета Олександра – зрозуміти, як AI може справді допомогти військовим. Оператор дрона працює в екстремальних умовах, часто вночі або в поганих погодних умовах, внаслідок чого увага може розсіюватися, і він може пропустити ціль. AI не втомлюється та аналізує кожен кадр з однаковою увагою, як на першій хвилині, так і на п’ятій годині. Якщо навчити дрон бачити чіткіше, швидше та стабільніше, це може врятувати життя українських воїнів та цивільних.

v0.3 “Нічний зір”

“Ворон” – це доказ того, що в Україні технологічні інновації народжуються швидко й ефективно. Наступний етап – v0.3, модель, яка може розпізнавати об’єкти в тепловому спектрі. Теплові камери дозволяють бачити об’єкти в повній темряві, крізь дим, туман або деяку рослинність.

Слідкувати за розробкою “Ворона” можна у Telegram-каналі Олександра за цим посиланням.

Читайте також:

Svitlana Anisimova
Svitlana Anisimova
Канцелярська маніячка, шалена читачка, люблю все, в чому є борошно, цукор та любовна лінія. На 80% складаюся з guilty pleasure.
Підписатися
Сповістити про
guest

0 Comments
Найновіше
НайстарішіНайбільше голосів
Підписатися на оновлення
Останні коментарі