Команда Apple з машинного навчання спільно з дослідниками з Нанкінського університету і Гонконзького університету науки та технологій розробила 3D AI-модель Matrix3D, за допомогою якої можна відтворювати 3D-об’єкти та сцени на основі лише кількох 2D-фотографій.
Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.
Matrix3D належить до категорії великих фотограмметричних моделей. Фотограмметрія використовує фотографії для отримання інформації про об’єкти та проведення вимірювань для створення 3D-моделей або карт. Наразі цей процес включає використання різних моделей для оцінки пози та прогнозування глибини, що може призвести до неточностей.
Matrix3D дає змогу виконати ці операції за один раз. Вона бере до уваги зображення, параметри камери (такі, як кут і фокусна відстань), дані про глибину та обробляє їх за допомогою єдиної архітектури. Це не тільки спрощує процес, а й підвищує точність.
Для навчання Matrix3D використовувалася стратегія маскованого навчання, в рамках якого дослідники приховували частину даних, що змусило модель навчитися заповнювати прогалини. Цей метод є ключовим, оскільки він дає змогу проводити ефективне навчання моделі навіть із меншими або неповними наборами даних.
У результаті, маючи всього три вхідні зображення, Matrix3D може генерувати докладні 3D-реконструкції об’єктів і навіть цілих середовищ, що могло б знайти застосування в імерсивних гарнітурах, таких як Apple Vision Pro.
Дослідники розмістили вихідний код Matrix3D на GitHub. Вони також створили вебсайт, на якому можна детальніше ознайомитися з можливостями нової ШІ-моделі.
Читайте також:
- Apple розробляє дешевшу гарнітуру Vision Pro і планує конкурувати з Meta
- Євросоюз оштрафував Apple і Meta на €700 млн за порушення Акту про цифрові ринки