Root NationTin tứcTin tức CNTTMeta cho thấy AI để tạo video dựa trên mô tả

Meta cho thấy AI để tạo video dựa trên mô tả

-

Trình tạo văn bản thành hình ảnh trí tuệ nhân tạo (AI) đã trở thành tiêu đề trong những tháng gần đây, nhưng các nhà nghiên cứu đã chuyển sang biên giới tiếp theo: trình tạo văn bản thành video được hỗ trợ bởi AI. Các nhà nghiên cứu Meta đã giới thiệu công khai một máy phát điện mới như vậy, The Verge báo cáo.

Nhóm kỹ sư học máy của Meta trình bày một hệ thống mới được gọi là Make-A-Video. Mô hình AI này cho phép người dùng nhập mô tả sơ bộ về cảnh và nó tạo ra một video ngắn phù hợp với văn bản của họ. Các video rõ ràng là giả tạo, với các vật thể mờ và hình ảnh động bị méo mó, nhưng vẫn là một thành tựu đáng kể trong lĩnh vực tạo nội dung trí tuệ nhân tạo.

Tạo video: AI

Trong bài đăng của mình trên Facebook Giám đốc điều hành Meta Mark Zuckerberg đã mô tả công việc này là một "bước tiến đáng kinh ngạc", đồng thời nói thêm: "Tạo video khó hơn nhiều so với ảnh, vì ngoài việc tạo chính xác từng pixel, hệ thống còn phải dự đoán chúng sẽ thay đổi như thế nào theo thời gian."

Tạo video: AI

Các clip kéo dài không quá năm giây và không có âm thanh, nhưng bao gồm một loạt manh mối. Mặc dù rõ ràng rằng video được tạo ra bằng máy tính, nhưng chất lượng của các mô hình AI như vậy sẽ nhanh chóng được cải thiện trong tương lai gần. Chỉ trong một vài năm, các trình tạo hình ảnh AI đã đi từ việc tạo ra những bức ảnh gần như không thể hiểu nổi sang nội dung chân thực. Và trong khi tiến độ video có thể chậm hơn do sự phức tạp gần như vô hạn của lĩnh vực chủ đề, giải thưởng cho việc tạo video liền mạch sẽ thúc đẩy nhiều tổ chức và công ty đầu tư nguồn lực đáng kể vào dự án.

Công ty cho biết họ có kế hoạch phát hành phiên bản demo của hệ thống, nhưng chưa cho biết khi nào hoặc cách thức triển khai. Trong một bài báo mô tả mô hình, các nhà nghiên cứu Meta lưu ý rằng Make-A-Video được đào tạo về các cặp chú thích hình ảnh cũng như các cảnh quay video không được gắn nhãn.

Nội dung đào tạo được lấy từ hai bộ dữ liệu, WebVid-10M và HD-VILA-100M, cùng nhau chứa hàng triệu video và kéo dài hàng trăm nghìn giờ video. Nhân tiện, điều này bao gồm cảnh quay cổ phiếu.

Các nhà nghiên cứu lưu ý rằng mô hình có nhiều hạn chế kỹ thuật, ngoài các khung hình mờ và hình ảnh động phân tán. Make-A-Video xuất ra 16 khung hình video ở độ phân giải 64 × 64 pixel, sau đó được thay đổi kích thước bằng mô hình AI riêng biệt thành 768 × 768 pixel.

Bạn có thể giúp Ukraine chiến đấu chống lại những kẻ xâm lược Nga. Cách tốt nhất để làm điều này là quyên góp quỹ cho Các lực lượng vũ trang của Ukraine thông qua Cuộc sống tiết kiệm hoặc thông qua trang chính thức NBU.

Cũng thú vị:

Dzherelotheverge
Đăng ký
Thông báo về
khách sạn

0 Nhận xét
Bài đánh giá được nhúng
Xem tất cả các bình luận