Gemini là gì: Tất cả về mô hình AI mới của Google

Google vừa ra mắt mô hình AI mạnh mẽ nhất từ trước đến nay Gemini. Cô ấy là gì và cô ấy có thể làm gì? Về mọi thứ trong bài viết của chúng tôi.

Google đã phát triển các công cụ AI của riêng mình trong nhiều năm. Với việc phát hành rộng rãi ChatGPT-3 từ OpenAI, công ty điều hành công cụ tìm kiếm phổ biến nhất thế giới cũng đã tạo ra một công cụ tương tự, Bard. Nhưng công cụ này vẫn thua đối thủ, điều mà Google không thể cho phép. Vì vậy, không có gì ngạc nhiên khi thế giới gần đây đã biết đến Gemini, một mô hình ngôn ngữ mới của Google mà chúng tôi đã tìm hiểu trong buổi thuyết trình.

Nó được thiết kế không chỉ để cải thiện LLM (Mô hình ngôn ngữ lớn) trước đây của gã khổng lồ mà còn mang đến những khả năng hoàn toàn mới trong lĩnh vực xử lý văn bản, đồ họa và âm thanh.

Vì vậy, chúng ta hãy xem xét kỹ hơn mô hình ngôn ngữ Google Gemini mới.

Cũng thú vị: Dự án OpenAI Q*: nó là gì và tại sao dự án lại là mối quan tâm

NỘI DUNG

1. Google Song Tử là gì?

2. Ai đã tạo ra mô hình này?

3. Những cơ hội

4. Có nhiều phiên bản khác nhau?

5. Làm thế nào để truy cập Song Tử?

6. Song Tử tại Google Bard: Điều gì sẽ thay đổi?

7. Song Tử trên điện thoại thông minh Google Pixel

8. Gemini khác với các mô hình AI khác như GPT-4 như thế nào?

9. Lo ngại về tính chính xác và khách quan

10. Tương lai là với Song Tử

Google Song Tử là gì?

Đây là một mô hình trí tuệ nhân tạo mới và mạnh mẽ của Google, có thể hiểu không chỉ văn bản mà còn cả hình ảnh, video và âm thanh. Mô hình đa phương thức này được mô tả là có thể thực hiện các nhiệm vụ phức tạp trong toán học, vật lý và các lĩnh vực khác, cũng như hiểu và tạo mã chất lượng cao bằng nhiều ngôn ngữ lập trình.

Gemini hiện có sẵn thông qua tích hợp với Google Bard và Google Pixel 8 và sẽ dần dần được đưa vào các dịch vụ khác của Google.

"Gemini là kết quả của nỗ lực hợp tác lớn giữa các nhóm Google, bao gồm cả các đồng nghiệp của chúng tôi tại Google Research," — Dennis Hassabis, Giám đốc điều hành và đồng sáng lập của Google DeepMind cho biết. "Nó được xây dựng từ đầu để trở thành đa phương thức, nghĩa là nó có thể khái quát hóa và hiểu, vận hành và kết hợp các loại thông tin khác nhau một cách liền mạch, bao gồm văn bản, mã, âm thanh, hình ảnh và video."

- Quảng cáo -

Cũng thú vị: Không phải mọi thứ chúng ta gọi là AI đều thực sự là trí tuệ nhân tạo. Đây là những gì bạn cần biết

Ai đã tạo ra mô hình này?

Như bạn có thể đã đoán, Gemini được tạo ra bởi Google và Alphabet, công ty mẹ của Google và là mô hình AI tiên tiến nhất của công ty cho đến nay. Bộ phận DeepMind của Google cũng có đóng góp đáng kể cho sự phát triển của nó. Vẫn chưa biết có bao nhiêu nhân viên đã tham gia vào quá trình phát triển và số tiền được phân bổ cho việc này, nhưng biết được khả năng của Google, chúng tôi có thể chắc chắn rằng có một số tiền rất lớn.

Cũng thú vị: Windows 12: Hệ điều hành mới sẽ là gì?

Những cơ hội

Như tôi đã lưu ý ở trên, đây là một mô hình đa phương thức, nghĩa là nó có thể hiểu, vận hành và kết hợp các loại dữ liệu khác nhau, bao gồm văn bản, mã, âm thanh, hình ảnh và video. Nó cung cấp kỹ năng hiểu biết, tư duy và mã hóa tốt hơn so với các hệ thống AI trước đây.

Các khả năng chính của mô hình là:

Xử lý ngôn ngữ tự nhiên cho các tác vụ như dịch thuật, tóm tắt và đối thoại
Tư duy toán học và giải quyết vấn đề
Khả năng tạo mã và tài liệu
Hiểu hình ảnh, âm thanh và video
Đa nhiệm trong các lĩnh vực khác nhau

Như bạn có thể thấy, khả năng vượt trội so với các mô hình khác.

Trong các bài kiểm tra khả năng hiểu ngôn ngữ, tư duy toán học và mã hóa, Gemini Ultra vượt trội hơn các mẫu máy như GPT-4. Đặc biệt, đây là mô hình đầu tiên vượt trội hơn hiệu suất ở cấp độ con người trong bài kiểm tra Hiểu ngôn ngữ đa nhiệm lớn (MMLU), đạt độ chính xác trên 90%.

Trong 32 bài kiểm tra học thuật của một nghiên cứu mô hình ngôn ngữ lớn, Gemini vượt trội hơn GPT-4. Trong 30 trường hợp, mô hình ngôn ngữ mới của Google tốt hơn đối thủ cạnh tranh. Điều này chứng tỏ khả năng của mô hình để hiểu đầy đủ ngôn ngữ.

Đọc thêm: Dự án bộ não con người: Nỗ lực bắt chước bộ não con người

Có nhiều phiên bản khác nhau?

Google mô tả AI này là một mô hình linh hoạt có thể hoạt động trên mọi thiết bị: từ trung tâm dữ liệu của Google đến thiết bị di động. Để đạt được khả năng mở rộng này, Gemini có ba phiên bản: Nano, Pro và Ultra.

Hãy nói chi tiết hơn về các phiên bản khác nhau của Song Tử.

Nano Song Tử: được thiết kế để hoạt động trên điện thoại thông minh, đặc biệt là Google Pixel 8. Nó được thiết kế để thực hiện các tác vụ yêu cầu trí tuệ nhân tạo xử lý hiệu quả mà không cần kết nối với máy chủ bên ngoài, chẳng hạn như đề xuất câu trả lời trong chương trình trò chuyện hoặc tóm tắt văn bản. Mẫu thiết bị nhỏ gọn này có khoảng 6 tỷ thông số.
GeminiPro: chạy trong trung tâm dữ liệu của Google. Pro được thiết kế để hoạt động với phiên bản mới nhất của chatbot Bard AI. Nó có thể cung cấp thời gian phản hồi nhanh và hiểu các truy vấn phức tạp. Một mô hình cỡ trung bình có khoảng 100 tỷ tham số và là cốt lõi của AI đàm thoại của Bard. Pro sẽ có sẵn thông qua Google Cloud.
Song Tử siêu: mặc dù phiên bản Ultra chưa được phổ biến rộng rãi nhưng Google mô tả đây là mô hình hoạt động tốt nhất, vượt qua "mức độ hiện đại nhất hiện nay đối với 30 trong số 32 bài kiểm tra học thuật được sử dụng rộng rãi trong nghiên cứu mô hình ngôn ngữ lớn (LLM). " Là phiên bản lớn nhất và mạnh mẽ nhất, Ultra sẽ nhận được hơn 1 nghìn tỷ thông số. Nó sẽ được đặt tại các trung tâm dữ liệu. Ultra được điều chỉnh để sử dụng cho doanh nghiệp. Phiên bản được thiết kế để thực hiện các nhiệm vụ rất phức tạp. Google có kế hoạch phát hành nó sau khi kết thúc giai đoạn thử nghiệm hiện tại. Tức là phiên bản mạnh nhất vẫn chưa có sẵn cho người dùng.

Cũng thú vị: Google Bard AI: Mọi thứ bạn cần biết

- Quảng cáo -

Làm thế nào để truy cập Song Tử?

Phiên bản AI ở Nano và Pro hiện đã có sẵn trong các sản phẩm của Google như điện thoại thông minh Google Pixel 8 và chatbot Bard tương ứng. Google có kế hoạch tích hợp nó vào công cụ tìm kiếm, quảng cáo, dịch vụ email Gmail, trình duyệt Chrome và các dịch vụ khác.

Các nhà phát triển và khách hàng doanh nghiệp sẽ có thể truy cập Pro thông qua API Gemini trong Google AI Studio và Google Cloud Vertex AI kể từ ngày 13 tháng 2023 năm . Nhà phát triển Android sẽ có quyền truy cập vào mô hình phiên bản Nano thông qua AICore, phiên bản này sẽ có sẵn ở bản xem trước sớm.

Đọc thêm: Samsung Galaxy Flip5 vs Motorola Razr 40 Ultra: Trận chiến của hai Yokozun

Song Tử tại Google Bard: Điều gì sẽ thay đổi?

Theo thông tin được cung cấp trong buổi thuyết trình, mô hình sẽ cho phép Google Bard xử lý tốt hơn các vấn đề phức tạp hơn, như đã nêu:

“Chúng tôi đã thiết kế Gemini sao cho mô hình có tính đa phương thức một cách tự nhiên và được đào tạo trước về nhiều phương thức ngay từ đầu. Sau đó, chúng tôi đã tinh chỉnh nó bằng cách thêm nhiều dữ liệu đa phương thức hơn để cải thiện hiệu suất. Kết quả là, Gemini dễ dàng hiểu và suy luận tốt hơn nhiều so với các mô hình đa phương thức trước đây, đồng thời tự hào có khả năng tiên tiến trong hầu hết các lĩnh vực.

Khả năng đa phương thức đặc biệt của Gemini giúp bạn hiểu được thông tin văn bản và hình ảnh phức tạp. Chúng đặc biệt hữu ích khi trích xuất thông tin cụ thể từ các tập dữ liệu khổng lồ. Khả năng phi thường của mô hình này trong việc trích xuất bản chất thông tin từ hàng trăm nghìn tài liệu bằng cách đọc, lọc và phân tích chúng chắc chắn sẽ góp phần tạo ra những khám phá mới, nhanh như chớp trong nhiều lĩnh vực khác nhau từ khoa học đến tài chính.”

Trong buổi thuyết trình, một ví dụ về một nghiên cứu phức tạp đã được trình diễn, trong đó có hơn 200 nghìn bản ghi, một số bản ghi phải được cập nhật theo dữ liệu mới. Như bạn có thể đoán, thực hiện việc này một cách thủ công sẽ rất tốn thời gian, vì vậy các tác giả nghiên cứu đã sử dụng Gemini để chuẩn bị mã lấy đầu vào và thực hiện các cập nhật cần thiết. Một ví dụ khác thực tế hơn là sử dụng mô hình ngôn ngữ của Google để giải thích các vấn đề toán học hoặc vật lý.

Dữ liệu đầu vào ở đây là ảnh/scan bài tập trong một bài học ở trường. Hệ thống có thể xử lý đồ họa và văn bản được lưu trữ ở đó, sau đó cho biết phần nào của bài tập về nhà đã được thực hiện chính xác và phần nào cần chú ý hơn. Bài thuyết trình cho thấy người dùng có thể liên tục yêu cầu Gemini giải thích một nhiệm vụ và mỗi lần thử tiếp theo phải được giải thích bằng ngôn ngữ đơn giản hơn. Tất nhiên, độ chính xác và chính xác của Gemini sẽ được kiểm tra bởi những người quan tâm, nhưng khả năng đọc và xử lý văn bản trực tiếp từ ảnh rất ấn tượng. Như đã thêm trong bài thuyết trình:

"Song Tử đã được dạy để nhận biết và hiểu văn bản, hình ảnh, âm thanh và hơn thế nữa cùng một lúc. Nhờ đó, anh ấy hiểu rõ hơn các sắc thái của thông tin và có thể trả lời những câu hỏi phức tạp. Nó đặc biệt hiệu quả trong việc giải thích các chủ đề liên quan đến toán học và vật lý, vì vậy nó có thể đóng vai trò là người trợ giúp bài tập về nhà cá nhân.".

Song Tử trên điện thoại thông minh Google Pixel

Google cũng khoe rằng Gemini đã "học" về chipset TPUv5 mới và có kế hoạch giới thiệu Gemini Ultra vào đầu năm 2024, sẽ sử dụng Bard Advanced, một phiên bản mới của phiên bản tiêu dùng của mô hình giọng nói của gã khổng lồ. Gemini Ultra hiện đang trong quá trình thử nghiệm và đã sẵn sàng cho một số chuyên gia bảo mật chọn lọc.

Thông tin quan trọng cuối cùng là sự ra mắt của Gemini trên điện thoại thông minh Google Pixel 8. Điều này sẽ cho phép, cùng với những tính năng khác, tạo phản hồi nhanh chóng thông qua ứng dụng Gboard trong trình nhắn tin. Đầu tiên là WhatsApp, nhưng năm tới những giải pháp như vậy sẽ xuất hiện trong các ứng dụng khác liên quan đến liên lạc. Tuy nhiên, đây mới chỉ là khởi đầu, vì Google đã công bố nhiều công cụ AI mới cho điện thoại thông minh Pixel 8 và chúng sẽ có mặt trên một số thiết bị khác trong tương lai. Android. Tuy nhiên, đây là những kế hoạch sâu hơn và không có thông tin chi tiết nào được cung cấp vào thời điểm này.

Gemini khác với các mô hình AI khác như GPT-4 như thế nào?

Mô hình Gemini mới của Google có vẻ là một trong những mô hình AI lớn nhất và tiên tiến nhất cho đến nay, mặc dù việc phát hành mô hình Ultra sẽ quyết định điều đó một cách chắc chắn. So với các mô hình phổ biến khác hiện đang sử dụng chatbot AI, Gemini nổi bật với tính năng đa phương thức riêng, trong khi các mô hình khác như GPT-4 dựa vào plugin và tích hợp để thực sự đa phương thức.

Lo ngại về tính chính xác và khách quan

Mặc dù Gemini là bước nhảy vọt lớn trong việc phát triển năng lực trí tuệ nhân tạo nhưng nó cũng có những khuyết điểm giống như các mô hình ngôn ngữ lớn khác. Trước hết, đây là khả năng tạo ra thông tin sai lệch. Các thành kiến cũng dựa trên dữ liệu đào tạo có sẵn cho mô hình ngôn ngữ mới. Điều đáng nói là sự hiểu biết hạn chế về thế giới thực. Google thừa nhận mô hình Song Tử mới có thể mắc sai lầm, đưa ra những sự thật không dựa trên bằng chứng và mâu thuẫn với lẽ thường.

Cần nhiều thử nghiệm hơn, đặc biệt là đối với Gemini Ultra, nơi có những khả năng mới chưa được khám phá đầy đủ. Google cam kết đánh giá cẩn thận Gemini để giảm thiểu tác hại tiềm ẩn.

Cũng thú vị: Tất cả về Microsoft Phi công phụ: tương lai hay sai đường?

Tương lai là với Song Tử

Sự ra mắt của Gemini của Google đã mở ra một kỷ nguyên mới về phát triển AI. Với hiệu suất tốt nhất so với các mô hình trước đây và các tiêu chuẩn cơ bản về con người, Gemini chỉ ra những khả năng trong tương lai của trí tuệ nhân tạo, nhưng vẫn cần nghiên cứu thêm để giải quyết những thiếu sót nhất định.

Trong tương lai, bạn có thể mong đợi Gemini cung cấp nhiều tính năng hữu ích và thông minh hơn trong các sản phẩm của Google. Trong tương lai, công ty có kế hoạch tiếp tục mở rộng Gemini ngoài tiếng Anh và xây dựng phương pháp luận mô hình cốt lõi của mình.

Chúng ta chỉ có thể xem và hy vọng rằng Google biết nó đang làm gì.

Đọc thêm:

Thêm từ tác giả

Đăng ký

0 Nhận xét

Bài đánh giá được nhúng

Xem tất cả các bình luận

Các bài báo khác