Google только что выпустил свою самую мощную модель ИИ под названием Gemini. Что она собой представляет и что умеет? Обо всем в нашей статье.
Google разрабатывает собственные инструменты искусственного интеллекта уже на протяжении многих лет. С публичным выпуском ChatGPT-3 от OpenAI компания, которая управляет самой популярной поисковой системой в мире, также создала подобный инструмент – Bard. Но этот инструмент все же проигрывал конкурентам, чего не могли допустить в Google. Поэтому неудивительно, что недавно мир увидел Gemini, новую языковую модель от Google, о которой мы узнали из презентации.
Она призвана не только усовершенствовать предыдущую LLM (Large Language Model) гиганта, но и предложить абсолютно новые возможности в сфере обработки текста, графики и звука.
Давайте более детально познакомимся с новой языковой моделью Google Gemini.
Также интересно: OpenAI Project Q*: что это такое и почему проект вызывает беспокойство
Что такое Google Gemini?
Это новая и мощная модель искусственного интеллекта от Google, которая может понимать не только текст, но и изображения, видео и аудио. Эта мультимодальная модель описана как способная выполнять сложные задачи по математике, физике и из других областей, а также понимать и генерировать высококачественный код на разных языках программирования.
В настоящее время Gemini доступен через интеграцию с Google Bard и Google Pixel 8 и постепенно будет включен в другие службы Google.
“Gemini является результатом масштабных совместных усилий команд Google, в том числе наших коллег из Google Research”, – сказал Деннис Хассабис, генеральный директор и соучредитель Google DeepMind. “Она была создана с нуля, чтобы быть мультимодальной, что означает, что она может обобщать и безупречно понимать, оперировать и сочетать различные типы информации, включая текст, код, аудио, изображения и видео”.
Также интересно: Что такое RCS и чем он отличается от SMS и iMessage?
Кто создал модель?
Вероятно, вы уже догадались, что Gemini создан Google и Alphabet, материнской компанией Google, и является самой совершенной моделью ИИ компании на сегодня. Подразделение Google DeepMind также внесло значительный вклад в ее развитие. Пока что неизвестно, сколько именно сотрудников принимало участие в разработках и какие средства на это выделены, но, зная возможности Google, можно быть уверенными, что там весьма кругленькая сумма.
Читайте также: Все о Microsoft Copilot: будущее или ложный путь?
Возможности
Как я уже отмечал выше, это мультимодальная модель, то есть она может понимать, обрабатывать и объединять различные типы данных, включая текст, код, аудио, изображения и видео. Это обеспечивает лучшие навыки понимания, мышления и кодирования по сравнению с предыдущими системами ИИ.
Основными возможностями модели являются:
- Обработка естественного языка для таких задач, как перевод, обобщение и диалог
- Математическое мышление и решение задач
- Возможность генерировать код и документацию
- Понимание изображений, аудио и видео
- Многозадачность в различных доменах
Как видим, возможности превосходят другие модели.
В тестах на понимание языка, математическое мышление и кодирование, Gemini Ultra превзошел возможности таких моделей, как GPT-4. В частности, это первая модель, которая опережает производительность человеческого уровня по тесту Massive Multitask Language Understanding (MMLU), достигнув более 90% точности.
В 32 академических тестах исследования большой языковой модели Gemini достигла лучших результатов, чем GPT-4. В 30 случаях новая языковая модель от Google была лучше конкурента. Это демонстрирует возможности полного понимания языка моделью.
Читайте также: Windows 12: Какой будет новая ОС
Существуют ли разные версии?
Google описывает этот ИИ как гибкую модель, способную работать на любом устройстве: от центров обработки данных Google до мобильных устройств. Чтобы достичь этой масштабируемости, Gemini выпускается в трех версиях: Nano, Pro и Ultra.
Давайте более подробно поговорим о разных версиях Gemini.
- Gemini Nano: предназначена для работы на смартфонах, в частности Google Pixel 8. Она создана для выполнения задач, которые требуют эффективной обработки искусственным интеллектом без подключения к внешним серверам, например предложения ответов в приложениях чата или подытоживания текста. Эта компактная модель для устройств имеет около 6 миллиардов параметров.
- Gemini Pro: работает в центрах обработки данных Google. Pro разработан для работы с последней версией чат-бота Bard с искусственным интеллектом. Он способен обеспечивать быстрое время ответа и понимать сложные запросы. Модель среднего размера имеет примерно 100 миллиардов параметров и является ядром разговорного ИИ Bard. Pro будет доступен через Google Cloud.
- Gemini Ultra: хотя версия Ultra все еще недоступна для широкого использования, Google описывает ее как свою самую эффективную модель, которая превышает “текущие самые современные результаты по 30 из 32 широко используемых академических тестов, применяемых в исследованиях большой языковой модели (LLM)”. Как самая большая и самая мощная версия, Ultra получит более 1 триллиона параметров. Она будет размещаться в центрах обработки данных. Ultra приспособлена для корпоративного использования. Версия разработана для выполнения очень сложных задач. В Google планируют ее выпустить после завершения текущего этапа тестирования. То есть, самая мощная версия еще не доступна для пользователей.
Также интересно: Google Bard AI: все, что вам нужно знать
Как получить доступ к Gemini?
ИИ в версиях Nano и Рго теперь доступен в продуктах Google, таких как смартфоны Google Pixel 8 и чат-бот Bard соответственно. Google планирует со временем интегрировать его в свою поисковую систему, рекламу, почтовый сервис Gmail, браузер Chrome и другие службы.
Разработчики и корпоративные клиенты смогут получить доступ к Pro через Gemini API в Google AI Studio и Google Cloud Vertex AI, начиная с 13 декабря 2023 года. Разработчики Android будут иметь доступ к модели версии Nano через AICore, который будет доступен на ранней предыдущей версии.
Читайте также: Беспилотные автомобили: долго ли еще ждать революции?
Gemini в Google Bard: что изменится?
Согласно информации, предоставленной во время презентации, модель позволит Google Bard лучше справляться с более сложными проблемами, как указано:
“Мы разработали Gemini таким образом, чтобы модель была естественно мультимодальной и предварительно обученной разнообразным модальностям с самого начала. Затем мы усовершенствовали ее, добавив больше мультимодальных данных для улучшения производительности. Благодаря этому Gemini легко понимает и делает выводы намного лучше, чем предыдущие мультимодальные модели, и может похвастаться самыми современными возможностями почти во всех областях.
Чрезвычайные мультимодальные возможности Gemini помогают вам понять сложную текстовую и визуальную информацию. Они особенно полезны, когда речь идет об извлечении конкретной информации из огромных массивов данных. Чрезвычайная способность этой модели извлекать суть информации из сотен тысяч документов путем их чтения, фильтрации и анализа, несомненно, будет способствовать новым, молниеносным открытиям в различных областях от науки до финансов”.
Во время презентации был продемонстрирован пример комплексного исследования, содержащего более 200 тыс. записей, некоторые из которых необходимо было обновить в соответствии с новыми данными. Как вы могли догадаться, выполнение этого вручную заняло бы очень много времени, поэтому авторы исследования использовали Gemini для подготовки кода, который использовал входные данные и вносил необходимые обновления. Другим, более реальным примером, является использование языковой модели Google для объяснения задач по математике или физике.
Исходными данными здесь были фото/скан задания со школьного урока. Системе удалось обработать сохраненную там графику и текст, а затем указать, какие части домашнего задания выполнены правильно, а какие требуют дополнительного внимания. Презентация показала, что пользователь может неоднократно просить Gemini объяснить задачу, и каждую следующую попытку нужно объяснять более простым языком. Насколько Gemini будет точным и правильным, конечно, желающие проверят, но возможность читать и обрабатывать текст прямо с фотографий впечатляет. Как добавили во время презентации:
“Gemini научили распознавать и понимать текст, изображения, звуки и многое другое одновременно. Благодаря этому он лучше понимает нюансы информации и может ответить на сложные вопросы. Он особенно эффективен в объяснении тем, связанных с математикой и физикой, поэтому может служить личным советчиком при выполнении домашних заданий”.
Gemini в смартфонах Google Pixel
Google также похвалился тем, что Gemini “учился” на новых чипсетах TPUv5, а также планирует в начале 2024 года представить Gemini Ultra, которая будет использовать Bard Advanced, новую версию потребительской версии языковой модели гиганта. Сейчас Gemini Ultra находится на стадии тестирования и уже доступна для отдельных экспертов по безопасности.
Последней важной информацией является внедрение Gemini в смартфоны Google Pixel 8. Это позволит, среди прочего, создавать быстрые ответы через программу Gboard в мессенджерах. Первый – WhatsApp, но в следующем году такие решения появятся и в других приложениях, связанных с общением. Однако это только начало, потому что Google анонсировала много новых инструментов ШI для смартфонов Pixel 8, и в будущем они будут доступны и на некоторых других устройствах Android. Однако это дальнейшие планы, и пока никаких подробностей не предоставлено.
Чем Gemini отличается от других моделей искусственного интеллекта, например GPT-4?
Новая модель Gemini от Google, кажется, является одной из крупнейших и самых совершенных моделей искусственного интеллекта на сегодняшний день, хотя выпуск модели Ultra точно определит это. По сравнению с другими популярными моделями, которые сейчас используют чат-боты искусственного интеллекта, Gemini выделяется своей собственной мультимодальной характеристикой, тогда как другие модели, такие как GPT-4, полагаются на плагины и интеграцию, чтобы быть действительно мультимодальными.
Обеспокоенность относительно точности и непредвзятости
Хотя Gemini является серьезным скачком в развитии возможностей искусственного интеллекта, он имеет недостатки, которые присущи и другим крупным языковым моделям. Прежде всего, это возможность создания ложной информации. Беспокойство также вызывают учебные данные, доступные новой языковой модели. Стоит также упомянуть об ограниченном понимании реального мира. Google признает, что новая модель Gemini может делать ошибки, предоставлять факты, которые не основываются на доказательствах и противоречат здравому смыслу.
Нужны дополнительные тесты, особенно для Gemini Ultra, которая имеет новые возможности, которые еще не полностью изучены. Google стремится тщательно оценить Gemini, чтобы минимизировать возможный вред.
Также интересно: Human Brain Project: Попытка имитировать человеческий мозг
Будущее с Gemini
Запуск Gemini от Google начал новую эру в развитии ИИ. Благодаря своей лучшей производительности по сравнению с предыдущими моделями и человеческими базовыми показателями, Gemini указывает на будущие возможности искусственного интеллекта, но все еще требует дополнительных исследований для устранения определенных недостатков.
В будущем можно ожидать, что Gemini обеспечит более полезные и интеллектуальные функции в продуктах Google. В дальнейшем компания планирует продолжать расширять язык Gemini за пределы английского и опираться на свою базовую модельную методологию.
Нам остается только наблюдать и надеяться, что Google знает, что делает.
Читайте также: