Какво е Gemini: Всичко за новия AI модел от Google

Google току-що пусна своя най-мощен AI модел, наричан някога Близнаци. Какво е тя и какво може да направи? За всичко в нашата статия.

Google разработва свои собствени AI инструменти от години. С публичното пускане на ChatGPT-3 от OpenAI, компанията, която управлява най-популярната търсачка в света, също създаде подобен инструмент, Bard. Но този инструмент все още губи от конкурентите, което Google не може да позволи. Ето защо не е изненадващо, че наскоро светът видя Gemini, нов езиков модел от Google, за който научихме по време на презентацията.

Той е предназначен не само да подобри предишния LLM (Large Language Model) на гиганта, но и да предложи напълно нови възможности в областта на обработката на текст, графики и звук.

Така че нека разгледаме по-отблизо новия езиков модел на Google Gemini.

Също интересно: OpenAI Project Q*: какво представлява и защо проектът предизвиква безпокойство

СЪДЪРЖАНИЕ

1. Какво е Google Gemini?

2. Кой създаде модела?

3. Възможности

4. Има ли различни версии?

5. Как да получите достъп до Gemini?

6. Gemini в Google Bard: Какво ще се промени?

7. Gemini в смартфоните Google Pixel

8. Как Gemini е различен от другите модели с изкуствен интелект, като GPT-4?

9. Притеснения относно точността и безпристрастността

10. Бъдещето е с Близнаци

Какво е Google Gemini?

Това е нов и мощен модел на изкуствен интелект от Google, който може да разбира не само текст, но и изображения, видео и аудио. Този мултимодален модел е описан като способен да изпълнява сложни задачи по математика, физика и други области, както и да разбира и генерира висококачествен код на различни езици за програмиране.

В момента Gemini се предлага чрез интеграция с Google Bard и Google Pixel 8 и постепенно ще бъде включен в други услуги на Google.

„Gemini е резултат от огромни съвместни усилия между екипите на Google, включително нашите колеги от Google Research,“ — каза Денис Хасабис, главен изпълнителен директор и съосновател на Google DeepMind. „Изграден е от самото начало, за да бъде мултимодален, което означава, че може да обобщава и безпроблемно разбира, оперира и комбинира различни видове информация, включително текст, код, аудио, изображения и видео.“

- Реклама -

Също интересно: Не всичко, което наричаме AI, всъщност е изкуствен интелект. Ето какво трябва да знаете

Кой създаде модела?

Както вероятно вече се досещате, Gemini е създаден от Google и Alphabet, компанията майка на Google, и е най-модерният AI модел на компанията до момента. Сериозен принос за неговото развитие има и подразделението DeepMind на Google. Все още не е известно колко служители са участвали в разработката и какви средства са били отделени за нея, но знаейки възможностите на Google, можем да сме сигурни, че става дума за много голяма сума.

Също интересно: Windows 12: Каква ще бъде новата операционна система

Възможности

Както отбелязах по-горе, това е мултимодален модел, което означава, че може да разбира, оперира и комбинира различни видове данни, включително текст, код, аудио, изображения и видео. Осигурява по-добро разбиране, мислене и умения за кодиране в сравнение с предишни AI системи.

Основните възможности на модела са:

Обработка на естествен език за задачи като превод, обобщение и диалог
Математическо мислене и решаване на проблеми
Възможност за генериране на код и документация
Разбиране на изображения, аудио и видео
Мултитаскинг в различни домейни

Както можете да видите, възможностите са по-добри от другите модели.

В тестове за разбиране на езика, математическо мислене и кодиране, Gemini Ultra превъзхожда модели като GPT-4. По-конкретно, това е първият модел, който превъзхожда производителността на човешко ниво на теста за разбиране на многозадачен език (MMLU), постигайки над 90% точност.

В 32 академични теста на голямо проучване на езиков модел Gemini надмина GPT-4. В 30 случая новият езиков модел от Google е по-добър от конкурента. Това демонстрира способността на модела да разбира напълно езика.

Прочетете също: Проект за човешки мозък: опит за имитиране на човешкия мозък

Има ли различни версии?

Google описва този AI като гъвкав модел, който може да работи на всяко устройство: от центрове за данни на Google до мобилни устройства. За да постигне тази мащабируемост, Gemini се предлага в три версии: Nano, Pro и Ultra.

Нека поговорим за различните версии на Близнаци по-подробно.

Близнаци Нано: проектиран да работи на смартфони, по-специално Google Pixel 8. Той е проектиран да изпълнява задачи, които изискват ефективна обработка от изкуствен интелект, без да се свързва с външни сървъри, като предлагане на отговори в програми за чат или обобщаване на текст. Този компактен модел устройство има около 6 милиарда параметри.
Близнаци Pro: работи в центрове за данни на Google. Pro е проектиран да работи с най-новата версия на чатбота Bard AI. Той е в състояние да осигури бързо време за реакция и да разбере сложни заявки. Модел със среден размер има приблизително 100 милиарда параметъра и е ядрото на разговорния AI на Bard. Pro ще бъде достъпен чрез Google Cloud.
Близнаци Ултра: въпреки че версията Ultra все още не е широко достъпна, Google я описва като своя най-добре представящ се модел, надхвърлящ „текущото състояние на техниката за 30 от 32 широко използвани академични теста, използвани в изследванията на големия езиков модел (LLM). " Като най-голямата и най-мощна версия, Ultra ще получи повече от 1 трилион параметри. Той ще бъде разположен в центрове за данни. Ultra е адаптиран за корпоративна употреба. Версията е предназначена за изпълнение на много сложни задачи. Google планира да го пусне след края на текущата фаза на тестване. Тоест най-мощната версия все още не е достъпна за потребителите.

Също интересно: Google Bard AI: Всичко, което трябва да знаете

- Реклама -

Как да получите достъп до Gemini?

AI във версиите Nano и Pro вече се предлагат в продуктите на Google, като съответно смартфоните Google Pixel 8 и чатбота Bard. Google планира в крайна сметка да го интегрира в своята търсачка, реклама, имейл услуга Gmail, браузър Chrome и други услуги.

Разработчиците и корпоративните клиенти ще имат достъп до Pro чрез Gemini API в Google AI Studio и Google Cloud Vertex AI от 13 декември 2023 г. Разработчици Android ще има достъп до модела на версията Nano чрез AICore, който ще бъде достъпен в ранен преглед.

Прочетете също: Samsung Galaxy Flip5 срещу Motorola Razr 40 Ultra: Битката на двата йокозуна

Gemini в Google Bard: Какво ще се промени?

Според информацията, предоставена по време на презентацията, моделът ще позволи на Google Bard да се справя по-добре с по-сложни проблеми, както е посочено:

„Проектирахме Gemini така, че моделът да е естествено мултимодален и предварително обучен на множество модалности от самото начало. След това го усъвършенствахме, като добавихме повече мултимодални данни, за да подобрим производителността. В резултат на това Gemini лесно разбира и прави изводи много по-добре от предишните мултимодални модели и може да се похвали с най-съвременни възможности в почти всички области.

Необикновените мултимодални възможности на Gemini ви помагат да разберете сложна текстова и визуална информация. Те са особено полезни, когато става въпрос за извличане на специфична информация от огромни набори от данни. Изключителната способност на този модел да извлича същността на информацията от стотици хиляди документи, като ги чете, филтрира и анализира, несъмнено ще допринесе за нови, светкавични открития в различни области от науката до финансите."

По време на презентацията беше демонстриран пример за комплексно изследване, което съдържа повече от 200 хиляди записа, някои от които трябваше да бъдат актуализирани според нови данни. Както може би се досещате, правенето на това ръчно би отнело много време, така че авторите на изследването са използвали Gemini, за да подготвят код, който приема въведените данни и прави необходимите актуализации. Друг, по-реален пример е използването на езиковия модел на Google за обяснение на задачи по математика или физика.

Входните данни тук бяха снимка/скан на задача от училищен урок. Системата успя да обработи графиките и текста, съхранени там, и след това да посочи кои части от домашното са изпълнени правилно и кои се нуждаят от повече внимание. Презентацията показа, че потребителят може многократно да иска от Gemini да обясни дадена задача и всеки следващ опит трябва да бъде обяснен на по-прост език. Доколко Gemini ще бъде точен и коректен, разбира се, ще проверят заинтересованите, но възможността за четене и обработка на текст директно от снимки е впечатляваща. Както беше добавено по време на презентацията:

"Близнаците са научени да разпознават и разбират текст, изображения, звуци и други едновременно. Благодарение на това той по-добре разбира нюансите на информацията и може да отговори на сложни въпроси. Той е особено ефективен при обяснение на теми, свързани с математика и физика, така че може да служи като личен помощник при домашните".

Gemini в смартфоните Google Pixel

Google също така се похвали, че Gemini се е „учил“ на новите чипсети TPUv5 и планира да представи Gemini Ultra в началото на 2024 г., който ще използва Bard Advanced, нова версия на потребителската версия на модела на речта на гиганта. Gemini Ultra в момента се тества и вече е достъпен за избрани експерти по сигурността.

Последната важна информация е въвеждането на Gemini в смартфоните Google Pixel 8. Това ще позволи, наред с други неща, да създавате бързи отговори чрез приложението Gboard в месинджърите. Първият е WhatsApp, но догодина подобни решения ще се появят и в други приложения, свързани с комуникация. Това обаче е само началото, тъй като Google обяви много нови AI инструменти за смартфоните Pixel 8 и те ще бъдат налични на някои други устройства в бъдеще. Android. Това обаче са допълнителни планове и към момента не са предоставени подробности.

Как Gemini е различен от другите модели с изкуствен интелект, като GPT-4?

Новият модел Gemini на Google изглежда един от най-големите и най-модерните AI модели до момента, въпреки че пускането на модела Ultra ще определи това със сигурност. В сравнение с други популярни модели, които в момента използват AI чатботове, Gemini се откроява със собствена мултимодална функция, докато други модели като GPT-4 разчитат на плъгини и интеграция, за да бъдат наистина мултимодални.

Притеснения относно точността и безпристрастността

Въпреки че Gemini е голям скок напред в развитието на възможностите за изкуствен интелект, той има недостатъци, които са общи за други основни езикови модели. На първо място, това е възможността за създаване на невярна информация. Отклоненията също се основават на данните за обучение, налични за новия езиков модел. Струва си да се спомене и ограниченото разбиране на реалния свят. Google признава, че новият модел Gemini може да прави грешки, да предоставя факти, които не се основават на доказателства и противоречат на здравия разум.

Необходими са повече тестове, особено за Gemini Ultra, който има нови възможности, които все още не са напълно проучени. Google се ангажира внимателно да оцени Gemini, за да сведе до минимум потенциалната вреда.

Също интересно: Всичко за Microsoft Вторият пилот: бъдещето или грешният път?

Бъдещето е с Близнаци

Пускането на Gemini от Google постави началото на нова ера в развитието на ИИ. С най-добрата си производителност в сравнение с предишни модели и човешки базови линии, Gemini посочва бъдещите възможности на изкуствения интелект, но все още се нуждае от повече изследвания за справяне с някои недостатъци.

В бъдеще можете да очаквате Gemini да предостави по-полезни и интелигентни функции в продуктите на Google. Занапред компанията планира да продължи да разширява Gemini извън английския език и да надгражда основната си методология за моделиране.

Можем само да наблюдаваме и да се надяваме, че Google знае какво прави.

Прочетете също:

Още от автора

Регистрирай се

0 Коментари

Вградени рецензии

Вижте всички коментари

Други статии

Какво е Gemini: Всичко за новия AI модел на Google