Root NationHírekinformatikai újságA Google új Gemini AI modellje képes lesz hangfájlok meghallgatására

A Google új Gemini AI modellje képes lesz hangfájlok meghallgatására

-

Tehát az elmúlt másfél évben gyors növekedést tapasztaltunk a generatív AI terén, és úgy tűnik, hogy az AI-modellek percről percre egyre több tudásra tesznek szert. Szóval, úgy tűnik, hogy egy új modell a mesterséges intelligencia Google, Gemini 1.5 Pro, most már képes hallgatni és megérteni a hangfájlokat.

Minél több adatot szolgáltat az MI-nek, annál jobb lesz (és annál ijesztőbb, ha szkeptikusak vagyunk vele kapcsolatban). Kezdetben a mesterséges intelligencia modellek képzése elsősorban szöveggel történt – ez különösen fontos volt a chatbotoknál. Később azonban AI-a modellek megtanulták, hogyan kell feldolgozni a képadatokat, és most már használhatók egy kép rekonstruálására (vagy kérésre teljesen új kép létrehozására).

Google Gemini

A Gemini (korábbi nevén Bard) mesterséges intelligencia modell megtanulta feldolgozni a képeket (bár néhány kép létrehozása nemrégiben szinte botrány), és most az audiofájlok megértésének irányába fejlődik. A Gemini 1.5 Pro verzió, amely ezt teszi, jelenleg tesztelés alatt áll, és állítólag még erősebb, mint a Gemini Ultra.

Ennek a funkciónak a sikeres megvalósítása számos új lehetőséget nyit meg a felhasználók előtt - például jelentős időmegtakarítást jelent egy hosszú jelentés, beszélgetés, telefonhívás, előadás és egyéb hasonló összefoglaló elkészítése miatt. Mindössze annyit kell tennie, hogy feltölti a fájlt a Gemini-be. Léteznek hosszú hívásrögzítő eszközök, de először átírják a hívást, majd összefoglalót készítenek. Az Ikrek azonban elég csak meghallgatni.

A frissített Google Gemini AI modell képes lesz hallgatni és megérteni a hangfájlokat

Természetesen van egy figyelmeztetés – ez a funkció még nem lesz nyilvánosan elérhető. A hozzáféréshez a felhasználóknak szükségük lesz a Vertex AI fejlesztői platformra Google vagy az AI Studio. A cég azt állítja, hogy később lesz nyilvánosan elérhető, de idővonalat nem közölnek.

Általában véve nagyon érdekes figyelni a mesterséges intelligencia fejlődését. Máris megkönnyíti az életünket, és több teret ad kreatív potenciálunk megvalósításához, és ezzel a funkcióval értékes időt is megtakarít. De ha az AI chatbotokkal folytatott „kommunikációja” rendkívül hatástalan volt a múltban, érdemes lehet dolgozni a kérdésein.

A Google közzétett egy útmutatót, amely segít a felhasználóknak hatékonyan strukturálni a lekérdezéseket, hogy a legtöbbet hozzák ki egy chatbotból, mint pl. Gemini. A kézikönyv azt tanácsolja, hogy a promptban mindig jelöljön meg valamit magáról, ne csak egy feladatot írjon, hanem adjon hozzá részleteket, kérjen jelölt listát. A különálló feladatokat tanácsos külön promptokra bontani, a listákra vagy a karakterszámra vonatkozó speciális követelményeket megadni, bizonyos hangnemben kérni. Még azt is megkérdezheti a chatbottól, hogy van-e tisztázó kérdése az Ön számára, hogy jobban megértse a feladatot.

Az útmutató hozzáteszi, hogy a felszólításokat természetesen kell írni, „teljes gondolatok teljes mondatokban”, és hogy „a legsikeresebb felszólítások átlagosan 21 szóból állnak”.

Olvassa el még:

Regisztrálj
Értesítés arról
vendég

0 Hozzászólások
Beágyazott vélemények
Az összes megjegyzés megtekintése