Gemini چیست: همه چیز درباره مدل جدید هوش مصنوعی گوگل

گوگل به تازگی قدرتمندترین مدل هوش مصنوعی خود را منتشر کرده است برج جوزا. او چیست و چه کاری می تواند انجام دهد؟ در مورد همه چیز در مقاله ما.

گوگل سال هاست که ابزارهای هوش مصنوعی خود را توسعه می دهد. با انتشار عمومی ChatGPT-3 از OpenAI، شرکتی که محبوب ترین موتور جستجوی جهان را اداره می کند، ابزار مشابهی به نام Bard را نیز ایجاد کرده است. اما این ابزار همچنان در مقابل رقبا شکست خورد که گوگل نتوانست اجازه دهد. بنابراین، جای تعجب نیست که دنیا اخیراً شاهد Gemini، یک مدل زبان جدید از گوگل بود که در طی ارائه با آن آشنا شدیم.

این نه تنها برای بهبود LLM قبلی (مدل زبان بزرگ) این غول طراحی شده است، بلکه برای ارائه امکانات کاملاً جدیدی در زمینه پردازش متن، گرافیک و صدا طراحی شده است.

- تبلیغات -

بنابراین بیایید نگاهی دقیق تر به مدل جدید زبان گوگل جمینی بیندازیم.

همچنین جالب: OpenAI Project Q*: چیست و چرا این پروژه یک نگرانی است

محتوا

1. گوگل جمینی چیست؟

2. چه کسی مدل را ایجاد کرد؟

3. فرصت ها

4. آیا نسخه های مختلفی وجود دارد؟

5. چگونه به جمینی دسترسی پیدا کنیم؟

6. Gemini در Google Bard: چه چیزی تغییر خواهد کرد؟

7. جمینی در گوشی های هوشمند گوگل پیکسل

8. جمینی چه تفاوتی با سایر مدل های هوش مصنوعی مانند GPT-4 دارد؟

9. نگرانی در مورد دقت و بی طرفی

10. آینده با جمینی است

گوگل جمینی چیست؟

این یک مدل جدید و قدرتمند از هوش مصنوعی گوگل است که می تواند نه تنها متن، بلکه تصاویر، فیلم ها و صداها را نیز درک کند. این مدل چندوجهی به‌عنوان توانایی انجام وظایف پیچیده در ریاضیات، فیزیک و سایر حوزه‌ها و همچنین درک و تولید کد با کیفیت بالا در انواع زبان‌های برنامه‌نویسی توصیف می‌شود.

Gemini در حال حاضر از طریق ادغام با Google Bard و Google Pixel 8 در دسترس است و به تدریج در سایر خدمات گوگل نیز قرار خواهد گرفت.

"جمینی نتیجه یک تلاش مشترک گسترده در سراسر تیم های Google، از جمله همکاران ما در Google Research است." دنیس حسابیس، مدیر عامل و یکی از بنیانگذاران گوگل دیپ مایند گفت. "از ابتدا برای چندوجهی بودن ساخته شده است، به این معنی که می تواند تعمیم دهد و به طور یکپارچه درک کند، عمل کند و انواع مختلف اطلاعات از جمله متن، کد، صدا، تصاویر و ویدئو را ترکیب کند."

- تبلیغات -

همچنین جالب: هر چیزی که ما هوش مصنوعی می نامیم در واقع هوش مصنوعی نیست. در اینجا چیزی است که شما باید بدانید

چه کسی مدل را ایجاد کرد؟

همانطور که احتمالا قبلاً حدس زده اید، Gemini توسط گوگل و آلفابت، شرکت مادر گوگل ایجاد شده است و پیشرفته ترین مدل هوش مصنوعی این شرکت تا به امروز است. بخش DeepMind گوگل نیز سهم قابل توجهی در توسعه آن داشته است. هنوز مشخص نیست که چه تعداد کارمند در توسعه شرکت کرده اند و چه بودجه ای برای این کار اختصاص داده شده است، اما با دانستن توانایی های گوگل می توان مطمئن بود که مبلغ بسیار زیادی وجود دارد.

همچنین جالب: ویندوز 12: سیستم عامل جدید چیست؟

فرصت ها

همانطور که در بالا اشاره کردم، این یک مدل چندوجهی است، به این معنی که می تواند انواع مختلف داده ها از جمله متن، کد، صدا، تصاویر و ویدئو را درک کند، عمل کند و ترکیب کند. در مقایسه با سیستم های هوش مصنوعی قبلی، مهارت های درک، تفکر و کدنویسی بهتری را ارائه می دهد.

قابلیت های اصلی مدل عبارتند از:

پردازش زبان طبیعی برای کارهایی مانند ترجمه، خلاصه سازی و گفتگو
تفکر ریاضی و حل مسئله
امکان تولید کد و مستندات
درک تصاویر، صدا و ویدئو
چندوظیفه ای در حوزه های مختلف

همانطور که می بینید، قابلیت ها نسبت به سایر مدل ها برتری دارند.

در آزمون های درک زبان، تفکر ریاضی و کدنویسی، Gemini Ultra بهتر از مدل هایی مانند GPT-4 عمل کرد. به طور خاص، این اولین مدلی است که در آزمون درک زبان چندوظیفه عظیم (MMLU) عملکرد بهتری در سطح انسانی دارد و به دقت بیش از 90 درصد دست یافته است.

در 32 آزمون آکادمیک یک مطالعه مدل زبان بزرگ، Gemini بهتر از GPT-4 عمل کرد. در 30 مورد، مدل زبان جدید گوگل بهتر از رقیب بود. این نشان دهنده توانایی مدل برای درک کامل زبان است.

- تبلیغات -

همچنین بخوانید: پروژه مغز انسان: تلاشی برای تقلید از مغز انسان

آیا نسخه های مختلفی وجود دارد؟

گوگل این هوش مصنوعی را به عنوان یک مدل انعطاف پذیر توصیف می کند که می تواند روی هر دستگاهی کار کند: از مراکز داده گوگل گرفته تا دستگاه های تلفن همراه. برای دستیابی به این مقیاس پذیری، Gemini در سه نسخه Nano، Pro و Ultra عرضه می شود.

بیایید در مورد نسخه های مختلف Gemini با جزئیات بیشتری صحبت کنیم.

جمینی نانو: طراحی شده برای کار بر روی تلفن‌های هوشمند، به‌ویژه Google Pixel 8. برای انجام کارهایی طراحی شده است که نیاز به پردازش کارآمد توسط هوش مصنوعی بدون اتصال به سرورهای خارجی دارند، مانند پیشنهاد پاسخ‌ها در برنامه‌های چت یا خلاصه کردن متن. این مدل دستگاه فشرده حدود 6 میلیارد پارامتر دارد.
طرفداران جوزا: در مراکز داده گوگل اجرا می شود. Pro برای کار با آخرین نسخه چت ربات Bard AI طراحی شده است. قادر به ارائه زمان پاسخ سریع و درک سوالات پیچیده است. یک مدل با اندازه متوسط تقریباً 100 میلیارد پارامتر دارد و هسته هوش مصنوعی مکالمه بارد است. Pro از طریق Google Cloud در دسترس خواهد بود.
جمینی اولترا: اگرچه نسخه Ultra هنوز به طور گسترده در دسترس نیست، گوگل آن را به عنوان بهترین مدل خود توصیف می کند، که از "وضعیت فعلی فعلی برای 30 تست از 32 آزمون پرکاربرد آکادمیک مورد استفاده در تحقیقات مدل زبان بزرگ (LLM) فراتر رفته است. " Ultra به عنوان بزرگترین و قدرتمندترین نسخه، بیش از 1 تریلیون پارامتر را دریافت خواهد کرد. در مراکز داده قرار خواهد گرفت. Ultra برای استفاده شرکتی سازگار شده است. این نسخه برای انجام کارهای بسیار پیچیده طراحی شده است. گوگل قصد دارد پس از پایان مرحله آزمایشی فعلی آن را منتشر کند. یعنی قدرتمندترین نسخه هنوز در دسترس کاربران قرار نگرفته است.

همچنین جالب: Google Bard AI: همه چیزهایی که باید بدانید

چگونه به جمینی دسترسی پیدا کنیم؟

هوش مصنوعی در نسخه های نانو و پرو اکنون به ترتیب در محصولات گوگل مانند گوشی های هوشمند گوگل پیکسل 8 و چت بات Bard در دسترس است. گوگل قصد دارد در نهایت آن را در موتور جستجو، تبلیغات، سرویس ایمیل جیمیل، مرورگر کروم و سایر خدمات خود ادغام کند.

توسعه دهندگان و مشتریان سازمانی از 13 دسامبر 2023 می توانند از طریق Gemini API در Google AI Studio و Google Cloud Vertex AI به Pro دسترسی داشته باشند. توسعه دهندگان Android از طریق AICore به مدل نسخه نانو دسترسی خواهد داشت که در یک پیش نمایش اولیه در دسترس خواهد بود.

همچنین بخوانید: Samsung Galaxy Flip5 در مقابل Motorola Razr 40 Ultra: نبرد دو یوکوزون

Gemini در Google Bard: چه چیزی تغییر خواهد کرد؟

با توجه به اطلاعات ارائه شده در طول ارائه، این مدل به Google Bard اجازه می دهد تا مشکلات پیچیده تری را بهتر مدیریت کند، همانطور که گفته شد:

ما جمینی را طوری طراحی کردیم که این مدل به طور طبیعی چند وجهی باشد و از ابتدا بر روی چندین روش از قبل آموزش دیده باشد. سپس با افزودن داده‌های چندوجهی بیشتر برای بهبود عملکرد، آن را اصلاح کردیم. در نتیجه، Gemini به راحتی بسیار بهتر از مدل‌های چندوجهی قبلی می‌فهمد و استنباط می‌کند و تقریباً در همه زمینه‌ها از قابلیت‌های پیشرفته برخوردار است.

قابلیت‌های چندوجهی خارق‌العاده Gemini به شما کمک می‌کند اطلاعات متنی و بصری پیچیده را درک کنید. آنها به ویژه در هنگام استخراج اطلاعات خاص از مجموعه داده های عظیم مفید هستند. توانایی فوق‌العاده این مدل در استخراج جوهر اطلاعات از صدها هزار سند با خواندن، فیلتر کردن و تجزیه و تحلیل آنها بدون شک به اکتشافات جدید و سریع در زمینه‌های مختلف از علم تا مالی کمک خواهد کرد.

در طول ارائه، نمونه ای از یک مطالعه پیچیده نشان داده شد که حاوی بیش از 200 هزار رکورد است که برخی از آنها باید طبق داده های جدید به روز می شدند. همانطور که ممکن است حدس بزنید، انجام این کار به صورت دستی بسیار زمان بر خواهد بود، بنابراین نویسندگان مطالعه از Gemini برای تهیه کدی استفاده کردند که ورودی را دریافت کرده و به روز رسانی های لازم را انجام داد. یکی دیگر از نمونه های واقعی تر، استفاده از مدل زبان گوگل برای توضیح مسائل ریاضی یا فیزیک است.

داده های ورودی در اینجا یک عکس/اسکن از یک تکلیف از یک درس مدرسه بود. این سیستم می‌توانست گرافیک‌ها و متن‌های ذخیره‌شده در آنجا را پردازش کند و سپس نشان دهد که کدام بخش از تکالیف به درستی انجام شده و کدام‌یک نیاز به توجه بیشتری دارد. این ارائه نشان داد که کاربر می تواند بارها و بارها از Gemini بخواهد تا یک کار را توضیح دهد و هر تلاش بعدی باید به زبان ساده تر توضیح داده شود. البته اینکه Gemini چقدر دقیق و درست خواهد بود، توسط علاقه مندان بررسی خواهد شد، اما توانایی خواندن و پردازش متن به طور مستقیم از عکس ها قابل توجه است. همانطور که در طول ارائه اضافه شد:

"به Gemini آموزش داده شده است که همزمان متن، تصاویر، صداها و موارد دیگر را تشخیص دهد و بفهمد. به لطف این، او تفاوت های ظریف اطلاعات را بهتر درک می کند و می تواند به سوالات پیچیده پاسخ دهد. به ویژه در توضیح موضوعات مرتبط با ریاضیات و فیزیک مؤثر است، بنابراین می تواند به عنوان یک کمک کننده شخصی برای انجام تکالیف باشد.".

جمینی در گوشی های هوشمند گوگل پیکسل

گوگل همچنین به خود می بالید که Gemini از چیپست های جدید TPUv5 "یاد گرفته است" و قصد دارد Gemini Ultra را در اوایل سال 2024 معرفی کند که از Bard Advanced، نسخه جدیدی از نسخه مصرف کننده مدل گفتاری این غول استفاده خواهد کرد. Gemini Ultra در حال حاضر در حال آزمایش است و در حال حاضر در دسترس کارشناسان امنیتی منتخب است.

آخرین اطلاعات مهم، معرفی Gemini در گوشی های هوشمند گوگل پیکسل 8 است. این امکان از جمله امکان ایجاد پاسخ های سریع از طریق برنامه Gboard در پیام رسان ها را فراهم می کند. اولین مورد واتس اپ است، اما سال آینده چنین راه حل هایی در سایر برنامه های مرتبط با ارتباطات ظاهر می شود. با این حال، این تنها آغاز راه است، زیرا گوگل بسیاری از ابزارهای هوش مصنوعی جدید را برای تلفن های هوشمند پیکسل 8 اعلام کرده است و در آینده در برخی از دستگاه های دیگر نیز در دسترس خواهند بود. Android. با این حال، اینها برنامه های بعدی هستند و در حال حاضر جزئیاتی ارائه نشده است.

جمینی چه تفاوتی با سایر مدل های هوش مصنوعی مانند GPT-4 دارد؟

به نظر می‌رسد مدل جدید جمینی گوگل یکی از بزرگترین و پیشرفته‌ترین مدل‌های هوش مصنوعی تا به امروز باشد، اگرچه عرضه مدل Ultra آن را به طور قطع مشخص خواهد کرد. در مقایسه با سایر مدل‌های پرطرفدار که در حال حاضر از چت‌بات‌های هوش مصنوعی استفاده می‌کنند، Gemini با ویژگی چندوجهی خود متمایز است، در حالی که مدل‌های دیگر مانند GPT-4 برای چندوجهی بودن واقعاً به پلاگین‌ها و ادغام متکی هستند.

نگرانی در مورد دقت و بی طرفی

اگرچه Gemini یک جهش بزرگ در توسعه قابلیت‌های هوش مصنوعی است، اما دارای کاستی‌هایی مانند سایر مدل‌های زبان اصلی است. اول از همه، این امکان ایجاد اطلاعات نادرست است. سوگیری ها نیز بر اساس داده های آموزشی موجود در مدل زبان جدید است. همچنین لازم به ذکر است که درک محدود از دنیای واقعی. گوگل اعتراف می کند که مدل جدید جمینی می تواند اشتباه کند، حقایقی را ارائه دهد که مبتنی بر شواهد نباشد و با عقل سلیم در تضاد باشد.

تست های بیشتری مورد نیاز است، به خصوص برای Gemini Ultra، که دارای قابلیت های جدیدی است که هنوز به طور کامل کشف نشده است. Google متعهد است که Gemini را به دقت ارزیابی کند تا آسیب احتمالی را به حداقل برساند.

همچنین جالب: همه چیز درباره Microsoft کمک خلبان: آینده یا راه اشتباه؟

آینده با جمینی است

راه اندازی Gemini توسط گوگل، عصر جدیدی از توسعه هوش مصنوعی را آغاز کرد. جمینی با بهترین عملکرد خود در مقایسه با مدل‌های قبلی و خطوط پایه انسانی، به احتمالات آینده هوش مصنوعی اشاره می‌کند، اما هنوز برای رفع برخی کاستی‌ها به تحقیقات بیشتری نیاز دارد.

در آینده، می‌توانید انتظار داشته باشید که Gemini ویژگی‌های مفید و هوشمندتری را در محصولات Google ارائه دهد. در آینده، این شرکت قصد دارد به گسترش Gemini فراتر از زبان انگلیسی ادامه دهد و بر اساس متدولوژی مدل اصلی خود ایجاد کند.

ما فقط می توانیم تماشا کنیم و امیدوار باشیم که گوگل بداند چه کار می کند.

همچنین بخوانید:

جمینی چیست: همه چیز درباره مدل جدید هوش مصنوعی گوگل

گوگل جمینی چیست؟

چه کسی مدل را ایجاد کرد؟

فرصت ها

آیا نسخه های مختلفی وجود دارد؟

چگونه به جمینی دسترسی پیدا کنیم؟

Gemini در Google Bard: چه چیزی تغییر خواهد کرد؟

جمینی در گوشی های هوشمند گوگل پیکسل

جمینی چه تفاوتی با سایر مدل های هوش مصنوعی مانند GPT-4 دارد؟

نگرانی در مورد دقت و بی طرفی

آینده با جمینی است