در جیمیل ،جمینای در یک پنل کناری قرار دارد که میتواند ایمیل بنویسد و رشتههای پیام را خلاصه کند. همین پنل را در Docs خواهید یافت، جایی که به شما در نوشتن و اصلاح محتوای خود و ایدههای جدید کمک میکند. جمینای در Slides اسلایدها و تصاویر سفارشی ایجاد میکند. و Gemini در Google Sheets دادهها را ردیابی و سازماندهی میکند، جداول و فرمولها را ایجاد میکند.
گوگل جمینای را به میدان فرستاد: ابزار های هوش مصنوعی گوگل که تا به حال ندیده اید!
چت بات هوش مصنوعی گوگل اخیراً به Maps آمده است، جایی که Gemini میتواند نظرات مربوط به کافیشاپها را خلاصه کند یا توصیههایی در مورد نحوه گذراندن یک روز بازدید از یک شهر خارجی ارائه دهد.
دسترسی جمینای به Drive نیز گسترش مییابد، جایی که میتواند فایلها و پوشهها را خلاصه کند و حقایق سریع در مورد یک پروژه ارائه دهد. در همین حال، در Meet، جمینای زیرنویسها را به زبانهای دیگر ترجمه میکند.
جمینای اخیراً به شکل یک ابزار نوشتن هوش مصنوعی به مرورگر Chrome گوگل آمده است. میتوانید از آن برای نوشتن چیزی کاملاً جدید یا بازنویسی متن موجود استفاده کنید. گوگل میگوید که صفحه وبی را که در آن هستید در نظر میگیرد تا توصیههایی ارائه دهد.
در جاهای دیگر، میتوانید نکاتی از جمینای را در محصولات پایگاه داده گوگل، ابزارهای امنیتی ابری و پلتفرمهای توسعه برنامه (از جمله Firebase و Project IDX) و همچنین در برنامههایی مانند Google Photos (جایی که Gemini پرس و جوهای جستجوی زبان طبیعی را مدیریت میکند)، YouTube (جایی که به ایدههای طوفان فکری ویدیویی کمک میکند) و دستیار یادداشتبرداری NotebookLM پیدا کنید.
افزونهها و Gems های جمینای
کاربران Gemini Advanced که در Google I/O 2024 معرفی شدند، میتوانند Gems، چت باتهای سفارشی را که توسط مدلهای Gemini طراحی شدهاند، ایجاد کنند. Gems را میتوان از توضیحات زبان طبیعی ایجاد کرد – برای مثال، “شما مربی دویدن من هستید. یک برنامه دویدن روزانه به من بدهید” – و با دیگران به اشتراک گذاشته یا خصوصی نگه داشته شود.
Gems در ۱۵۰ کشور و بیشتر زبانها در دسکتاپ و موبایل در دسترس هستند. در نهایت، آنها قادر خواهند بود از مجموعهای از ادغامها با سرویسهای گوگل، از جمله Google Calendar، Tasks، Keep و YouTube Music، برای انجام وظایف سفارشی استفاده کنند.
Gemini Live چتهای صوتی عمیق
تجربهای به نام Gemini Live به کاربران امکان میدهد چتهای صوتی “عمیق” با Gemini داشته باشند. این در برنامههای Gemini در موبایل و Pixel Buds Pro 2 در دسترس است، جایی که حتی زمانی که تلفن شما قفل است، میتوان به آن دسترسی داشت.
با فعال بودن Gemini Live، میتوانید در حالی که چت بات صحبت میکند (با یکی از چندین صدای جدید) برای پرسیدن یک سوال روشن کننده، Gemini را قطع کنید و در زمان واقعی با الگوهای گفتاری شما سازگار میشود. در مقطعی، قرار است Gemini درک بصری به دست آورد و به آن اجازه دهد محیط اطراف شما را از طریق عکسها یا ویدیوهایی که توسط دوربینهای گوشیهای هوشمند شما گرفته شده است، ببیند و به آنها پاسخ دهد.
Live همچنین به گونهای طراحی شده است که به عنوان یک مربی مجازی عمل کند و به شما در تمرین برای رویدادها، ایدههای طوفان فکری و غیره کمک کند. به عنوان مثال، Live میتواند پیشنهاد کند که در یک مصاحبه شغلی یا کارآموزی آینده کدام مهارتها را برجسته کنید و میتواند در مورد سخنرانی در جمع مشاوره دهد.
تولید تصویر از طریق Imagen 3
کاربران جمینای میتوانند با استفاده از مدل Imagen 3 داخلی گوگل، آثار هنری و تصاویر ایجاد کنند.
گوگل میگوید که Imagen 3 میتواند دستورات متنی را که به تصاویر ترجمه میکند، در مقایسه با نسخه قبلی خود، Imagen 2، دقیقتر درک کند و در نسلهای خود “خلاقانهتر و دقیقتر” است. علاوه بر این، این مدل مصنوعات و خطاهای بصری کمتری تولید میکند (حداقل طبق گفته گوگل) و بهترین مدل Imagen برای رندر متن است.
جمینای برای نوجوانان
در ماه ژوئن، گوگل یک تجربه جمینای با محوریت نوجوانان را معرفی کرد که به دانشآموزان امکان میدهد از طریق حسابهای مدرسه Google Workspace for Education خود ثبت نام کنند.
جمینای با محوریت نوجوانان دارای “سیاستها و حفاظتهای اضافی” است، از جمله یک فرآیند ورود به سیستم متناسب و یک “راهنمای سواد هوش مصنوعی” برای (همانطور که گوگل میگوید) “کمک به نوجوانان برای استفاده مسئولانه از هوش مصنوعی”. در غیر این صورت، تقریباً مشابه تجربه استاندارد Gemini است، تا ویژگی “بررسی مجدد” که در وب جستجو میکند تا ببیند آیا پاسخهای Gemini دقیق هستند یا خیر.
جمینای در دستگاههای خانه هوشمند
تعداد فزایندهای از دستگاههای ساخت گوگل از جمینای برای عملکرد پیشرفته استفاده میکنند، از Google TV Streamer گرفته تا Pixel 9 و 9 Pro تا جدیدترین Nest Learning Thermostat.
در Google TV Streamer، جمینای از تنظیمات برگزیده شما برای تنظیم پیشنهادات محتوا در اشتراکهای شما و خلاصه کردن نظرات و حتی کل فصلهای تلویزیون استفاده میکند.
در جدیدترین ترموستات Nest (و همچنین بلندگوها، دوربینها و نمایشگرهای هوشمند Nest)، Gemini به زودی قابلیتهای مکالمه و تحلیلی Google Assistant را تقویت خواهد کرد.
مشترکین طرح Nest Aware گوگل در اواخر امسال پیشنمایشی از تجربیات جدید مبتنی بر Gemini مانند توضیحات هوش مصنوعی برای فیلم دوربین Nest، جستجوی ویدیوی زبان طبیعی و اتوماسیونهای پیشنهادی دریافت خواهند کرد. دوربینهای Nest میفهمند که در فیدهای ویدیویی زنده چه اتفاقی میافتد (مثلاً وقتی سگی در باغ حفاری میکند)، در حالی که برنامه همراه Google Home ویدیوها را نمایش میدهد و با توجه به توضیحات، اتوماسیون دستگاه ایجاد میکند (مثلاً “آیا بچهها دوچرخههای خود را در راهرو رها کردهاند؟”، “آیا ترموستات Nest من هنگام بازگشت به خانه از محل کار هر سهشنبه، گرمایش را روشن میکند”).
همچنین در اواخر امسال، Google Assistant چندین ارتقا در دستگاههای Nest و سایر دستگاههای خانه هوشمند دریافت خواهد کرد تا مکالمات طبیعیتر شوند. صداهای بهبود یافته در راه هستند، علاوه بر این که میتوانند سوالات بعدی را بپرسند و “آسانتر به عقب و جلو بروند”.
مدلهای جمینای چه کاری میتوانند انجام دهند؟
از آنجایی که مدلهای جمینای چندوجهی هستند، میتوانند طیف وسیعی از وظایف چندوجهی را انجام دهند، از رونویسی گفتار گرفته تا زیرنویس تصاویر و ویدیوها در زمان واقعی. بسیاری از این قابلیتها به مرحله تولید رسیدهاند (همانطور که در بخش قبل به آن اشاره شد) و گوگل در آیندهای نه چندان دور وعدههای بسیار بیشتری میدهد.
البته کمی سخت است که حرف این شرکت را قبول کنیم. گوگل با عرضه اولیه Bard به طور جدی انتظارات را برآورده نکرد. اخیراً، با ویدیویی که ادعا میکرد قابلیتهای Gemini را نشان میدهد، که کم و بیش آرمانی بود – نه زنده – باعث ناراحتی شد.
همچنین، گوگل هیچ راه حلی برای برخی از مشکلات اساسی فناوری هوش مصنوعی مولد امروزی، مانند سوگیریهای کدگذاری شده آن و تمایل به ساختن چیزها (یعنی توهم) ارائه نمیدهد. رقبای آن هم این کار را نمیکنند، اما این چیزی است که باید هنگام استفاده یا پرداخت هزینه برای Gemini در نظر داشته باشید.
با فرض اینکه برای اهداف این مقاله، گوگل با ادعاهای اخیر خود صادق است، در اینجا کاری است که سطوح مختلف Gemini اکنون میتوانند انجام دهند و کاری که میتوانند پس از رسیدن به پتانسیل کامل خود انجام دهند:
چه کاری میتوانید با Gemini Ultra انجام دهید
گوگل میگوید که Gemini Ultra – به لطف چندوجهی بودن آن – میتواند برای کمک به کارهایی مانند تکالیف فیزیک، حل گام به گام مسائل در یک برگه و اشاره به اشتباهات احتمالی در پاسخهای از قبل پر شده استفاده شود.
گوگل میگوید که Ultra همچنین میتواند برای کارهایی مانند شناسایی مقالات علمی مرتبط با یک مشکل اعمال شود. به عنوان مثال، این مدل میتواند اطلاعات را از چندین مقاله استخراج کند و نموداری را از یکی با تولید فرمولهای لازم برای ایجاد مجدد نمودار با دادههای بهموقعتر بهروز کند.
Ultra از نظر فنی از تولید تصویر پشتیبانی میکند. اما این قابلیت هنوز به نسخه تولیدی مدل راه پیدا نکرده است – شاید به این دلیل که مکانیزم پیچیدهتر از نحوه تولید تصاویر توسط برنامههایی مانند ChatGPT است. به جای ارسال دستورات به یک تولیدکننده تصویر (مانند DALL-E 3، در مورد ChatGPT)، Gemini تصاویر را “به طور طبیعی” و بدون مرحله واسطه خروجی میدهد.
Ultra به عنوان یک API از طریق Vertex AI، پلتفرم توسعه هوش مصنوعی کاملاً مدیریت شده گوگل و AI Studio، ابزار مبتنی بر وب گوگل برای توسعهدهندگان برنامه و پلتفرم در دسترس است.
قابلیت های جمینای پرو
- گوگل میگوید که Gemini Pro در استدلال، برنامهریزی و قابلیتهای درک خود نسبت به LaMDA بهبود یافته است. آخرین نسخه، Gemini 1.5 Pro – که برنامههای Gemini را برای مشترکین Gemini Advanced ارائه میدهد – حتی از عملکرد Ultra در برخی زمینهها فراتر میرود.
- Gemini 1.5 Pro در مقایسه با نسخه قبلی خود، Gemini 1.0 Pro، در تعدادی از زمینهها بهبود یافته است، شاید واضحترین آن در میزان دادههایی باشد که میتواند پردازش کند. Gemini 1.5 Pro میتواند تا ۱.۴ میلیون کلمه، دو ساعت ویدیو یا ۲۲ ساعت صدا را دریافت کند و میتواند در مورد آن دادهها استدلال کند یا به سوالات پاسخ دهد (کم و بیش).
- Gemini 1.5 Pro در ماه ژوئن در کنار قابلیتی به نام اجرای کد، که هدف آن کاهش اشکالات در کدی است که مدل با اصلاح مکرر آن کد در چندین مرحله تولید میکند، به طور کلی در Vertex AI و AI Studio در دسترس قرار گرفت. (اجرای کد از Gemini Flash نیز پشتیبانی میکند.)
- در Vertex AI، توسعهدهندگان میتوانند Gemini Pro را از طریق فرآیند تنظیم دقیق یا “زمینه سازی” برای زمینهها و موارد استفاده خاص سفارشی کنند. به عنوان مثال، Pro (همراه با سایر مدلهای Gemini) میتواند دستورالعملهایی برای استفاده از دادههای ارائه دهندگان شخص ثالث مانند Moody’s، Thomson Reuters، ZoomInfo و MSCI یا اطلاعات منبع از مجموعه دادههای شرکتی یا Google Search به جای بانک اطلاعاتی گستردهتر خود دریافت کند. Gemini Pro همچنین میتواند برای انجام اقدامات خاص، مانند خودکارسازی گردش کار دفتر پشتی، به APIهای خارجی شخص ثالث متصل شود.
AI Studio قالبهایی را برای ایجاد دستورات چت ساختاریافته با Pro ارائه میدهد. توسعهدهندگان میتوانند دامنه خلاقیت مدل را کنترل کنند و نمونههایی را برای ارائه دستورالعملهای لحن و سبک ارائه دهند – و همچنین تنظیمات ایمنی Pro را تنظیم کنند.
Vertex AI Agent Builder به افراد امکان میدهد “نمایندگان” مجهز به Gemini را در Vertex AI بسازند. به عنوان مثال، یک شرکت میتواند عاملی ایجاد کند که کمپینهای بازاریابی قبلی را تجزیه و تحلیل کند تا سبک یک برند را درک کند و سپس از آن دانش برای کمک به تولید ایدههای جدید مطابق با سبک استفاده کند.
Gemini Flash سبک تر است اما قدرت زیادی دارد
در حالی که اولین نسخه Gemini Flash برای حجم کاری کمتر طراحی شده بود، جدیدترین نسخه، 2.0 Flash، اکنون مدل هوش مصنوعی پرچمدار گوگل است. گوگل Gemini 2.0 Flash را مدل هوش مصنوعی خود برای عصر عاملیت مینامد. این مدل میتواند علاوه بر متن، به طور طبیعی تصاویر و صدا تولید کند و میتواند از ابزارهایی مانند Google Search استفاده کند و با APIهای خارجی تعامل داشته باشد.
مدل 2.0 Flash سریعتر از نسل قبلی مدلهای Gemini است و حتی از برخی از مدلهای بزرگتر Gemini 1.5 در معیارهای اندازهگیری کدنویسی و تجزیه و تحلیل تصویر بهتر عمل میکند. میتوانید یک نسخه آزمایشی از 2.0 Flash را در نسخه وب Gemini یا از طریق پلتفرمهای توسعهدهنده هوش مصنوعی گوگل امتحان کنید و نسخه تولیدی این مدل باید در ژانویه عرضه شود.
Flash، شاخهای از Gemini Pro است که کوچک و کارآمد است و برای حجم کاری باریک و با فرکانس بالای هوش مصنوعی مولد ساخته شده است، مانند Gemini Pro چندوجهی است، به این معنی که میتواند صدا، ویدیو، تصاویر و متن را تجزیه و تحلیل کند (اما فقط میتواند متن تولید کند). گوگل میگوید که Flash به طور خاص برای کارهایی مانند خلاصهسازی و برنامههای چت، به علاوه زیرنویس تصویر و ویدیو و استخراج داده از اسناد و جداول طولانی مناسب است.
توسعهدهندگانی که از Flash و Pro استفاده میکنند، میتوانند به صورت اختیاری از ذخیرهسازی زمینه استفاده کنند، که به آنها امکان میدهد مقادیر زیادی از اطلاعات (مثلاً یک پایگاه دانش یا پایگاه داده از مقالات تحقیقاتی) را در یک حافظه پنهان ذخیره کنند که مدلهای Gemini میتوانند به سرعت و نسبتاً ارزان به آن دسترسی داشته باشند. با این حال، ذخیرهسازی زمینه هزینه اضافی علاوه بر سایر هزینههای استفاده از مدل Gemini است.
جمینای نانو : غول هوش مصنوعی گوگل که در گوشی شما اجرا میشود
به گزارش زوم تک از تک کرانچ، Gemini Nano نسخه بسیار کوچکتر و کارآمدی از مدلهای Gemini Pro و Ultra گوگل است که میتواند به طور مستقیم روی برخی دستگاهها اجرا شود. این مدل در حال حاضر قابلیتهایی مانند خلاصهسازی در برنامه ضبط صدا و پاسخ هوشمند در کیبورد Gboard را در گوشیهای Pixel 8 Pro، Pixel 8، Pixel 9 Pro، Pixel 9 و Samsung Galaxy S24 فعال میکند.
برنامه ضبط صدا، که به کاربران امکان میدهد با فشردن یک دکمه صدا را ضبط و رونویسی کنند، شامل خلاصهای از مکالمات، مصاحبهها، سخنرانیها و سایر قطعات صوتی ضبط شده با استفاده از Gemini Nano است. کاربران حتی اگر اتصال اینترنت نداشته باشند نیز میتوانند از این قابلیت استفاده کنند و به لطف حفظ حریم خصوصی، هیچ دادهای از گوشی آنها خارج نمیشود.
Nano همچنین در Gboard، جایگزین صفحه کلید گوگل، استفاده میشود. در آنجا، قابلیتی به نام پاسخ هوشمند را فعال میکند که به پیشنهاد جمله بعدی در مکالمات برنامههای پیامرسان مانند واتساپ کمک میکند.
در برنامه Google Messages در دستگاههای پشتیبانی شده، Nano قابلیت Magic Compose را فعال میکند که میتواند پیامها را با سبکهایی مانند “هیجان زده”، “رسمی” و “شعرگونه” ایجاد کند.
گوگل میگوید که نسخه آینده اندروید از Nano برای هشدار دادن به کاربران در مورد کلاهبرداریهای احتمالی در طول تماسها استفاده خواهد کرد. برنامه آب و هوای جدید در گوشیهای Pixel از Gemini Nano برای تولید گزارشهای آب و هوای سفارشی استفاده میکند. و TalkBack، سرویس دسترسی گوگل، از Nano برای ایجاد توضیحات صوتی از اشیا برای کاربران کم بینا و نابینا استفاده میکند.
هزینه مدلهای جمینای چقدر است؟
Gemini 1.0 Pro (اولین نسخه Gemini Pro)، 1.5 Pro و Flash از طریق Gemini API گوگل برای ساخت برنامهها و خدمات در دسترس هستند – همه با گزینههای رایگان. اما گزینههای رایگان محدودیتهای استفاده را اعمال میکنند و ویژگیهای خاصی مانند ذخیرهسازی زمینه و دستهبندی را حذف میکنند.
مدلهای Gemini در غیر این صورت به صورت پرداخت به ازای استفاده هستند. در اینجا قیمت پایه – بدون احتساب افزونههایی مانند ذخیرهسازی زمینه – از سپتامبر ۲۰۲۴ آمده است:
- Gemini 1.0 Pro: ۵۰ سنت برای ۱ میلیون توکن ورودی، ۱.۵۰ دلار برای ۱ میلیون توکن خروجی
- Gemini 1.5 Pro: ۱.۲۵ دلار برای ۱ میلیون توکن ورودی (برای دستورات تا ۱۲۸ هزار توکن) یا ۲.۵۰ دلار برای ۱ میلیون توکن ورودی (برای دستورات طولانیتر از ۱۲۸ هزار توکن). ۵ دلار برای ۱ میلیون توکن خروجی (برای دستورات تا ۱۲۸ هزار توکن) یا ۱۰ دلار برای ۱ میلیون توکن خروجی (برای دستورات طولانیتر از ۱۲۸ هزار توکن)
- Gemini 1.5 Flash: ۷.۵ سنت برای ۱ میلیون توکن ورودی (برای دستورات تا ۱۲۸ هزار توکن)، ۱۵ سنت برای ۱ میلیون توکن ورودی (برای دستورات طولانیتر از ۱۲۸ هزار توکن)، ۳۰ سنت برای ۱ میلیون توکن خروجی (برای دستورات تا ۱۲۸ هزار توکن)، ۶۰ سنت برای ۱ میلیون توکن خروجی (برای دستورات طولانیتر از ۱۲۸ هزار توکن)
- Gemini 1.5 Flash-8B: ۳.۷۵ سنت برای ۱ میلیون توکن ورودی (برای دستورات تا ۱۲۸ هزار توکن)، ۷.۵ سنت برای ۱ میلیون توکن ورودی (برای دستورات طولانیتر از ۱۲۸ هزار توکن)، ۱۵ سنت برای ۱ میلیون توکن خروجی (برای دستورات تا ۱۲۸ هزار توکن)، ۳۰ سنت برای ۱ میلیون توکن خروجی (برای دستورات طولانیتر از ۱۲۸ هزار توکن)
- توکنها بیتهای تقسیم شده از دادههای خام هستند، مانند هجاهای “fan”، “tas” و “tic” در کلمه “fantastic”. ۱ میلیون توکن معادل حدود ۷۰۰۰۰۰ کلمه است. ورودی به توکنهای وارد شده به مدل اشاره دارد، در حالی که خروجی به توکنهایی اشاره دارد که مدل تولید میکند.
قیمتگذاری Ultra و 2.0 Flash هنوز اعلام نشده است و Nano هنوز در دسترسی اولیه است.
آخرین اخبار در مورد Project Astra چیست؟
Project Astra تلاش Google DeepMind برای ایجاد برنامهها و “نمایندگان” مجهز به هوش مصنوعی برای درک چندوجهی در زمان واقعی است. در نسخههای نمایشی، گوگل نشان داده است که چگونه مدل هوش مصنوعی میتواند به طور همزمان ویدیو و صدای زنده را پردازش کند. گوگل در ماه دسامبر نسخه برنامهای از Project Astra را برای تعداد کمی از آزمایشکنندگان مورد اعتماد منتشر کرد، اما در حال حاضر هیچ برنامهای برای انتشار گستردهتر ندارد.
این شرکت میخواهد Project Astra را در یک جفت عینک هوشمند قرار دهد. گوگل همچنین در ماه دسامبر نمونه اولیهای از برخی عینکها را با Project Astra و قابلیتهای واقعیت افزوده به چند آزمایشکننده مورد اعتماد ارائه کرد. با این حال، در حال حاضر محصول مشخصی وجود ندارد و مشخص نیست که گوگل چه زمانی واقعاً چنین چیزی را منتشر خواهد کرد.
Project Astra هنوز فقط یک پروژه است و نه یک محصول. با این حال، نسخههای نمایشی Astra نشان میدهد که گوگل دوست دارد محصولات هوش مصنوعی خود در آینده چه کاری انجام دهند.
آیا Gemini به آیفون میآید؟
شاید. اپل گفته است که در حال مذاکره برای استفاده از Gemini و سایر مدلهای شخص ثالث برای تعدادی از ویژگیهای مجموعه Apple Intelligence خود است. پس از یک سخنرانی اصلی در WWDC 2024، کریگ فدریگی، معاون ارشد اپل، برنامههایی را برای کار با مدلها، از جمله Gemini، تأیید کرد، اما جزئیات بیشتری را فاش نکرد.
نظرات در مورد : جمینای گوگل جادو می کند : ابزارهای هوش مصنوعی که شما را شگفت زده خواهند کرد!