گوگل سال گذشته خانواده مدلهای Gemini را معرفی کرد که از پیشرفتهترین مدلهای این شرکت به حساب میآیند و با انعطافپذیری بالا طراحی شدهاند. این مدلها قادرند بر روی هر چیزی از مراکز داده تا دستگاههای تلفن همراه اجرا شوند. پس از معرفی Gemini Nano، کارآمدترین مدل ساخته شده برای وظایف محلی روی دستگاهها، گوگل با شرکای محدودی برای پشتیبانی از کاربردهای متنوع همکاری کرده است.
امروز، گوگل دسترسی آزمایشی به جیمینی نانو را برای تمامی توسعهدهندگان اندروید از طریق AI Edge SDK با استفاده از AICore باز کرده است. در ابتدا، توسعهدهندگان میتوانند از این مدل برای آزمایش پردازشهای متن به متن بر روی دستگاههای سری Pixel 9 استفاده کنند و در آینده پشتیبانی از دستگاههای بیشتر و کاربردهای چندرسانهای افزوده خواهد شد. توجه داشته باشید که دسترسی آزمایشی در حال حاضر فقط برای اهداف توسعه بوده و برای استفاده در تولید بهکار نمیرود.
مزایای استفاده از هوش مصنوعی روی دستگاه
هوش مصنوعی تولیدی روی دستگاه بدون نیاز به ارتباط با سرور، پردازشها را مستقیماً روی دستگاه انجام میدهد. این مزایا شامل:
حفاظت از دادههای حساس: اطلاعات کاربر بهصورت محلی پردازش میشود و نیازی به ارسال به سرور نیست.
کارکرد بدون نیاز به اینترنت: حتی بدون اتصال اینترنتی، عملکرد کامل مدلها فراهم است.
کاهش هزینههای پردازش: پردازش روی دستگاه نیازی به هزینه اضافی برای هر اجرای مدل ندارد.
با توجه به اینکه مدلهای هوش مصنوعی روی دستگاه با قدرت محاسباتی کمتری نسبت به سرورها کار میکنند، این مدلها به طور قابل توجهی کوچکتر و تخصصیتر از نمونههای ابری خود هستند. بنابراین، مدلها برای وظایف مشخص که به طور دقیق تعریف شدهاند، بهتر عمل میکنند تا وظایف باز و غیرقابل پیشبینی مانند چتباتها.
در اینجا چند نمونه از کاربردهای پیشنهادی آورده شده است:
بازنویسی متن: بازنویسی و تغییر لحن متن به شکل رسمیتر یا دوستانهتر.
پاسخ هوشمند: پیشنهاد پاسخهای احتمالی بعدی بر اساس مکالمات.
ویرایش و تصحیح: اصلاح اشتباهات املایی و گرامری.
خلاصهسازی: ایجاد خلاصهای از یک سند طولانی به صورت پاراگراف یا نقاط کلیدی.
برای دستیابی به بهترین نتایج در این کاربردها، گوگل استراتژیهای پیشنهادی برای نحوه استفاده از مدلها را در مستندات خود ارائه داده است. همچنین، برای آزمایش آسانتر میتوانید اپلیکیشن نمونه گوگل را دانلود کنید.
عملکرد Gemini Nano و نحوه استفاده
مدل جیمینی نانو معرفی شده به توسعهدهندگان، که در مقاله علمی گوگل به نام Nano 2 شناخته میشود، بهبودهای چشمگیری نسبت به نسخه قبلی خود دارد. این مدل تقریباً دو برابر بزرگتر از مدل پیشین Nano 1 است و در آزمونهای علمی و کاربردهای واقعی عملکرد بهتری داشته و قابلیتهایی دارد که با مدلهای بسیار بزرگتر قابل مقایسه است.
نتایج عملکرد این دو مدل در برخی از آزمونها به شرح زیر است:
MMLU (5-shot): Nano 1 – 46% | Nano 2 – 56%
MATH (4-shot): Nano 1 – 14% | Nano 2 – 23%
پارافریز: Nano 1 – 44% | Nano 2 – 90%
پاسخ هوشمند: Nano 1 – 44% | Nano 2 – 82%
(این اعداد بر اساس مجموعه دادههای عمومی و مقالات علمی گوگل محاسبه شدهاند.)
استفاده از Gemini Nano در اپلیکیشنهای گوگل
مدل Gemini Nano هماکنون در چندین اپلیکیشن گوگل بهکار رفته است. از جمله:
Talkback: اپلیکیشن دسترسپذیری اندروید که از تواناییهای چندرسانهای Gemini Nano برای بهبود توصیف تصاویر برای کاربران نابینا و کمبینا استفاده میکند.
Pixel Recorder: با کمک این مدل، پشتیبانی از ضبطهای طولانیتر و ارائه خلاصههای باکیفیتتر فراهم شده است.
یکپارچهسازی مدلها با AI Edge SDK و AICore
ادغام مدلهای هوش مصنوعی در اپلیکیشنهای موبایلی به دلیل نیاز به منابع محاسباتی بالا و فضای ذخیرهسازی زیاد چالشبرانگیز است. برای حل این مشکل، گوگل AICore را به عنوان یک سرویس جدید در سیستمعامل اندروید معرفی کرده است. این سرویس به توسعهدهندگان اجازه میدهد از مدلهای هوش مصنوعی بهصورت محلی استفاده کنند، بدون اینکه نیاز به توزیع و مدیریت دستی مؤلفهها مانند مدلها و اجزای اجرایی باشد.
برای کسب اطلاعات بیشتر میتوانید به مستندات و ویدئوی آموزشی گوگل مراجعه کنید. برای اجرای استنتاج با Gemini Nano در AICore، باید از AI Edge SDK استفاده کنید. این SDK به توسعهدهندگان اجازه میدهد تا دستورات و پارامترهای استنتاج را متناسب با نیازهای خاص خود سفارشی کنند، که این امر به کنترل بیشتر بر فرایند استنتاج کمک میکند.
برای شروع آزمایش با AI Edge SDK، کافیست خط زیر را به برنامه خود اضافه کنید:
implementation(com.google.ai.edge.aicore:aicore:0.0.1-exp01)
AI Edge SDK به شما اجازه میدهد تا پارامترهای استنتاج را تنظیم کنید. برخی از پارامترهای پرکاربرد شامل موارد زیر هستند:
Temperature: این پارامتر، میزان تصادفی بودن خروجی را کنترل میکند. مقادیر بالاتر منجر به تنوع بیشتر و خلاقیت در نتایج میشود.
Top K: تعداد توکنهایی که از بین بالاترین امتیازات برای استنتاج در نظر گرفته میشوند را تعیین میکند.
Candidate count: حداکثر تعداد پاسخهایی که باید بازگردانده شود را مشخص میکند.
Max output tokens: طول پاسخ مورد نظر را مشخص میکند.
زمانی که آماده اجرای استنتاج با مدل خود هستید، AI Edge SDK راهکاری آسان برای پذیرش چندین رشته به عنوان ورودی ارائه میدهد که مناسب برای پردازش دادههای طولانی است.
برای شروع کار با Gemini Nano و استفاده از دسترسی آزمایشی، ویدئوی آموزشی را تماشا کرده و آن را در برنامه خود امتحان کنید. ما مشتاق هستیم تا پروژههای شما را ببینیم. شما میتوانید پروژههایتان را با هشتگ #AndroidAI در شبکههای اجتماعی به اشتراک بگذارید.
نظرات در مورد : نسخه آزمایشی Gemini Nano اکنون در اندروید در دسترس است