در یک رقابت نفس گیر میان دو چت بات گراک (Grok) و جمینای Gemini برای خلق تصاویر واقعی ، گراک با وجود تازه کار بودن، توانست جمینای را در خلق تصاویر طبیعی تر شکست دهد. این در حالی است که جمینای از مدل Imagen 3 برای خلق تصاویر استفاده میکند و Grok از مدل اختصاصی خود یعنی Aurora بهره میبرد.
گراک (Grok) در برابر جمینای
به گزارش زوم تک از تامز گاید ، خلق تصاویر با استفاده از هوش مصنوعی آسان تر از همیشه شده است. چت بات ها این فرآیند را ساده تر هم میکنند، چرا که مدل زبانی تمام حدس و گمان ها را از درخواست شما برای تصویر حذف میکند.
گراک تازه وارد عرصه پلتفرم های چت است. این چت بات که در X ساخته شده، اکنون به صورت رایگان در دسترس است و شایعات حاکی از آن است که در مقطعی از سال آینده با یک URL اختصاصی به فعالیت خود ادامه خواهد داد. این امر گراک را در رقابت مستقیم تری با Gemini، ChatGPT، Claude و MetaAI قرار میدهد.
تیم xAI همچنین مدل ایجاد تصویر هوش مصنوعی سفارشی خود را به Grok داده است. این چت بات قبلا از Flux برای ایجاد تصاویر استفاده میکرد، اما اکنون به Aurora تغییر یافته است، اگرچه ایلان ماسک میگوید که ما نباید از این نام استفاده کنیم و در عوض فقط به این فکر کنیم که گراک تصاویر خود را میسازد.
جمینای نیز اخیرا با پیوستن Gemini 2.0 Flash به مدل های موجود برای مشترکین Gemini Advanced دستخوش تغییرات اساسی شده است. با این حال، حداقل در حال حاضر، هنوز از مدل Imagen 3 برای ایجاد تصاویر استفاده میکند. این در حالی است که Gemini 2.0 دارای قابلیت های تصویر بومی است.
هم گراک و هم جمینای در کار تولید تصاویر، چه در ساخت درخواست برای مدل دیگر و چه در اصلاح تصویری که قبلا نوشته اید، به طور خاص خوب هستند. بنابراین، تامز گاید آنها را رو در رو قرار داده است.
ایجاد درخواست برای تست
ایجاد درخواست برای آزمایش دو چت بات در توانایی آنها برای تولید تصاویر کمی با نوشتن درخواست برای Midjourney یا Ideogram متفاوت است. تمرکز بر سادگی و استفاده از مفاهیم سطح بالا با مقداری توضیحات است، زیرا هوش مصنوعی شکاف ها را پر میکند.
همچنین باید از کلمات و عبارات محرک مانند «تصور کن»، «نقاشی کن» یا «بساز» استفاده کنید تا به مدل بفهمانید که یک تصویر میخواهید، نه یک داستان یا پاسخ متنی.
تامز گاید عکس ها را به جای نقاشی ها میخواهد، بنابراین از آن به عنوان کلمه کلیدی استفاده خواهد کرد.
Gemini فقط تصاویری با وضوح 1:1 خروجی میدهد و تاکنون، به نظر میرسد گراک نسبت 4:3 را ترجیح میدهد.
مگر اینکه خلاف آن ذکر شده باشد، همه تصاویر اولین پاسخ بدون اصلاح بعدی هستند. همه آنها همچنین به جای ایجاد یک چت جدید برای هر درخواست، در همان جلسه درخواست شدند.
1. حیات وحش شهری مدرن
درخواست: «یک تصویر به سبک عکاسی از یک روباه قرمز که در سپیده دم از یک گذرگاه بارانی شهر عبور میکند، در حالی که عابران پیاده با چتر در انتظار سیگنال هستند، ایجاد کنید.»
این درخواست اول برای آزمایش این است که آنها چقدر خوب حیوانات را به تصویر میکشند و همچنین عناصر نور و پس زمینه مناسب را ثبت میکنند. خروجی ایده آل شبیه یک عکس با جلوه های باران است، اما در عین حال تا حد امکان نمای واقعی را حفظ میکند.
در حالی که تصویر Gemini چشمگیرتر است، تامز گاید فکر میکند گراک به آنچه در ذهنش بوده نزدیک تر است. روباه بسیار واقعی تر از تصویر Gemini است.
برنده: Grok
2. آشپزخانه در حال فعالیت
درخواست: «یک تصویر به سبک عکاسی از آشپزخانه یک سرآشپز حرفه ای در طول شلوغی شام، با بخار برخاسته از قابلمه ها و شعله های قابل مشاهده از ایستگاه کباب پز، ایجاد کنید.»
این برای نشان دادن این است که آنها چقدر میتوانند تجهیزات آشپزخانه را به طور دقیق نمایش دهند، درخواست را دنبال کنند و عناصری مانند گرما و رطوبت را مدیریت کنند. باید یک آشپزخانه تجاری و رفتار را نشان دهد، همچنین ایده فعالیت را نشان دهد.
Grok به راحتی در این مورد برنده میشود زیرا Gemini نتوانست زمینه درخواست را درک کند، که ما انتظار داریم یک سرآشپز در آشپزخانه باشد.
برنده: Grok
3. پیشرفت محل ساخت و ساز
درخواست: «تصویری به سبک عکاسی مستند از یک ساختمان نیمه بلند در حال ساخت، با کارگرانی که در حال نصب پانل های شیشه ای هستند در حالی که جرثقیل ها در یک بعد از ظهر صاف در بالای سر کار میکنند، ایجاد کنید.»
هدف این درخواست این است که ببینیم چقدر خوب میتواند پرسپکتیو ایجاد کند، زیرا باید ارتفاع و موقعیت را نشان دهد. همچنین باید خواص مواد را نشان دهد و تا حد امکان واقعی باشد. تامز گاید به سراغ سبک مستند رفت زیرا پیچیدگی بیشتری نیز به آن اضافه میکند.
تصویر Gemini بسیار واقعی تر از Grok به نظر میرسد، جایی که نتوانسته هیچ یک از کارگران را در آن بگنجاند و فقط یک نمای کلی نشان میدهد.
برنده: Gemini
4. صبح بازار کشاورزان
درخواست: «تصویری به سبک عکاسی با گوشی های هوشمند از یک بازار شلوغ کشاورزان در ساعت 7 صبح، با فروشندگانی که غرفه ها را برپا میکنند در حالی که مشتریان اولیه محصولات تازه را بررسی میکنند، ایجاد کنید.»
با این مقایسه، مدل ها باید زمان روز (تنظیم صحیح نور) و همچنین تازگی محصول و تعامل انسان را نشان دهند. تامز گاید به دنبال طول سایه ها و سطوح فعالیت است.
این سخت ترین انتخاب برای تامز گاید بود. آنها ظاهر طبیعی تصویر Gemini را ترجیح دادند، اما فکر میکنند Grok نور و زمان روز را با دقت بیشتری ثبت کرده است.
برنده: Grok
5. تشخیص تعمیرکار خودرو
درخواست: «یک عکس سیاه و سفید به سبک رترو از یک مکانیک که از یک ابزار تشخیصی روی یک ماشین مدرن استفاده میکند، با کاپوت بالا و محفظه موتور قابل مشاهده، ایجاد کنید.»
تامز گاید میخواست ببیند که هر دو مدل چقدر خوب عکاسی سیاه و سفید را انجام میدهند. در این آنها همچنین باید استفاده از ابزار، نورپردازی و جزئیات موتور را نشان میدادند.
باز هم، این یک تماس نزدیک بین دو تصویر بود، اما تامز گاید آن را به Gemini داده است زیرا جزئیات موتور را با دقت بیشتری نمایش میدهد.
برنده: Gemini
6. واکنش اضطراری
درخواست: «برای من یک عکس اکشن از امدادگران که در حال درمان یک بیمار در خیابان محله هستند در حالی که پلیس ترافیک را در اطراف صحنه هدایت میکند، بسازید.»
عکاسی اکشن یک چالش است. تامز گاید مدتی به عنوان روزنامه نگار در اوایل کار خود این کار را انجام داد (نه خیلی خوب). آنها باید موقعیت صحیح، اقدامات ایمنی عمومی را در تصویر و حس فوریت نشان دهند.
Gemini بسیار دقیق تر با درخواست مطابقت داشت و تصویری واقعی تر ایجاد کرد. این یک تصمیم آسان بود.
برنده: Gemini
7. تمرین اجرای ویولن
درخواست: «تصویری به سبک عکس از یک ویولونیست که در هنگام غروب آفتاب به تنهایی در یک اتاق تمرین میکند، نت های موسیقی روی پایه قابل مشاهده است، ایجاد کنید.»
در نهایت چیزی هنری تر. در اینجا میخواهیم موقعیت دست را برای ویولن، جلوه های نور طبیعی و کیفیت نت موسیقی ببینیم.
یکی از اینها شبیه جلد یک آلبوم کلاسیک است، دیگری شبیه عکس کسی است که در حال تمرین ویولن است. از آنجایی که درخواست از کسی میخواهد که تمرین کند، تامز گاید پیروزی را به Grok داده است.
برنده: Grok
برنده: جمینای در مقابل گراک
گراک Grok بسیار چشمگیر است. نه تنها به عنوان یک چت بات، بلکه در توانایی آن در تولید تصاویر واقعی. این چیزی از Imagen 3 کم نمیکند که به خودی خود بسیار چشمگیر است، اما عادت دارد بیش از حد سبک سازی شود.
این یک مسابقه نزدیک بود. هر دو مدل تقریبا به طور مساوی با هم مطابقت دارند، اما Grok در تفسیر یک درخواست بهتر است و تصاویر طبیعی تری ایجاد میکند.
نکته قابل توجه این است که به زودی گوگل نسخه جدیدی از Gemini را راه اندازی خواهد کرد که میتواند به طور بومی تصاویر ایجاد کند. این بدان معناست که برای ایجاد تصاویر نیازی به استفاده از Imagen 3 ندارد، میتواند این کار را به تنهایی انجام دهد.
نظرات در مورد : گراک (Grok) در برابر جمینای : کدام هوش مصنوعی تصاویر واقعی تر خلق می کند؟