آنتی ویروس پادویش

گراک (Grok) در برابر جمینای : کدام هوش مصنوعی تصاویر واقعی‌ تر خلق می‌ کند؟

مقایسه گراک و جمینای Gemini vs Grok

در یک رقابت نفس گیر میان دو چت بات گراک (Grok) و جمینای Gemini برای خلق تصاویر واقعی ، گراک با وجود تازه کار بودن، توانست جمینای را در خلق تصاویر طبیعی تر شکست دهد. این در حالی است که جمینای از مدل Imagen 3 برای خلق تصاویر استفاده می‌کند و Grok از مدل اختصاصی خود یعنی Aurora بهره می‌برد.

گراک (Grok) در برابر جمینای

به گزارش زوم تک از تامز گاید ، خلق تصاویر با استفاده از هوش مصنوعی آسان تر از همیشه شده است. چت بات ها این فرآیند را ساده تر هم می‌کنند، چرا که مدل زبانی تمام حدس و گمان ها را از درخواست شما برای تصویر حذف می‌کند.

گراک تازه وارد عرصه پلتفرم های چت است. این چت بات که در X ساخته شده، اکنون به صورت رایگان در دسترس است و شایعات حاکی از آن است که در مقطعی از سال آینده با یک URL اختصاصی به فعالیت خود ادامه خواهد داد. این امر گراک را در رقابت مستقیم تری با Gemini، ChatGPT، Claude و MetaAI قرار می‌دهد.

تیم xAI همچنین مدل ایجاد تصویر هوش مصنوعی سفارشی خود را به Grok داده است. این چت بات قبلا از Flux برای ایجاد تصاویر استفاده می‌کرد، اما اکنون به Aurora تغییر یافته است، اگرچه ایلان ماسک می‌گوید که ما نباید از این نام استفاده کنیم و در عوض فقط به این فکر کنیم که گراک تصاویر خود را می‌سازد.

جمینای نیز اخیرا با پیوستن Gemini 2.0 Flash به مدل های موجود برای مشترکین Gemini Advanced دستخوش تغییرات اساسی شده است. با این حال، حداقل در حال حاضر، هنوز از مدل Imagen 3 برای ایجاد تصاویر استفاده می‌کند. این در حالی است که Gemini 2.0 دارای قابلیت های تصویر بومی است.

هم گراک و هم جمینای در کار تولید تصاویر، چه در ساخت درخواست برای مدل دیگر و چه در اصلاح تصویری که قبلا نوشته اید، به طور خاص خوب هستند. بنابراین، تامز گاید آنها را رو در رو قرار داده است.

ایجاد درخواست برای تست

ایجاد درخواست برای آزمایش دو چت بات در توانایی آنها برای تولید تصاویر کمی با نوشتن درخواست برای Midjourney یا Ideogram متفاوت است. تمرکز بر سادگی و استفاده از مفاهیم سطح بالا با مقداری توضیحات است، زیرا هوش مصنوعی شکاف ها را پر می‌کند.

همچنین باید از کلمات و عبارات محرک مانند «تصور کن»، «نقاشی کن» یا «بساز» استفاده کنید تا به مدل بفهمانید که یک تصویر می‌خواهید، نه یک داستان یا پاسخ متنی.

تامز گاید عکس ها را به جای نقاشی ها می‌خواهد، بنابراین از آن به عنوان کلمه کلیدی استفاده خواهد کرد.

Gemini فقط تصاویری با وضوح 1:1 خروجی می‌دهد و تاکنون، به نظر می‌رسد گراک نسبت 4:3 را ترجیح می‌دهد.

مگر اینکه خلاف آن ذکر شده باشد، همه تصاویر اولین پاسخ بدون اصلاح بعدی هستند. همه آنها همچنین به جای ایجاد یک چت جدید برای هر درخواست، در همان جلسه درخواست شدند.

1. حیات وحش شهری مدرن

مقایسه گراک و جمینای Gemini vs Grok

درخواست: «یک تصویر به سبک عکاسی از یک روباه قرمز که در سپیده دم از یک گذرگاه بارانی شهر عبور می‌کند، در حالی که عابران پیاده با چتر در انتظار سیگنال هستند، ایجاد کنید.»

این درخواست اول برای آزمایش این است که آنها چقدر خوب حیوانات را به تصویر می‌کشند و همچنین عناصر نور و پس زمینه مناسب را ثبت می‌کنند. خروجی ایده آل شبیه یک عکس با جلوه های باران است، اما در عین حال تا حد امکان نمای واقعی را حفظ می‌کند.

در حالی که تصویر Gemini چشمگیرتر است، تامز گاید فکر می‌کند گراک به آنچه در ذهنش بوده نزدیک تر است. روباه بسیار واقعی تر از تصویر Gemini است.

برنده: Grok

2. آشپزخانه در حال فعالیت

Gemini vs Grok

درخواست: «یک تصویر به سبک عکاسی از آشپزخانه یک سرآشپز حرفه ای در طول شلوغی شام، با بخار برخاسته از قابلمه ها و شعله های قابل مشاهده از ایستگاه کباب پز، ایجاد کنید.»

این برای نشان دادن این است که آنها چقدر می‌توانند تجهیزات آشپزخانه را به طور دقیق نمایش دهند، درخواست را دنبال کنند و عناصری مانند گرما و رطوبت را مدیریت کنند. باید یک آشپزخانه تجاری و رفتار را نشان دهد، همچنین ایده فعالیت را نشان دهد.

Grok به راحتی در این مورد برنده می‌شود زیرا Gemini نتوانست زمینه درخواست را درک کند، که ما انتظار داریم یک سرآشپز در آشپزخانه باشد.

برنده: Grok

3. پیشرفت محل ساخت و ساز

Gemini vs Grok

درخواست: «تصویری به سبک عکاسی مستند از یک ساختمان نیمه بلند در حال ساخت، با کارگرانی که در حال نصب پانل های شیشه ای هستند در حالی که جرثقیل ها در یک بعد از ظهر صاف در بالای سر کار می‌کنند، ایجاد کنید.»

هدف این درخواست این است که ببینیم چقدر خوب می‌تواند پرسپکتیو ایجاد کند، زیرا باید ارتفاع و موقعیت را نشان دهد. همچنین باید خواص مواد را نشان دهد و تا حد امکان واقعی باشد. تامز گاید به سراغ سبک مستند رفت زیرا پیچیدگی بیشتری نیز به آن اضافه می‌کند.

تصویر Gemini بسیار واقعی تر از Grok به نظر می‌رسد، جایی که نتوانسته هیچ یک از کارگران را در آن بگنجاند و فقط یک نمای کلی نشان می‌دهد.

برنده: Gemini

4. صبح بازار کشاورزان

Gemini vs Grok

درخواست: «تصویری به سبک عکاسی با گوشی های هوشمند از یک بازار شلوغ کشاورزان در ساعت 7 صبح، با فروشندگانی که غرفه ها را برپا می‌کنند در حالی که مشتریان اولیه محصولات تازه را بررسی می‌کنند، ایجاد کنید.»

با این مقایسه، مدل ها باید زمان روز (تنظیم صحیح نور) و همچنین تازگی محصول و تعامل انسان را نشان دهند. تامز گاید به دنبال طول سایه ها و سطوح فعالیت است.

این سخت ترین انتخاب برای تامز گاید بود. آنها ظاهر طبیعی تصویر Gemini را ترجیح دادند، اما فکر می‌کنند Grok نور و زمان روز را با دقت بیشتری ثبت کرده است.

برنده: Grok

5. تشخیص تعمیرکار خودرو

Gemini vs Grok

درخواست: «یک عکس سیاه و سفید به سبک رترو از یک مکانیک که از یک ابزار تشخیصی روی یک ماشین مدرن استفاده می‌کند، با کاپوت بالا و محفظه موتور قابل مشاهده، ایجاد کنید.»

تامز گاید می‌خواست ببیند که هر دو مدل چقدر خوب عکاسی سیاه و سفید را انجام می‌دهند. در این آنها همچنین باید استفاده از ابزار، نورپردازی و جزئیات موتور را نشان می‌دادند.

باز هم، این یک تماس نزدیک بین دو تصویر بود، اما تامز گاید آن را به Gemini داده است زیرا جزئیات موتور را با دقت بیشتری نمایش می‌دهد.

برنده: Gemini

6. واکنش اضطراری

Gemini vs Grok

درخواست: «برای من یک عکس اکشن از امدادگران که در حال درمان یک بیمار در خیابان محله هستند در حالی که پلیس ترافیک را در اطراف صحنه هدایت می‌کند، بسازید.»

عکاسی اکشن یک چالش است. تامز گاید مدتی به عنوان روزنامه نگار در اوایل کار خود این کار را انجام داد (نه خیلی خوب). آنها باید موقعیت صحیح، اقدامات ایمنی عمومی را در تصویر و حس فوریت نشان دهند.

Gemini بسیار دقیق تر با درخواست مطابقت داشت و تصویری واقعی تر ایجاد کرد. این یک تصمیم آسان بود.

برنده: Gemini

7. تمرین اجرای ویولن

Gemini vs Grok

درخواست: «تصویری به سبک عکس از یک ویولونیست که در هنگام غروب آفتاب به تنهایی در یک اتاق تمرین می‌کند، نت های موسیقی روی پایه قابل مشاهده است، ایجاد کنید.»

در نهایت چیزی هنری تر. در اینجا می‌خواهیم موقعیت دست را برای ویولن، جلوه های نور طبیعی و کیفیت نت موسیقی ببینیم.

یکی از اینها شبیه جلد یک آلبوم کلاسیک است، دیگری شبیه عکس کسی است که در حال تمرین ویولن است. از آنجایی که درخواست از کسی می‌خواهد که تمرین کند، تامز گاید پیروزی را به Grok داده است.

برنده: Grok

برنده: جمینای در مقابل گراک

گراک Grok بسیار چشمگیر است. نه تنها به عنوان یک چت بات، بلکه در توانایی آن در تولید تصاویر واقعی. این چیزی از Imagen 3 کم نمی‌کند که به خودی خود بسیار چشمگیر است، اما عادت دارد بیش از حد سبک سازی شود.

این یک مسابقه نزدیک بود. هر دو مدل تقریبا به طور مساوی با هم مطابقت دارند، اما Grok در تفسیر یک درخواست بهتر است و تصاویر طبیعی تری ایجاد می‌کند.

نکته قابل توجه این است که به زودی گوگل نسخه جدیدی از Gemini را راه اندازی خواهد کرد که می‌تواند به طور بومی تصاویر ایجاد کند. این بدان معناست که برای ایجاد تصاویر نیازی به استفاده از Imagen 3 ندارد، می‌تواند این کار را به تنهایی انجام دهد.

به این پست امتیاز بدید

نظرات در مورد : گراک (Grok) در برابر جمینای : کدام هوش مصنوعی تصاویر واقعی‌ تر خلق می‌ کند؟

0 دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *