مدل o3-mini اوپن ای آی، جدیدترین و قدرتمندترین مدل زبانی این شرکت، اکنون به صورت رایگان در دسترس کاربران چت جی پی تی قرار گرفته است. این مدل کوچک اما قدرتمند، با قابلیتهای استدلال و حل مسئله پیشرفته خود، به ویژه در زمینههای کدنویسی، ریاضیات و علوم، میتواند به کاربران در انجام وظایف پیچیده کمک کند.
o3-mini اوپن ای آی
نویسنده با استفاده از ۷ درخواست مختلف، از جمله چالش کدنویسی، اثبات ریاضی، توضیح علمی، تحلیل تاریخی، نقد ادبی، بحث فلسفی و برنامهریزی شهری، تواناییهای این مدل را در حل مسائل و ارائه پاسخهای دقیق و جامع بررسی میکند. نتایج نشان میدهد که o3-mini با ارائه پاسخهای منطقی، سازمانیافته و مرتبط، عملکرد بسیار خوبی در این زمینهها از خود نشان میدهد و میتواند ابزاری ارزشمند برای کاربران باشد.
o3-mini اوپن ای آی را با ۷ درخواست مختلف آزمایش کردم تا تواناییهای حل مسئله و استدلال آن را ارزیابی کنم – در اینجا آنچه اتفاق افتاد را میخوانید
به گزارش زوم تک از تامز گاید، مدل o3-mini اوپن ای آی اکنون بخشی از سطح رایگان چت جی پی تی است که به کاربران امکان میدهد از پیشرفت قابل توجهی در هوش مصنوعی، به ویژه برای وظایفی که نیاز به استدلال پیچیده و حل مسئله دارند، بهره کامل ببرند.
مدل o3-mini با تکیه بر پایه و اساس ایجاد شده توسط پیشینیان خود، قابلیتهای پیشرفتهای را معرفی میکند که آن را متمایز میکند.
مدل o3 در وظایفی که نیاز به استدلال منطقی گام به گام دارند، برتری دارد. اساساً، o3-mini یک رویکرد “زنجیره فکر خصوصی” دارد، وظایف را برنامه ریزی و از طریق آنها استدلال میکند، سپس مراحل میانی را برای کمک به حل مسئله انجام میدهد. این روش منجر به خروجیهای دقیقتر و قابل اعتمادتر، به ویژه در سناریوهای پیچیده میشود.
o3-mini یک نسخه ساده از مدل o3 است که نرخ محدودیتهای بالاتر و تأخیر کمتری را ارائه میدهد و آن را به انتخابی جذاب برای وظایف کدنویسی، STEM و حل مسئله منطقی تبدیل میکند. این مدل جایگزین مدل o1-mini در رابط چت جی پی تی میشود و عملکرد بهبود یافتهای را به صورت رایگان برای کاربران فراهم میکند.
این دسترسی، مخاطبان بیشتری را قادر میسازد تا از عملکرد بهبود یافته مدل بهرهمند شوند.
عملکرد ارتقا یافته در کدنویسی و ریاضیات
در وظایف کدنویسی، o3 مهارت استثنایی خود را نشان داده است. این مدل در پلتفرم برنامهنویسی رقابتی Codeforces به امتیاز Elo ۲۷۲۷ دست یافت و آن را در بین ۲۵۰۰ برنامه نویس برتر جهان قرار داد. علاوه بر این، o3 در معیار SWE-bench Verified که توانایی حل مسائل نرمافزاری دنیای واقعی را ارزیابی میکند، امتیاز ۷۱.۷٪ را کسب کرد و از پیشینی خود، o1، که امتیاز ۴۸.۹٪ را کسب کرده بود، بهتر عمل کرد.
علاوه بر این، o3 در معیارهای علمی و ریاضی برتری دارد و در معیار GPQA Diamond که حاوی سؤالات علمی سطح متخصص است که به صورت آنلاین در دسترس نیستند، امتیاز ۸۷.۷٪ را کسب میکند. علاوه بر این، در معیار Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI)، o3 سه برابر دقت o1 را به دست آورد و قابلیتهای استدلال پیشرفته خود را به نمایش گذاشت.
درخواستهایی برای امتحان با o3-Mini
برای کسانی که به دنبال راههایی برای دیدن چگونگی درخشش واقعی مدل o3-mini هستند، آزمایش با پرس و جوهای زیر یا موارد مشابه که وظایف کدنویسی، ریاضی و STEM را بررسی میکنند، در نظر بگیرید. در اینجا نگاهی به آنچه هنگام آزمایش مدل o3-mini با هفت درخواست مختلف برای من اتفاق افتاد آورده شده است.
۱. چالش کدنویسی
درخواست: “یک اسکریپت پایتون بنویسید که یک سیستم بانکی اولیه را با قابلیتهایی برای واریز، برداشت و بررسی موجودی شبیهسازی کند.”
این درخواست برای آزمایش o3-mini عالی است زیرا جنبههای متعددی از برنامهنویسی – از OOP و ساختارهای کنترلی گرفته تا اعتبارسنجی ورودی و مدیریت خطا – را در یک مثال منسجم ترکیب میکند. این مدل را به چالش میکشد تا یک قطعه نرمافزاری کامل، کاربردی و خوشساختار تولید کند که معیار محکمی برای قابلیتهای تولید کد آن است.
این درخواست نه تنها آزمایشی برای تولید کد است، بلکه به عنوان یک ابزار یادگیری نیز عمل میکند. این مثال ملموسی را ارائه میدهد که میتواند به کاربران در درک چگونگی طراحی و پیادهسازی قابلیتهای بانکی اولیه در پایتون کمک کند. این هدف دوگانه که هم یک مورد آزمایشی و هم یک مثال آموزشی است، آن را مفید و به اندازه کافی ساده میکند که حتی کاربران معمولی نیز آن را درک و پیادهسازی کنند.
۲. اثبات ریاضی
درخواست: “قضیه فیثاغورس را با استفاده از یک رویکرد هندسی ثابت کنید.”
این درخواست ترکیبی از توالی منطقی، دقت ریاضی، ارتباط واضح و ادغام انواع مختلف استدلال را میطلبد. این توانایی مدل o3-mini را در مدیریت وظایف پیچیده و چند وجهی نشان میدهد، زیرا با موفقیت یک اثبات هندسی واضح و صحیح از قضیه فیثاغورس تولید کرد.
۳. توضیح علمی
درخواست: “فرآیند فتوسنتز را به تفصیل توضیح دهید.”
توانایی مدل o3-mini در پوشش طیف گستردهای از مفاهیم علمی و به یادآوری، سازماندهی و بیان آن فرآیند چند مرحلهای در این درخواست آشکار است.
پاسخ منطقی سازمانیافته و مفصل به وضوح ارائه شد و به طور منسجم جریان داشت. این درخواست توانایی مدل را در انتقال دانش علمی عمیق و توانایی ادغام مفاهیم بین رشتهای در یک توضیح منسجم نشان میدهد.
۴. تحلیل تاریخی
درخواست: “علل و اثرات انقلاب فرانسه را تحلیل کنید.”
این درخواست نیازمند ادغام دانش تاریخی بین رشتهای، نوشتار ساختاریافته و منسجم و تحلیل انتقادی روابط پیچیده علت و معلولی است که آن را به یک درخواست ایدهآل برای آزمایش توانایی مدل o3-mini در تولید موفقیتآمیز محتوای دقیق، مفصل و از نظر آموزشی ارزشمند در مورد یک موضوع تاریخی چند وجهی تبدیل میکند.
این درخواست نشان میدهد که چگونه میتوان از مدل o3-mini برای اهداف آموزشی یا تدریس استفاده کرد.
۵. نقد ادبی
درخواست: “یک تحلیل انتقادی از نمایشنامه هملت شکسپیر با تمرکز بر مضامین دیوانگی و انتقام ارائه دهید.”
این درخواست نیازمند تحلیل عمیق و انتقادی هملت، با تمرکز بر مضامین چند وجهی مانند دیوانگی و انتقام است. این توانایی مدل را در پرداختن به نقد ادبی سطح بالا، ترکیب عناصر مختلف متن برای تولید یک تحلیل روشنگرانه آزمایش میکند.
این مدل با موفقیت به وظیفه پیچیده آکادمیک پرداخت و ماهرانه یک استدلال ظریف و مستدل در مورد مضامین پیچیده در ادبیات تولید کرد.
۶. بحث فلسفی
درخواست: “مفهوم سودگرایی و پیامدهای آن در اخلاق مدرن را مورد بحث قرار دهید.”
با درخواست بحث در مورد سودگرایی به عنوان یک مفهوم و پیامدهای آن در اخلاق مدرن، این درخواست مدل را به چالش میکشد تا نظریههای فلسفی تاریخی را با مسائل اخلاقی معاصر پیوند دهد. این ظرفیت مدل را برای ترکیب اطلاعات در دورههای زمانی و زمینههای مختلف نشان میدهد.
این درخواست، و درخواستهای مشابه آن، توانایی استدلال انتزاعی o3-mini را آزمایش میکنند. این درخواست همچنین توانایی مدل را برای انجام تحلیل انتقادی، درک محتوای تاریخی و کاربرد عملی – که همگی برای تولید یک پاسخ آموزنده و ظریف در مورد موضوعات پیچیده اخلاقی ضروری هستند – برجسته میکند.
نظرات در مورد : o3-mini اوپن ای آی: غولی کوچک در دنیای هوش مصنوعی!