Hume AI از مدل جدید هوش مصنوعی خود به نام OCTAVE رونمایی کرد که می تواند با دریافت یک نمونه صوتی کوتاه یا یک دستور، شخصیت های رسا و احساسی ایجاد کند. این مدل حتی می تواند صداها را شبیهسازی کند و با آنها به طور زنده گفتگو کند. این فناوری می تواند کاربرد های زیادی در زمینه های مختلف داشته باشد، اما نگرانی هایی نیز در مورد سوء استفاده از آن وجود دارد. برای اطلاعات بیشتر با زوم تک همراه باشید!
هوش مصنوعی OCTAVE
به گزارش زوم تک از تامز گاید، Hume AI، شرکت هوش مصنوعی همدل، از OCTAVE (موتور متن و صدای همه کاره) رونمایی کرد. این مدل جدید قابلیت های مدل گفتار-زبان EVI 2 را با قابلیت های پیشرفته احساسی و شبیه سازی صدا ترکیب می کند و همه این ها در قالبی بسیار کوچک ارائه می شود.
OCTAVE می تواند یک دستور یا یک صدای ضبط شده کوتاه را دریافت کند و نه تنها کلمات، بلکه احساسات، لهجهها و سایر اجزای یک شخصیت کامل را تولید کند. این محصول همچنین می تواند طیف گسترده ای از دستورالعمل ها را درک کند، برای مثال، کاربر می تواند یک “درمانگر مهربان” یا یک “فروشنده هیجانزده” را درخواست کند و مدل بلافاصله و با حداقل تأخیر پاسخ مورد نیاز را ارائه می دهد.
یکی از ویژگی های کلیدی این مدل جدید این است که می تواند همه این کارها را در لحظه انجام دهد، بنابراین کاربران می توانند تنها با آپلود یک نمونه صوتی کوتاه پنج ثانیه ای یا وارد کردن دستوری که صحنه را تنظیم می کند، شخصیت های رسا و احساسی ایجاد کنند.
این یک پیشرفت بزرگ نسبت به اکثر مدلهای صوتی فعلی است که معمولاً فقط مجموعهای محدود از انواع صدای “شخصیتی” را ارائه میدهند و زمینه را برای تعاملات هوش مصنوعی جذابتر بدون نیاز به آموزش باز میکند.
در ویدئو های معرفی این محصول، طیف گستردهای از تنوع دستورات، از جمله لهجه ها و خلق و خوی مختلف، و همچنین اصطلاحات مبهم مانند “عموی محبوب” یا “صدایی که مثل ترافیک ساعت شلوغی در مکالمات پیش می رود” نشان داده شده است.
نتایج خوب هستند، اگرچه باید گفت که کامل نیستند. هنوز هم می توان گاهی اوقات مصنوعات را در صدا تشخیص داد، به خصوص با تقاضاهای عجیب و غریب تر.
قابلیت نگران کننده شبیه سازی صدا
چیزی که کمی بیشتر چشمگیر و در واقع کاملاً نگران کننده است، توانایی مدل در شبیهسازی صدا است. باز هم ویدئو هایی در صفحه معرفی وجود دارد که توانایی چشمگیر در تقلید صداها، از جمله صدای Ilya Sutskeva و Lauren Kim از Hume را نشان میدهد.
پس از شبیهسازی یک صدا، مدل میتواند آن را با مکالمه به موقع ترکیب کند. تصور اینکه چگونه این میتواند در آینده مورد سوء استفاده قرار گیرد، سخت نیست.
کاربرد های potentiel
این قابلیت چند صدایی میتواند برای ایجاد پادکستهای فوری که گفتگوی زنده انسانی واقعی را با صدای شبیهسازی شده انتخابی ادغام میکند، استفاده شود. تصور کنید یک پادکست با شما در حال گفتگو با باراک اوباما یا جان وین راهاندازی کنید، بدون هیچ آموزش طولانی و خسته کننده.
این حتی تا حد توانایی شبیهسازی چندین شخصیت نیز پیش میرود، مانند گرفتن یک پادکست موجود از NotebookLM گوگل و استفاده از آن برای ایجاد یک مکالمه کاملاً جدید در لحظه.
با توجه به دستگاههای لبه مانند گوشیهای هوشمند، OCTAVE یک مدل متوسط با تنها ۳ میلیارد پارامتر است. نتیجه این است که محصول جدید به بسیاری از دستگاههای کوچکتر و حتی لوازم خانگی مصرفکننده صدا میدهد و جهانی کاملاً جدید از امکانات تعاملی را باز میکند.
این محصول در حال حاضر فقط برای تعدادی از آزمایشکنندگان قابل اعتماد در دسترس است تا ایمنی و عملکرد آن تضمین شود، اما این شرکت قصد دارد در چند ماه آینده آن را به طور گستردهتر عرضه کند.
نظرات در مورد : با هوش مصنوعی OCTAVE: هر چیزی می تواند صاحب صدا شود!