نحوه ی عملکرد تکنولوژی تشخیص صدا

نحوه ی عملکرد تکنولوژی تشخیص صدا

امروزه انسان ها علاوه بر صحبت با یکدیگر می توانند با انواع دستگاه های هوشمند نیز صحبت کنند. تکنولوژی تشخیص صدا که این روزها در بسیاری از دستگاه های هوشمند مدرن از جمله تلویزیون ها، یخچال ها، گوشی های هوشمند و … مورد استفاده قرار می گیرد تبدیل به یکی از کاربردی ترین تکنولوژی ها شده است. دراین مطلب نحوه ی عملکرد این فناوری را مورد بررسی قرار خواهیم داد.

تکنولوژی تشخیص صدا

اکثر دستگاه های هوشمند مدرن دارای دستیار صوتی هستند اما دستیار صوتی یا همان فناوری تشخیص صدا چیست؟ دستیار صوتی در واقع از تکنولوژی تشخیص صدا استفاده کرده و دستوراتی که به آن می دهید را انجام می دهد. تکنولوژی تشخیص صدا از مجموعه ای از الگوریتم ها برای تبدیل گفتار به سیگنال های دیجیتال استفاده نموده و در نهایت از تفهیم گفتار اطمینان حاصل می کند. به عنوان مثال شما می توانید در برنامه ی مایکروسافت ورد فقط با گفتن کلمات آن ها را تایپ کنید.

تاریخچه تکنولوژی تشخیص صدا

نحوه ی عملکرد تکنولوژی تشخیص صدا

تشخیص خودکار رقم Audrey مخفف عبارت Automated Digit Recognition نخستین بار توسط آزمایشگاه های بل در سال 1952 ابداع شد. این فناوری قادر بود اعداد را تشخیص دهد. نحوه ی عملکرد این سیستم بدین صورت بود که عددی به زبان آورده میشد و دستگاه که دارای ده لامپ بود یکی از آن ها را روشن می کرد. مثلاً اگر کاربر عدد 5 را به زبان می آورد دستگاه لامپ پنجم را روشن می کرد.

این اختراع بسیار مهم بود اما آنطور که باید از آن استقبال نشد. یکی از معایب آن ابعاد بزرگش بود. این سیستم با 6 فوت ارتفاع فضای زیادی را اشغال می کرد علاوه بر این فقط می توانست اعداد 0 تا 9 را رمزگشایی کند. از دیگر معایب آن این بود که فقط یک فرد با یک نوع صدای مشخص توانایی استفاده از آن را داشت و دیگر افراد نمی توانستند از این سیستم استفاده کنند. Audrey فناوری بی نقصی نبود اما راهی برای رسیدن این تکنولوژی به وضعیت حال حاضر ایجاد نمود. پس از آن سیستمی طراحی شد که قادر به تشخیص دنباله ای از کلمات بود.

تبدیل صدا به سیگنال های دیجیتال نقطه ی شروع تکنولوژی تشخیص صدا

فناوری تشخیص صدا برای فهمیدن اینکه کاربر چه چیزی به زبان می آورد باید مراحلی را طی کند. نخستین مرحله ضبط شدن صدا توسط میکروفون است. پس از آن این صدا تبدیل به جریان الکتریکی شده و به طرف ADC مبدل آنالوگ به دیجیتال روانه خواهد شد. به محض اینکه جریان آنالوگ به ADC می رسد نمونه هایی از آن برداشته شده و رمزگشایی ولتاژ در نقاط زمانی مشخص آغاز خواهد شد. رمزگشایی و تبدیل هر نمونه حدوداً چند هزارم ثانیه زمان می برد. متناسب با ولتاژ نمونه ADC یک بایت از اطلاعات را اختصاص خواهد داد.

صدا برای وضوح بیشتر پردازش خواهد شد

برای بهتر شدن وضوح و افزایش کیفیت، صدا باید پردازش شود. در برخی موارد محیط اطراف شلوغ است و صدا در این محیط ضبط می شود. در چنین مواردی برای حذف نویز پس زمینه باید فیلترهایی اعمال شود. در برخی از این سیستم ها فرکانس های صوتی بالاتر و پایین تر از دامنه ی شنیداری انسان فیلتر شده و در نهایت حذف می شوند. علاوه بر حذف فرکانس های صوتی ناخواسته برخی از فرکانس ها برجسته می شوند در نتیجه سیستم بهتر می تواند نویز پس زمینه را از صدای انسان جدا نماید. تبدیل صدا به چندین فرکانس گسسته از هم نیز یکی از روش هایی است که در برخی سیستم های صوتی مورد استفاده قرار می گیرد. دیگر جنبه های صدا مانند حجم و سرعت آن نیز به منظور تطابق بهتر با نمونه های صوتی موجود در سیستم تعدیل خواهند شد. اعمال فیلترها به طور کلی باعث بالا رفتن دقت دستگاه می شود.

آغاز فرایند ایجاد کلمات

برای آنالیز صدای انسان دو روش وجود دارد: مدل مخفی و شبکه های عصبی. در ادامه به بررسی این روش ها می پردازیم.

مدل مخفی Markov

نحوه ی عملکرد تکنولوژی تشخیص صدا

از این روش در اکثر سیستم های تشخیص صدا استفاده می شود. در این فرایند کلمات به واج (کوچک ترین بخش زبان) تجزیه می شوند. به دلیل وجود مجموعه محدودی از واج ها در هر زبان، روش مدل مخفی همچنان دارای عملکردی بهینه و مناسب است. به عنوان مثال زبان انگلیسی دارای 40 واج است. سیستم تشخیص صدا پس از تشخیص یک واج سعی می کند واج بعدی را حدس بزند.

شبکه عصبی Recurrent Neural Network

شبکه عصبی تقریباً عملکردی شبیه به مغز دیجیتال دارد. شیوه ی یادگیری شبکه عصبی دقیقاً شبیه به شیوه ی یادگیری مغز انسان است. این روش در زمینه های یادگیری عمیق و هوش مصنوعی به کار برده می شود. شبکه عصبی تکراری به اختصار        RNN شبکه ای است که جهت تشخیص صدا مورد استفاده قرار می گیرد. در این سیستم ورودی گام فعلی همان خروجی گام قبلی است. این یعنی وقتی شبکه عصبی تکراری یک بیت از داده را پردازش می نماید در واقع این داده ها تأثیر مستقیمی بر روی اطلاعاتی که قرار است در ادامه پردازش شوند دارد. این فرایند همانند یادگیری است. حال هرقدر این شبکه عصبی تکراری در معرض زبانی خاص قرار بگیرد پس از آن با دقت بیشتر و بهتر می تواند صدا را تشخیص دهد. در نتیجه وقتی سیستم تشخیص صدا یک واج را تشخیص می دهد توانایی پیش بینی واج بعدی را با استفاده از داده های دقیق خواهد داشت.

در نهایت وقتی سیستم تشخیص صدا کلمات را شناسایی کند اطلاعات را به پردازنده ارسال می نماید. پس از ارسال اطلاعات به پردازنده وظایف خواسته شده توسط دستگاه اجرا خواهند شد. این دستگاه می تواند کامپیوتر، تلویزیون یا گوشی هوشمند باشد.

کلام آخر

در این مطلب نحوه ی عملکرد تکنولوژی تشخیص صدا را مورد بررسی قرار دادیم. این تکنولوژی در حال حاضر تبدیل به بخشی مهم و حساس از ارتباط انسان با دنیای فناوری شده است. از تکنولوژی تشخیص صدا در سرویس ها و صنایع مختلف استفاده می شود. فناوری ابداع شده در سال 1952 امروزه با دقت بسیار بالاتر و پیچیدگی بیشتری در گجت های هوشمند مورد استفاده قرار می گیرد. این تکنولوژی حتی در دستگاه های کوچکی نظیر ساعت هوشمند نیز استفاده شده و روز به روز پیشرفته تر می شود.

منبع

به این پست امتیاز بدید

نظرات در مورد : نحوه ی عملکرد تکنولوژی تشخیص صدا

0 دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *