22:31 03 مارس 2021
خارج از خبرها
دریافت لینک کوتاه
0 50

امروزه فناوری تبدیل گفتار به نوشتار خود را به عنوان راه حلی اساسی در خدمات نوشتاری معرفی کرده است. ارائه‌ی متن یک صوت با هزینه‌ی کم، آن هم به شیوه‌ای راحت و در عین حال دقیق و سریع جزء مهم‌ترین مزیت‌های این فناوری است.

اما واقعا استفاده از فناوری تبدیل گفتار به نوشتار چقدر کاربردی است و چه مزایا و معایبی دارد؟ در این مقاله به بررسی این مسائل می‌پردازیم.

مراحل مختلفی در روند تبدیل خودکار صوت به متن وجود دارد. وقتی شما صحبت می‌کنید سیگنال‌های صوتی خارج شده از دهان شما در مبدل آنالوگ لرزش ایجاد می‌کند. این لرزش‌ها توسط مبدل دریافت شده و به اطلاعات قابل فهم به زبان دیجیتال ترجمه می‌شوند. مبدل آنالوگ با انتخاب و اندازه‌گیری‌های مکرر و بسیار دقیق امواج صدا، یک فایل صوتی را تبدیل به داده‌های دیجیتالی می‌کند. این سیستم دارای یک فیلتر برای تشخیص صداهای مرتبط به صوت اصلی و تشخیص تغییر فرکانس‌ها است. همچنین قابلیت تنظیم سرعت گفتار و اصلاح صوت و همچنین تنظیم میزان صدا برای ارائه نتیجه‌ای بهتر و بهینه‌تر را دارد. مرحله بعدی شامل تقسیم سیگنال دریافتی به صدم یا هزارم ثانیه و تطبیق این قسمت‌های کوچک‌شده با الگوریتم اصلی ماشین است. سپس سیستم با استفاده از یادگیری ماشین، متن صوت را بر اساس آنچه قبلا آموخته است ایجاد می‌کند. نتیجه می‌تواند به صورت یک فایل متنی قابل ویرایش یا به عنوان یک دستور نهایی مبتنی بر الگوریتم‌های رایانه‌ای ارائه شود.

سیستم تبدیل گفتار به نوشتار: خوب ، بد و زشت

سیستم تبدیل گفتار به نوشتار در نگاه اول گزینه درخشانی به نظر می‌رسد که هوش را از سر کاربران خود می‌برد. اما اگر کمی بیشتر و عمیق‌تر درباره آن تحقیق کنید پی می‌برید نواقص و مواردی وجود دارند که باعث می‌شوند تا بتوان از این مدل تحت عنوان مدلی خوب ، بد و زشت یاد کرد!

نرم‌افزار تبدیل گفتار به نوشتار: خوب

از مهم‌ترین مزایای تبدیل گفتار به نوشتار سرعت بسیار بالا و هزینه بسیار پایین آن نسبت به خدمات انسانی است. تشخیص خودکار گفتار (ASR) به سرعت خروجی مورد نظر را ایجاد می‌کند و حتی در برخی موارد می‌تواند در لحظه صحبت را به متن تبدیل کند. اما با همه‌ی این مزایا، این سیستم‌ها مشکلاتی نیز دارند.

نرم افزار تبدیل گفتار به نوشتار: بد

یک محدودیت بزرگ در فناوری تشخیص خودکار گفتار، توانایی تولید متن به صورت کلمه به کلمه است. در غیاب هوش انسانی، سیستم تنها قادر به رونویسی آنچه که می‌شنود است و این بدان معناست که متنی که در نهایت سیستم به شما تحویل می‌دهد ممکن است بهم‌ریخته و غیرقابل‌فهم باشد. مکث کردن هنگام مکالمه، ایجاد صداهایی که معنای خاصی نداشته و صرفا حس را بیان می‌کنند و لغزش بر روی برخی از کلمات گفته شده بسیار معمول است. متن تولید شده توسط نرم‌افزار تبدیل گفتار کلمه به کلمه و شامل تمام شنیده‌هایش خواهد بود. 

نرم افزار تبدیل گفتار به نوشتار: زشت

مهم‌ترین جنبه‌ی منفی نرم‌افزار تبدیل گفتار به متن دقت آن است. حتی بهترین نرم‌افزار تشخیص خودکار گفتار نیز به ندرت میزان دقتی بیش از 80٪ را ارائه خواهد داد و این بدان معناست که شما باید مجددا وقت و تلاش خود را بر روی اصلاح متن خروجی بگذارید. اگر محتوای پیچیده در فایل صوتی وجود داشته باشد، سیستم تشخیص خودکار گفتار ممکن است نتایج نامفهومی را ایجاد کند. برای دریافت خروجی با دقت از سرویس تبدیل گفتار به نوشتار، به فایل‌های صوتی تمیزی نیاز دارید. همچنین سیستم‌های تشخیص خودکار گفتار ممکن است صرفا با یک زبان به صورت تخصصی کار کنند و اینجاست که نیاز به چند زبانی خود را نمایان می‌کند. برخی از سیستم‌های تشخیص گفتار ممکن است در شناسایی نام‌های تجاری و اصطلاحات خاص حوزه صنعت با مشکل مواجه شوند.

چرا نیاز داریم فایل صوتی را به متن تبدیل کنیم؟!

دلایل مختلفی وجود دارد که ممکن است به فناوری تبدیل گفتار به نوشتار نیاز پیدا کنیم. در ادامه برخی از این دلایل را با هم بررسی می‌کنیم. 

خواندن سریع‌تر از گوش دادن است

ابتدایی‌ترین دلیل تبدیل گفتار به نوشتار افزایش سرعت است. این مزیت ساده و قابل درک است، به طور متوسط ​​توانایی خواندن در انسان‌ها سریع‌تر از گوش دادن است، بنابراین خواندن متون به شما امکان پردازش داده‌های بیشتری را می‌دهد. به طور متوسط، بزرگسالان می‌توانند بین 250 الی 300 کلمه در دقیقه را بخوانند، این مقدار را با متوسط ​​مکالمه انسانی یعنی 120 الی 150 کلمه در دقیقه مقایسه کنید. بنابراین خواندن متن به جای گوش دادن به آن می‌تواند در زمان صرفه‌جویی کند.

تشخیص کلمه کلیدی

مزیت دوم این فناوری استفاده از مفاهیم برای جستجوی ساده در رونوشتی از یک متن است. اسکن کردن یک سند متنی و ارسال آن از طریق شبکه، پیدا کردن کلمات کلیدی و در صورت لزوم مطالعه ناحیه مناسب در متن از ویژگی‌های این فناوری است. برای مثال برای حل تعارض‌های موجود در متن می‌نوانید به سراغ استفاده از این فناوری بروید.

 تجزیه و تحلیل و درک الگوها

دلیل سوم استفاده از این فناوری مولفه تحلیل است. این امر به کمک ماشین‌ها برای درک الگوها و ارائه دقت بالاتری نیاز دارد. با استفاده از هوش مصنوعی و یادگیری ماشین، ما می‌توانیم تجزیه و تحلیل دقیقی داشته باشیم. از این قابلیت می‌توان در موارد زیر استفاده کرد:

- انطباق: تأیید یا صحت رعایت جنبه‌های تنظیم مقررات
- پای‌بندی: تاثیر تجزیه و تحلیل بر کیفیت متن خروجی
- مشکلات: شناسایی و مدیریت تعاملات مشکل‌ساز
- نیازهای آموزشی: شناسایی نقاط ضعف و بخش‌هایی از سیستم که به آموزش نیاز دارند.

مقررات ارسال کامنتبحث و مناظره
کامنت از طریق اسپوتنیککامنت از طریق فیسبوک