چهارشنبه, ۵ اردیبهشت, ۱۴۰۳ / 24 April, 2024
مجله ویستا

استفاده ار فناوری تشخیص گفتار متداول می‌شود


استفاده ار فناوری تشخیص گفتار متداول می‌شود
با بانک خود تماس می‌گیرید. صدای یک نوار را می‌شنوید: « برای اطلاع از میزان پول در حساب کلید ۱، برای تغییر رمز کلید ۲ و ...» شما هم از این که می‌توانید از فناوری روز استفاده کنید خوشحال می‌شوید و اطلاعات مورد نظر را کسب می‌کنید؛ اما آیا می‌دانید که در بعضی کشورهای دیگر برای ارتباطات این چنینی از فشردن دکمه‌های تلفن استفاده نمی‌کنند؟
در این کشورها افراد حتی زحمت چنین کاری را به خود نمی‌دهند بلکه به راحتی منظور خود را می‌گویند و سیستم کار را انجام می‌دهند. در واقع با استفاده از سیستم تشخیص گفتار یا Speech Recognition این اتفاق روی می‌دهد. لابد می‌گویید این موضوع تازه‌ای نیست و مدت‌هاست که این حرف‌ها زده می‌شود. حق با شماست. بیش از یک دهه است که محققان سعی می‌کنند تا صوت را به عنوان یک ورودی رایانه تعریف کنند. حالا به نظر می‌رسد این تحقیقات به نتایج خوبی رسیده‌اند.
طی این سال‌ها تلاش زیادی روی تشخیص گفتار صوت صورت گرفت. اما با توجه به عوامل زیادی که در این الگوریتم موثر هستند، همواره عملیات تشخیص با خطا روبه رو بوده است. تارهای صوتی انسان خصوصیاتی غیر خطی دارند و از طرف دیگر عملیات آنها کاملا در اختیار نیست، بلکه عوامل مختلفی از جنسیت تا حالت عاطفی فرد در آن تاثیرگذار است. در نتیجه تلفظ صوتی می‌تواند به لهجه، طرز تلفظ، طرز گفتار و میزان شمرده بودن آن، درشتی صدا، تودماغی حرف زدن، زیر و بمی صدا، درجه صدا (بلندی) و سرعت ادای کلمات بستگی داشته باشد. علاوه بر اینها از آنجا که معمولا افراد در محیطی صحبت می‌کنند که صداهای محیطی نیز وجود دارد، این مسئله پیچیده‌تر می‌شود به شکلی که تشخیص گفتار حتی از تولید گفتار سخت تر و پیچیده‌تر می‌شود.
دقت یک سیستم تشخیص گفتار بستگی به شرایط تست دارد. در شرایط محیطی و گفتاری خاص یک سیستم بسیار خوب عمل می‌کند اما در شرایط عمومی این دقت کاهش می‌یابد. این شرایط ابعاد گوناگونی دارند که می‌توان به اختصار به بعضی از آنها اشاره کرد.
حجم فرهنگ لغت: به عنوان یک قانون عمومی تشخیص یک کلمه ازمیان یک مجموعه کوچک بسیار ساده است اما وقتی حجم فرهنگ لغت بالا می‌رود میزان خطا افزایش می‌یابد؛ مثلا اگر شما تنها کلمات صفر تا ۹ را ادا کنید و بخواهید یکی از همین ۱۰ کلمه را تشخیص دهید، این کار با دقت خوبی انجام می‌پذیرد اما اگر تعداد کلمات به ۲۰۰، ۵۰۰۰ یا ۱۰۰هزار برسد، میزان خطا افزایش بسیار زیادی خواهد داشت.
مستقل یا وابسته به گوینده: یک سیستم وابسته به گوینده تنها برای یک فرد خاص طراحی شده است اما در یک سیستم مستقل، هر فردی می‌تواند گویندگی را به عهده بگیرد و سیستم باید بتواند تشخیص دهد. مشخص است که یک سیستم مستقل از گوینده بسیار مشکل‌تر است و طبعا میزان خطای آن نیز بیشتر است و بین ۳ تا ۵ برابر میزان خطای سیستم وابسته به گوینده است.
▪ گفتار مجزا، مقطع یا پیوسته: منظور از گفتار مجزا بیان تک کلمه است. گفتار مقطع گفتاری است که جملات کامل اما با سکوت‌های مصنوعی در میان ادای هر دو کلمه بیان می‌شوند. گفتار پیوسته همان شیوه معمولی بیان کلمات است. تشخیص گفتار مجزا و مقطع بسیار ساده‌تر میسر می‌شود چون کلمات بهتر و راحت‌تر تشخیص داده می‌شوند؛ اما در گفتار پیوسته بعضی اصوات حذف می‌شوند یا تغییر پیدا می‌کنند. بنابراین تشخیص این نوع بسیار مشکل‌تر است.
▪ گفتار آماده یا اتفاقی: در صورتی که فرد جملات خود را مطابق متنی از پیش آماده بخواند عملیات تشخیص بسیار ساده‌تر از زمانی است که فرد جملات را فی‌البداهه ادا می‌کند، چون در حالت دوم فرد ممکن است مکث کند، بعضی اصوات نامفهوم را ادا کند و یا حتی بخندد یا سرفه کند.
متوجه شده‌اید که عوامل بسیار متفاوتی در کار تاثیر گذار هستند و لذا الگوریتم‌های پیچیده‌ای هستند. این الگوریتم‌ها را می‌توان در گروه‌های زیر دسته بندی کرد:
▪ مبنی بر الگو: در این گروه از الگوریتم‌ها، گفتار ورودی با الگوهای از پیش ضبط شده مقایسه می‌شوند تا بهترین تطبیق یافت شود. دقت این گروه در ارتباط با الگوهای موجود خوب است، اما به هر حال تعداد الگوها ثابت است و اگر بخواهیم با توجه به شرایط گفته شده برای هر کلمه الگوهای متفاوتی را قرار دهیم، به طور عملی غیر ممکن است.
▪ مبتنی بر دانش و آگاهی: در این الگوریتم‌ها سعی می‌شود مهارت انسان در تشخیص گفتار شبیه سازی شود و در سیستم تعبیه شود. این شیوه اگرچه به نظر بسیار خوب به نظر می‌رسد، اما به دست آوردن این مهارت‌ها و استفاده از آنها در سیستم تشخیص گفتار به راحتی میسر نیست و در واقع این روش غیرعملیاتی به حساب می‌آید.
▪ مبتنی بر آمار: در این روش‌ها، تغییرات در گفتار به صورت آماری مدل می‌شوند و این تغییرات آماری کمک می‌کند تا سیستم تشخیص گفتار امکان یادگیری تدریجی داشته باشد. اما در سیستم‌های جدید تشخیص گفتار با استفاده از شبکه‌های گسترده عصبی و روش‌های مبتنی بر آمار نتایج بسیار دقیق‌تر و بهتری گرفته‌اند. در حال حاضر بسیاری از شرکت‌های مهم مانند IBM و مایکروسافت روی این سیستم‌ها سرمایه گذاری کرده‌اند و به نتایج بسیار خوبی رسیده‌اند. یکی از این سرویس دهندگان تلفن همراه در کشورفرانسه یک پورتال صوتی راه اندازی کرده است و اخبار و نتایج مسابقه‌های ورزشی را از این طریق در اختیار مشترکان خود قرارمی‌دهد. شرکت ماشین سازی هوندا نیز یک سیستم راه نوردی با کمک صوت راه‌اندازی کرده است تا رانندگان بهتر بتوانند خودرو را هدایت کنند. با این پیشرفت‌ها به نظر می‌رسد که در آینده‌ای نه چندان دور فناوری تشخیص گفتار بخشی از زندگی و کار هر روزه ما خواهد شد
نویسنده : سید محمد رضا رشتی
منبع : مرکز توسعه و تبادل دانش فناوری اطلاعات


همچنین مشاهده کنید