پنجشنبه, ۶ اردیبهشت, ۱۴۰۳ / 25 April, 2024

مجله ویستا

پردازش گفتار؛ مرور چند راهکار

پردازش گفتار به‌عنوان یکی از زیرشاخه‌های پردازش سیگنال، به سرعت در حال گسترش است. تکنیک‌های پیچیده و نوآوری‌های روزافزون این دانش، همگی در راستای دستیابی به این آرزو هستند که امکان بیابیم مفاهیم در قالب ابزارهای ریاضی فراهم گردد. در این مقاله، به بیان خلاصه‌ای از انواع روش‌های پردازش گفتار می‌پردازیم.
هدف بلندمدت سیستم‌های بازشناسی خودکار گفتار، طراحی ماشینی است که سیگنال صوتی مربوط به یک جمله بیان شده را به دنباله‌ای از کلمات نوشته شده تبدیل نماید. سیستم‌های بازشناسی خودکار گفتار اطلاعات متنوعی از منابع دانش گوناگون را در جهت دستیابی به جمله بیان شده از روی سیگنال صوتی دریافت شده، به‌کار می‌گیرند.
اما مشکلات متعددی در بازشناسی گفتار پوسته بدون قید وجود دارد که عبارتند از:
۱. تحت‌تأثیر قرار گرفتن کیفیت سیگنال صوتی به‌وسیله نویز محیط و تابع انتقال سیستم انتقال مانند میکروفون، تلفن و...،
۲. عدم وضوح مرز مابین کلمات و واج‌ها در سیگنال صوتی،
۳. تنوع وسیع سرعت بیان،
۴. دقت ناکافی در بیان کلمات و به‌خصوص انتهای آنها در گفتار محاوره‌ای نسبت به گفتار مجزا.
۵. تأثیر تنوعات متعدد گوینده از جمله جنسیت، شرایط فیزیولوژیک و روانی بر گفتار،
۶. به‌کارگیری محدودیت‌های معنائی ـ نحوی زبان برای گفتار زبان طبیعی به روشی مشابه ارتباط انسان با انسان در سیستم بازشناسی.
در جهت غلبه بر مشکلات مذکور تاکنون روش‌های متنوعی پیشنهاد شده است که از جمله آنها روش‌های آماری مبتنی بر قانون تصمیم‌گیری بیز، روش‌های مبتنی بر شبکه عصبی و در برخی موارد ترکیب روش‌های آماری و شبکه عصبی است. با بررسی روش‌های فوق می‌توان دریافت که شناسائی کلمه یا واج بدون خطا بدون استفاده از دانش سطوح بالاتر به‌خصوص در بازشناسی گفتار پیوسته با حجم لغت‌نامه بزرگ، امکان‌پذیر نیست. به‌عنوان یک نتیجه، یک سیستم بازشناسی گفتار که با انبوهی از فرض‌ها درباره واج‌ها، کلمات و جملات مواجه است. در حالت ایده‌آل بایستی محدودیت‌های سطوح بالا را که به‌وسیله واژگان، نحو، معانی و ادراک مشخص می‌شود، در نظر بگیرد. در سیستم‌های مبتنی بر قانون تصمیم‌گیری بیز برخی از این محدودیت‌ها توسط مدل زبانی به سیستم بازشناسی اعمال می‌شود.
نتایج مطالعات و بررسی‌ها نشان داده است که مدل‌های زبانی که در حالت کلی توالی واحدهای زبانی را مدل می‌کنند، در کاهش خطای بازشناسی نقش عمده‌ای ایفا می‌کنند. در این میان، استفاده از مدل‌های زبانی مبتنی بر شبکه‌های عصبی با وجود قابلیت این شبکه‌ها در یادگیری زنجیره نمادها و نیز به‌دلیل قابلیت هموارسازی و خاصیت تعمیم‌دهی آنها بر روش‌های آماری مزیت دارد.
● ضرورت انجام پروژه
باتوجه به کاربرد وسیع و روزافزون سیستم‌های بازشناسی گفتار همواره نیاز به طراحی سیستم‌هائی با صحت بازشناسی بالا احساس می‌شود. این مسئله به‌نوبه خود زمینه‌های تحقیقاتی فراوانی را باز کرده است که توجه پژوهشگران زیادی را به این شاخه جلب کرده است.
توجه به ساختار سلسله مراتبی گفتار در مغز انسان و پردازش‌های دوطرفه در آن (تأثیر متقابل لایه‌ها)، بنای مدلی با قابلیت‌های سلسه مراتبی و پردازش دوطرفه جهت بهبود کیفیت بازشناسی تداعی می‌نماید. در ساختار مذکور توالی‌های معتبر در هر لایه می‌تواند نقش تعیین‌کننده‌ای در شناسائی زنجیره ورودی در لایه پائین‌تر داشته باشد. مدل‌های زبانی موجود از نگاهی دیگر به این مسئله توجه کرده‌اند و تأثیر مدل کردن توالی واحدهای زبانی، در بالا رفتن صحت بازشناسی را نشان داده‌اند. در برخی پروژه‌ها، هدف ارائه مدل‌های زبانی در یک ساختار سلسله مراتبی و با الهام از سیستم درک گفتار انسان جهت بالا بردن صحت بازشناسی و تصحیح توالی‌های بازشناسی شده است که در عین حال شیوه‌های کلیدی و مؤثر بیان شده توسط محققان دیگر را نیز در بر می‌گیرد.
● مروری بر کارهای انجام شده
مدل‌سازی آماری زبان:
مدل‌های زبانی که به منظور بازشناسی گفتار و دیگر فن‌آوری‌های زبانی به‌کار برده می‌شوند، برای اولین‌بار در سال ۱۹۸۰ مطرح شدند. از آن‌زمان تاکنون تلاش‌های فراوانی برای اصلاح و توسعه این مدل‌ها به جهت کاربرد در سیستم‌های پیشرفته امروزی صورت گرفته است. مدل‌های آماری زبان توزیع احتمال واحدهای زبانی مختلفی مانند آواها، کلمات و جملات یک متن را محاسبه می‌نمایند.
مدل‌سازی زبان، تلاشی در جهت تسخیر قواعد زبان طبیعی به منظور بهبود کارآئی کاربردهای مختلف زبان طبیعی است. مدل‌های زبانی برای کاربردهای مختلفی از فن‌‌آوری زبان از جمله بازشناسی گفتار، ترجمه ماشینی، طبقه‌بندی متون، بازشناخت نوری کاراکترها، بازشناسی دست‌نوشته و تصحیح هجا و... به‌کار گرفته شده‌اند.
به‌عنوان نمونه در ترجمه ماشینی روش‌های آماری محض و روش‌های مبتنی بر قانون به‌کار گرفته شده‌اند.
مدل‌های آماری زبان از روی دادگان متنی، پارامترهای بسیار زیادی را تخمین می‌زنند و بنابراین به حجم بالائی از دادگان تعلیم نیاز دارند. موفق‌ترین فن‌آوری SLM دانش بسیار محدودی را از آنچه که یک زبان به‌راستی است، در نظر می‌گیرد. مشهورترین مدل‌های زبانی (N گرم‌ها) واقعیتی را مدل می‌کنند که زبان نیست، بلکه دنباله‌ای از نمادها است و هیچ ساختار عمیقی ندارد.
در ادامه برخی از فن‌آوری‌های به‌روز SLM مرور می‌شود:
تقریباً تمامی مدل‌های آماری زبان احتمال یک جمله را به حاصل‌ضرب احتمال‌های شرطی تجزیه می‌نمایند.
مدل‌های N گرم
N گرم‌ها یکی از مشهورترین مدل‌های آماری زبان هستند. در این مدل‌ها با بزرگ‌تر شدن N با وجود در نظر گرفته شدن ارتباطات بلندمدت زنجیره کلمات، مشکل نیاز به حجم بالای دادگان تعلیم جهت آموزش مدل به‌وجود می‌آید. بسیاری از زنجیره‌های مهم در دادگان تعلیم یا یک‌بار یا به دفعات کمی اتفاق می‌افتند. بنابراین تخمین احتمال‌های N گرم‌ها به‌وسیله شمارش تعداد دفعات وقوع یک زنجیره صورت می‌گیرد، روش مناسبی نیست. برای رفع این نقیصه، روش‌های هموارسازی متعددی تهیه و توسعه داده شده‌اند.
از جمله این روش‌ها می‌توان به موارد زیر اشاره کرد:
۱. نزول به N گرم‌های مرتبه پائین‌تر به‌صورت بازگشتی.
۲. درون‌یابی خطی N گرم‌ها.
۳. استفاده از N گرم‌های با طول متغیر.
مدل‌های درخت تصمیم:
الگوریتم‌های درخت تصمیم اولین‌بار برای مدل‌سازی زبانی به‌کار گرفته شد.
مدل‌های با انگیزه زبانی:
با وجود آنکه تمام SLMها از ذات زبان الهام می‌گیرند، ولی در بیشتر این مدل‌ها محتوی زبانی نادیده انگاشته می‌شوند. در این میان برخی از مدل‌های SLM به‌صورت مستقیم از روی دستور زبانی که به‌صورت معمول توسط زبان‌شناس‌ها به‌کار گرفته می‌شود، به‌دست می‌آید که از این دسته دستور زبان مستقل از محتوی و گرامر متصل را می‌توان نام برد.
مدل‌های نمائی:
تمامی مدل‌هائی که تاکنون بررسی شده‌اند، از این مشکل که مدل‌سازی با جزئیات بیشتر، کاهش دادگان برای پارامترهای جدید را به همراه دارد، رنج می‌برند.
مدل‌های تطبیقی:
در مدل‌هائی که تاکنون ذکر شد، زبان یک منبع همگن فرض شده است. ولی در واقعیت زبان بسیار غیرهمگن است. در تطبیق تقاطع دامنه، دادگان تست از منبعی به‌غیر از منبعی که در طول تعلیم مدل زبانی از روی آن به‌دست آمده، هستند.
در تطبیق درون دامنه دادگان تست از همان منبع تعلیم مدل زبانی هستند، اما این منبع غیرهمگن است.
تطبیق در چنین مواردی به‌صورت زیر انجام می‌گیرد:
۱. پیکره تعلیم براساس بعد تنوع دسته‌بندی می‌شود.
۲. در هنگام اجراء بر روی دادگان تست، موضوع شناسائی می‌شود.
۳. مجموعه موردنظر از دادگان تعلیم، برای ساختن مدل مشخصی به‌کار گرفته می‌شود.
۴. مدل جدید با مدل قبلی، به‌وسیله درون‌یابی خطی ترکیب می‌شود.
● مدل‌های زبانی اتصال‌گرا:
در سال ۱۹۸۹ ناکامورا و شیکانو به‌صورت تجربی نشان داده‌اند که چگونه یک پرسپترون چندلایه می‌تواند قابلیت پیش‌بینی مدل سه گرم به انضمام قابلیت‌های بهتر تعمیم‌دهی را شبیه‌سازی نماید. در کار دیگری برای غلبه بر دو مشکل اساسی مدل‌های N گرم یعنی:
۱. کوچک بودن N سبب می‌شود تا ارتباطات بلندمدت واحدهای زبانی در نظر گرفته نشود.
۲. بزرگ شدن N، حتی در مدل سه گرم سبب می‌شود تا احتمالات تخمین‌زده شده، به خاطر اینکه بسیاری از ترکیبات اتفاق نمی‌افتد یا کم‌تر اتفاق می‌افتد، قابل اعتماد نباشد.
یک شبکه عصبی پرسپترون با دو لایه پنهان به نام NETGram برای استخراج مدل زبانی دو گرم، سه گرم و چهارگرم به‌کار گرفته شده است. در این روش با دسته‌بندی کلمات در قالب بخش نحوی، نیاز به حجم بالای دادگان برای تعلیم شبکه حل شده است. از مزایای مدل مذکور و در حالت کلی مدل‌های زبانی اتصال‌گرا نسبت به مدل‌های زبانی آماری، افزایش خطی پارامترها با افزایش N در مدل‌های زبانی اتصال‌گرا در مقایسه با افزایش نمائی آنها در مدل‌های زبانی آماری است. مزیت دیگر این مدل‌ها آن است که در مدل‌های زبانی اتصال‌گرا هموارسازی به‌صورت مستقیم توسط خود مدل اجراء می‌شود.
در گزارش دیگری در این رابطه که توسط یک شبکه عصبی تمام متصل نشان داده شده، مدل زبانی N گرم پیاده‌سازی شده است. این شبکه از دو لایه پنهان، یک لایه تصویر و یک لایه پنهان تشکیل شده است.
علاوه بر شبکه‌های زمانی مذکور، شبکه‌های عصبی بازگشتی برای یادگیری زبان‌های با قاعده از مجموعه رشته مثال‌ها و مثال‌های نقض به‌کار گرفته شده‌اند. این شبکه‌ها به این دلیل که می‌توانند که شناساگرهای زبان‌های با قاعده را شبیه‌سازی نمایند، در پردازش زبان طبیعی بسیار رایج و متداول هستند. به‌عنوان مثال از کاربردهای دیگر شبکه‌های عصبی بازگشتی می‌توان به مدل‌سازی زنجیره نمادها توسط این شبکه‌ها اشاره کرد. نتایج بررسی نشان می‌دهند که شبکه‌های عصبی بازگشتی در کار با دنباله‌های حاصل از یک ماشین حالت محدود یا حتی آشوبگونه نتایج قابل قبولی داشته‌اند. استفاده از شبکه‌های عصبی بازگشتی و چندلایه در طبقه‌بندی معنائی و نحوی کلمات چینی با حجم دادگان بزرگ و نیز استنتاج‌های دستور زبانی جملات نتایج قابل توجهی داشته است.
استفاده از مدل‌های زبانی نه تنها در سطح کلمه، بلکه در سطح آوا نیز کاملاً رایج است. هاوس و نئوبرگ نشان دادند که محدودیت‌های موجود روی زنجیره آواها به‌عنوان روش مؤثری در شناسائی می‌تواند به‌کار گرفته شود.
در کار انجام شده، نشان داده شد که این محدودیت‌ها به‌عنوان مشخصه‌ای قدرتمند در بازشناسی گفتار، حتی در مواردی که گفتار به بخش‌های متنوعی تعلق دارد، می‌تواند مورد استفاده قرار گیرد.

پنجشنبه, ۶ اردیبهشت, ۱۴۰۳ / 25 April, 2024

پردازش گفتار؛ مرور چند راهکار

سیستم صوتی کارخانه با بهترین قیمت

ساندویچ پانل کبیرپانل

سیستم صوتی تحت شبکه و مزایای آن

خرید میز و صندلی اداری

مصرف مکمل کلسیم در دوران بارداری وزن نوزاد را افزایش می‌دهد

الگوی غلط تغذیه سبب تولد نوزادان با وزن کم شده است

لوازم یدکی برای چشمان شما

یک فریم از تجهیزات پزشکی

گوش با دو عدد باطری طرز کار و انواع سمعک

سونوگرافی (Ultrasound)

کلمه سونوگرافی از لفظ لاتین sound به معنی صوت و نیز graphic به معنی شکل و ترسیم گرفته شده و ultrasound از ultra به معنی ماورا و نیز sound به معنی صوت یا صدا گرفته شده است.

مادران باردار در مصرف قهوه احتیاط کنند

استرلیزاسیون:روشها ودستگاهها

استفاده از کاغذهای Medical بهترین روش بسته‌بندی محسوب می‌شود. کاغذهای Medical از یک لایه کاغذ و یک لایه نایلون تشکیل شده است.

تغذیه مناسب در حاملگی

خانمهای باردار به چه ویتامینهایی نیازمندند؟

چند نمونه غذای بار داری

پیشرفت نور و الکترونیک پیش برنده هماتولوژی

در زمینه تجهیزات هماتولوژی نیز، ورود این علوم باعث دستیابی به روش‌ها و پارامترهای نوینی شده است که استفاده از آنها می‌تواند در تشخیص و پایش بیماریها مفید باشد.

خانم‌های باردار برای رشد متعادل جنین از همه گروه‌های غذائی استفاده کنند

آندوسکوپ

آندوسکوپ بینی، لوله فلزی ظریف و باریکی است که داخل آن دستگاهی دقیق شامل عدسی ها و منشورهای مختلف تعبیه شده است.

دستی به سر و روی انکوباتور بکشید

مادران باردار در مصرف قهوه احتیاط کنند

دیفیبریلاتورها

کمترین ضایعات در جراحی مغز و اعصاب

آندوسکوپی امکان برداشتن نمونه های کوچک از تومور را به جراح می دهد تا در یک فرآیند پاتولوژیک، نوع آن مشخص گردد.

ویلچر

لنزمتر (عدسی سنج) چیست؟

لنزمتر ( Lensmeter )، دستگاهی است که به وسیله­ی آن ، توان، محور و مقدار منشور یک عدسی تعیین می شود و یکی از وسایل ضروری هر مؤسسه عینک سازی است.

با پیشگامان فناوری آزمایشگاهی

نیاز غذائی مادران شیرده

کاربرد لیزر در ایران، همگام با دنیاست

دوش گرفتن الایزاد در پایان یک روز کار

شیوه تازه برای تصویربرداری پزشکی

تشخیص سرطان با استفاده از Real Time PCR

SIORA چگونه فراگیر شد؟

‏طبل بزرگ زیر پای پیس میکر ضرباهنگ قلب با پیس میکر

پدیده ای تازه در دستگاه های جدید ‌MRI

بپرهیز، تا گریه نکنم

مکانیک سیار باطری سازی سیار(نصب باطری اتمی …

نمایندگی زیمنس | فروش محصولات فشار ضعیف و …

چاپ کارت pvc،چاپ کارت پی وی سی،چاپ افست کارت …

نمایندگی کابل سیمند(سیمند کابل)

درخواست آرژانتین از پاکستان و سریلانکا : احمد وحیدی را بازداشت کنید

دولت، برنده واگذاری سهام سرخابی‌ها

آدم‌های مشهور حریم خصوصی ندارند؟ | رویداد24

آزمون دشوار بهارستان در «چند صدایی و کارآمدی»

کپسول نفتی مهار تورم

سایه‌روشن سهام سرخابی‌ها

ماجرای تنش ایران و آرژانتین چیست؟

تماشا کنید: روایت وال استریت ژورنال از انقلاب پهپادها در اقتصاد جنگ …

محمد صادقی از کشور خارج شد

تماشا کنید: از دولت به دولت! / ماجرای خصوصی‌سازی استقلال و پرسپولیس

خام‌دستی

توضیحات سردار رادان درباره توقیف خودرو به دلیل حجاب/ هیچ ماموریتی …

هشدار محمد خوش‌چهره: دنبال ناامید کردن نیستم اما در اقتصاد داریم می‌بازیم/ …

سفرى بعد از ۱۲ سال

وزیر صمت در پیچ‌وخم خودروهای برقی؛ وزارت نیرو: برق نداریم

سهم پلتفرمها از بازار جست و جوی شغل،‌ روند مشاغل پرتقاضا در ایران

درخواست آرژانتین از پاکستان و سریلانکا : احمد وحیدی وزیر ایران را …

اینجا از هر ۱۰ سرمایه، ۹ تا بر باد می‌رود

شغل‌های بازیگرانی که مهاجرت کردند، چیست؟ | روزنو

جزئیات رایزنی‌های امروز ۴ گزینه احتمالی ریاست مجلس دوازدهم

متنفر‌ها از بایدن و ترامپ چگونه سرنوشت انتخابات آمریکا را تغییر می‌دهند؟

نکته حائز اهمیت در حمله کوادکوپترهایی که به سخره گرفته شدند

تایید تذکر رهبری درباره گشت ارشاد؛ مامور خاطی تذکر گرفته است + جزئیات

در غیبت دولت | رضا صادقیان | پایگاه خبری تحلیلی انصاف نیوز

ربیعی : فلسفه بقا بر فلسفه توسعه کشور چربیده است / تغییر سبک زندگی …

دادگاه انقلاب اصفهان توماج صالحی را به اعدام محکوم کرد/ دادگاه بدوی …

افشاگری فلاحت‌پیشه درباره یک کلاهبرداری بزرگ؛ ماجرای دریافت غرامت …

شوک بزرگ به مردم در تابستان 1403 / منتظر تورم شدید باشید

بازار 25 میلیون نفری نسل زد

۵ غول شاسی بلند بازار ایران

فرودگاه جدید استانبول کجاست و چه امکاناتی دارد؟

یک ساعت پس از پایان تجمع حامیان حجاب | پایگاه خبری تحلیلی انصاف نیوز

خدا نکند گرانی به یک عادت تبدیل شود

مالیات بر عایدی سرمایه؛ هزینه ناکارآمدی دولت بر دوش مردم

لنزمتر ( Lensmeter )، دستگاهی است که به وسیلهی آن ، توان، محور و مقدار منشور یک عدسی تعیین می شود و یکی از وسایل ضروری هر مؤسسه عینک سازی است.