شنبه, ۱ اردیبهشت, ۱۴۰۳ / 20 April, 2024
مجله ویستا

شنیده می شوید


شنیده می شوید
در یکی از چهار راه‌های شهر لوییزویل انگلیس یک دوربین کنترل ترافیک هوشمند نصب شده که قادر است صدا‌ها را تفکیک کند. این دوربین می‌تواند صدای خرد شدن یا سایش چرخ اتومبیل‌ها را در حین تصادف از سایر صدا‌ها متمایز کند. دوربین کنترل ترافیک هوشمند با شنیدن این صدا‌ها خود به خود به سمت آن می‌چرخد و از صحنه تصادف فیلم‌برداری می‌‌کند.
دوربین مذکور یک «ماشین شنوا» نامیده می‌شود که صدا‌ها را درک می‌کند و به خوبی به آنها واکنش نشان می‌دهد.
در حال حاضر دستگاه‌های مختلفی از Playstation Eyetoy سونی گرفته تا دوربین‌های امنیتی که آنچه را می‌بیند تشخیص می‌دهد و افراد و حرکات مشکوک را شناسایی می‌کند، عرضه شده، اما کمتر سیستمی قادر است خنده‌های یک کودک را از صحبت‌های خسته کننده و نیش خند‌‌های افراد حاضر در یک مهمانی، تشخیص دهد.
مارک پلامبلی (Mark Plumbley) استاد دانشگاه لندن بر این باور است که به زودی شاهد ظهور فناوری‌های نوین صوتی خواهیم بود. پلامبلی که یکی از پیشگامان توسعه دستگاه‌های دیجیتال با قابلیت تشخیص صدا است، قرار است طی یک پروژه پنج ساله و با بودجه ۲/۱ میلیون پوند روی فناوری ماشین‌های شنیداری پیشرفته‌ای کار کند که در زمینه سلامت، امنیت و صنایع خلاقانه کاربرد خواهد داشت.
پلامبلی می‌گوید: من قصد دارم همکاری گروه‌های تحقیقاتی ماشین‌ها و دستگاه‌های دیداری و حسگر‌های زیستی را با همدیگر گسترش دهم تا به مبانی اولیه و کلی تحلیل صدا دست پیدا کنیم.
تحلیل دیداری، کار نسبتا آسانی است، چون به طور کلی اشیای نزدیک، اشیای دور را تار می‌کنند، اما این در حالی است که صدای دوردست با وجود تمام صدا‌های پس زمینه و زاید باز هم قابل تشخیص است و به گوش می‌رسد. پلامبلی به دنبال دست یافتن به الگوریتمی است که بتوان صدای مورد نظر را از صدا‌های دیگر متمایز ساخت.
از این گذشته،‌این فناوری بازار مناسبی را پیش رو دارد چون د رحال حاضر شرکت‌هایی چون گوگل، BBC و شرکت‌ ساخت ابزار کمک شنوایی Oticon and Phonac از این فناوری حمایت کرده‌اند.
اما تا زمانی که پلامبلی به اهداف تعیین شده‌اش دست پیدا کند، فناوری‌های شنیداری تنها صدا‌هایی را شناسایی خواهند کرد که برایشان تعریف شده است.
برای مثال دوربین‌ کنترل ترافیک مورد نظر می‌تواند فیلم‌ها را هم براساس یک ترتیب خاص، فهرست کند.
پاریس اسماراگدیس، دانشمند ارشد تحقیقات آزمایشگاه فناوری‌های پیشرفته شرکت Adobe می‌گوید: اگر تعداد زیادی فیلم داشته باشید، دوربین کنترل ترافیک هوشمند می‌تواند در میان همه فیلم‌ها جست‌وجو کند و سکانس‌هایی را که صدای شلیک و تیر‌اندازی در آنها وجود دارد، جدا و دسته‌بندی کند. در واقع طبقه‌بندی صوتی آسان‌تر از طبقه‌بندی تصویری است، چون به این ترتیب مجبور نمی‌شوید تمام صحنه‌های یک فیلم را بررسی و زیر و رو کنید.
اسماراگدیس پیش از این در طراحی یک سیستم جست‌وجوی محدود صوتی برای شرکت میتسوبیشی نقش داشته است.
وی می‌گوید: ما می‌خواهیم سیستمی را طراحی کنیم که هر دستگاهی را بررسی کند و از روی صدای آن، به نقص فنی پی ببرد و یا گوشی طبی هوشمندی بسازیم که به پزشکان امکان دهد با معاینه بیمار، به وضعیت تنفسی و قلبی – عروقی او پی ببرند.
دن الیس (Dan Ellis) مدیر آزمایشگاه تشخیص و سازماندهی دانشگاه کلمبیا بر این باور است که هم‌اکنون زمان مناسبی برای طبقه‌بندی یوتیوب و پادکست‌ها است. در حالی که «متن» با موتور‌های جست‌وجوی معمولی به فهرست در می‌آید، جست‌وجوی صوتی به کلید واژه‌های مخصوص نیاز دارد.
الیس می‌گوید: ایندکس کردن صوتی به درد کسانی می‌خورد که در آینده‌ای نزدیک هر لحظه از زندگی‌شان را با MP۳ پلیر ضبط می‌کنند. خود من چند وقت پیش این کار را امتحان کردم و حالا چند هزار ساعت فایل صوتی از فعالیت‌های عادی و روز‌مره‌ام دارم،‌اما پیدا کردن یک گفت‌وگوی کوتاه در این میان واقعا عذاب‌آور است. ولی اگر به یاد داشته باشید که گفت‌وگو یا رویداد مورد نظر در چه مکانی اتفاق افتاده است، کامپیوتر می‌تواند قطعه صوتی مورد نظر را با شناسایی صدا‌های مربوط به آن مکان جدا کند.
علاوه بر این گایرو گیبلز مدیر فناوری‌های نوین انستیتو سلطنتی ملی ناشنوایان انگلیس ایندکس صوتی را به نفع افراد ناشنوا می‌داند.
وی در این باره می‌گوید: با بهره‌گیری از یک سیستم هوشمند می‌توانید اطلاعات مورد نیاز افراد ناشنوا را از اطلاعات فرعی متمایز کنید. برای مثال این سیستم می‌تواند اطلاعات مربوط به پرواز فرد ناشنوا را به اطلاع او برساند.
اما پلامبلی بازار عمده دستگاه‌های تشخیص صدا را صنعت موسیقی می‌داند. پلامبلی می‌گوید: تصور کنید لپ‌تاپی دارید که قادر است نت‌های یک موسیقی جاز را تشخیص داده و از آن پرینت بگیرد و حتی به عنوان یک نوازنده وارد عمل شود و قطعه و نت منحصر به فرد خود را بنوازد.
روزی خواهد رسید که مانند تصاویر اصلاح شده در فتوشاپ، دیگر نمی‌توانیم به گوش‌های خود و آنچه می‌شنویم اعتماد کنیم.
ترجمه: ارسلان شهلا
منبع : روزنامه فناوران


همچنین مشاهده کنید