چهارشنبه, ۱۲ اردیبهشت, ۱۴۰۳ / 1 May, 2024
مجله ویستا

وب نامرئی و وب فارسی


وب نامرئی و وب فارسی
افزایش کاربران فارسی زبان اینترنت از یک سو و گسترش روز افزون صفحات اینترنتی به زبان فارسی از سوی دیگر ضرورت بررسی وب نامرئی به زبان فارسی با توجه به محدودیت ها و قابلیت های خط فارسی را بیان می کند. در این مقاله ابتدا وب نامرئی و جنبه های مختلف آن معرفی می گردد و سپس زبان و خط فارسی و تأثیر آن در ناپیدائی صفحات وب مورد تحلیل و بررسی قرار می گیرد.
● مقدمه
صرفه جویی در زمان، عدم محدودیت مکانی، عدم محدودیت زمانی در کاربری، سهولت دسترسی و روزآمدی از جمله دلایلی است که شبکه جهان گستر وب را به فراگیرترین محمل اطلاعاتی مبدل کرده است. و در این حین موتورهای کاوش عمده ترین و مرسوم ترین ابزار برای بازیابی اطلاعات هستند. جامعیت موتورهای کاوش اعتماد و اطمینان کاربران را به این ابزار افزایش داده و در بسیاری موارد آنها را از جستجوی بیشتر منابع اطلاعاتی باز می دارد حال آنکه، وجود پدیده ای به عنوان «وب نامرئی» گویای این مهم است که حجم وسیعی از اطلاعات موجود در وب با جستجو از طریق موتورهای کاوش قابل بازیابی نیست و آگاهی کاربران از این امر ضروری به نظر می رسد.
با افزایش پدیده وبلاگ نویسی و اپیدمی شدن آن در ایران و افزایش نشریات الکترونیکی فارسی، حجم صفحات وب فارسی وسعت یافت. وسعت حجم وب فارسی و دسترسی به منابع ارزشمند ادبیات فارسی، عرق زبانی و ملی و نیز عدم تسلط به زبان انگلیسی که زبان عمومی وب است ضرورت بازیابی اطلاعات از وب فارسی را تبیین می کند تفاوت های اساسی زبان انگلیسی و فارسی، حاکی از وجود تفاوت هایی در قسمت هایی از وب نامرئی این دو زبان است که در مقاله به بررسی این تفاوت ها و میزان وب نامرئی در وب فارسی و مشکلات مختص این زبان می پردازیم.
● اجزای تشکیل دهندۀ موتور های کاوش و نحوۀ عملکرد آنها
ساختار اصلی موتور کاوش معمولاً از سه بخش اصلی تشکیل شده است، این بخش ها عبارتند از :
۱) نرم افزار خزنده یا روبات جستجوگر[۲]
این قسمت ازموتورجستجو در واقع نرم افزاری است که با دنبال کردن پیوندهای موجود در صفحات وب، صفحات جدید را شناسایی می کند واین فرایند، پیوسته تکرارمی شود.انتخاب نام«خزنده» برای این نوع ازنرم افزارها به دلیل نوع کاری است که انجام می دهند.عملکرد آنها در یافتن صفحات وب مثل خزیدن در فضای وب است. هر موتور جستجو، نرم افزارخزندۀ مخصوص به خود را دارد وتوانایی بازیابی اطلاعات در هر موتور، کاملاً وابسته به قدرت «خزندۀ» آن است. منظور از قدرت خزنده، سرعت عمل ودامنۀ فعالیت آن در دنبال کردن پیوندهای موجود می باشد. گستردگی وعمق دسترسی اطلاعات در هر موتور جستجو بیش از هر چیز به ویژگی های خزندۀ آن بستگی دارد و نمایۀ موتور جستجو، حاصل کار خزنده است. البته علاوه بر خزنده ها در هر موتور جستجو، بخشی برای معرفی سایت های جدید نیز وجود دارد که کاربران می توانند با ارسال نشانی سایت[۳] مورد نظر خود، آن را به موتور جستجو تحویل دهند.
۲) نمایه[۴]
یك پایگاه اطلاعاتی است كه اطلاعات نمایه‌سازی‌شده و‌ مرتبط با صفحات یا سایت‌های وب درآنجا نگهداری می‌شود و قابل بازیابی است. ساختار نمایه، ‌اندازه و حجم آن در موتورهای جستجو متفاوت است؛ به همین دلیل جستجو با كلیدواژه‌های یكسان در موتورهای گوناگون، نتایج نسبتاً متفاوتی را در پی خواهد داشت‌. (خسروی،۱۳۸۳، ۵۲)
۳) نرم افزار جستو در نمایه[۵]
سومین جزء یک موتور جستجو، نرم افزار بازیابی است که به جستجو و بازیابی اطلاعات موجود درفایل نمایه براساس کلید واژه های دریافتی ازطرف کاربران می پردازد. و نتایج بازیابی را نمایش می دهد .به بیان دیگر، هنگامی که کاربران کلید واژه های مورد نظر خود را
دربخش جستجوی موتور کاوش وارد می کنند، آنچه اتفاق می افتد جستجوی نمایۀ موتور بر اساس کلید واژه های مذکور است نه جستجوی فضای اینترنت. آنچه که کاربران مشاهده می کنند بیرونی ترین لایۀ موتورهای جستجو است. وقتی آنها به کمک کلید واژه های انتخابی خود به جستجو در اینترنت می پردازند، در واقع آنچه را جستجومی کنند پایگاه اطلاعاتی (نمایۀ) موتورجستجواست که پیوند آنها را با سایر سایت های اینترنتی -سایتها و صفحات وب که قبلاً توسط خزنده شناسایی شده اند- برقرار می کنند.
از انواع موتورهای کاوش می توان موارد زیر را ذکر کرد: Google, WiseNut, MSN, AlltheWeb, AltaVista, Teoma .
● تعریف وب نامرئی
به رغم آنکه تا کنون مقالات متعددی به زبان انگلیسی درباره وب نامرئی منتشر شده اما به روشنی معلوم نیست که چه کسی برای اولین بار این واژه را ابداع کرده است. مرور نوشتارها نشان می دهد که به احتمال زیاد واژه وب نامرئی برای نخستین بار در سال ۱۹۹۴ توسط محققی به نام دکتر ژیل السورث[۶] ابداع شده است . البته معدودی از منابع موجود در این زمینه نیز شخص دیگری به نام ماتیوکل[۷] را به عنوان اولین مبدع این اصطلاح معرفی می کنند. با این حال نام کریس شرمن و گری پرایس به عنوان دو نفر از صاحب نظران اصلی در این موضوع بیشتر از دیگران به چشم می خورد و تعریفی که آنان در سال ۲۰۰۱ از وب نامرئی ارائه کرده اند در اغلب منابع ذکر شده است. به نقل از شرمن و پرایس وب نامرئی را می توان به طور خلاصه چنین تعریف نمود:
وب نامرئی بخشی از شبکه جهان گستر وب است که عمدتآ شامل منابع اطلاعاتی غیرمتنی و پویاست که به هر دلیل به طور موقت یا دائم خارج از حوزه جستجو و بازیابی موتورهای کاوش قرار دارند و بازیابی اطلاعات موجود در آن از طریق استفاده مستقیم از این موتورها میسر نمی باشد. امکان بازیابی منابع پنهان در وب نامرئی یا برای موتورهای کاوش از نظر فنی میسر نیست و یا محدودیت های مالی مانع از نمایه سازی این منابع شده است.
[...انتخاب] این واژه به این معنا نیست که اطلاعات موجود در این بخش از وب غیر قابل رویت هستند. [بلکه] انتخاب این واژه ناشی از این واقعیت است که به دلیل محبوبیت و عمومیت استفاده از موتورهای کاوش این ابزار بازیابی اطلاعات در وب بیشترین استفاده را برای کاربران داشته و کم و بیش این تصور عمومی وجود دارد که موتورهای کاوش به تمام بخشهای شبکه وب دسترسی دارند... (منصوریان، ۱۳۸۲).
اینترنت پنهان آن بخش از فضای اینترنت است که به هر دلیل، خارج از حوزۀ جستجوی موتورهای کاوش قرار دارند و بازیابی اطلاعات موجود در آن از طریق استفاده مستقیم از این موتورها میسر نیست .افزودن قید «به هر دلیل» در این تعریف حاکی از آن است که ایجاد اینترنت پنهان ناشی از وجود فقط یک عامل نیست و به عوامل متعددی مربوط می شود.
● وب مرئی یا وب سطحی[۸]
زمانی که سخن از قسمت های نامرئی وب به میان می آیید، احتمالاً به همان اندازه باید به بخش های مرئی رجوع شود. وب مرئی، وب آشکاراً قابل نمایه یا وب سطحی است، در واقع آن وب سایت هایی است که توسط موتورهای کاوش برداشته و نمایه سازی شده اند. . بنابر این، هنگامی که افراد یک بررسی جستجوی وب مبتنی بر وب در موتورهای کاوش را هدایت می کنند در حقیقت عمل، آنها مطالعه شان را بر وب نامرئی محدود می کنند و اساساً، بخش نامرئی وب را در نظر نمی گیرند.
● بخش های تشکیل دهنده وب نامرئی
بر اساس تعریف شرمن و پرایس می توان طیفی از ناپیدایی اطلاعات در شبکه وب تصور نمود که بسته به میزان ناپیدایی اطلاعات در بخشهای مختلف وب از وب نسبتآ نامرئی تا وب حقیقتآ نامرئی قابل ترسیم است. آنها بخشهای مختلف وب نامرئی رابه شرح ذیل تقسیم بندی می کنند
۱) وب مات[۹]
این بخش از وب نامرئی دچار نوعی ناپیدایی موقتی است و امکان پیوستن آن به بخش آشکار یا مرئی وب محتمل تر از بخشهای دیگر است. […] عوامل ایجاد کننده وب مات عبارتند از:
▪ عمق نمایه سازی[۱۰]
توان مالی و فناوری فعلی موتورهای جستجو هنوز به مراتب محدودتر از آن است که بتوانند به نمایه سازی تمام صفحات و لایه های موجود در وب سایت ها بپردازند، چرا که این کار فرایندی پر خرج بوده و مستلزم فراهم آوری امکانات سخت افزاری قابل توجهی است.
▪ تناوب روزآمد سازی نمایه موتورهای جستجو[۱۱]
نرم افزارهای خزنده[۱۲] با دنبال کردن پیوندهای موجود در صفحات وب مسئولیت شناسایی صفحات جدید و افزودن آنها به نمایه موتورهای جستجو را بر عهده دارند. قدرت و سرعت این نرم افزارها محدودتر از آن است که بتوانند تمام محیط وب را پوشش دهند و تناوب روزآمد سازی آنها به مراتب کندتر از سرعت افزودن اطلاعات جدید به محیط وب است.
[...] همواره فاصله زمانی قابل توجهی از چند روز تا چند هفته بین اطلاعات واقعی موجود در وب و آنچه که موتورهای کاوش، جستجو می کند وجود خواهد داشت.
▪ وب مرده[۱۳] یا نشانی های قطع شده[۱۴]
هر روز یا به بیان دقیقتر هر لحظه صفحات و منابع مختلفی به مجموع منابع شبکه وب افزوده می شود و منابع دیگری از آن حذف می گردد. [...] از سویی دیگر، صفحاتی در وب وجود دارند که هیچ پیوندی با منابع دیگر بر قرار نکرده اند و به همین دلیل خزنده های موتوزهای جستجو قادر به یافتن آنها نیستند.
▪ حداکثر صفحات قابل مرور در نتایج بازیابی[۱۵]
معمولآ جستجوهای انجام شده در موتورهای کاوش با نتایج بازیابی فراوان همراه می باشد بویژه وقتی که کلیدواژه های مورد استفاده تخصصی نبوده و جنبه عمومی داشته باشند. موتورهای جستجو، اطلاعات بازیابی شده را در صفحات متعدد نمایش می دهند و هر صفحه بین ۱۰، ۲۰ یا ۳۰ مورد را در بر می گیرد. اکثر کاربران معمولآ صفحات اول یا دوم نتایج بازیابی موتورهای جستجو را مرور کرده و به ندرت به صفحات بعدی مراجعه می کنند. حتی در بهترین شرایط بخشی از اطلاعات بازیابی شده که ممکن است مرتبط با نیاز کاربر نیز باشد در لایه های زیرین صفحات بازیابی شده توسط موتورهای جستجو مدفون می ماند و به این ترتیب جزء وب مات محسوب می شود.
۲) وب عمیق[۱۶]
اهمیت وب عمیق عمدتاً از آنجا ناشی می شود که از نظر حجم اطلاعات مخفی در آن، این بخش از قلمرو وب نامرئی بزرگترین قسمت آن را به خود اختصاص می دهد به طوری که حجم اطلاعات موجود در آن چندین برابر وب آشکار یا وب سطحی تخمین زده می شود. فهرست پیوسته عمومی[۱۷] بسیاری از کتابخانه های دنیا که از طریق شبکه وب دسترس پذیر هستند و همچنین بسیاری پایگاههای دیگر از جمله وب عمیق هستند. بعضی از این پایگاهها و فهرست های پیوسته، خدمات خود را رایگان عرضه نموده و برخی دیگر در ازاء ارائه خدمات، هزینه اشتراک دریافت می کنند. بدون در نظر گرفتن رایگان بودن یا نبودن خدمات این پایگاهها، همه آنها در یک موضوع مشترک هستند و آن خارج بودن مندرجات آنها از حوزه جستجوی موتورهای کاوش است.
از جمله دیگرموارد وب عمیق، صفحات وبی است که تنها در پاسخ یک پرسش[۱۸] از نظام بازیابی اطلاعات تولید می شود.) وب ملکی[۱۹]
بعضی از منابع اطلاعاتی مثل انواع نشریه های الکترونیکی و پایگاههای اطلاعاتی مبتنی بر وب[۲۰] که دسترسی به آنها مستلزم پرداخت حق اشتراک اشت و جزء محصولات شرکت های مختلف می باشد را وب ملکی می نامند. از نظر فنی معمولاً بین منابع وب ملکی و وب عمیق مشابهت وجود دارد اما از آنجا که در این بخش از وب نامرئی منافع مالی تولیدکنندگان اطلاعات منجر به خارج نمودن این منابع از حوزه دسترسی موتورهای جستجو شده این
گروه در دسته ای جداگانه طبقه بندی می شوند.
۴) وب خصوصی[۲۱]
این بخش از وب نامرئی تفاوت اساسی بابخشهای دیگر آن دارد، […] این تفاوت اساسی از آنجا ناشی می شود که مخفی بودن اطلاعات در این بخش کاملاً تعمدی می باشد و اطلاعات مذکور جزء دارایی های شخصی و خصوصی افراد یا سازمانها محسوب می شوند.
به کار بردن سه روش ذیل سبب به وجود آمدن وب خصوصی می شود:
▪ استفاده از اسم کاربر و گذر واژه[۲۲] : معمولترین روش برای جدا کردن این نوع منابع از محیط عمومی وب محسوب می شود.
▪ استفاده از فایل Robots.txt : وجود این فایل، خزنده های موتورهای جستجو را از نمایه سازی وب سایت مذکور باز می دارد.
▪ استفاده از کد noindex : افزودن کد noindex به مجموع کدهای یک صفحه وب، پیامی برای خزنده موتور جستجو به شمار می رود که آن را از نمایه سازی صفحه مذکور منع می کند [...]. (منصوریان، ۱۳۸۲، ۳۵ )
۵) وب واقعاً نامرئی[۲۳]
بخش های دیگری نیز در قلمرو تاریک وب وجود دارد که در اثر مسائل فنی[۲۴] از دسترس کاربران دور مانده است و چه بسا در آینده با پیشرفت ابزارهای کاوش به محیط وب مرئی منتقل شوند. موتورهای جستجو اغلب قادر به یافتن اطلاعات متنی « اچ تی ام ال»[۲۵] هستند و توانایی بازیابی فایلهایی از انواع دیگر نظیر pdf, ppp, swf را یا ندارند یا به دلیل کمبود منابع مالی و فنی از جستجوی فایلهای غیر متنی صرف نظر کرده اند. مثلاً در حال حاضر موتور جستجوی معروف گوگل[۲۶] قادر به بازیابی فایلهایی با پسوند pdf, ptt می باشد، اما این امکان در بسیاری دیگر از موتورهای جستجو هنوز وجود ندارد و چند سال گذشته نیز گوگل به این امکان مجهز نبود. (منصوریان، ۱۳۸۲، ۳۶)
● زبان و خط فارسی
تمایزات اساسی زبان و خط فارسی با زبان و خط انگلیسی که زبان غالب وب است، سبب شده است که جستجو به زبان فارسی در وب نامرئی مطرح شود.
زبان و خط فارسی مشكلات خاصی را دارا می­باشد و نظام نوشتاری فارسی برای ثبت دقیق گفتار، نارسائی دارد و قواعد نگارش آن مدون نیست، از این رو فاصله میان گفتار و نوشتار در فارسی قابل توجه است. بیش‌ترین مشكلات نیز به جهت نبود یك رسم الخط واحد كه عموم اساتید و اهل فن روی آن اجماع كرده باشند به وجود آمده است. به طوری كه در حال حاضر جدای از چندین شیوه‌نامه رسمی همچون" شیوه‌نامه سمت، نشر دانشگاهی، فرهنگستان، آموزش و پرورش" به تعداد افراد جامعه، رسم الخط و شیوه نگارش زبان وجود دارد، هر ناشری برای خود به قاعده‌ای دلخواه عمل می‌كندكه این تعددها موجب پریشانی و پراكندگی شده و با یکدیگر تفاوت‌هایی دارند. همچنین می‌توان به عاریتی بودن خط فارسی و چاره ‌اندیشی برای حركات و عدم تطابق واج‌ها با حروف اشاره كرد. متصل و منفصل‌نویسی نیز یكی دیگر از حوزه‌های مورد اختلاف است از دیگر مشكلات: گوناگونی معادل‌های علمی، انواع مختلف ضبط اسامی خارجی، سرهم‌نویسی، جدانویسی، بی‌فاصله‌نویسی، انواع جمع‌ها، صورت‌های مختلف نوشتاری، آوانویسی اسامی عناصر و تركیبات شیمیایی، سرواژه‌ها و كوته‌‌نوشت‌ها می­باشد.
نبود استاندارد ثابت رسم الخط فارسی موجب این شده است كه به تعداد صفحات وب فارسی سبك و سیاق نگارش به كار رفته باشد لكن می‌توان چنین ارزیابی نمود كه اكثر وب‌های فارسی در برخی خصوصیات مشترك می‌باشند از جمله این كه نگارش برخی از آن‌ها زبان غیر رسمی و محاوره‌ای می‌باشد و به خصوص در متون علمی اغلب واژه‌های بیگانه به دفعات استفاده می‌شود. رسم­الخط مورد استفاده نیز متفاوت و سلیقه‌ای است و برخی از آن‌ها غلط‌های تایپی و نگارشی فراوانی دارند و این خصوصیات، اغلب به جهت محدودیت‌های محیط الكترونیكی و عدم تطابق رسم الخط فارسی با آن می‌باشد كه نمایه‌سازی و سپس جستجو به این زبان را با دشواری‌هایی رو به رو می‌سازد.
● مشکلات خط فارسی
نقص‌هایی اساسی كه برای زبان فارسی شمرده‌اند به شرح زیراست (راثی ساربانقلی، ۱۳۸۴):
▪ عدم اعراب گذاری: به عنوان مثال کلمات (مَلَک، مِلک، مَلِک، مُلک) همه به یک شکل نوشته می شوند.
▪ وجود چند علامت برای یک حرف: مانند (ز، ذ، ظ، ض)
▪ استفاده از یک علامت برای چند حرف: مانند "و" که پنج مورد نوشتن دارد یکی برای بیان ضمه در کلمات "خوش" و "تو". دیگر بیان مصوت ممدود یا "واو ماقبل مضموم" مانند "شور" و "او". سوم بیان حرف صامت "واو" در كلماتی چون "آواز" و "والی" و "عفو" . چهارم بیان حرف مصوت مركبی كه در كلمات "نو" و "جوشن" و مانند آن‌هاست. پنجم حرفی كه در زبان كنونی خوانده نمی‌شود مانند "واو معدوله" در كلمات "خواهر" و "خواستن" و "واو" در كلمه "عمرو"[۲۷]
▪ حرفهایی که در نوشتار حذف می شوند: مانند "الف" در کلمات "اسمعیل" و "الله"
▪ نقطه گذاری: نقطه‌هایی متعدد در بالا و پائین حرف كه هم سبب دشواری و هم موجب اشتباه در خواندن می‌شود. اهمیت بیش از حد نقطه درخط فارسی هنگام تشخیص نوری كاراكترها تولید اشكال اساسی می‌كند. به عنوان مثال كلمات زیر را در نظر بگیرید كه با یك یا چند نقطه عوض می‌شوند (بُر، بَر، پُر، پَر، تَر، پُز، پَز، بُز، تِز). - از راست به چپ نوشته شدن: برای این مورد دلایل مختلفی ذکر شده است از جمله عدم هماهنگی و ایجاد مشكل در نوشتن متون ریاضی و شیمی و نت‌های موسیقی و دستورات شطرنج و این‌ كه خط تصویری یعنی علائم گرافیكی كه در كل جهان استفاده می‌شود مانند علائم راهنمائی و رانندگی تماماً از چپ خوانده می‌شوند.
▪ پیوسته نویسی و جدا نویسی: مانند تنوع استفاده از ‹می› چسبان و غیر چسبان و یا تنوع نحوه به كار بردن «علامت‌های جمع ‹ها، ان، جات› ، هم، هیچ، كه، (ضمایر شخصی متصل مان، تان، شان)، شناسی، را، چه، چون، تر، ترین، بی (پیشوند نفی)، به، ای (نشانه ندا)، آن و این» در كلمات به صورت پیوسته و یا جدا گانه: (آنچه ، آن چه)؛ (همچنانكه، همچنان‌كه) ؛ (جنابعالی، جناب‌عالی)؛ (هیچكس، هیچ‌كس)‏‎؛ (میتواند، می‌تواند)؛ (آن ها، آنها) در این مورد كلماتی كه پیشوند و یا پسوند دارند نیز در شكل‌های مختلف نوشته می‌شوند. برخی از كلمات در دو شكل متصل‌نویسی و منفصل‌نویسی به دو شكل مختلف ظاهر می‌شوند، مانند «علاقمند و علاقه‌مند؛ اندیشمند و اندیشه‌مند». مصدرها و فعل‌های مركب و اسم‌های مشتق از آنها نیز به دو صورت متصل و منفصل نوشته می‌شوند مانند «نگه‌داشتن و نگهداشتن». در جستجوی مطالب از اینترنت این مورد تولید اشكال می‌كند چنانكه جستجوی «هیچ‌كس» نتایج متفاوتی را با جستجوی «هیچكس» می‌آورد و یا جستجوی «كتاب‌شناسی» و «كتابشناسی» در موتور جستجوی گوگل نتایج متفاوتی را ارائه می‌كند. این گونه كلمات با این كه در خواندن متن اشكال كمی به وجود می‌آورند و هر آشنای به زبان فارسی به راحتی می‌تواند آن را بخواند اما در فن‌آوری امروزه و تجزیه و تحلیل كلمات به كمك رایانه اشكال اساسی تولید می‌كند و شاید اگر قاعده‌ای جامع و مانع برای آن وضع گردد، بتوان گفت بزرگ‌ترین مشكل خط فارسی حل شده است. منظور این كه، برای مثال خواندن سه كلمه «بی‌حوصلگی، بیحوصلگی، بی‌حوصله‌گی» مشكلی ایجاد نمی‌كند. اما در محیط الكترونیكی و شبكه اینترنت برای بازیابی این كلمه بایستی برای تمام اشكال این كلمه، جستجو را انجام دهیم، البته اگر آگاهی از تمام اشكال نوشتاری آن داشته باشیم.
▪ نوشته شدن حروف به اشکال متعدد: مثلاً نوشتن ك و گ (كـ گـ ك گ) در اشكال مختلف نیز باعث سردرگمی و عدم جستجوی صحیح می‌شود.
▪ بوجود آمدن معنای متفاوت با اضافه کردن یک فاصله: مثل مادر ، ما در
▪ تعداد سطرها در هر صفحه: سه كرسی مختلف برای حرف‌های مختلف الفبا باعث می شود كه در مقایسه با اكثر زبان‌ها تعداد سطرهای هر صفحه به مراتب بیش‌تر گردد چون برخی حروف روی خط كرسی قرار می‌گیرند و برخی پائین خط كرسی و برخی بالای خط كرسی مثل (ا ب م )
▪ پیوسته نویسی حروف: از آنجائیكه حروف در نوشتن غالباً به صورت چسبیده و پیوسته نوشته می‌شوند و این امر تشخیص حرف به حرف نوشته به وسیله رایانه را، دچار مشكل می‌كند.
▪ عدد صفر در فارسی: در او. سی. آر. فارسی هم چنین اعداد نیز مشكل ساز هستند چنانچه صفر در فارسی یك نقطه كوچك است كه می‌تواند رایانه را به اشتباه بیاندازد و نیز اعداد ۱ و ۲ و ۳ بسیار شبیه هم هستند و تفاوت‌شان در یك دندانه كوچك است.
▪ تنوع در رسم الخط: مانند ( اتاق و اطاق) و یا (امپراتور و امپراطور). و كلماتی كه فقط یك شكل آنها صحیح می‌باشد ولی شكل ناصحیح آن نیز زیاد استفاده می‌شود مانند «ذغال و زغال؛ خوشنود و خشنود». البته این جدای از تنوع در مفهوم كلمات است كه در دیگر زبان‌ها نیز وجود دارد، یعنی برای بعضی از مفاهیم ممكن است كلمات متنوعی استفاده بشود. مانند كامپیوتر و رایانه.
▪ شکل های مختلف ضبط نام های بیگانه: واژه‌های بیگانه اغلب برای پر كردن خلاء واژه‌های علمی و یا ارتباطی سودمند هستند، اما وجود آن‌ها مسائلی از قبیل چگونگی ضبط آن‌ها در زبان قرض‌گیرنده را به‌ وجود می‌آورد. برای ضبط واژه‌های قرضی به سبب اختلاف فاحش نشانه‌های الفبای فارسی با نشانه‌های الفبای خارجی مشكلات جدی وجود دارد. از جمله این كه الفبای فارسی آوانگار نیست و به همین جهت در ضبط دقیق تلفظ واژه‌های زبان فارسی نیز ناتوان است و این ناتوانی در ضبط واژه‌های بیگانه به مراتب بیش‌تر است و این كه در مورد برگردان اسامی خارجی به خط فارسی قاعده خاصی وجود ندارد و هر كس بنا بر سلیقه و ذوق خود این كار را انجام می‌دهد كه در نتیجه یك كلمه واحد به صورت‌های مختلف نوشته می‌شود. برای مثال (كلسیم، كلسیوم، كالسیوم) و یا اسم Franklin به صورت (فرانكلین، فرانكلن، فرنكلین، فرنكلن) ضبط شده است.
خانم صدیق بهزادی این مشكلات را به سه دسته تقسیم كرده است:
” ۱) نام‌هایی كه در برگردان آن‌ها هم‌خوان‌ها ایجاد مشكل می‌كنند.
۲ ) نام‌هایی كه در برگردان آن‌ها واكه‌های ساده مشكلاتی را به‌ وجود می‌آورند .
۳ ) و سوم نام‌هایی كه در برگردان آن‌ها مشكل اصلی مربوط به واژه‌های مركب است. (نقل در راثی ساربانقلی، ۱۳۸۴)
▪ انواع مختلف جمع بستن: به عنوان مثال جمع بستن یك واژه با علایم جمع فارسی وعلایم جمع عربی و نیز جمع بستن بی قاعده (جمع مكسر)، استفاده ازجمع جمع، مانند (معلم، معلمین، معلمان، معلم‌ها).
▪ تنوین های زبان عربی: از جمله دشواری‌های رعایت اصل هم‌خوانی نوشتاری و گفتاری هستند.
▪ وجود دندانه های متعدد: به خصوص در او.سی.آر. فارسی ایجاد اشكال می‌كند مانند كلمات: نشستن و استشهاد.
● ابزارهای كاوش با واسط فارسی
برخی از ابزارهای كاوش با امكانات جستجوی فارسی عبارتند از:
ایران کلیکIranclick، Open Directory، ایران‌هوIranhoo ، ایران‌مهرIranMehre ، پارسیك Parseek ، گوگل Google. تنها موتور كاوش Google دارای برنامه روبات می باشد و قادر است صفحات فارسی را در قالب یونی كد[۲۸] شناسایی و در پایگاه خود نمایه كند. Parseek نیز از آنجایی كه از پایگاهGoogle استفاده می كند، یك موتور كاوش وابسته به پایگاه دیگر ابزارهای كاوش به حساب می آید.۴ ابزاركاوش دیگرراهنمای موضوعی به شمارمی آیند و انسان فرایند شناسایی،بررسی و نمایه سازی سایتها یا صفحات وب رابرعهده دارد.
اضافه کردن یك واسط هوشمند به موتورهای كاوش یا خزنده ها، كیفیت نتایج كاوش در وب های فارسی زبان را ارتقاء می دهد. این واسط در واقع نقش یك پردازشگر پرس وجو[۲۹] را ایفاء می كند.
● نتیجه گیری
نقایص ومشکلات خط فارسی که اجمالاً ذکر شد، بازیابی اطلاعات توسط موتورهای جستجو را که در حال حاضر تنها موتور جستجوی Google امکان جستجو به زبان فارسی را دارد و سایر موتورهای کاوش مانند Parseek هم موتور کاوش Google را برای جستجوی اطلاعات فارسی به کار می برند، دشوار می کند و همین نقایص، باعث عدم دسترسی کاربران به همۀ صفحات وب موجود به زبان فارسی می شود که این همان وب نامرئی است (صفحاتی در وب وجود دارد اما با موتور کاوش نمی توان آن را بازیابی کرد).طبق مطالعات انجام شده در این زمینه، به نظر می رسد که حجم وب نامرئی در زبان فارسی نسبت به حجم کل وب فارسی بیشتر از حجم کل وب نامرئی نسبت به حجم کل وب است. چرا که از میان صفحات وب فارسی، صفحات وب بسیاری وجود دارد که به دلایلی که قبلاً اشاره شد از جمله عدم وجود رسم الخط ثابت و نیز عدم رعایت آن توسط تولیدکننگان صفحات وب از دید کاربران پنهان می ماند.
در این راستا آگاهی از وجود وب نامرئی توسط کتابداران، اولین و مهمترین گام است.
● پیشنهادات
۱) ایجاد یک رسم الخط ثابت برای خط فارسی و نظارت سازمانهای مربوطه همچون مرکز اسناد و کتابخانۀ ملی و یا فرهنگستان زبان و ادب فارسی، بر رعایت آن توسط ناشران و مؤلفان.
۲) اعمال یک واسط هوشمند فارسی بر روی موتورهای کاوش.
یلدا کنتراتچی
دانشجوی کارشناسی ارشد کتابداری و اطلاع رسانی دانشگاه تهران
زیر نظر مهندس نادر نقشینه
عضو هیئت علمی دانشگاه تهران
یادداشتها:
[۱]. Invisible Web
[۲] . Crawler or Spider
[۳] .URL(Universal Resource Locator)
[۴]. Index.
[۵] .Query Processor
[۶] .Dr. Jill Ellsworth
[۷] . Matthew Koll
[۸] .Visible Web or Surface Web
[۹] .Opaque Web
[۱۰] .Indexing Depth
[۱۱] .Frequency of Crawling
[۱۲] .Spiders or Crawlers or Robots
[۱۳] .Dead Web
[۱۴] .Disconnected URLs
[۱۵]. Maximum Number of Viewable Results
[۱۶] .Deep Web
[۱۷] .OPACs
[۱۸] .Query
[۱۹] .Proprietary
[۲۰] .Web-Based Databanks
[۲۱] .Private Web
[۲۲] .User name and Password
[۲۳] .Truly Invisible Web
[۲۴] .Technical Factors
[۲۵] .HTML
[۲۶] .Google
[۲۷] . واو معدوله واوی است كه در این زمان عموماً نوشته می‌شود ولی خوانده نمی‌شود، مانند خواهش. اما در زمان قدیم آن را با كیفیت خاصی تلفظ می‌كرده‌اند و چون در هنگام تلفظ ضمه به فتحه عدول می‌كرده‌اند، آن را واو معدوله نامیده‌اند. هنوز در برخی از لهجه‌ها تلفظ آن به صورت قدیم مانده است. پیش از واو معدوله همیشه حرف «خ» و پس از آن یكی از حروف «د.ر.ز.س.ش.ن.و.هـ.ی» آمده است.
[۲۸] .Unicode
[۲۹] .Query Processing
منابع
بازاک، دانیل. «جستجوی وب بطور کارآمدتر: رهنمودها، فنون و راهبردها». مترجمین مریم اسدی و اکرم اسدی.نما. دورۀ ۲. شمارۀ ۴. (۷ تیر ۱۳۸۳). ۲۰ آبان ۱۳۸۵.
<http://www.irandoc.ac.ir/data/E_J/vol۲/Search_Web.htm>
خسروی، عبدالرسول (۱۳۸۳). «وب نامرئی». علوم اطلاع رسانی. دورۀ ۲۰. شمارۀ ۱و ۲(پاییز و زمستان ۱۳۸۳). ۵۱-۵۸.
راثی ساربانقلی، محمد صابر (۱۳۸۴). «مهارت در جستجوی اطلاعات فارسی از اینترنت». نما. دورۀ ۵. شمارۀ ۱. (۵ شهریور ۱۳۸۴). ۲۲ آبان ۱۳۸۵.
< http://www.irandoc.ac.ir/data/E_J/vol۵/rasi.htm>
صدیقی، محسن؛ زمانی فر، کامران(۱۳۸۳). «روشی برای رفع چالش های محتوا کاوی وب های فارسی زبان». نما. دورۀ ۴. شمارۀ ۲. (۲۲ اسفند ۱۳۸۳). ۲۲ آبان ۱۳۸۵.
<http://www.irandoc.ac.ir/data/E_J/vol۴/shahidi.htm>
کوشا، کیوان (۱۳۸۲). « معیارهای‌ ارزیابی‌ ابزارهای‌ كاوش‌ اینترنت‌: مطالعه‌ مقایسه‌ای‌بر روی‌ ابزارهای‌ كاوش وب با واسط جستجوی فارسی».کتابدار.دورۀ دوم.۱۳۸۲شمارۀ ۲.
<http://www.ketabdar.org/magazine/detailarticle.asp?number=۲۵>
منصوریان، یزدان (۱۳۸۲). «وب پنهان چیست و چه اهمیتی دارد؟». نما. دورۀ ۲. شمارۀ ۱. (۱۶ اسفند ۱۳۸۲). ۶ آبان ۱۳۸۵.
<http://www.irandoc.ac.ir/e-journal.htm>
منصوریان، یزدان (۱۳۸۲). «نگاهی به جنبه های مختلف وب نامرئی، مرور پژوهش ها». ارائه شده در همایش وب سایت کتابخانه ها. تهران. ۲۴ دیماه ۱۳۸۲.
منصوریان، یزدان (۱۳۸۲). «اینترنت پنهان و منابع اطلاعاتی نهفته دراعماق نامرئی شبکه جهان گستر وب». کتابداری و اطلاع رسانی. ج ۷. شما رۀ ۱. ۲۵-۴۲.
Mansourian, Yazdan (۲۰۰۴). “ Technical and Non-technical Aspects of the invisible web”. Informology. Vol۱. No۲. ۲۲۱-۲۳۷.
منبع : نما مجله الکترونیکی پژوهشگاه اطلاعات و مدارک علمی ایران


همچنین مشاهده کنید