پنجشنبه, ۱۳ اردیبهشت, ۱۴۰۳ / 2 May, 2024
مجله ویستا

اطلاعات در باره صفحات وب


اطلاعات در باره صفحات وب
با پیدایش دنیای مجازی شاهد ظهور انقلاب دیگری تحت نام انقلاب اطلاعات هستیم. از سوی دیگر حجم انبوه اطلاعات کاربران را بر آن داشته تا به کیفیت اطلاعات بیش از کمیت آن بیندیشند. اطلاعات روز آمد، دقیق و معتبر سه ویژگی مهمی است که لازمه کار هر محقق می باشد. لذا رشد فناوری های نو ظهور، روشهای جدیدی را به منظور سازماندهی اطلاعات جهت بازیابی دقیق آن به یاری می طلبد.
با استفاده از روشهای نوین سازماندهی، اطلاعات مفید از اطلاعات سیال و ناپایدار استخراج شده و کاربر به سهولت می تواند به اطلاعات مورد نیاز خود دسترسی پیدا کند. یکی از مهمترین این راهکارها، نمایه سازی وب است. دنیای وب با مدد از این راهکار دریچه ای نو را به روی کابرانمی‌گشاید. در این مقاله می کوشیم تا با نگاهی به نمایه سازی وب، به بررسی انواع نمایه، نمایه سازی در موتورهای جستجو، ابر موتورها و ابر داده ها از جمله ابر داده دوبلین کور ، بازنمود نمایه در وب و معرفی نرم افزارهای نمایه سازی بپردازیم و بستری مناسب جهت اهمیت و نقش آن در بازیابی اطلاعات جهان مجازی فراهم آوریم.
رشد تصاعدی فضای اطلاعاتی وب، آلودگی اطلاعات را دامن زده است، از سوی دیگر وجود اطلاعات میرا و سیال اهمیت نمایه سازی وب را بیش از پیش مطرح می سازد. لذا آنچه که برای كاربران وب مهم است، دستیابی سریع و آسان به اطلاعات دقیق، روزآمد و دارای اعتبار می باشد، نه حجم انبوه اطلاعات. نمایه سازی کارآمد، به کاربر امکان بازیابی اطلاعات دقیق، صحیح و روز آمد را می دهد. به بیان دیگر نمایه سازی وب فرآیند پالایش و فیلتر اطلاعات دنیای وب است و نمایه ساز پالاینده اطلاعات آن. باید دانست كه نمایه سازی وب مفهوم جدیدی نیست.
● نمایه سازی وب
با گسترش حجم انبوه اطلاعات و به اشتراک گذاری آن و رویکرد روز افزون برقراری ارتباطات از طریق اینترنت بحث سازمان دادن اطلاعات به قصد سهولت در بازیابی مطرح می باشد. یکی ازکارآمدترین روشهای بازیابی، نمایه سازی وب می باشد. نمایه وب منابعی را که از طریق world wide webدر دسترس هستند جمع آوری و سازماندهی مینماید و نقطه شروعی برای یافتن اطلاعات می باشد.
در وب نمایه ها ممکن است به روشهای گوناگونی سازماندهی شوند. شیوه سازماندهی یک نمایه با نمایه دیگر فرق میکند، نمایه ها می توانند به طور الفبایی، موضوعی (رده ای) و ... سازماندهی شوند. نمایه های موضوعی اغلب منابع شان را طبق یک نظم سلسله مراتبی از اعم به اخص مرتب می کنند.. نمایه های وب برای نشان دادن لیستهای منابع خود ازپیوندهای فرا متن استفاده می کنند، آنها این امکان را دارند تا از طریق لینک ها صدها و بلکه هزاران منبع را در بر بگیرند. عموما تمام نمایه ها یک نقطه اتصال دهنده مستقیم به منابع فهرست شده را به کاربران عرضه می کنند.
لذا این نکته به خوبی قابل احساس است که ساختارهای وسیع و جامع یک متن برای دسترسی آسان تر نیاز به سازماندهی و نظم منطقی دارند. از دید یک محقق یا کاربرمعمولا دسترسی آسان به اطلاعات به بیش از یک استراتژی جستجو نیازمند است و نهایتا همه آنها به فرآیند سازماندهی فایلهای HTML درزیر فهرستهایی منتهی می شوند.
این زیر فهرستها هم به تهیه کننده اطلاعات و هم به کاربر وب سایت کمک می کند. در این حالت کاربر می تواند براساس یک کد، یک نام فایل،یا محتوای یک عنوان جستجو کند.به عنوان مثال یكی از راههای دسترسی به این موارد برنامه ای به نام CGI می باشد.[ http://www.cu.edu
نمایه های وب برای نشان دادن لیستهای منابع خود از پیوندهای فرا متن استفاده می کنند، آنها این امکان را دارند تا از طریق لینک ها صدها و بلکه هزاران منبع را در بر بگیرند.
▪ تعدادی از نمایه های مشهور وب به شرح ریر می باشند:[ : http://www.ext.nodak.edu/ ]
ـ Yahoo!TM
ـ The WWW Virtual Library
ـ Trade Wave Galaxy
ـ فهرست خدمات اینترنتی Yanoff
ـ The Argus Clearinhouse
ـ Magellan
ـ Point
● دو عامل مهم در نمایه سازی وب
نمایه، یک مخزن جامع از اطلاعات در دسترس نیست اگر چه آنها می توانند هزاران منبع را فهرست کنند. در واقع نمایه های وب ما را به فهرستها و راهنماها ارجاع می دهند. این نوع نمایه ها نیاز به یک نرم افزار و یک زبان نمایه سازی خاص دارند.
الف) زبان نمایه سازی
زبان نمایه سازی آن دسته از واژگان نمایه سازی است که در نظام خاصی از ذخیره و بازیابی مورد استفاده قرار می گیرد. "زبان " می تواند طبیعی، یعنی زبان مدرک نمایه سازی شده باشد، یا ساختگی یا کنترل شده باشد(یعنی از نوعی تنظیم برخوردار باشد. (سلطانی، ۱۳۸۲، ص ۱۸۰)
عملکرد نظام بازیابی متاثر از کیفیت زبان نمایه است. وجود نمایه سازی و جستجوی خوب نمی تواند زبان نمایه نامناسب را جبران کند به عبارت دیگر کاربران اطلاعات فقط به آن اندازه می توانند عمل نمایند که زبان نمایه مجاز می شمارد. ناتواناییهای زبان نمایه بر دو نوع است:
۱) عدم توانایی به خاطر ویژگی در اصطلاحات
۲) عدم توانایی به خاطر ابهام یا روابط کاذب بین اصطلاحات. (لانكاستر، ۱۳۷۹، ص۱۷۹)
▪ عمدتا زبانها دو نوع هستند:
۱) زبانهای مهار شده (Controlled language)
این زبانها، حاوی اصطلاحاتی هستند كه برای نمایه سازی مدارك انتخاب و پذیرفته شده اند، فهرست ها سر عنوانهای موضوعی و اصطلاحنامه ها دو شیوه متفاوت زبان نمایه سازی مهار شده است. اصطلاحنامه پس از شرح زبانهای آزاد توصیف می شود.
۲) زبانهای آزاد (Free language)
در این نوع زبانها محدودیتی ازنظر نوع واژه وجود ندارد، هر واژه یا اصطلاح می تواند بدون قید و شرط از زبان طبیعی گرفته شود، یعنی عینا از زبان مدرك نقل گردد و یا متناسب با موضوع مدرك تعیین شود. ازنمایه سازی به زبان طبیعی هم می توان در ساخت واژگان موضوع الكترونیكی و هم در تولید نمایه نامه های چاپی استفاده كرد. یكی از كاربردهای نمایه سازی به زبان طبیعی تولید نمایه هایی است كه مبتنی بر واژه های عنوان می باشد. مانند: نمایه كوئیك، نمایه كووك و نمایه جایگشتی.(داورپناه،۱۳۸۱،ص۳۳)
ب) نرم افزارهای نمایه سازی وب
بسته به اینکه در وب مورد نظر چه اطلاعاتی را می خواهیم نمایه سازی کنیم (اطلاعات می توانند یک سند، یک Full text ، تصاویر و ... باشند) نرم افزارهای گوناگونی برای نمایه سازی وب موجود می باشد:
▪ نرم افزارهای نمایه سازی وب
ـ Advanced Java Tree Menu
ـ PHP Lightning Portal (PLP)
ـ PHP Portal Builder (PPB)
ـ ActMon Password Recovery XP
ـ Internet Macros Web Test Recorder
▪ نرم افزارهای نمایه سازی لینکها
ـPHP Lightning Portal (PLP )
ـ دPHP Portal Builder (PPB)
ـ Registry First Aid
ـ IEManager
ـ Advanced Java Tree Menu
● نقش موتورهای جستجو در نمایه سازی وب
حجم انبوه اطلاعات وب و عدم نمایه سازی جامع، متخصصان این حوزه را برآن داشته تا با مدد از فن آوری افکار، موتورهای جستجو را بکار گیرند و راهکاری مناسب جهت نمایه سازی را فراهم آورند. از سوی دیگر برخی از وب سایت ها برای اطمینان از بازیابی بیشترین رتبه بندیهای مرتبط، از اصطلاحات کلیدی استفاده می کنند، این در حالی است که تعدادی دیگر از نمایه سازی کور بهره می گیرند.
مشکل اصلی این نوع نمایه سازی اضافه بازیابی است که حجم زیاد اطلاعات نامرتبط را شامل می شود، لذا جهت افزایش جامعیت و مانعیت بازیابی، موتورهای جستجو به عنوان یک راهکار مطرح شدند. (دیگان، ۱۳۸۲، ص ۱۶۱)
موتورهای جستجو، ابر موتورها و ابر داده ها در واقع ابزارهای کمکی برای نمایه سازی و ارائه اطلاعات مرتبط با موضوع مورد جستجو در اینترنت هستند.
نمایه ها اساس كار موتورهای جستجو در رتبه بندی نتایج جستجو و تركیب منطقی واژه ها (جستجوی بولی) برای بازیابی اطلاعات در اینترنت را تشكیل می دهد. اما بزرگترین موتورهای جستجو هم قادر به نمایه سازی وب نیستند. برخی از این موتورها نظام نمایه سازی تمام متن دارند و هر واژه موجود درمتن به جز واژه های فاقد بار اطلاعاتی مانند حروف اضافه، ربط و تعریف را نمایه می كند. برخی بخشی از منبع را نمایه می كنند.برخی دیگر، سرعنوانها، عناوین فرعی و فراپیوندها را همراه ۲۰ خط ابتدای متن و ۱۰۰ كلمه ای كه از بسامد بالایی برخوردار است، نمایه می كنند. (داورپناه،۱۳۸۱،ص ۸۴)
از دیدگاه مدیریت نظام اطلاعاتی چهار ویژگی اصلی برای اطلاعات بازیابی شده قابل لحاظ است: دقت[۷]، پیوستگی زمانی[۸]، بهنگام بودن[۹] و مرتبط بودن[۱۰].(منتظر،۱۳۸۰، ص ۳۱) لذا نمایه سازی باید بر مبنای چهار ویژگی مذکور انجام پذیرد. بنابراین جهت رسیدن به نمایه سازی جامع و مانع وب به نمایه سازی دقیق موتورهای جستجو نیاز داریم.
● انواع نمایه سازی موتورهای جستجو
نمایه سازی وب می تواند از طریق روشها و ابزارهای اتوماتیک یا به وسیله نیروی انسانی انجام بگیرد. در نمایه سازی از نوع دوم اشخاص حقیقی منابع را شناسایی و جمع اوری می نمایند، سپس آنها را بازبینی، سازماندهی و طبقه بندی می کنند.
موتورهای جستجویی مانند گوگل توسط یک web Crawler شاخص گذاری شده اند. Web Crawler ابزاری است که در لابه لای شبکه جهانی وب می خزد و سایت های جدید را مورد جستجو قرار می دهد؛ چنانچه وب سایت جدیدی یافت شد آدرس آن به پایگاه داده اضافه می گرد.
فهرست موتور جستجوی گوگل شامل بیش از یک بیلیون URL می باشد. قلب این موتور نرم افزار Page Rank TM است، سیستمی برای رتبه بندی صفحات وب که توسط لری پیچ و سر جی برین، موسسان آن، در دانشگاه استن فورد ساخته شده است. رتبه صفحه با استفاده از ساختار لینک معتبر بر روی خاصیت دموکراتیک منحصر به فرد تکیه می کند. گوگل لینکها را از صفحه الف تا ب چک می کند و از آراهای مختلف دریافت شده برای این رتبه بندی استفاده می کند. صفحات با کیفیت بالا Page Rank TM بالاتری دریافت می کنند که گوگل بعد از هر جستجو به خاطر می سپارد. گوگل از ترکیب Page Rank TM و روشهای پیشرفته جور کردن متن برای یافتن صفحات با اهمیت و در عین حال مربوط به متن جستجو شده استفاده می کند.
همچنین از تعداد تکرار کلمات متن جستجو شده پا فراتر نهاده و برای تشخیص اینکه این صفحه با کلمات مورد جستجو هماهنگی دارد، تمام وجوه محتوای صفحه و صفحات متصل شده به آن را بررسی می کند.
موتورهای جستجوی altavista, Hotbotو Excite برای تفسیر پایگاه داده خود از ترکیب ماشین و انسان استفاده می کنند، در صورتی که موتور جستجوی Yahooتوسط انسان ترجمه می شود. کاربران آدرسURL وب سایت های خود را برای موتور جستجو ارسال می کنند، سپس سایت مربوطه مورد بازبینی قرار می گیرد و یک انسان سایت را طبقه بندی می کند و در مورد عبارات جستجوی مربوطه تصمیم گیری می کند. در موتور جستجوی Yahoo ابزارهای نمایه سازی چشمشها و بازوهای انسان جهت تصمیم گیری اینکه کدام کلید واژه ها و اقلام مناسب هستند و سپس نمایه سازی صحیح مطرح است.
این در حالی است که بسیاری از سایت‌های وب، از روش «نمایه انتهای كتاب در وب» برنامه‌ای برای جستجوی سایت خود طراحی كرده‌اند. این برنامه‌ها همچون جستجو در فایل‌های تمام متن می‌تواند در نتایج جستجوی خود دارای مدارك نامرتبط و در اصطلاح همراه با ریزش كاذب باشد.اگر در چنین سایت‌هایی نمایه‌ای شبیه آنچه در انتهای كتاب‌ها دیده می‌شود به وجود آید، مراجعه‌كننده می‌تواند به سرعت و با استفاده از لیست به مدخل مورد نظر خود وارد شود و با سرعت بالا و از دست دادن زمان كمتری به مدارك مورد نیاز خود وحتی به مدارك مرتبط با آن نیز دسترسی یابد.
سایت وب شركت نرم‌افزاری Adobe با داشتن نمایه‌ای از نوع كواك(۱) و نیز موتور كاوش ویژه سایت، سعی در بالا بردن دسترس‌پذیری موثر اطلاعات سایت خود نموده است.سایت دانشگاهی جورج تاون نیز نمایه موضوعی A-Z را در قسمت ابزارهای دسترسی به اطلاعات در صفحه خانگی خود قرار داده است. (كمیجانی)
● فن آوری موتورهای جستجو
وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه می شود، كاربران در واقع نتیجه كار بخش های متفاوت موتور جستجوگر را می بینند. موتور جستجو اطلاعات را از پایگاه اطلاعاتی خود مورد جستجو و بازیابی قرار می دهد و اینطور نیست كه همان لحظه اطلاعات را از اینترنت به دست آورد، بلكه از قبل اطلاعات را از اینترنت گرفته و در پایگاه خود ذخیره می كند.
در ابتدا مرحله گردآوری اطلاعات صفحات وب را داریم از طریق روباتهای اطلاعاتی می توانیم به جستجوی مستمر و مداوم اطلاعات در صفحات وب بپردازیم. از جمله روباتهای اینترنت می توانیم به Spider ها و Crawler ها اشاره كنیم.
اسپایدر، اینترنت را برای اسناد جدید وب مورد جستجو قرار می دهد و آدرسهای آنها و اطلاعات مربوط به محتوا را در بانك اطلاعاتی قرار می دهد كه با موتور جستجو می توان آن را در دسترسی قرار داد.( (هیئت مولفان و ویراستاران انتشارات میكروسافت،۱۳۸۲،ص ۵۴۴) كار اسپایدر بازبینی كدهای HTML صفحات وب می باشد در حالی كه كاربران وب نتیجه حاصل از كنار هم قرار گرفتن این كدها را می بینند.
منبع : سازمان آموزش و پرورش استان خراسان