یکشنبه, ۹ اردیبهشت, ۱۴۰۳ / 28 April, 2024
مجله ویستا

انتظارات دربرابر واقعیتها : ویژگیهای مورد نظر موتورهای جستجو برای تحقیقات شبکه در اواسط سال ۲۰۰۵


انتظارات دربرابر واقعیتها : ویژگیهای مورد نظر موتورهای جستجو برای تحقیقات شبکه در اواسط سال ۲۰۰۵
تحقیقات شبکه براساس داده هایی از شبکه یا درباره آن مبتنی شده است . اغلب داده های جمع آوری شده ، توسط موتورهای جستجو صورت می گیرد . در این مقاله ما " لیست آرزویی " مان را برای موتور جستجو مناسب و ایده آل توصیف کرده ایم ، و نیاز به ویژگیهای بخصوص تشریح شده ، و اینکه موتورهای جستجوی عمده کنونی موجود می توانند ، حداقل تا اندازه ای ، نیازمندیهای یک ابزار جستجویی مطلوب و نهایی را برآورده سازند آزمایش شده است . ابزارهای جستجویی عمده تجاری هستند و بسوی کاربر " حد متوسط " متمایل شده اند نه بسوی محققین شبکه ، بنابراین قادرنیستند همه درخواستها را برآورده سازند . یک راه حل ممکن برای جامعه تحقیق بکارگیری بودجه لازم ، منابع ، و دانستن اینکه چگونه ابزار جستجویی تحقیق مدار ایجاد نمایند ، می باشد .
▪ مقدمه
با وجود اینکه شبکه تنها ۱۵ سال است که بوجود آمده است ، یک منبع اطلاعاتی عمده و رسانه ارتباطی شده است و تاثیر خود را بر رفتار اطلاعاتی و ارتباطاتی هم در زندگی روزمره و هم در زندگی علمی داشته است . تحقیقات شبکه ای چند رشته ای[۴] است . این تحقیقات بطور گسترده ای توسط دانشمندان رایانه و اطلاعات ، جامعه شناسان ، اقتصاددانان ، زبان شناسان ، روانشناسان ، دانشمندان ارتباطات و دیگران صورت می پذیرد . به منظور انجام مطالعه بر روی شبکه ، بیشتر محققان نیازمند داده هستند . بعضی از محققین ( مثل ثلوال[۵] ، ۲۰۰۱ یا آلبرت ، جونگ و بارباسی[۶] ، ۱۹۹۹) قادرند ( ازهر دو لحاظ فنی و اقتصادی ) ابزارهایی برای جمع آوری داده های ضروری را از شبکه ایجاد نمایند . سوسیبات[۷] توسط تیم ثلوال توسعه یافته است و برای هر کسی که منابعی دارد که می تواند توسط خزنده[۸] اداره شود و بروندادهای آن قابل ذخیره باشند ( گروه تحقیقات آماری سایبر متریکس[۹] ، ۲۰۰۴ الف ) ، و نتایج جستجوهای ویژه برای بارگیری در دسترس است (گروه تحقیقات آماری سایبر متریکس ، ۲۰۰۴ ب ) ، بصورت رایگان قابل استفاده است. دیگران ( مثلا اسپینک[۱۰] و یانسن[۱۱] ، ۲۰۰۴ یا هوبرمن و آدامیک[۱۲] ، ۱۹۹۹) به اندازه کافی خوش شانس بودند تا به داده های جمع آوری شده توسط ابزارهای جستجو تجاری دسترسی داشته باشند . بعضی از مطالعات شبکه ای توسط محققانی که در مورد موتورهای جستجو کار می کردند اجرا شده است ( مثلا برودر[۱۳] و دیگران ، ۲۰۰۰ یا فترلی[۱۴] و دیگران ۲۰۰۴ ) ، بنابراین آنها می توانستند به شبکه خزیده یا به داده های پایگاه داده موتورهای جستجو دسترسی یابند .
دیگر محققین به آنهایی که خوش شانس و مبتکر بوده اند و می توانستند رایگان به ابزارهای بازیابی اطلاعات دسترسی داشته باشند ، غبطه می خورند : به موتورهای جستجو ، یا به پایگاههای داده پروژه های نگهداری شبکه ( مثل آرشیو اینترنت[۱۵] ) . امروزه پروژه های نگهداری شبکه نیز دسترسی محدودی بوجود آورده اند ( بدلیل مشکلات حق مولف ) یا حداقل ابزارهای بازیابی و یا غیر متنی را فراهم می نمایند ، بنابراین برای استفاده تحقیقات شبکه بسیار محدودند . لذا بهترین ابزارهای جستجوی رایگان موتورهای جستجو هستند . چشم انداز موتورهای جستجو در سالهای اخیر تحت تغییرات عمده ای قرار گرفته اند ، و معمولا تنها چند بازیگر عمده معدود وجود دارد ( سولیوان[۱۶] ۲۰۰۴) : گوگل، یاهو ، اسکجیوز/ تئوما[۱۷] ، و ام.اس.ان. . در این مقاله ما گوگل ، یاهو و ام.اس.ان. را در نظر گرفته ایم ( هم اکنون اسکجیوز/ تئوما تعدادی از ویژگیهای عمده تحقیقات شبکه ای ، مثل پیوند به صفحات را دارانیست ) . اگزالید[۱۸] تازه واردی به صحنه جستجو است و تنها چیزی که باقی می ماند اینست ، ببینیم چگونه در آینده توسعه می یابد . موتورهای جستجوی اضافی با قابلیتهای بخصوص و مرتبط به تحقیقات شبکه ای ، میتواند وجود داشته باشند ، اما به عقیده ما پوشش ابزارهای جستجو یک ویژگی مرکزی است ( مثلا در این مورد ، اندازه فرق می کند ) و بنابراین آزمودن ابزارهای جستجو تنها محدود به این موتورهای جستجو می شود . با توجه به کامسکور[۱۹] ( ۲۰۰۵) ، گوگل ، یاهو و ام.اس.ان. با هم و در مجموع ۵/۸۲ % از نتایج شبکه ای در جولای ۲۰۰۵ را تشکیل داده اند ( گوگل ۵/۳۶% ، یاهو ۵/۳۰% و ام.اس.ان.۵/۱۵% ) .
نمای کلی مقاله بدین ترتیب است : اول ویژگیهای مطلوب را فهرست کرده و اهمیت آن را برای تحقیقات شبکه ای توضیح می دهیم . بعد آزمایش می کنیم که آیا سه موتور جستجویی که در بالا ذکر شدند این التزامات را به انجام می رسانند و در نهایت دریافتمان را از یافته ها به بحث می گذاریم . موتورهای جستجو بطور مداوم درحال تغییرند ، بنابراین می خواهیم بر این نکته تاکید داشته باشیم،‌ مواردی که درباره این ابزارها بدست آمده بر اساس یافته های ما در اواسط آگوست ۲۰۰۵ می باشد . برای پشتیبانی یافته ها ، ما هر مثالی را که در مقاله ارائه شده ، ذخیره و‌ مستند کرده ، و نسخه های ذخیره شده مثالهای جستجو و دیگر مستند سازیهایی که مقاله بر اساس آن شکل گرفته در اختیار علاقمندان قرار داده می شود .
▪ انتظارات – لیستی از معیارها برای موتورهای جستجو :
۱) پوشش
اگر بدنبال تولید معیارهای کمی باشیم ، سپس پوشش ابزار جستجو باید همسان ( همه دامنه های موجود) و جامع باشد . این برای معیار سنجش اندازه سایت یا دامنه و یا رویت پذیری آن ضروری است . ( مثلا تعداد لینکهای داخلی و خارجی ) ، اما الزامات اساسی برای نمونه گیری سایتها و صفحات وب می باشد . این خواسته بطور ۱۰۰ درصد قابل دستیابی نیست : صفحات وب جدید بطور پیوسته ایجاد میشوند و غیر ممکن است آنها را بطور مداوم ذخیره کرد . هنوز می خواهیم موتور کاوش تا حد ممکن ، بسیاری از صفحات وب را پوشش دهد .
۲) پایایی [۲۰]
با توجه به به واژه نامه آکسفورد ( ۱۹۸۹) پایایی " مقداری است که یک معیار در شرایط یکسان و برابر بطور مستمر نتایج هماهنگ و موزونی بوجود می آورد " . برای اینکه قادر به کار کردن با این موتورهای جستجو باشیم ، مجموعه نتایج باید برای یک دوره کوتاه زمانی ( مثلا یک ساعت یا یک روز ) پایدار( یا تقریبا پایدار) باشد . این که نتایج جستجو در طول زمان تغییر می کند ، قابل پذیرش است ، زیرا تغییرات پویا در شبکه رخ می دهد و پایگاه داده موتورهای جستجوی بروز میشوند . هرچند ، هنگامی که مشخص شوددلایل تغییرات عمده ، با دلایل ذکر شده در بالا بوجود نمی آیند ، اگر نوسانات عمده ای در نتایج بازیابی بوجود آید ، قابل پذیرش نیست .
۳) مستندسازی شفاف ، بی پرده و واضح
شرکتهای موتورهای جستجو باید بطور واضح استفاده کنندگان خود را از ویژگیها ، قابلیتها و رویکردها و روشهای عملیاتی مطلع سازند و بی وقفه هر مشکلی را در ارتباط با ابزار جستجویی اعلام دارند . به منظور این که قادر باشیم از نتایج ابزارهای جستجویی برای تحقیقات اینترنت استفاده کنیم ، ضروری است که ویژگیهای موتورهای جستجو با توجه خصوصیات ذکر شده عمل نماید و اگر استفاده کنندگان از این ویژگیها آگاه نیستند باید هر چه زودتر مطلع شوند .
۴) بهنگام بودن[۲۱]
پایگاه داده موتورهای جستجو باید بطور متناوب بروز شوند ، تا تصویر فوری[۲۲] که موتورهای جستجو از شبکه دارند ، باید هرچه بیشتر شبیه به واقعیت شبکه باشد . تازگی پایگاه داده با معیار ( آلفا و بتا) بریوتون و سیبنکو [۲۳] ، قابل اندازه گیری است .
۵) نمایه سازی تمام مدرک
هنگامی که قصد ما ایجاد لیستی جامع ازمدارک است ، داشتن یک ویژگی معین مبتنی بر متن ، سپس حتی اگر عبارت جستجو در پائین مدرک ظاهر شود( مثلا در منابع کتابشناختی )مدرک باید بخشی ازاین لیست باشد .
۶) زمان پاسخگویی ، دسترس پذیری
وقفه ها[۲۴] می توانند باعث مشکلات پایایی شوند ،زیرا این وقفه ها ممکن است تعداد نتایج بازیابی را تغییر دهند( که اغلب بدون اینکه موتور جستجو اطلاعاتی درباره تغییرات ناگهانی در نتایج ، گزارش نمایند ، همراه است ). یک ابزار جستجو که غیر دسترس پذیر یا دارای وقفه های زیادی است ، تداخلهای زیادی در فرایند جستجو ایجاد می نماید . زمانیکه شبکه به خودی خود پویاست واجب است که همه جستجوها برای یک تحقیق معین در کوتاهترین بازه زمانی ممکن انجام شود .
۷) عینیت – بدون تاثیر از عوامل تجاری و بدون تاثیربرمحیط
ما بدنبال ابزاری کامل می گردیم که به هیچ وجه سوگیری نداشته باشد و ما را قادر سازد تا شبکه را درحالیکه از این ابزار استفاده می کنیم ، مورد مطالعه قرار دهیم ، و نه بررسی تصویری که از طریق " چشمهای موتور جستجو " به ما رسیده است ،‌ بپردازیم . این درخواست مطلوب ماست . هدف واقعی ما نزدیک شدن به این وضعیت است . موتور جستجو باید ابزاری باشد که اجازه دهد تا از طریق آن به اطلاعات دسترسی داشته باشیم . موتور جستجو نباید خود شبکه را تحت تاثیر خود قرار دهد .
۸) همه نتایج گزارش شده باید قابل بازیابی باشند
شمارش مدارک و واژه ها اغلب برای تحقیقات شبکه ای نارساست ( مخصوصا وقتی که این تعداد غیر قابل اعتماد باشند ) . برای مطالعه خود مدارک ، مجبوریم به آنها دسترسی داشته باشیم . بنابراین دانستن اینکه مثلا ۱۱۲۰۳۳۴۹ صفحه وجود دارد که موتور جستجو بعنوان مدرک مرتبط با جستجو نشان داده ، اما قادر به دسترسی به تنها ۱۰۰۰ نتیجه از آنهاست ، رضایت بخش نیست . توانایی بازیابی تمام مجموعه نتایج ، و نه تنها ۲۵۰ یا ۱۰۰۰ مدرک اول برای تحقیق شبکه ای موفق ، ضروری است .
۹) رتبه بندی ، گزینه های مختلف دسته بندی
بسته به موضوع تحقیق ، همیشه نمی خواهیم به نتایج جستجو بنگریم ، و اغلب نمی توانیم ( معمولا، موتورهای جستجو تمامی مجموعه نتایج را نشان نمی دهند ). در این موارد رتبه بندی بسیار مهم می شود . الگوریتم رتبه بندی رازی است که بخوبی حفظ شده است ،هم بخاطر رقابت و هم بخاطر اسپم کنندگان[۲۵] بالقوه . در یک ابزار جستجوی مطلوب ، محققین شبکه باید قادر باشند مولفه هایی را که در رتبه بندی تاثیر می گذارند ، بکار گیرند ( از قبیل تاریخ ، وزن واژگانی ، مکاندهی[۲۶] ، پیوندهای خارجی [۲۷]، لنگرها[۲۸] .)
۱۰) نمایش انعطاف پذیر برونداد
اینجا ، منظور ما توانایی انتخاب تعداد نتایج در هر صفحه ، چه اطلاعاتی نمایش داده شود ( مثلا فقط مکانیاب جهانی شبکه، جزئیات[۲۹] ، اندازه ، عنوان ، مکانیاب جهانی شبکه ، زبان ) آیا نتایج باید خوشه بندی شوند یا نه ، و آیا نمونه ای از صفحات هر وب سایت نمایش داده شود( این گزینه انقضاء سایت نامیده میشود ). التزام بعدی قادر بودن به انجام تنظیمات می باشد. مرور آسان مجموعه نتایج نیز مورد نیاز است ، مثلا توانایی پرش سریع به رویت مدرک ۸۴۵ .
۱۱) نتایج پنهان[۳۰]
توانایی رویت نتایج پنهان ویژگی مفید دیگری است . به محقق کمک می کند تا بداند چرا مدرک بازیابی شده است ( اغلب صفحات بین زمانی که توسط موتورهای جستجو رویت شده و زمانیکه توسط استفاده کننده رویت می شوند ، تغییر می نماید ) . بعلاوه ، اگر زمانیکه میزبان صفحه موجود نیست یا قابل دسترس نیست ، فرد قادر خواهد بود نسخه پنهان را ببیند .
۱۲) کیفیت بازیابی بالا در زبانهای غیرانگلیسی
این مورد بسیار مشکل ساز است : وقتی که در سال ۲۰۰۰ حدود ۷۰% صفحات شبکه به زبان انگلیسی ، تخمین زده شده اند ( اطلس سایبر[۳۱] ۲۰۰۰) ، در سال ۲۰۰۴ دو سوم استفاده کنندگان از شبکه متکلم غیربومی زبان انگلیسی هستند ( گلوبال استاتس[۳۲] ، ۲۰۰۴) . تحقیقات بازیابی اطلاعات بطور فزاینده ای بسوی زبان انگلیسی در حال حرکت است . موتورهای جستجوی اصلی ، استفاده کنندگان را قادر می سازند تا به زبانی غیر از زبان انگلیسی و به خوبی آن جستجو نمایند ، و معمولا بدلیل عدم رضایت از ابزارهای جستجویی در زبانهای بومی ، این ابزارها که در اصل برای بازیابی در زبان انگلیسی توسعه یافته اند ، برای جستجو در دیگر زبانها نیز بکار می روند (البته استثناهایی وجود دارد ، مثلا زبان روسی ). برای زبانهایی که درآن ترکیبات ، صرف فعل و پیشوندها بسیاراستفاده می شوند و برای بازیابی در زبان انگلیسی پایه ماشینی دارند ، بسیار دور از شایستگی است . تحقیقات شبکه الزاما بر روی انگلیسی تمرکز ندارد ، و بازیابی اطلاعات باید بطورکلی در دیگر زبانها نیز به خوبی زبان انگلیسی باشد .
۱۳) رابط اعمال برنامه ریزی[۳۳] در دسترس
یک رابط اعمال برنامه ریزی ( ای.پی.آی.) قابل دسترس ، محلی سازی و توسعه مفید ابزارها و رابطهای مبتنی بر ویژگیهای قابل دسترس موتورهای جستجو، را ممکن می سازد.
۱۴) جستجوهای تمام بولی ، گوناگونی عملگرها
نیازی به تشریح این ویژگی نیست . این ویژگی به محقق اجازه می دهد تا جستجوها با نیازهای وی ، متناسب شوند . واژگان جبری ، و ، یا ، و نه مجموعه ای کامل از عملگرها هستند ،هر گزاره جبری می تواند بعنوان ترکیبی از گزاره ها که فقط با این عملگرها مرتبطند ظاهر شوند . این ترکیبات استفاده از پرانتز را ضروری می سازد . بنابراین ما نه تنها نیازمند به و ، یا ، و نه هستیم بلکه به طریق دیگری ( پرانتز یا ستفاده دوباره از نتایج نسبی[۳۴] ) به منظور قابلیت بیان کامل جبری ، نیاز داریم . هرچند این نیز کافی نیست ، برای بازیابی متن نیازمندعملگرهای اضافی مثل جستجوی عبارتی ، قرابت[۳۵] یا همجواری[۳۶] می باشیم( با تعاریف منعطف ، اینکه این عملگرها چه معنی می دهند). همچنین نیازمند آنیم تا قادر باشیم جستجوهای مستقل نه را برای تخمین اندازه انجام دهیم .
۱۵) قنون پیشرفته برای بازیابی داده برای تحلیل پیوند
شبکه از پیوندها و گره ها ساخته شده است . پیوندها بصورت فعال در تعدادی از دامنه ها بررسی شده اند : تحقیق درباره ساختار شبکه ، تکامل آن و ایجاد جوامع و شبکه های اجتماعی در وب ، راههای اصلاح بازیابی اطلاعات ، استفاده از نشانگرهای مبتنی بر پیوند و خصیصه های ساختار پیوند ، ( برودر و دیگران، ۲۰۰۰ ، کومار و دیگران ، ۲۰۰۳، کومار و دیگران ، ۱۹۹۹ ، فابا- پرز، گوئررو- بوتا و دی مویا- آنگون، ۲۰۰۳، کلاینبرگ ، ۱۹۹۹ ، اینگورسن ، ۱۹۹۸، ثلوال، ۲۰۰۳و ۲۰۰۴ ، بار- ایلان ، ۲۰۰۵).چنین مطالعاتی متکی بر داده های مربوط به پیوندهاست . اساسی ترین ویژگی به صفحه مخصوصی مرتبط است . پیوندهای به یک سایت یا یک سایت فرعی اغلب مورد توجه است ، و بطور عمومی تر ، می خواهیم قادر باشیم تا مجموعه صفحات لنگری و مجموعه صفحات هدف را تعریف نماییم . بعضی مواقع به تعدادی از صفحات پیوند دهنده به صفحه ای ، سایتی یا مجموعه ای از صفحات علاقه مند هستیم ، اما بعضی مواقع تعداد واقعی پیوندها مدنظر ماست (مثلا اگر چندین پیونداز منبع به مجموعه هدف وجود داشته باشد،ابزاری برای شمارش صفحات ،‌ با تعدد زیاد میخواهیم). باید قادر باشیم ، چگونگی اداره پیوندهای نسبی[۳۷] را معین نمائیم . قدم بعدی به جلو داشتن حداقل یک سری خصوصیات پیوندها خواهد بود. پیوندهای ناوبری ، پیوندهای جاسازی شده محتوا[۳۸] ، پیوند درون لیستها و بدست آوردن اطلاعاتی در مکاندهی پیوند.
۱۶) گوناگونی توضیحگرهای جستجو
پیش فرض اصلی مااین است که محققین می دانند که چه می خواهند ، و قادرند ویژگیهای مختلف را درک نمایند و گزینه صحیح را برای حل مشکل موجود انتخاب نمایند . این باآنچه که توسعه دهندگان موتورهای جستجو در باره عموم مردم می پذیرند، در تضاد است ( شبکه جهانگستر ۱۰ پانل ، ۲۰۰۱)[۳۹]. برای اینکه قادر باشیم پرسشها را بطور دقیق تعبیر نمائیم ، نیازمند آن هستیم که راههایی را برای محدود کردن جستجوها برگزینیم ، لیست نسبی محتوا : تاریخ ، دامنه ها ، زبانها، ناحیه جغرافیایی،قالب فایلها،مکاندهی در فایل ( مثلا عنوان ، مکانیاب جهانی منبع ، لنگرها ) و دامنه های ابرداده اگر و هنگامیکه در مدرک موجود باشند.
۱۷) ویژگیهای اضافی : ریشه یابی[۴۰] ، کوتاه سازی[۴۱] به چپ / راست ، نویسه عام[۴۲] ، حساسیت به حروف[۴۳] ، بررسی هجی ، انقضای سایت
ویژگیهای اضافی که در بالا فهرست شد به محققین شبکه کمک می کند در تعبیر پرسشها بطور دقیق تری عمل نمایند . کوتاه سازی برای زبانهایی که واژه های ترکیبی و پیشوندها و پسوندها را دارند ، بسیار مهم هستند . این ویژگیها ، برای جنبه های زبانشناختی شبکه یا برای تحلیل هم واژگانی[۴۴] نیز مهمند .
۱۸) کمک جستجو : بازخورد ربط ، صفحات و جستجوهای مرتبط / مشابه ، شخصی سازی
داشتن این ویژگیها بسیار خوب است ، و به محققین شبکه کمک می کنند ، همانطوریکه تصور می شود برای عموم کمک خوبی هستند .
۱۹) قابلیت ترکیب همه ویژگیها در یک پرسش واحد ( شامل تعداد نامحدود واژگان جستجویی )‌یا ایجاد مجموعه ها ،‌براساس نتایج پیشین (‌ مدل "ساختن بلوکها ")
این ویژگیها بسیار مهم هستند . این ویژگیها محققان را قادر می سازند تا پرسشهای دقیق تری را ایجاد نمایند .
۲۰) قابلیت جستجوی غیر متنی
مقاله بر بازیابی متنی تمرکز دارد ، اما باید رسانه اضافی نیز به همانگونه محاسبه شود. قابلیتهای بخصوص برای جستجوهای چند رسانه ای برای تحقیق شبکه فراتر از دامنه تحقیق کنونی است .
▪ واقعیت – ویژگیهای موتورهای جستجو در گذشته و حال
۱) پوشش
در سال ۱۹۹۵ شبکه به اندازه کافی بی تجربه بود تا این ادعای لایکوس[۴۵] را بپذیرد که " ۹۱% شبکه نمایه سازی شده است " (آمبورگی [۴۶]،۱۹۹۵) . بعد از اینکه تحقیقات توسط بهارات و برودر(۱۹۹۸) و لاورنس و گیلز[۴۷] منتشر شد ( ۱۹۹۸،۱۹۹۹) ، این ادعاها دیگر تکرار نشدند ، و ما بسادگی نمیتوانیم انتظار داشته باشیم که ابزارهای جستجو جامعیت داشته باشند. هرچند ، " جنگ اندازه موتورهای جستجو شروع شده " ( سولیوان[۴۸] ۲۰۰۵) وباادعای یاهو که ۲/۱۹ میلیارد صفحه را نمایه سازی می نماید، در حالیکه گوگل با این ادعا ستیز می کند، به شدت ادامه دارد . ( پرایس[۴۹] ۲۰۰۵) . چنسی و پری[۵۰] ( ۲۰۰۵ الف ،‌ ۲۰۰۵ ب)تعداد نتایج منعکس شده توسط گوگل و یاهو را حدود ۱۰۰۰۰ پرسش با کمتر از ۱۰۰۰ نتیجه مقایسه می نماید ، آنها آزمایش را دوبار اجرا کردند : در مطالعه اول گوگل ۲۷۰ درصد بیشتر از یاهو نتیجه منعکس کرد، درحالیکه در آزمایش دوم آنها فهمیدند که گوگل ۶۵% بیشتر از یاهو نتیجه داده است ( دومین آزمایش بمنظور غلبه بر بعضی دغدغه های روش شناختی نامشخص انجام شد ) .
مشکل دیگر عدم یکسانی پوشش است . اسنایدر و روزنباوم[۵۱](۱۹۹۹) نشان دادند که حتی پوشش نسبی دامنه های عمده موتورهای جستجوی مختلف ،یکسان نیست. تلوال( ۲۰۰۰) پوشش دامنه های ملی بزرگ را آزمودو دریافت که پوشش بسیار نا متوازن می باشد که محاسبه عامل تاثیر شبکه بر اساس داده های فراهم شده توسط موتورهای جستجو ممکن نیست. نتایج اخیر نشان می دهد که پوشش موتورهای جستجو هنوز نا متوازن است . ما برای "- kxht site:.hu"(بدون واژهkxht در دامنه مجارستان) در یاهو و گوگل ،‌وsite:hu-(kxht)" " در۱۳ ژانویه در ام.اس.ان. و دوباره در ۱۷جولای ۲۰۰۵ بااین پرسش site:hu -(kxht) جستجو را صورت دادیم . ما مجبور بودیم واژه های بسیار نادری را خارج نمائیم ، زیرا گوگل جستجوهای مجزا را برای سایتها در آن زمان پشتیبانی نمی کرد. دور سوم جستجوهادر۳ سپتامبر ۲۰۰۵ زمانی که هر سه موتور جستجوهای نوع "site:.hu"(or "site:hu" for MSN) راانجام می دادند ،‌ صورت گرفت. نتایج برای تعدادی از دامنه ها در جدول ۱ آمده است . تشخیص تفاوتهای نسبی در پوشش دامنه ها بین موتورهای جستجو و همچنین بین رتبه بندی موتورهای جستجو برای پوشش وقتی دامنه ها یک به یک در نظر گرفته می شوند،بسیار ساده است. مورد دیگر، تغییرات عظیم در تعداد صفحات گزارش شده بین دو نقطه جمع آوری داده ، گوگل و ام.اس.ان. صفحات مجارستانی بسیار کمتری را در دفعه دوم گزارش نمودند، درحالیکه یاهو دو برابر بیشتر است و این مقدار وقتی برای سومین بار جستجو شد دوباره دو برابر شد . گوگل و ام.اس.ان. صفحات بیشتری از جیبوتی[۵۲] به نسبت سورینام[۵۳] در دو دور اول جستجو گزارش کردند درحالیکه نتایج یاهو خلاف این را نشان میداد . بنظر میرسد ام.اس.ان. به گوگل و یاهو در تعداد صفحات کانادایی نمایه شده توسط آنها می باشند ، درحال نزدیک شدن می باشد ، و در دور سوم جستجو یاهو با پوشش بیشتر صفحات کانادایی سبقت گرفته است ( حداقل این چیزی است که گزارش شده است ) .
۲) پایایی
مثالهای گذشته درباره عدم اعتبار موتورهای جستجو شامل نتایج شمرده شده توسط آلتاویستا نیز میشود
( نوتس۲۰۰۰[۵۴]) . روسو[۵۵] ( ۲۰۰۰) نوسانات روزانه را در تعدادی از نتایج بازیابی شده توسط آلتاویستا را گزارش میکند . این نوسانات با رشد مداوم تعداد نتایج گزارش شده توسط نورثرن لایت مقایسه شده است . بارایلان ( ۲۰۰۰) نوسانات روزانه شدیدی را در نتایج بازیابی شده توسط هات بوت[۵۶] مشاهده کرده زمانیکه با اسنپ[۵۷] مقایسه شده ، جائیکه هردو ابزار جستجو توسط اینکتومی اداره میشود . پایداری[۵۸] موتورهای جستجو در طول زمان می تواند با مجموعه ای از معیارهای پیشنهاد شده توسط بار ایلان ( ۲۰۰۲) اندازه گیری شود .
اغلب تعداد نتایج گزارش شده وقتی که به سمت پائین لیست نتایج حرکت می کنیم تغییر می کند . مثلا در گوگل جستجوی واژه “digifeed” در آگوست ۲۰۰۵ بین ساعت ۱۳:۵۱ و ۱۴:۰۰ شش بار صورت گرفت .
بار اول ، گوگل ۶۹۷ نتیجه را گزارش کرد ، و سپس ما به تمام مجموعه نتایج رفتیم ( شامل مواردی که در اول حذف شده بود ) . این دفعه تعداد نتایج ثبت شده ۷۴۴ بود ، اما وقتی که به سمت صفحه آخر حرکت کردیم ، این تعداد به ۵۷۱ کاهش یافت . بعد از ذخیره صفحه ، به پرسش برگشتیم ، این بار تعداد نتایج به ترتیب ۱۰۳۰ ، ۱۰۷۰ و ۸۵۶ شدند . این نوسانات ، احتمالا به دلیل سرورهای متفاوتی است که درخواستهای متفاوتی را کنترل می کنند ، ولی هنگامی که جستجو در شبکه صورت می گیرد ، هنوز مشکل جدی ثابلیت اطمینان و پایایی موتورهای جستجو می باشد ۳) مستند سازی شفاف ، بی پرده و واضح گزارش اخیر ( ووترز[۵۹] ،۲۰۰۴) عملیات فاش سازی موتورهای جستجو را به بحث گذاشته است ( بیشتر مرتبط با مکاندهی[۶۰] و شمول[۶۱] اختصاص داده شده )
متاسفانه موتورهای جستجو همیشه مشکلات را گزاش نمی نمایند . مثلا ، بار ایلان ( ۲۰۰۲) ثابت کرده که گوگل تعداد واقعی صفحات پیوند داده شده به یک وب سایت که توسط موتور جستجو نمایه سازی شده را گزارش نمی کند . تنها اخیرا گوگل به این مطلب اذعان داشته است ( میزگرد سرچ انجینواچ[۶۲] ، ۲۰۰۴) . حتی وقتی موتورهای جستجو سوالات واضحی را دریافت می دارند ، همیشه زحمت دادن پاسخ رضایتمند را برخود نمی پسندند ، مثل موردی که با هات بوت وجود داشت ( بار ایلان ، ۲۰۰۰) . بعضی مواقع فشار واقع شده بر موتورهای جستجو از طرف میزگرد موتورهای جستجو / متخصصان شبکه نتایج واضحتری را دریافت می دارد. موتورهای جستجو دلیل اینکه چرا آنها اسناد نمایه سازی شده را برای بعضی از پرسشهایی که این مدارک باید نهایتا در بازیابی ظاهر شوند ، پاسخ نمی دهند . ( متروپ و نیوون هایسن[۶۳] ، ۲۰۰۱) مثلا پرسشی زیر را در گوگل در نظر بگیرید .
link: www.umu.se/inforsk/ISSI۲۰۰۵/
این سوال ۱۱ نتیجه را در ۲۹ آگوست ۲۰۰۵ گزارش کرد ( ۱۰نتیجه نمایش داده شد ) . پرسش مشابه
link:http://www.umu.se/inforsk/ISSI۲۰۰۵
در یاهو ۹۶ نتیجه را گزارش کرد ( ۹۵ نتیجه نمایش داده شد ) . دومین و سومین نتایج (می خواستیم حداقل دو مکانیاب متحد منابع را برای پوشش به نتایج نمایش داده نشده ، برداریم ) در صفحات یاهو توسط گوگل نیز نمایه سازی شده اند .
اغلب مستندسازی که موتورهای جستجو فراهم می آورند ، قابلیتهای کلی موتورهای جستجو را منعکس نمی نماید. ویژگیهایی که وجود دارد ذکر نشدند ، درحالیکه ویژگیهایی که اعلام کرده اند ، بدرستی کار نمی کنند و یا وجود ندارند . مثلا ویژگی نشان دادن پیوند دامنه پیوند[۶۴] یاهو صفحاتی را که به یک وب سایت پیوند داده شده است را بازیابی می کند ( نوتس۲۰۰۴) ، هرچند فرا- واژه[۶۵] دامنه پیوند ( ویژگی بسیار مفیدی که به تجزیه و تحلیل پیوند می پردازد ) در یاهو ذکر نشده است (۲۰۰۵) .
اخیرا پیوند یاهو و گزینه های دامنه پیوند بدرستی کار نمی کنند ( حداقل یکی از آنها – به بحث میزگرد سرچ انجینواچ مراجعه نمائید ، ۲۰۰۵) بعنوان مثال تعداد نتایجی که یاهوبه پرسش
( ۵۳۶۰۰۰) link: http://www.huji.ac.il گزارش می کند در مقابل پرسش
( ۳۰۹۰۰۰) linkdomain: huji.ac.il در ۲۹ آگوست ۲۰۰۵ مقایسه شده است . چیزی بطور واضح اشتباه است ، وقتی که همه پیوندها به صفحه خانگی دانشگاه هبرو[۶۶] اشاره می کنند باید در پرسش دامنه پیوند بخوبی منعکس شود . هر چند تا زمانی که موتورهای جستجو ۱۰۰۰ نتبجه را نشان میدهند ، قادر نیستیم بررسی کنیم چه می گذرد. سعی کردیم تعدادی از سایتهای را که تعداد پیوندهای داخلی کمی دارند را ( به منظور دانستن اینکه در آنها چه می گذرد ) آزمایش نمائیم ، اما قادرنبودیم نتایج مشکوکی را در این موارد تهیه نمائیم .
بعضی مواقع در گوگل بنظر میرسد در " عملیات ریاضی موتورجستجو " کمی ضعیف است . مثلا ، در ۲۹ آگوست ۲۰۰۵ در بین ۵ دقیقه پرسشهای زیر را انجام دادیم :
پرز[۶۷] =۲۹۳۰۰۰۰ نتیجه
رابین[۶۸] =۱۲۳۰۰۰۰ نتیجه
رابین پرز[۶۹]=۱۳۸۰۰۰ نتیجه
رابین یا پرز ۲۲۸۰۰۰۰ نتیجه ( که باید درحدود ۴۰۲۲۰۰۰ = ۱۳۸۰۰۰- ۱۲۳۰۰۰۰+۲۹۳۰۰۰۰ باشد با پذیرش اینکه تعداد پیشین درست باشند ، اما در هر مورد تعداد نتایج باید بیشتر از ۲۹۳۰۰۰۰ باشد )
پرز – رابین =۱۵۴۰۰۰۰ نتیجه ( انتظار می رفت ۲۷۹۲۰۰۰ = ۱۳۸۰۰۰+۲۹۳۰۰۰۰ باشد )
رابین پرز = ۹۴۸۰۰۰ نتیجه ( این کاملا نزدیک به تعداد مورد انتظار نتایج ۱۰۹۲۰۰۰ = ۱۳۸۰۰۰- ۱۲۳۰۰۰۰ می باشد ) .
یک دلیل برای گزارش مساله برانگیز گزارش شده توسط یاهو یا گوگل ، می تواند این باشد که از زمانیکه تعداد نتایج بوضوح ، بیشتر از تعداد مدارک نشان داده شده است ، تعداد نتایج فقط یک تخمین نادرست است . همانطوریکه قبلا گفتیم ، قادر نبودیم مساله پیوند در برابر دامنه پیوند را در یاهو در دامنه های کوچک آزمایش نمائیم . هرچند برای گوگل ما می توانستیم مثالهای " کوچک " را بخوبی بیابیم . برای پرسشهای “digifee ” و " “transnova گوگل بترتیب ۷۹۲ و ۹۹۸ نتیجه را در ۳۰ آگوست ۲۰۰۵ گزارش نمود . پرسش" و" ۴ نتیجه را منعکس نمود ، هرچند برای پرسش " یا " ۳۶۵۰ نتیجه گزارش شده ، که بیشتر از تعداد دو پرسش منفرد بود ( ۱۷۹۰) – دوباره اینجا مورد اشتباهی وجود دارد. ورونیس[۷۰] ( ۲۰۰۵ الف ) توضیح ممکنی را برای پاسخهای عجیب پرسشهای بولی گوگل فراهم نموده است ، هرچند بنظر می رسد او پیشنهاد کند که این مشکلات تا پایان مارس ۲۰۰۵ حل شده باشد . ما جستجوهای مساله ساز را در پایان آگوست ۲۰۰۵ انجام دادیم .ام.اس.ان. با شمول – ممانعت[۷۱] مشکل دارد . مثالهای زیر را در نظر بگیرید ، دوباره در ۳۰ آگوست ۲۰۰۵ : امریکا ( ۲۰۷۹۶۷۵۶۶ نتیجه ) ، اسرائیل ( ۳۳۴۲۴۶۶۹ نتیجه ) ، امریکا یا اسرائیل ( ۱۸۰۴۰۶۲۴۶ نتیجه ) . بنظر می رسد که موتورهای جستجو همیشه مشکلاتی با عملیات ریاضی ساده دارند ، اینگورسن ( ۱۹۹۸) بیان میدارد که تعداد نتایج گزارش شده توسط آلتاویستا را برای پرسش الف " و" ب با تعداد نتایج پرسش ب " و" الف یکسان نیست .
بعضی مواقع مستندسازی جزئی است ، مثلا شرح مفصلی برای الگوریتم رتبه بندی وجود ندارد ، اما برای این مورد گوگل توضیح منطقی و معقولی ارائه می دهد ( گوگل ، ۲۰۰۵ الف ) . از طرف دیگر الگوریتم ریشه یابی نامشخص بکار رفته توسط گوگل تاحدی حیاتی است : " زمان مناسب ، نه تنها برای واژه درخواستی شما جستجو صورت می دهد ، بلکه برای واژه هایی که شبیه به واژه مورد نظر یا به همه واژه های مورد نظر جستجو صورت داده می شود "( گوگل ۲۰۰۵) . چه زمانی ریشه یابی مقتضی فراخواهد رسید ؟ ظاهرا برای واژه های مفرد در برابر جمع زمان مناسب وجود نخواهد داشت .
بنظر می رسد اهمیت زیادی به صفحات کمکی[۷۲] مبذول نشده است ، که این صفحات بسختی مکانیابی[۷۳] می شوند ، مثلا پیوندی به منوی کمک یا مستندسازی برای صفحه جستجوی یاهو وجود ندارد .
(http://search.yahoo.com)
۴) بهنگام بودن
بعضی مواقع موتورهای جستجو برای بروز رسانی نمایه های خود یقینا با شکست مواجه می شوند ، مثل مشکلات گذشته ای که از آلتاویستا و نورثرن لایت[۷۴] از در میان محققان گزارش شده است ( مثلا اولسن[۷۵] ، ۲۰۰۱، یا سولیوان ۱۹۹۸) . ثلوال ( ۲۰۰۱) بررسی کرد که برای موتورهای جستجو چقدر طول میکشد تا صفحات نمایه سازی نشده ای را که پیوندهایی به آنها از صفحاتی که قبلا به موتورهای جستجو ارائه شده ، نمایه سازی نمایند .
درمدخل ویکیپدیا[۷۶] برای پرنس هاری[۷۷] به چه سرعتی و چه مدت دوباره نمایه سازی میشود .
http://en.wikipedia.org/wiki/Prince_Harry_of_Wales
در ۱۲ ژانویه ۲۰۰۵ پرنس در لباس نازی ها در یک مجلس نمایش لباس ظاهر شد . مدخل ویکیپدیا ۲۵ بار این مدخل جنجالی را تا ۱۴ ژانویه ۲۰۰۵ بروز نموده است . گوگل نسخه پنهانی[۷۸] از ۲۱ دسامبر ۲۰۰۴ ( که در ۱۸ ژانویه ۲۰۰۵ دوباره بازنگری شده ) و نسخه بتا و پنهان ام.اس.ان. از ۹ ژانویه دارند . یاهو صفحه مورد نظر را در آن زمان پنهانی نکرده است . الان برای یک مثال بروز ، طوفان کاترینا ( که در زمان نگارش مقاله به تازگی نیواورلئان را درنوردیده است ) صفحه ای پویایی[۷۹] از ویکیپدیا در ۲۶ آگوست ۲۰۰۵ وجود دارد .
http://en.wikipedia.org/wiki/Hurricane_Katrina
نسخه جاری در آن زمان که نسخه هایی از موتورهای جستجو را بررسی می کردیم از ۲۹ آگوست ۲۰۰۵ موجود بود . گوگل هنوز صفحه مورد نظر را نمایه سازی نکرده بود ( اما وقتی در۳۰ آگوست ۲۰۰۵ دوباره بررسی کردیم ، صفحه توسط گوگل نمایه سازی شده بود ) ام.اس.ان. و یاهو نیز هردو نسخه پنهانی از ۲۷ آگوست داشتند .
۵) نمایه سازی کل مدرک
لایکوس[۸۰] عادت دارد که فقط عناوین ، سرعنوان متن[۸۱] ، و گزیده ای از ۲۰ خط اول را ، یا ۱۰% مدرک را با مجموعه کلید واژه هایی که از سند استخراج شده نمایه سازی نماید . بعضی منابع ادعا می کنند که گوگل کنونی تنها ۱۰۱ کیلوبایت اولی یک وب سایت را نمایه سازی می نماید ( سولیوان ، ۲۰۰۴ د) – ما قادر نبودیم این اطلاعات را از سایت گوگل بیابیم ( دوباره یک مورد عدم وضوح در اطلاع رسانی ) . آزمایش کوچک ما این ادعا را درژانویه ۲۰۰۵ وقتی که ما به صفحه http://www.gutlesspacifist.com/gp/archives/۲۰۰۴_۰۴.html
مراجعه کردیم اثبات می نماید ، اندازه حدود ۱۵۴ کیلوبایت ، و توسط گوگل نمایه سازی شده ، و نزدیک به پائین متن ذیل ظاهر شده بود : " جنگ باید نتیجه پاسخ به پشیمانی کنونی باشد " ( این متن در نسخه پنهانی نیز بخوبی ظاهر شد ) . وقتی که دنبال این عبارت جستجو شد ، گوگل دو نتیجه را بازیابی نمود ، اما صفحه ذکر شده بالا نبود . یاهو نیز صفحه را پنهانی کرده ، و برای عبارت بخصوصی بازیابی نمود : این برای نسخه بتا ام.اس.ان. یکسان بود . برای هر سه موتور جستجو با وارد کردن مکانیاب متحد منبع ، صفحه نشان میدهد که موتورجستجو آنرا نمایه سازی کرده است یا نه . زمانیکه آزمایش را در آگوست ۲۰۰۵ دوباره اجرا می کنیم ، ۱۵۴ کیلوبایت طول صفحه در نتیجه جستجو ظاهر می شود ، که بنظر میرسد گوگل متن بیشتری را به نسبت تصویر نسبته به قبل نمایه سازی می کند . این بار ما کتابهای الکترونیک پروژه گوتنبرگ در اخلاقیات توسط ارسطو به آدرس
http://www.gutenberg.org/dirs/etext۰۵/۸ethc۱۰.txt را آزمایش کردیم . – یک صفحه و چندین سایت جایگزین[۸۲] توسط گوگل نمایه سازی شده بود و ظرفیت آن نیز ۶۶۲ کیلوبایت بود ، هرچند همه نسخه های پنهان در ۵۱۴ کیلو بایتی ( و ناگهان در میانه جمله ) متوقف شده بودند ، و اگر ما برای یک عبارت در زیر این نقطه جستجو کنیم ، نمی توانیم آنرا بیابیم ، درحالیکه جستجوها در نقطه بالای متن موفقیت آمیز خواهند بود . نکته جالب توجه اینکه برای پرسش “Greek: hae peri ta aethae pragmateia aen dikaion esti prosagoreuen politikaen” ( نزدیک پایان کتاب ) ، نسخه پی.دی.اف[۸۳] اخلاقیات توسط گوگل بازیابی شد ، هرچند این پرونده های پی.دی.اف.ظرفیت ۷۳۰ کیلوبایت داشتند . بنابراین بنظر می رسد در میانه سال ۲۰۰۵ گوگل حدود ۵۰۰ کیلو از صفحات اچ.تی.ام.ال. را نمایه سازی می کند درحالیکه برای مدارک پی.دی.اف. این محدوده بیشتر است . دوفز[۸۴]( ۲۰۰۵) در آوریل ۲۰۰۵ گزارش کرد که گوگل شاید بیشتر از ۱۰۱ کیلو اولیه را نمایه سازی می نماید . ام.اس.ان. نسخه ۷ بیتی کتاب الکترونیکی http://www.gutenberg.org/dirs/etext۰۵/۷ethc۱۰.txt که ۶۶۲ کیلو ظرفیت دارد را نمایه سازی می کند و واژه های یونانی را در پایان کتاب بازیابی می نماید . حتی یاهو هم که نسخه های ۷ بیتی و ۸ بیتی را نمایه سازی می نماید هیچکدام از اینها را هنگامیکه واژه های یونانی جستجو میشده ، بازیابی نکرده است . یاهو تنها ۵۲۵ کیلو اولیه این فایلها را نمایه سازی می کند . موتورهای جستجو حداکثرظرفیت متن که برای یک صفحه وجود دارد را بیان نمی کنند ، بنابراین فقط می توانیم در باره این مساله تصور نمائیم .
۶) زمان پاسخگویی ، دسترس پذیری
گرچه گوگل تقریبا همیشه قابل دسترس است ، در جولای ۲۰۰۴ توسط ویروس مایدوم[۸۵] ویروسی شد و برای چند ساعت کار نمی کرد ( شیم و کانلوس [۸۶]۲۰۰۴) . بنظر میرسد یاهو در مورد تعداد درخواستها در یک چهارچوب زمانی محدود است ( فرنچ[۸۷] ۲۰۰۴) ، زمانیکه این محدودیت بیشتر می شود شخص پیغام "سرور مشغول است ، و دوباره امتحان کن " را بجای نتیجه واقعی دریافت می دارد . مشکل دیگر اینست که موتور جستجو نتایج جستجو را بدلیل وقفه هایی که گزارش نشده اند یا برای کاربر قابل توجه بوده اند ، نمایش نمی دهند ( به پاسخ آلتاویستا به پرسش الاستیر اسمیت[۸۸] توجه نمائید ۱۹۹۹) .
۷) عینیت – بدون تاثیر عوامل تجاری و بدون تاثیر بر محیط
تمام صنعت بهبود موتورهای جستجو به منظور طراحی و دوباره طراحی صفحات وب که در واژه های جستجویی بخصوصی در موتورهای جستجو بخصوص افزایش یافته اند ، صورت می پذیرد . کاربران سعی می کنند از موتورهای جستجو " درخواست کنند " ، بنابراین بجای اینکه ابزارهای فاقد جسارتی باشند ، موتورهای جستجو عاملهای تاثیرگذاری در شبکه شده اند .
انترونا و نیسنباوم[۸۹] ( ۲۰۰۰ ) بطور مفصل و مشروح قدرت سیاسی موتورهای جستجوی عظیم را به بحث گذاشته اند . موتورهای جستجو ، تجاری هستند و مجبورند مزایای خود رانشان دهند ، بنابراین بطور طبیعی موضوعات عامه پسند را بطور گسترده تری پوشش می دهند ، که تبلیغات بیشتری بر روی آنها انجام شده است . با توجه به اینکه برنامه های تبلیغاتی عمده ( " پیوندهای پشتیبانی شده [۹۰] " بوسیله موتورهای جستجو تصاحب شده (Adwords توسط گوگل و Overture توسط یاهو ). ون کوورینگ[۹۱] ( ۲۰۰۴) اینکه " سیستم کنونی فراهم آوری خدمات پیوسته برای مردم خوب است " را به پرسش می کشاند .
شامل شدن در نمایه موتورها[۹۲] ، مورد بحث انگیز دیگری است – گرچه مکاندهی آنها را ضمانت نمی کند - سطح پوشش درستی از یسامد روزآمد رسانی را ضمانت می نماید که برای شرکت کنندگان در این برنامه ها مزایایی دارد . هم اکنون تنها یاهو برنامه امکان شمول را در میان چندین موتور جستجوی بحث شده دارد . زمانیکه برنامه در ماه مه ۲۰۰۴ معرفی شد موردی بسیار بحث برانگیز شد . ( سولیوان ۲۰۰۴)
" گوگلینگ (Googling) " ( " جستجو کردن نام شخصی در گوگل که به کوشش برای یافتن اطلاعات بیشتر درمورد وی منجر می شود " Whatis.com،۲۰۰۴) و " گوگل بمبینگ (Google bombing) " ( " تلاش برای تاثیر گذاری در رتبه بندی یک سایت در نتایج منعکس شده توسط گوگل " ، ویکیپدیا ، ۲۰۰۵) در فعالیتهای اجتماعی ، امری پذیرفته شده است . بارایلان ( بی تا ) صفحات رقابتی[۹۳] در مدخل ویکیپدیا در مورد یهود و صفحه خانگی jewwatch.com را مشخص نموده است .
گوگلینگ ، گوگل بمبینگ ، بهمراه بهینه سازی ترقی گونه موتورهای جستجو و صنعت بازاریابی ( سمپو[۹۴] ۲۰۰۴) نشانگر تاثیر موتور جستجو بر محیط خود می باشند . در دانشگاه واشینگتن ، حتی رشته گوگل وجود دارد ( " این یک پدیده اجتماعی شده است ، " جین[۹۵] ، ۲۰۰۴)
۸) همه نتایج گزارش شده قابل بازیابی باشند
هم اکنون همه موتورهای جستجویی که در این مقاله بحث شده اند تعداد نتایج خود را به مقداری که خود برای نمایش هر پرسش بخواهند ، محدود می کنند . گوگل و یاهو هزار نتیجه و ام.اس.ان. ۲۵۰ نتیجه نمایش می دهند . این مشکل می تواند با استفاده از فنون بخش بندی متفاوت ، تا حدی برطرف شود ( مثلا با دامنه و تاریخ ) . جستجوهای تاریخی می تواند از طریق " رابط نهایی گوگل " http://www.faganfinder.com/google.html ) برای این موتور ، اجرا شود ، هرچند گزینه محدود کردن تاریخ در گوگل ( حدفاصل تاریخی[۹۶] : استفاده از شکل تاریخی ژولین[۹۷] ) در مدتی پیش کار خود را متوقف کرده بود ( دوباره گزارش نشده است ) . هنوز در مرجع رابط اعمال برنامه ریزی گوگل مستند شده است ( گوگل ۲۰۰۵ ای ) بنابراین از طریق رابط اعمال برنامه ریزی ، قابل اعمال است . همان تعداد نتایج با حدفاصل تاریخی و بدون آن منعکس شده است : عملگر برای پرسش اطلاع سنجی: حدفاصل تاریخی به ۱ ژوئن و ۱ سپتامبر ۲۰۰۵ محدود شده است و جستجوها در ۱ سپتامبر انجام شده است . ابزار کمکی گوگل پیشرفته[۹۸] تاریخ را فهرست می نماید : توضیحگر( به فرد اجازه می دهد برای " منابع " در ۳،۶ و ۱۲ ماه جستجو صورت می دهد :
تعداد نتایج در ۶ و ۱۲ ماه بطور قابل توجهی کمتر از تعداد نتایج در ۳ ماه گذشته است ! . همه جستجوها بین سه دقیقه انجام شده ، و این عمل برای بررسی تعداد تکرار شده است . جستجوهای مشابه در یاهو پاسخهای غیر متناقضی را فراهم می نماید . جستجوهای پیوندی نمی تواند با هیچ گزینه ای در گوگل ترکیب شود ، بنابراین محدوده کاری حدفاصل تاریخی ، نمی تواند برای شکستن نتایج به قطعات کوچکتر به منظور گرفتن بیش از ۱۰۰۰ نتیجه باهم ترکیب شود . فرم جستجوی پیشرفته آلتاویستا می تواند برای جستجوهای محدود به تاریخ برای یاهو مورد استفاده قرار گیرد ( آلتاویستا توسط یاهو اداره می شود )
۹) گزینه های رتبه بندی ، دسته بندی مختلف
تنها ام.اس.ان. گزینه ای برای تاثیر در رتبه بندی نتایج جستجو دارد ( ام.اس.ان. ، ۲۰۰۵) – فرد می تواند اسلایدهایی را برای تنظیم اهمیت دقت انطباق و نقاط پیوند به صفحات ، و با توجه به تاریخ صفحه ای که به نمایه اضافه شده ، میتواند استفاده نماید . هرچند وقتی جستجو برای " کاترینا " صورت می گیرد و تنظیم تازگی به حداکثر انجام می شود و همه دیگرمولفه ها به حداقل کاهش می یابند ، اولین نتایج موردی است از ۳۰ آگوست ۲۰۰۵ ، درحالیکه موارد معدود بعدی از ۳۰ آگوست ۲۰۰۵ می باشند ( جستجوها در ۱ سپتامبر ۲۰۰۵ در ساعت ۹ صبح ) . نتایج بالای " تازگی " جستجو بندرت متفاوت از نتایج جستجوهای منظم برای کاتریناست .
موتورهای جستجوی متفاوت بطور قابل توجهی الگوریتمهای رتبه بندی متفاوتی را بکار می بندند . داگپایل[۹۹] ابزار زیبایی دارد که به استفاده کنندگان اجازه میدهد رتبه بندی نتایج را در ده نتیجه گوگل ، یاهو ، ام.اس.ان. و اسکجیوز را با یکدیگر مقایسه نماید .http://comparesearchengines.dogpile.com/index.aspx . آنها اخیرا مطالعه ای را درهمپوشانی مبتنی بر بیش از ۲۲۰۰۰ جستجو منتشر کرده اند ( داگپایل ۲۰۰۵) . مطالعه توسط تیمی که توسط آماندا اسپینک و جیم جینسن[۱۰۰] اداره شد ، به انجام رسید . ووگان[۱۰۱] ( ۲۰۰۴) بطور تجربی رتبه بندی موتورهای جستجو را با قضاوت انسانی مقایسه نمود . معیارهای متفاوتی برای مقایسه رتبه بندی توسط فاژین [۱۰۲]و دیگران( ۲۰۰۳) و بارایلان ، لونس و مت – هسن[۱۰۳] ( ۲۰۰۴) معرفی شد .
۱۰) نمایش برونداد بصورت منعطف
بعضی از احتیاجات توسط موتورهای جستجو به انجام رسیده اند . فرد می تواند گزینه انقضای سایت را در یاهو و ام.اس.ان. فعال و غیرفعال کند ( از طریق رابط آلتاویستای آن ) . موتورهای جستجو به استفاده کننده اجازه می دهند تعداد نتایج صفحه را تنظیم نمایند . هیچکدام از آنها تکنیکهای خوشه بندی[۱۰۴] را بکار نمی گیرند ( مثل موردی که در ویویسیمو http://vivisimo.com بکارگرفته شده ) و استفاده کنندگان نمی توانند شکل برونداد را برای نتایج فردی تغییر دهند . آنها به استفاده کننده اجازه می دهند ، فیلتر گذاری محتوای فحشاء را فعال و غیر فعال نمایند .
۱۱) نتایج پنهان
گوگل ، یاهو و ام.اس.ان. دسترسی به نسخه پنهان صفحات را پیشنهاد می کنند . گوگل و ام.اس.ان. نیز تاریخی که صفحات پنهان شده اند ، که ویژگی مفید اضافی را فراهم می نمایند.
۱۲) بازیابی با کیفیت بالا در زبانهای غیر انگلیسی
موتورهای جستجویی که در اینجا به بحث گذاشته شده اند ، فنون بخصوصی را برای ارتقاء نتایج برای زبانهای غیر انگلیسی بکار نمی بندند ( بارایلان و گوتمن[۱۰۵] ۲۰۰۵) . برای زبان آلمانی ، بنظر می رسد گوگل بعضی تکنیکهای اضافی را بکار گرفته است ( گوگنهایم[۱۰۶] و بارایلان ۲۰۰۵) .
۱۳) رابط اعمال برنامه ریزی در دسترس
هم اکنون گوگل[۱۰۷] و یاهو[۱۰۸] ای.پی.آی. را پیشنهاد می کنند .
۱۴) جستجوهای تمام بولی ، گوناگونی عملگرها
موتورهای جستجوی تجاری به " مردم" ارائه خدمت می کنند ، و مردم نمی خواهند از عملگرهای بولی استفاده نمایند ، و وقتی که از عملگرها استفاده می نمایند ، اغلب بطور کامل و صحیح از آنها استفاده نمی کنند ( یانسن و دیگران ۲۰۰۰) . بنابراین جستجوهای تمام بولی ( اجازه به استفاده از پرانتز و دیگر فنون که تا از گزاره های ترکیبی استفاده نمایند ) در لیست عملیات موتورهای جستجو در درجه اول قرار ندارد . همانطور که قبلا دیدیم ، حتی " یا " مستقل بطور کامل و صحیح در گوگل عمل نمی نماید ، و پرانتز بی معنی است . حتی نتایجی که از " عملیات ریاضی ساده استفاده می کنند " ( + / -) بنظر می رسد بدرستی در گوگل کار نمی کند . انتظار می رود که تعداد نتایج برای پرسش " کارولینسکا " برابر با مجموع تعداد نتایج پرسش " کارولینسکا استکلهلم " و " کارولینسکا – استکهلم "‌ باشد ، هرچند نتایج بسیار متفاوت است ( ۸۲۳۰۰۰ در مقابل ۱۳۷۰۰۰۰ ) یاهو و ام.اس.ان. هیچ چیزی درباره پشتیبانی از پرانتز نمی گویند ، اما بنظر میرسد قابل اعمال باشند .عملگر قرابت یا همجواری توسط هیچکدام از موتورهای جستجو پشتیبانی نمی شوند ( آلتاویستا معمولا عملگر قرابت را بکار می گیرد ) . گوگل عملگر * دارد ( ۲۰۰۵) ، قرمز* آبی به این معنی است که قرمز و آبی با یک یا بیش از یک واژه از یکدیگر جدا شده اند . مورد جالب توجه اینست که کمتر از یکسال پیش ( گوگل ، ۲۰۰۴ ) از * به معنی دقیقا یک واژه جدا از هم بکار میرفته است ، بنابراین با معنی بود اگر" اطلاع سنجی * کتابسنجی " در مقابل " اطلاع سنجی * * کتابسنجی " جستجو می شد . معنی جدید عملگر * ، از آنجایی که ما می دانیم ، اینست که تنها " کتابسنجی اطلاع سنجی " و " اطلاع سنجی کتابسنجی " را ( بعنوان یک عبارت ) از مجموعه ای از نتایج برای اطلاع سنجی کتابسنجی (این بار نه یک عبارت جستجویی ) بیرون نگاه می دارد ، هرچند این مورد وجود نداشت ، و ما نمی توانستیم معنی این عملگر را کشف نمائیم .
نه ( یا یک " – " قبل از واژه جستجویی ) یک عملگر است ، که بعنوان یک عملگر مستقل مفید است . هم اکنون هم ام.اس.ان. و هم گوگل آنرا پشتیبانی می نمایند ، اما یاهو از آن پشتیبانی نمی نماید .
۱۵) فنون پیشرفته برای بازیابی داده برای تجزیه و تحلیل پیوند
قابلیتهای کنونی موتورهای جستجو برای بازیابی پیوندهای داده شده از یک وب سایت ، زمانیکه آلتاویستا و آل د وب هنوز خدمات مستقلی بودند (پیوندهای خارجی[۱۰۹]) ، بدتر از آنچه قبلا استفاده می شده ، می باشد . بنابراین عملگر پیوند (‌ : ) صفحاتی را بازیابی می نماید که پیوندهایی به صفحات مشخص داشته اند و در این مورد مقصد یک راهنما ست که همه صفحات پیوند دهنده به هر صفحه ( نمایه شده توسط موتور جستجو ) در این راهنما وجود دارد ، گرچه این در صفحات کمکی بوضوح بیان نشده بود ( آلتاویستا ، ۲۰۰۲ ، آل د وب ، ۲۰۰۳) . گوگل قادر است بعضی از صفحات پیوند را بازیابی نماید ( بعضی ، نه همه آنها ، میزگرد سرچ انجینواچ ، ۲۰۰۴ ، بارایلان ۲۰۰۲) و تنها به صفحات بخصوصی این پیوند صورت می گیرد ، و این جستجو نمی تواند با چیز دیگری ترکیب شود . در یاهو ، ویژگی مستند نشده دامنه پیوند ( کالیشاین[۱۱۰] ۲۰۰۴) و می تواند با دیگر واژه ها جستجویی ترکیب شود ، اما این به بازیابی پیوندها به صفحات میزبان مورد نظر کمک می نماید ، هرچند این جستجو عمل نمی نماید ، اگرمثلا ما بخواهیم پیوند هایی که به سایت رونالد روسو منجرشده است را به آدرس زیرمطالعه نمائیم .
http://users.pandora.be/ronald.rousseau/ و نخواهیم تنها به مطالعه صفحه خانگی بپردازیم ، اخیرا ، ام.اس.ان. عملگر دامنه پیوند ( : ) را به امکانات خود اضافه نموده است .
۱۶) گوناگونی توضیحگرهای جستجو
بعضی از محدودیتها ، مثلا محدود کردن جستجو به یک دامنه یا یک زبان وجود دارند . آنها همیشه قابل ترکیب نیستند . مثلا گوگل همه واژه های بعد از ۳۲ مین واژه را در یک پرسش نادیده می گیرد ( معمولا تنها ۱۰ واژه را در نظر گرفته ) . ام.اس.ان. بطور واضح محدودیت جستجو در ۱۰ واژه را دارد (مستند نشده است ) ، برای پرسش " ۱ ، ۲ ......۱۱" نتایجی وجود نداشت ، اما صفحه http://www.timeanddate.com/calendar/?year=۲۰۰۴&country=۱
توسط این موتور نمایه سازی شده است ، و صفحه پنهان شامل شماره هایی بین ۱ و ۱۱ است . بنظر میرسد یاهو محدودیت زمان پرسش نداشته باشد . همه موتورهای جستجو طول واژه ها را تا اندازه ای محدود می نمایند ( نوتس ۲۰۰۵) . راه آسانی برای جستجوهای محدود به زمان برای باهو ، رابط پشرفته آلتاویستا است که برای این امر بسیار بهتر است . هم اکنون ام.اس.ان. جستجوی محدود به تاریخ را اجازه نمی دهد . بسیار مفید است اگر قادر باشیم در یک سایت یا دامنه ، بدون واژه های جستجو اضافی و یا با آن واژه ها جستجو نمائیم ( جدول ۱ را ببینید ) . این جستجو ها با جستجوهای پیوندی مرکب در تحقیقات وب سنجی ظاهر می گردند . مثلا پرسش
linkdomain:issi-society.info -site:issi-society.info همه صفحاتی را که به صفحات جامعه آی.اس.اس.آی. پیوند داده است را نشان داده ، درحالیکه خود پیوندها را از میان آنها خارج می نماید . ( که اغلب برای اهداف ناوبری[۱۱۱] استفاده می شود ) . این پرسشها در گوگل به دو دلیل ممکن نیست ، این موتور عملگر دامنه پیوند را ندارد ، و حتی اگر پرسش
linkdomain:issi -society.info for link: www.issi-society.info/ را بکار بریم ( صفحه خانگی جامعه آی.اس.اس.آی. ) قادر نخواهیم بود صفحات خود پیوند را ، زمانیکه عملگر پیوند نمی تواند ترکیب شود از صفحات خارج نمائیم . این محدودیتی جدی برای اجرای تحقیقات مبتنی بر پیوند می باشد .
۱۷) ویژگیهای اضافی : ریشه یابی ، کوتاه سازی ، چپ/راست نویسی ، نویسه عام ، حساسیت به حروف ، بررسی هجی ، انقضاء سایت .
هر سه موتور جستجو بعضی از انواع بررسی هجی را دارند ، همه آنها به حروف بزرگ حساس نیستند ، و ریشه یابی در آنها بی تاثیر است ( نوعی ریشه یابی در گوگل وجود دارد ( گوگل ۲۰۰۵ ب) ، وضعیت دیگر موتورهای جستجو معلوم نیست ) . معمولا استفاده از نویسه عام یا دیگر وسایل کوتاه سازی را اجازه نمی دهند . یاهو ممکن است نوعی ریشه یابی را بکار بندد : گرچه تعداد نتایج بازیابی شده برای " سگ " و برای " سگها " متفاوت است ، در هر دو حالت " سگ " و " سگها " در جزئیات[۱۱۲] پررنگ شده است . از دیدگاه محقق بهتر است موتورهای جستجو به آنها اجازه دهند ریشه یابی ، حساسیت به حروف و کوتاه سازی فعال یا غیر فعال شود . معمولا فرد می تواند انقضای سایت را در ام.اس.ان. و یاهو فعال و غیر فعال نماید ، اگر رابط التاویستا بکار گرفته شود ( حداکثر دو صفحه از یک سایت ) .
۱۸) کمک جستجو : بازخورد ربط ، صفحات و جستجوهای مشابه / مرتبط ، شخصی سازی
گوگل گزینه ای برای بازیابی " صفحات مشابه " به یک صفحه بخصوص دارد ; هرچند این ویژگی استفاده محدودی دارد ، اما بنظر میرسد در مقایسه با تجربه قبل ما با این ویژگی ، در حال توسعه است . در ۳ سپتامبر ۲۰۰۵ صفحاتی که بطور منطقی با صفحه خانگی رونالد روسو مرتبط بود ارائه شد ، اما هنگامیکه بدنبال صفحات مرتبط با تعریف " chunnel " در ویکیپدیا ( اسم مستعار انگلیسی channel ) رفتیم ، نتایج بسیار نا امید کننده بودند .
یاهو چیزی در امتداد خطوط مرتبط با جستجوها پیشنهاد می کند ، برای موضوعات وسیع ، لیستی از پرسشها در زیر واژه " نیزسعی کنید " آورده میشود . برای " اطلاعات " لیست کاملی از جستجوها شامل بیش از صد پیشنهاد ، شامل " اطلاعات درباره زندانیهای بخش آشپزی " ، اما نه شامل " بازیابی اطلاعات " آورده می شود ( احتمالا مردم بیشتر " اطلاعات درباره زندانیهای بخش آشپزی " را به نسبت " بازیابی اطلاعات " جستجو کرده اند . ام.اس.ان. به ما اجازه می دهد تا " اطراف رتبه بندی را نیز امتحان " نمائیم ( موثر بودن این گزینه باید بیشتر مورد تحقیق قرار گیرد ) .
شخصی سازی موضوع داغی است . گوگل اخیرا خدمت " جستچوی شخصی شده " را معرفی کرده است ، جائیکه شخصی سازی بر اساس تاریخچه جستجوی کاربر مبتنی است . این ویژگی شاید برای تحقیقات شبکه مفید باشد ( بعنوان راهی برای دریافت صفحات " بهتر" در بین ۱۰۰۰ نتیجه بازیابی شده ) ، هرچند مفید بودن آن در آینده کشف خواهد شد .
۱۹) توانایی ترکیب همه ویژگیها در یک سوال ساده ( شامل تعداد نامحدود واژه های جستجو ) یا ایجاد تنظیمات ، براساس نتایج قبلی ( مدل "ساختن بلوک " ) .
گوگل و ام.اس.ان. تعداد واژه های جستجو را در یک پرسش محدود می کنند ( گرچه گوگل اخیرا محدودیت را از ۱۰ به ۳۲ افزایش داده است ) این مورد می تواند برای محققین شبکه طراحی که پرسشی دقیق را بوجود می آورند ، نقصان محسوب می شود . گوگل جستجوی بولی پیچیده را اجازه نمی دهد ( استفاده از پرانتز ) و ترکیب عملگر پیوندها ( : ) را با هر واژه جستجویی ، ممکن نساخته است . گوگل اجازه می دهد " درون نتایج قبلی جستجو " انجام شود ، اما این ، تنها راهی دیگر برای اضافه کردن واژه های جستجویی به پرسش می باشد ، نه اینکه بر روی مجموعه نتایج قبلی ، جستجویی انجام دهیم ، همانطوریکه دربعضی از سیستمهای جستجویی ممکن است ( مثلا دیالوگ[۱۱۳] و وب آو ساینس[۱۱۴] ) .
۲۰)‌ قابلیتهای بازیابی غیر متنی
هم اکنون همه موتورهای جستجو ، جستجوی تصویر را پیشنهاد می کنند (‌احتمالا عمدتا بر اساس توصیف متنی )‌. تحفیفات زیادی در حوزه بازیابی اطلاعات چندرسانه ای صورت می گیرد . قابلیتهای جستجوی غیر متنی که مورد علاقه محققین شبکه است ، خارج از حوزه مقاله کنونی است .
▪ نتیجه گیری :
موتورهای جستجوی تجاری ، از رویای محققان شبکه در مورد یک ابزار شبکه ایده آل ، نسبتا دور هستند . چیزی که ما نیازمند آنیم ، ابزاری قابل اعتماد و منعطف به جامعه علمی است . احتمالا ما فهرست آمال و آرزوهای محققان شبکه را بطورکامل پوشش نداده ایم ‌، اما این فهرست را آغاز نموده ایم . لنارت بجورنبورن[۱۱۵] پیشنهاد می کند که این موتور جستجوی ایده آل را "‌ وبومت[۱۱۶] "‌ بنامیم . الان ما نامی برای آن داریم و ویژگیهایی اساسی این موتورها را نیز داریم – ما نیازمند بودجه ،‌ منابع و دانش چگونگی آن هستیم .
چند کلمه درباره پایایی این مطالعه . ما همه این تحقیقات را ذخیره کردیم ،‌ و در مورد تاریخی ( و اغلب ساعت آن ) که این جستجوها انجام شده نیز دقت نمودیم . جستجوها بصورت وسیعی ذخیره شده و در این مقاله مستند شده است .‌ تا زمانیکه تقریبا بدست آوردن دقیق نتایج غیرممکن خواهد بود ، ضروری بود جستجوها در زمان گزارش مقاله ذکر گردند . آماده ایم که خواننده علاقمند را با داده های خام این مطالعه آشنا نمائیم .
در اکثریت مثالهااز گوگل استفاده شده است . دلیل این امر اینست که از زمانیکه گوگل اخیرا محبوبترین موتور جستجوست (‌ کامسکور ، ۲۰۰۵‌)‌، بیشتر توجه ما معطوف به عملکرد این موتور بوده است . در مطالعات بعدی تصمیم داریم دیگر موتورهای جستجو را نیز همینگونه در امر تحقیق "‌ زیر میکرسکوپ " قرار دهیم . هرچند که موتورهای جستجو نقصهایی دارند ، ولی‌ ما از آنها هم در زندگی روزمره و هم در تحقیق ، استفاده می کنیم ،‌ زیرا تنها ابزارهای جستجویی در شکل وسیع در امر بازیابی هستند که بطور رایگان برای همگان قابل دسترس هستند .
ما قصد داریم ویژگیهای در دسترس را بصورت دوره ای بازنگری کرده ( مثلا در سال یک مرتبه ) و پیشرفتها را منتشر نمائیم . نسخه اولیه این مقاله در صورتجلسات آی.اس.اس.آی سال ۲۰۰۵ظاهر شد( بارایلان ، ۲۰۰۵ب) ،‌ که قابلیتهای موتورهای جستجو را در ابتدای سال ۲۰۰۵ بررسی کردیم . با مقایسه دو نسخه می توان تفاوتها و توسعه هایی را مشاهده کرد ،‌ که نشان دهنده نیاز به ارزیابی دوره ای است . شبکه و موتورهای جستجو بطور مداوم درحال تغییرند ، بنابراین در آینده کامل ضروری است ویژگیهای جدید ‌، برای تحقیقات شبکه در دسترس باشد .
پیشنهاد می کنیم مجموعه ای از آزمایشها را با راهنمایی روش شناختی درباره اجرا و مستند سازی این آزمایشها برای ارزیابی عملکرد موتورهای جستجو بطور متناوبی ایجاد شود .
نوشته :‌جودیت بار- ایلان[۲]
ترجمه :‌ رضا رجبعلی بگلو[۳]
منابع :
‌Albert, R., Jeong, H., & Barabasi , A.L.( ۱۹۹۹) . The diameter of the world wide web . Naturre, ۴۰۱, ۱۳۰- ۱۳۱.
AlltheWeb (۲۰۰۳). Query language.<http://web.archive.org/web/۲۰۰۳۱۰۰۲۰۱۴۳۱۴/http://www.alltheweb.com/help/faqs/query_language> (archived October ۲،۲۰۰۳، accessed September ۲، ۲۰۰۵)
AltaVista (۲۰۰۲). Searching Web elements.<http://web.archive.org/web/۲۰۰۱۰۴۱۳۱۶۰۱۵۵/doc.altavista.com/help/search/search_web_elements.html> (archived October ۴، ۲۰۰۱، accessed September ۲، ۲۰۰۲)
Ambrogi، R. J. (۱۹۹۵). Legal research on the Internet. A primer. <http://www.legaline.com> (accessed September ۱، ۲۰۰۵ )
Bar-Ilan، J. (۲۰۰۰). Evaluating the stability of the search tools HotBot and Snap: A case study. Online Information Review، ۲۴(۶)، ۴۳۹-۴۴۹.
Bar-Ilan، J. (۲۰۰۲). How Much Information Search Engines Disclose on the Links to a Web Page? – A Longitudinal Case Study of the &#۰۳۹;Cybermetrics&#۰۳۹; Home Page. Journal of Information Science، ۲۸(۶).
Bar-Ilan، J. (no date). Web links and search engine ranking - The case of Google and the query “Jew”. To appear in the Journal of the American Society for Information Science and Technology.
Bar-Ilan، J. (۲۰۰۲a). Methods for Measuring Search Engine Performance over Time. Journal of the American Society for Information Science and Technology.، ۵۴(۳)، ۳۰۸-۳۱۹، ۲۰۰۲.
Bar-Ilan، J. (۲۰۰۲b). How Much Information Search Engines Disclose on the Links to a Web Page? –A Longitudinal Case Study of the &#۰۳۹;Cybermetrics&#۰۳۹; Home Page. Journal of Information Science، ۲۸(۶) ۴۵۵-۴۶۶.
Bar-Ilan، J. (۲۰۰۵). What do we know about links and linking? A framework for studying links in academic environments. Information Processing and Management، ۴۱(۴)، ۹۷۳-۹۸۶.
Bar-Ilan، J. (۲۰۰۵b). Expectations versus reality – Web search engines at the beginning of ۲۰۰۵. In Proceedings of the ۱۰th International Conference of the International Society for Scientometrics and Informetrics، ۸۷-۹۶.
Bar-Ilan، J.، & Gutman، T. (۲۰۰۵). How do search engines respond to some non-English queries. Journal of Information Science، ۳۱(۱)، ۱۳-۲۸.
Bar-Ilan، J.، Levene، M.، & Mat-Hassan، M. (۲۰۰۴). Dynamics of search engine rankings – A case study. In Proceedings of the ۳rd International Workshop on Web Dynamics، New-York، May ۲۰۰۴. http://www.dcs.bbk.ac.uk/webDyn۳/webdyn۳_proceedings.pdf (accessed August ۳۱، ۲۰۰۵)
Bar-Ilan، J.، Mat-Hassan، M.، & Levene، M. (no date). Methods for comparing rankings of search engine results. To appear in Communication Networks. Preliminary version http://arxiv.org/abs/cs.IR/۰۵۰۵۰۳۹> (accessed September ۱، ۲۰۰۵)
Bharat، K.، & Broder، A. (۱۹۹۸). A technique for measuring the relative size and overlap of public Web search engines. In Proceedings of the ۷th International World Wide Web Conference، April ۱۹۹۸، http://www.ra.ethz.ch/CDstore/www۷/۱۹۳۷/com۱۹۳۷.htm (accessed September ۱، ۲۰۰۵)
Brewington، B. E.، & Cybenko، G. (۲۰۰۰). Keeping up with the changing Web. Computer، ۳۳(۵)، ۵۲-۵۸. Brin، S.، & Page، L. (۱۹۹۸). The anatomy of a large-scale hypertextual Web search engine. In Proceedings of the ۷th International World Wide Web Conference، April ۱۹۹۸.
<http://www-db.stanford.edu/pub/papers/google.pdf> (accessed September ۱، ۲۰۰۵)
Broder، A.، Kumar، R.، Maghoul، F.، Raghavan. P.، Rajagopalan، S.، Stata، R.، Tomlins، A. & Wiener،
J. (۲۰۰۰). Graph structure in the Web.http://www.cindoc.csic.es/cybermetrics/articles/v۹i۱p۲.html In Proceedings of the ۹th International World Wide Web Conference، May ۲۰۰۰. <http://www۹.org/w۹cdrom/۱۶۰/۱۶۰.html> (accessed September ۱،۲۰۰۵)

Callishain، T. (۲۰۰۴). Yahoo ’s groovy linkdomain syntax. ResearchBuzz.
<http://www.researchbuzz.org/yahoos_groovy_linkdomain_syntax.shtml> (updated May ۲۶، ۲۰۰۴، accessed September ۲، ۲۰۰۵)
Cheney، M. & Perry، M. (۲۰۰۵a). A comparison of the Yahoo and Google indices.
<http://vburton.ncsa.uiuc.edu/oldstudy.html> (updated ۱۶ August، ۲۰۰۵، accessed ۲۹ August، ۲۰۰۵)
Cheney، M. & Perry، M. (۲۰۰۵b). A comparison of the Yahoo and Google indices.
<http://vburton.ncsa.uiuc.edu /indexsizepage.html> (accessed ۲۹ August، ۲۰۰۵)
comScore (۲۰۰۵). comScore reports July ۲۰۰۵ search engine
rankings.<http://www.comscore.com/press /release.asp?press=۶۲۲ > (updated on ۱۹
August ۲۰۰۵، accessed on ۲۷ August، ۲۰۰۵).
Cyber Atlas (۲۰۰۰). Web pages by language.
<http://www.clickz.com/stats/sectors/demographics/article.php/۴۰۸۵۲۱> (updated
on ۵ July، ۲۰۰۰، accessed on ۲۷ August، ۲۰۰۵)
Dogpile (۲۰۰۵). Different engines، different results <http://comparesearchengines.dogpile.com/OverlapAnalysis.pdf> (accessed September ۱، ۲۰۰۵)
Duffez، O. (۲۰۰۵). Google indexes more than ۱۰۱K per document. Search Engine News.
<http://www.prweaver.com/blog/۲۰۰۵/۰۴/۰۷/۱۷۰-google-indexes-more -than-۱۰۱k-per-document> (updated April ۷، ۲۰۰۵،accessed August ۲۹، ۲۰۰۵)
Faba -Perez، C.، Guerrero-Bote، V. P.، & De Moya -Anegon، F. (۲۰۰۳). Data mining in a closed Web
environment. Scientometrics، ۵۸(۳)، ۶۲۳-۶۴۰.
Fagin، R.، Kumar، R. and Sivakumar، D. (۲۰۰۳). Comparing top k lists. SIAM Journal on Discrete Mathematics، ۱۷(۱)، ۱۳۴-۱۶۰.
Fetterly، D.، Manasse، M.، Najork، M.، & Wiener، J. (۲۰۰۴). A large-scale study of the evolution of Web pages. Software: Practice and Experience، ۳۴(۲)، ۲۱۳-۲۳۷.
French، G. (۲۰۰۴). Tool compares Google and Yahoo algorithms. <http://www.webpronews.com/insiderreports/searchinsider/wpn-۴۹- ۲۰۰۴۰۳۱۲ToolComparesGoogleAndYahoo Algorithms.html> (updated March ۱۲، ۲۰۰۴، accessed August ۳۰، ۲۰۰۵)
Global Reach. (۲۰۰۴). Global Internet statistics (by language).<http://www.global-reach.biz/globstats/ > (updated on ۳۰ March،۲۰۰۴، accessed on ۲۷ August، ۲۰۰۵)
Google (۲۰۰۴). Google help: Cheat sheet .<http://web.archive.org/web/۲۰۰۴۱۱۲۸۰۰۴۷۵۳ AND /http://www.google.com/help/cheatsheet.html> (archived November ۲۸، ۲۰۰۴،accessed September ۱، ۲۰۰۵)
Google (۲۰۰۵a). Information for Webmasters.<http://www.google.com/webmasters/۴.html>
(accessed August ۲۹،۲۰۰۵)
Google (۲۰۰۵b). The basics of Google search .<http://www.google.com/intl/en/help/basics.html > (accessed August۲۹، ۲۰۰۵)
Google (۲۰۰۵c). Google Help: Cheat sheet. <http://www.google.com/help/cheatsheet.html>
(accessed September۱، ۲۰۰۵)
Google (۲۰۰۵d). Advanced search made easy <http://www.google.com/intl/en/help/refinesearch.html > (accessed September ۱، ۲۰۰۵)
Google (۲۰۰۵e). Google Web APIs (beta). <http://www.google.com/apis/reference.html>
(accessed Spetember۱، ۲۰۰۵)
Guggenheim، E.، & Bar-Ilan، J. (۲۰۰۵). Tauglichkeit von Suchmaschinen f ür deutschesprachige
Abfragen. Information، Wissenschaft und Praxis، ۵۶(۱)، ۳۵-۴۰.
Huberman، B. A.، & Adamic، L. A.، (۱۹۹۹). Growth dynamics of the World Wide Web. Nature، ۴۰۱، ۱۳۱.
Ingwersen. P. (۱۹۹۸). The calculation of Web Impact Factors. Journal of Documentation، ۵۴(۲)، ۲۳۶-۲۴۳.
Introna، L. D.، & Nissenbaum، H. (۲۰۰۰). Shaping the Web: Why the politics of search engines matters . The Information Society، ۱۶، ۱۶۹-۱۸۰.
Janes، J. W. (۲۰۰۴). LIS ۵۹۸. Google.<http://www.ischool.washington.edu/jwj/google/> (accessed September ۱، ۲۰۰۵)
Jansen، B. J.، Spink، A.، & Saracevic، T. (۲۰۰۰). Real life، real users and real needs: A study and analysis of user queries on the Web. Information Processing and Management، ۳۶، ۲۰۷-۲۲۷.
Kleinberg، J. M. (۱۹۹۸). Authoritative sources in a hyperlinked environment. Journal of the ACM، ۴۶(۵)، ۶۰۴-۶۳۲، ۱۹۹۹.
Kumar، R.، Novak، J.، Raghavan، P.، & Tomkins، A. (۲۰۰۳). On the bursty evolution of Blogspace، In
Proceedings of the ۱۲th International World Wide Web Conference، (pp. ۵۶۸-۵۷۶).<http://www۲۰۰۳.org/cdrom/papers/refereed/p۴۷۷/p۴۷۷-kumar/p۴۷۷- kumar.htm> (accessed September ۱، ۲۰۰۵)
Kumar، S. R.، Raghavan، P.، Rajagopalan، S.، & Tomkins، A. (۱۹۹۹). Trawling emerging cyber –communities automatically. In Proceedings of the ۸th International World Wide Web Conference ، May ۱۹۹۹. <http://www۸.org/w۸-papers/۴a-searchmining/trawling /trawling.html> (accessed September ۱، ۲۰۰۵)
Lawrence، S.، & Giles، C. L. (۱۹۹۸). Searching the World Wide Web. Science،۲۸۰ (۵۳۶۰)، ۹۸-۱۰۰.
Lawrence، S.، & Giles، C. L. (۱۹۹۹). Accessibility of information on the Web.Nature، ۴۰۰، ۱۰۷-۱۰۹.
Mettrop، W.، & Nieuwenhuysen، P. (۲۰۰۱). Internet search engines - fluctuations in document
accessibility. Journal of Documentation، ۵۷(۵)، ۶۲۳-۶۵۱.
MSN (۲۰۰۵). Search builder and advanced search options.<http://search.msn.com/docs/help.aspx?t=SEARCH_REF_AdvSrchOperators.htm> (accessed September ۱، ۲۰۰۵)
MSN (۲۰۰۵b). New operators explained. MSN Search’s Weblog.<http://blogs.msdn.com/msnsearch/archive/۲۰۰۵/۰۶/۲۴/۴۳۲۴۳۹.aspx> (updated June ۲۴، ۲۰۰۵، accessed September ۲،۲۰۰۵)
Notess، G. (۲۰۰۰). Search engine inconsistencies. Online (March ۲۰۰۰).
<http://www.onlinemag.net/OL۲۰۰۰/net۳.html> (accessed September ۱، ۲۰۰۵)
Notess، G. (۲۰۰۵). Yahoo! Review on Search Engine Showdown. Search Engine Showdown.<http://www.searchengineshowdown.com/features/yahoo/review.html > (updated April ۲۵، ۲۰۰۵، accessed August ۲۹، ۲۰۰۵).
Notess، G. (۲۰۰۵b). Long word showdown. Search Engine Showdown.<http://www.searchengineshowdown.com/stats/longwords.shtml> (updated March ۵، ۲۰۰۵،accessed September ۲، ۲۰۰۵).
Olsen، S. (۲۰۰۱). AltaVista serving up out-of-date listings. <http://news.com.com/۲۱۰۰ -۱۰۲۳-۲۷۴۸۳۹.html?legacy=cnet> (accessed September ۱، ۲۰۰۵)
Oxford Dictionary (۱۹۸۹). Reliability.<http://dictionary.oed.com/cgi /entry/۵۰۲۰۲۰۰۲?query_type =word&queryword=reliability&first=۱&max_to_show=۱۰&single=۱&sort_type=alpha> (accessible through subscription، accessed January ۱۵، ۲۰۰۵).
Price، G. (۲۰۰۵). More on the total database size battle and Googlewhacking with Yahoo.Searchenginewatch.<http://blog.searchenginewatch.com/blog/۰۵۰۸۱۱-۲۳۱۴۴۸>
(updated ۱۱ August، ۲۰۰۵، accessed ۲۸ August، ۲۰۰۵).
Rousseau، R. (۱۹۹۹). Daily time series of common single word searches in AltaVista and NorthernLight. Cybermetrics، ۲/۳(۱)، paper ۲.<http://www.cindoc.csic.es /cybermetrics /articles/v۲i۱p۲.html > (accessed September ۱، ۲۰۰۵)
Shim، R.، & Kanellos، M. (۲۰۰۴). Google downed by latest MyDoom. Retrieved January ۱۳، ۲۰۰۵، from <http://news.zdnet.co.uk/internet/۰،۳۹۰۲۰۳۶۹،۳۹۱۶۱۶۷۸،۰۰.htm>
(accessed September ۱، ۲۰۰۵)
Searchenginewatch Forum (۲۰۰۴). Google say not reporting all backlinks. <http://forums.searchenginewatch.com/showthread.php? t=۲۴۲۳&page=۲&pp=۲۰> (updated November ۱۸، ۲۰۰۵، accessed August ۲۹، ۲۰۰۵)
Searchenginewatch Forum (۲۰۰۵). Ridiculous increase in Yahoo backlink counts & is bigger index real? <http://forums.searchenginewatch.com/showthread.php?threadid=۷۱۹۵> (updated August ۴، ۲۰۰۵، accessed August ۲۹، ۲۰۰۵)
SEMPO (۲۰۰۴). Summary report: The state of search engine marketing ۲۰۰۴. <http://www.sempo.org/research /SEMPO-Market-Sizing -۲۰۰۴-SUMMARY-v۱.pdf> (accessed September ۱، ۲۰۰۵)
Smith، Alastair (۱۹۹۹). ANZAC webometrics: exploring Australasian Web structures. In Proceedings of Information Online and On Disc ۹۹: Strategies for the next millennium. Sydney، Australia، ۱۹-۲۱ January ۱۹۹۹ [Sydney]:ALIA، ۱۹۹۹. Pp ۱۵۹-۱۸۱. <http://www.csu.edu.au /special/online۹۹/proceedings۹۹/۲۰۳b.htm> (accessed August ۳۰، ۲۰۰۵).
Snyder، H. & Rosenbaum، H. (۱۹۹۹). Can search engines be used as tools for web-link analysis? A critical view. Journal of Documentation، ۵۵، ۳۷۵-۳۸۴.
Spink، A.، & Jansen، B. J. (۲۰۰۴). Web search: Public searching the Web.London: Springer.
Statistical Cybermetrics Research Group (۲۰۰۴ a). SocSciBot۳.<http://socscibot.wlv.ac.uk/help /tutorial۳.html > (accessed September۱، ۲۰۰۵)
Statistical Cybermetrics Research Group (۲۰۰۴b). The academic weblink database project.
<http://cybermetrics.wlv.ac.uk/database/> (accessed September ۱،۲۰۰۵)
Sullivan، D. (۱۹۹۸). Northern Light add search functions، freshens index.
<http://searchenginewatch.com/sereport/article.php/۲۱۶۶۴۷۱ (accessed September ۱، ۲۰۰۵)
Sullivan، D. (۲۰۰۴a). Major search engines and directories.<http://searchenginewatch.com/links/article.php/۲۱۵۶۲۲۱> (accessed September ۱، ۲۰۰۵)
Sullivan، D. (۲۰۰۵). Search engine sizes. Searchenginewatch.<http://searchenginewatch.com/reports/article.php/۲۱۵۶۴۸۱> (updated ۲۸ January، ۲۰۰۵ ، accessed August ۲۸، ۲۰۰۵).
Sullivan، D. (۲۰۰۴c). Yahoo reawakens the paid inclusion debate.Searchenginewatch. <http://searchenginewatch.com/searchday/article.php/۳۳۵۵۲۲۱> (accessed
September ۱، ۲۰۰۵)
Sullivan، D. (۲۰۰۴d). Search engine size wars V erupts. Searchenginewatch. <http://blog.searchenginewatch .com/blog/۰۴۱۱۱۱-۰۸۴۲۲۱> (updated November
۱۱، ۲۰۰۴، accessed August ۲۹، ۲۰۰۵)
Thelwall، M. (۲۰۰۰a). Web impact factors and search engine coverage. Journal of Documentation، ۵۶، ۱۸۵-۱۸۹.
Thelwall، M. (۲۰۰۱). A web crawler design for data mining، Journal of Information Science ۲۷(۵)، ۳۱۹-۳۲۵.
Thelwall، M. (۲۰۰۱b). The responsiveness of search engine indexes. Cybermetrics، ۵(۱)، paper ۱. <http://www.cindoc.csic.es/cybermetrics/articles/v۵i۱p۱.html> (accessed September ۱، ۲۰۰۵)
Thelwall، M. (۲۰۰۳). What is this link doing here? Beginning a fine-grained process of identifying reasons for academic hyperlink creation. Information Research، ۸(۳).
<http://informationr.net/ir/۸ -۳/paper۱۵۱.html> (accessed September ۱، ۲۰۰۵)
Thelwall، M. (۲۰۰۵). Link analysis: An information science approach. San Diego: Academic Press.
Vaughan، L. (۲۰۰۴). New measurements for search engine evaluation proposed and tested. Information Processing and Management، ۴۰ (۴)، ۶۷۷-۶۹۱.
Van Couvering، E. (۲۰۰۴). New media? The political economy of Internet search engines. Paper presented at the Annual Conference of the International Association of Media & Communications Researchers، Porto Alegre، Brazil.<http://personal.lse.ac.uk/vancouve/IAMCR-CTP _SearchEnginePolitical Economy_EVC_۲۰۰۴-۰۷-۱۴.pdf> http://personal.lse.ac.uk/vancouve /IAMCR-CTP_SearchEnginePoliticalEconomy_EVC_۲۰۰۴ -۰۷-۱۴.pdf> (accessed September ۳، ۲۰۰۵)
Veronis، J. (۲۰۰۵a). Google’s missing pages. Mystery solved? Technologies du Langage. <http://aixtal.blogspot.com/۲۰۰۵/۰۲/web-googles -missing-pages-mystery.html>
(updated February ۸، ۲۰۰۵،accessed October ۱۷، ۲۰۰۵)
Veronis، J. (۲۰۰۵b). Google: A snapshot of the update. Technologies du Langage. <http://aixtal.blogspot.com/۲۰۰۵/۰۳/google-snapshot-of -update.html> (updated
March ۲۵، ۲۰۰۵، accessed October ۱۷، ۲۰۰۵)
Whatis.com (۲۰۰۲). Googling.<http://searchwebservices.techtarget.com/sDefinition/۰،،sid۲۶_gci۷۹۹۳۶۷،۰۰.html> (updated March ۹، ۲۰۰۲، accessed September ۱، ۲۰۰۵)
Wikipedia (۲۰۰۵). Google bomb.<http://en.wikipedia.org/wiki/Googlebomb> (updated August ۲۹،۲۰۰۵، accessed September ۱، ۲۰۰۵)
Wouters، J. J. (۲۰۰۴). Searching for disclosure: How search engines alert consumers to the presence of advertising in search results.<http://www.consumerwebwatch.org/news/paidsearch/finalreport.pdf> (accessed September ۱، ۲۰۰۵)
WWW۱۰ Panel (۲۰۰۱). Search: Beyond the keyword interface. At The ۱۰th International World Wide Web Conference، Hong-Kong، May ۲۰۰۰. Outline.<http://www۱۰.org/program/w۱۰-panel.shtml> (accessed September۱، ۲۰۰۵)
Yahoo (۲۰۰۵). Help: Using meta search words to find specific URLs، subpages، link popularity and more. http://help.yahoo.com/help/us/ysearch/tips/tips-۰۸.html (accessed ۲۹ August، ۲۰۰۵).

پانوشتها:


[۱] International Journal of Scientometrics، Informetrics and Bibliometrics ISSN ۱۱۳۷-۵۰۱۹، VOLUME ۹ (۲۰۰۵): ISSUE ۱. PAPER ۲
[۲] Judit Bar – Ilan
[۳] rezarajab_beglou@yahoo.com
[۴] Multidisciplinary
[۵] Thelwal
[۶] Albert، Jeong & Barabasi،
[۷] SocSciBot
[۸] Crawler
[۹] CYBER metrics
[۱۰] Spink
[۱۱] Jansen
[۱۲] Huberman & Adamic،
[۱۳] Broder
[۱۴] Fetterly
[۱۵] http://www.archive.org
[۱۶] Sullivan
[۱۷] http://www.teoma.com
[۱۸] http://beta.exalead.com/search
[۱۹] Comscore
[۲۰] Stability
[۲۱] ‌Timeliness
[۲۲] snapshot
[۲۳] Brewington and Cybenko’s (۲۰۰۰) (a،ß)-currency measure.
[۲۴] Timeouts
[۲۵] Spammers
[۲۶] Placement
[۲۷] Inlinks
[۲۸] Anchors
[۲۹] Snippet
[۳۰] Cached results
[۳۱] Cyber Atlas
[۳۲] Globalstats
[۳۳] API (application programming interface )
[۳۴] Partial Results
[۳۵] NEAR
[۳۶] ADJACENT
[۳۷] Relative links
[۳۸] Embedded content links
[۳۹] WWW۱۰ Panel، ۲۰۰۱
[۴۰] Stemming
[۴۱] Truncation
[۴۲] Wildcard
[۴۳] Case sensitivity
[۴۴] Co-word
[۴۵] Lycos
[۴۶] Ambrogi
[۴۷] Lawrence and Giles
[۴۸] Sullivan
[۴۹] Price
[۵۰] Cheney and Perry
[۵۱] Snyder and Rosenbaum
[۵۲] Djibouti
[۵۳] Suriname
[۵۴] Notess
[۵۵] Rousseau
[۵۶] Hotbot
[۵۷] Snap
[۵۸] stability
[۵۹] Wouters
[۶۰]placement
[۶۱] inclusion
[۶۲] Searchenginewatch forum
[۶۳] Mettrop & Nieuwenhuysen
[۶۴] Linkdomain
[۶۵] Meta – word
[۶۶] Hebrew
[۶۷] Peres
[۶۸] Rabin
[۶۹] Rabin Peres
[۷۰] Veronis
[۷۱] Exclusion
[۷۲] help pages
[۷۳] Locate
[۷۴] Northern Light
[۷۵] Olsen
[۷۶] Wikipedia
[۷۷] Prince Harry
[۷۸] Cached Copy
[۷۹] Active Page
[۸۰] Lycos
[۸۱] Header text
[۸۲] Mirror Site
[۸۳] PDF
[۸۴] Duffez
[۸۵] MyDoom Worm
[۸۶] Shim & Kanellos،
[۸۷] French، ۲۰۰۴
[۸۸] AltaVista’s email answer to Alastair Smith’s query ۱۹۹۹
[۸۹] Introna and Nissenbaum)۲۰۰۰)
[۹۰] sponsored links
[۹۱] Van Couvering (۲۰۰۴)
[۹۲] Paid inclusion
[۹۳] competing pages
[۹۴] SEMPO
[۹۵] Janes
[۹۶] Daterange
[۹۷] Julian
[۹۸] Google’s advanced
[۹۹] Dogpile
[۱۰۰] Amanda Spink and Jim Jansen
[۱۰۱] Vaughan
[۱۰۲] Fagin
[۱۰۳] Levene and Mat-Hassan
[۱۰۴] clustering
[۱۰۵] Gutman
[۱۰۶] Guggenheim
[۱۰۷] http://www.google.com/apis
[۱۰۸] http://developer.yahoo.net
[۱۰۹] Backlinks
[۱۱۰] Callishain
[۱۱۱] Navigation
[۱۱۲] Snippets
[۱۱۳] Dialog
[۱۱۴] Web of Science
[۱۱۵] Lennart Bjorneborn
[۱۱۶] Webomet
منبع : نما مجله الکترونیکی پژوهشگاه اطلاعات و مدارک علمی ایران


همچنین مشاهده کنید