جمعه, ۱۰ فروردین, ۱۴۰۳ / 29 March, 2024
مجله ویستا

انتظارات دربرابر واقعیتها : ویژگیهای مورد نظر موتورهای جستجو برای تحقیقات شبکه در اواسط سال ۲۰۰۵


انتظارات دربرابر واقعیتها : ویژگیهای مورد نظر موتورهای جستجو برای تحقیقات شبکه در اواسط سال ۲۰۰۵
● چکیده
تحقیقات شبکه براساس داده هایی از شبکه یا درباره آن مبتنی شده است . اغلب داده های جمع آوری شده ، توسط موتورهای جستجو صورت می گیرد . در این مقاله ما " لیست آرزویی " مان را برای موتور جستجو مناسب و ایده آل توصیف کرده ایم ، و نیاز به ویژگیهای بخصوص تشریح شده ، و اینکه موتورهای جستجوی عمده کنونی موجود می توانند ، حداقل تا اندازه ای ، نیازمندیهای یک ابزار جستجویی مطلوب و نهایی را برآورده سازند آزمایش شده است . ابزارهای جستجویی عمده تجاری هستند و بسوی کاربر " حد متوسط " متمایل شده اند نه بسوی محققین شبکه ، بنابراین قادرنیستند همه درخواستها را برآورده سازند . یك راه حل ممکن برای جامعه تحقیق بکارگیری بودجه لازم ، منابع ، و دانستن اینکه چگونه ابزار جستجویی تحقیق مدار ایجاد نمایند ، می باشد .
● مقدمه
با وجود اینكه شبکه تنها ۱۵ سال است که بوجود آمده است ، یک منبع اطلاعاتی عمده و رسانه ارتباطی شده است و تاثیر خود را بر رفتار اطلاعاتی و ارتباطاتی هم در زندگی روزمره و هم در زندگی علمی داشته است . تحقیقات شبکه ای چند رشته ای[۴] است . این تحقیقات بطور گسترده ای توسط دانشمندان رایانه و اطلاعات ، جامعه شناسان ، اقتصاددانان ، زبان شناسان ، روانشناسان ، دانشمندان ارتباطات و دیگران صورت می پذیرد . به منظور انجام مطالعه بر روی شبکه ، بیشتر محققان نیازمند داده هستند . بعضی از محققین قادرند ( ازهر دو لحاظ فنی و اقتصادی ) ابزارهایی برای جمع آوری داده های ضروری را از شبکه ایجاد نمایند . سوسیبات[۷] توسط تیم ثلوال توسعه یافته است و برای هر کسی که منابعی دارد که می تواند توسط خزنده[۸] اداره شود و بروندادهای آن قابل ذخیره باشند ، و نتایج جستجوهای ویژه برای بارگیری در دسترس است ، بصورت رایگان قابل استفاده است. دیگران به اندازه كافی خوش شانس بودند تا به داده های جمع آوری شده توسط ابزارهای جستجو تجاری دسترسی داشته باشند . بعضی از مطالعات شبكه ای توسط محققانی كه در مورد موتورهای جستجو كار می كردند اجرا شده است ، بنابراین آنها می توانستند به شبكه خزیده یا به داده های پایگاه داده موتورهای جستجو دسترسی یابند .
دیگر محققین به آنهایی كه خوش شانس و مبتكر بوده اند و می توانستند رایگان به ابزارهای بازیابی اطلاعات دسترسی داشته باشند ، غبطه می خورند : به موتورهای جستجو ، یا به پایگاههای داده پروژه های نگهداری شبكه . امروزه پروژه های نگهداری شبكه نیز دسترسی محدودی بوجود آورده اند ( بدلیل مشكلات حق مولف ) یا حداقل ابزارهای بازیابی و یا غیر متنی را فراهم می نمایند ، بنابراین برای استفاده تحقیقات شبكه بسیار محدودند . لذا بهترین ابزارهای جستجوی رایگان موتورهای جستجو هستند . چشم انداز موتورهای جستجو در سالهای اخیر تحت تغییرات عمده ای قرار گرفته اند ، و معمولا تنها چند بازیگر عمده معدود وجود دارد گوگل، یاهو ، اسكجیوز/ تئوما[۱۷] ، و ام.اس.ان. . در این مقاله ما گوگل ، یاهو و ام.اس.ان. را در نظر گرفته ایم ( هم اكنون اسكجیوز/ تئوما تعدادی از ویژگیهای عمده تحقیقات شبكه ای ، مثل پیوند به صفحات را دارانیست ) . اگزالید[۱۸] تازه واردی به صحنه جستجو است و تنها چیزی كه باقی می ماند اینست ، ببینیم چگونه در آینده توسعه می یابد . موتورهای جستجوی اضافی با قابلیتهای بخصوص و مرتبط به تحقیقات شبكه ای ، میتواند وجود داشته باشند ، اما به عقیده ما پوشش ابزارهای جستجو یك ویژگی مركزی است ( مثلا در این مورد ، اندازه فرق می كند ) و بنابراین آزمودن ابزارهای جستجو تنها محدود به این موتورهای جستجو می شود . با توجه به کامسکور[۱۹] ( ۲۰۰۵) ، گوگل ، یاهو و ام.اس.ان. با هم و در مجموع ۵/۸۲ % از نتایج شبكه ای در جولای ۲۰۰۵ را تشكیل داده اند .
نمای كلی مقاله بدین ترتیب است : اول ویژگیهای مطلوب را فهرست كرده و اهمیت آن را برای تحقیقات شبكه ای توضیح می دهیم . بعد آزمایش می كنیم كه آیا سه موتور جستجویی كه در بالا ذكر شدند این التزامات را به انجام می رسانند و در نهایت دریافتمان را از یافته ها به بحث می گذاریم . موتورهای جستجو بطور مداوم درحال تغییرند ، بنابراین می خواهیم بر این نكته تاكید داشته باشیم،‌ مواردی كه درباره این ابزارها بدست آمده بر اساس یافته های ما در اواسط آگوست ۲۰۰۵ می باشد . برای پشتیبانی یافته ها ، ما هر مثالی را كه در مقاله ارائه شده ، ذخیره و‌ مستند كرده ، و نسخه های ذخیره شده مثالهای جستجو و دیگر مستند سازیهایی كه مقاله بر اساس آن شكل گرفته در اختیار علاقمندان قرار داده می شود .
● انتظارات – لیستی از معیارها برای موتورهای جستجو :
۱) پوشش
اگر بدنبال تولید معیارهای کمی باشیم ، سپس پوشش ابزار جستجو باید همسان ( همه دامنه های موجود) و جامع باشد . این برای معیار سنجش اندازه سایت یا دامنه و یا رویت پذیری آن ضروری است . ( مثلا تعداد لینکهای داخلی و خارجی ) ، اما الزامات اساسی برای نمونه گیری سایتها و صفحات وب می باشد . این خواسته بطور ۱۰۰ درصد قابل دستیابی نیست : صفحات وب جدید بطور پیوسته ایجاد میشوند و غیر ممکن است آنها را بطور مداوم ذخیره کرد . هنوز می خواهیم موتور کاوش تا حد ممکن ، بسیاری از صفحات وب را پوشش دهد .
۲) پایایی [۲۰]
با توجه به به واژه نامه آکسفورد پایایی " مقداری است که یک معیار در شرایط یکسان و برابر بطور مستمر نتایج هماهنگ و موزونی بوجود می آورد " . برای اینكه قادر به کار کردن با این موتورهای جستجو باشیم ، مجموعه نتایج باید برای یک دوره کوتاه زمانی ( مثلا یک ساعت یا یک روز ) پایدار( یا تقریبا پایدار) باشد . این که نتایج جستجو در طول زمان تغییر می کند ، قابل پذیرش است ، زیرا تغییرات پویا در شبکه رخ می دهد و پایگاه داده موتورهای جستجوی بروز میشوند . هرچند ، هنگامی که مشخص شوددلایل تغییرات عمده ، با دلایل ذکر شده در بالا بوجود نمی آیند ، اگر نوسانات عمده ای در نتایج بازیابی بوجود آید ، قابل پذیرش نیست .
۳) مستندسازی شفاف ، بی پرده و واضح
شرکتهای موتورهای جستجو باید بطور واضح استفاده کنندگان خود را از ویژگیها ، قابلیتها و رویكردها و روشهای عملیاتی مطلع سازند و بی وقفه هر مشکلی را در ارتباط با ابزار جستجویی اعلام دارند . به منظور این كه قادر باشیم از نتایج ابزارهای جستجویی برای تحقیقات اینترنت استفاده كنیم ، ضروری است که ویژگیهای موتورهای جستجو با توجه خصوصیات ذكر شده عمل نماید و اگر استفاده کنندگان از این ویژگیها آگاه نیستند باید هر چه زودتر مطلع شوند .
۴) بهنگام بودن[۲۱]
پایگاه داده موتورهای جستجو باید بطور متناوب بروز شوند ، تا تصویر فوری[۲۲] که موتورهای جستجو از شبکه دارند ، باید هرچه بیشتر شبیه به واقعیت شبکه باشد . تازگی پایگاه داده با معیار ( آلفا و بتا) بریوتون و سیبنکو [۲۳] ، قابل اندازه گیری است .
۵) نمایه سازی تمام مدرك
هنگامی که قصد ما ایجاد لیستی جامع ازمدارك است ، داشتن یک ویژگی معین مبتنی بر متن ، سپس حتی اگر عبارت جستجو در پائین مدرك ظاهر شود( مثلا در منابع كتابشناختی )مدرك باید بخشی ازاین لیست باشد .
۶) زمان پاسخگویی ، دسترس پذیری
وقفه ها[۲۴] می توانند باعث مشکلات پایایی شوند ،زیرا این وقفه ها ممکن است تعداد نتایج بازیابی را تغییر دهند( كه اغلب بدون اینکه موتور جستجو اطلاعاتی درباره تغییرات ناگهانی در نتایج ، گزارش نمایند ، همراه است ). یک ابزار جستجو كه غیر دسترس پذیر یا دارای وقفه های زیادی است ، تداخلهای زیادی در فرایند جستجو ایجاد می نماید . زمانیکه شبکه به خودی خود پویاست واجب است که همه جستجوها برای یک تحقیق معین در کوتاهترین بازه زمانی ممکن انجام شود .
۷) عینیت – بدون تاثیر از عوامل تجاری و بدون تاثیربرمحیط
ما بدنبال ابزاری کامل می گردیم که به هیچ وجه سوگیری نداشته باشد و ما را قادر سازد تا شبکه را درحالیکه از این ابزار استفاده می کنیم ، مورد مطالعه قرار دهیم ، و نه بررسی تصویری که از طریق " چشمهای موتور جستجو " به ما رسیده است ،‌ بپردازیم . این درخواست مطلوب ماست . هدف واقعی ما نزدیک شدن به این وضعیت است . موتور جستجو باید ابزاری باشد که اجازه دهد تا از طریق آن به اطلاعات دسترسی داشته باشیم . موتور جستجو نباید خود شبکه را تحت تاثیر خود قرار دهد .
۸) همه نتایج گزارش شده باید قابل بازیابی باشند
شمارش مدارك و واژه ها اغلب برای تحقیقات شبکه ای نارساست ( مخصوصا وقتی که این تعداد غیر قابل اعتماد باشند ) . برای مطالعه خود مدارك ، مجبوریم به آنها دسترسی داشته باشیم . بنابراین دانستن اینکه مثلا ۱۱۲۰۳۳۴۹ صفحه وجود دارد که موتور جستجو بعنوان مدرک مرتبط با جستجو نشان داده ، اما قادر به دسترسی به تنها ۱۰۰۰ نتیجه از آنهاست ، رضایت بخش نیست . توانایی بازیابی تمام مجموعه نتایج ، و نه تنها ۲۵۰ یا ۱۰۰۰ مدرک اول برای تحقیق شبکه ای موفق ، ضروری است .
۹) رتبه بندی ، گزینه های مختلف دسته بندی
بسته به موضوع تحقیق ، همیشه نمی خواهیم به نتایج جستجو بنگریم ، و اغلب نمی توانیم ( معمولا، موتورهای جستجو تمامی مجموعه نتایج را نشان نمی دهند ). در این موارد رتبه بندی بسیار مهم می شود . الگوریتم رتبه بندی رازی است كه بخوبی حفظ شده است ،هم بخاطر رقابت و هم بخاطر اسپم کنندگان[۲۵] بالقوه . در یک ابزار جستجوی مطلوب ، محققین شبکه باید قادر باشند مولفه هایی را که در رتبه بندی تاثیر می گذارند ، بکار گیرند ( از قبیل تاریخ ، وزن واژگانی ، مکاندهی[۲۶] ، پیوندهای خارجی [۲۷]، لنگرها[۲۸] .)
۱۰) نمایش انعطاف پذیر برونداد
اینجا ، منظور ما توانایی انتخاب تعداد نتایج در هر صفحه ، چه اطلاعاتی نمایش داده شود ( مثلا فقط مکانیاب جهانی شبکه، جزئیات[۲۹] ، اندازه ، عنوان ، مکانیاب جهانی شبکه ، زبان ) آیا نتایج باید خوشه بندی شوند یا نه ، و آیا نمونه ای از صفحات هر وب سایت نمایش داده شود( این گزینه انقضاء سایت نامیده میشود ). التزام بعدی قادر بودن به انجام تنظیمات می باشد. مرور آسان مجموعه نتایج نیز مورد نیاز است ، مثلا توانایی پرش سریع به رویت مدرک ۸۴۵ .
۱۱) نتایج پنهان[۳۰]
توانایی رویت نتایج پنهان ویژگی مفید دیگری است . به محقق کمک می کند تا بداند چرا مدرک بازیابی شده است ( اغلب صفحات بین زمانی که توسط موتورهای جستجو رویت شده و زمانیکه توسط استفاده کننده رویت می شوند ، تغییر می نماید ) . بعلاوه ، اگر زمانیکه میزبان صفحه موجود نیست یا قابل دسترس نیست ، فرد قادر خواهد بود نسخه پنهان را ببیند .
۱۲) کیفیت بازیابی بالا در زبانهای غیرانگلیسی
این مورد بسیار مشکل ساز است : وقتی که در سال ۲۰۰۰ حدود ۷۰% صفحات شبکه به زبان انگلیسی ، تخمین زده شده اند ، در سال ۲۰۰۴ دو سوم استفاده کنندگان از شبکه متکلم غیربومی زبان انگلیسی هستند . تحقیقات بازیابی اطلاعات بطور فزاینده ای بسوی زبان انگلیسی در حال حرکت است . موتورهای جستجوی اصلی ، استفاده کنندگان را قادر می سازند تا به زبانی غیر از زبان انگلیسی و به خوبی آن جستجو نمایند ، و معمولا بدلیل عدم رضایت از ابزارهای جستجویی در زبانهای بومی ، این ابزارها که در اصل برای بازیابی در زبان انگلیسی توسعه یافته اند ، برای جستجو در دیگر زبانها نیز بکار می روند (البته استثناهایی وجود دارد ، مثلا زبان روسی ). برای زبانهایی که درآن ترکیبات ، صرف فعل و پیشوندها بسیاراستفاده می شوند و برای بازیابی در زبان انگلیسی پایه ماشینی دارند ، بسیار دور از شایستگی است . تحقیقات شبکه الزاما بر روی انگلیسی تمرکز ندارد ، و بازیابی اطلاعات باید بطورکلی در دیگر زبانها نیز به خوبی زبان انگلیسی باشد .
۱۳) رابط اعمال برنامه ریزی[۳۳] در دسترس
یك رابط اعمال برنامه ریزی ( ای.پی.آی.) قابل دسترس ، محلی سازی و توسعه مفید ابزارها و رابطهای مبتنی بر ویژگیهای قابل دسترس موتورهای جستجو، را ممكن می سازد.
۱۴) جستجوهای تمام بولی ، گوناگونی عملگرها
نیازی به تشریح این ویژگی نیست . این ویژگی به محقق اجازه می دهد تا جستجوها با نیازهای وی ، متناسب شوند . واژگان جبری ، و ، یا ، و نه مجموعه ای کامل از عملگرها هستند ،هر گزاره جبری می تواند بعنوان ترکیبی از گزاره ها که فقط با این عملگرها مرتبطند ظاهر شوند . این ترکیبات استفاده از پرانتز را ضروری می سازد . بنابراین ما نه تنها نیازمند به و ، یا ، و نه هستیم بلکه به طریق دیگری ( پرانتز یا ستفاده دوباره از نتایج نسبی[۳۴] ) به منظور قابلیت بیان کامل جبری ، نیاز داریم . هرچند این نیز کافی نیست ، برای بازیابی متن نیازمندعملگرهای اضافی مثل جستجوی عبارتی ، قرابت[۳۵] یا همجواری[۳۶] می باشیم( با تعاریف منعطف ، اینکه این عملگرها چه معنی می دهند). همچنین نیازمند آنیم تا قادر باشیم جستجوهای مستقل نه را برای تخمین اندازه انجام دهیم .۱۵) قنون پیشرفته برای بازیابی داده برای تحلیل پیوند
شبكه از پیوندها و گره ها ساخته شده است . پیوندها بصورت فعال در تعدادی از دامنه ها بررسی شده اند : تحقیق درباره ساختار شبكه ، تكامل آن و ایجاد جوامع و شبكه های اجتماعی در وب ، راههای اصلاح بازیابی اطلاعات ، استفاده از نشانگرهای مبتنی بر پیوند و خصیصه های ساختار پیوند ،چنین مطالعاتی متكی بر داده های مربوط به پیوندهاست . اساسی ترین ویژگی به صفحه مخصوصی مرتبط است . پیوندهای به یك سایت یا یك سایت فرعی اغلب مورد توجه است ، و بطور عمومی تر ، می خواهیم قادر باشیم تا مجموعه صفحات لنگری و مجموعه صفحات هدف را تعریف نماییم . بعضی مواقع به تعدادی از صفحات پیوند دهنده به صفحه ای ، سایتی یا مجموعه ای از صفحات علاقه مند هستیم ، اما بعضی مواقع تعداد واقعی پیوندها مدنظر ماست (مثلا اگر چندین پیونداز منبع به مجموعه هدف وجود داشته باشد،ابزاری برای شمارش صفحات ،‌ با تعدد زیاد میخواهیم). باید قادر باشیم ، چگونگی اداره پیوندهای نسبی[۳۷] را معین نمائیم . قدم بعدی به جلو داشتن حداقل یك سری خصوصیات پیوندها خواهد بود. پیوندهای ناوبری ، پیوندهای جاسازی شده محتوا[۳۸] ، پیوند درون لیستها و بدست آوردن اطلاعاتی در مكاندهی پیوند.
۱۶) گوناگونی توضیحگرهای جستجو
پیش فرض اصلی مااین است كه محققین می دانند كه چه می خواهند ، و قادرند ویژگیهای مختلف را درك نمایند و گزینه صحیح را برای حل مشكل موجود انتخاب نمایند . این باآنچه كه توسعه دهندگان موتورهای جستجو در باره عموم مردم می پذیرند، در تضاد است. برای اینكه قادر باشیم پرسشها را بطور دقیق تعبیر نمائیم ، نیازمند آن هستیم كه راههایی را برای محدود كردن جستجوها برگزینیم ، لیست نسبی محتوا : تاریخ ، دامنه ها ، زبانها، ناحیه جغرافیایی،قالب فایلها،مكاندهی در فایل ( مثلا عنوان ، مكانیاب جهانی منبع ، لنگرها ) و دامنه های ابرداده اگر و هنگامیكه در مدرك موجود باشند.
۱۷) ویژگیهای اضافی : ریشه یابی[۴۰] ، كوتاه سازی[۴۱] به چپ / راست ، نویسه عام[۴۲] ، حساسیت به حروف[۴۳] ، بررسی هجی ، انقضای سایت
ویژگیهای اضافی كه در بالا فهرست شد به محققین شبكه كمك می كند در تعبیر پرسشها بطور دقیق تری عمل نمایند . كوتاه سازی برای زبانهایی كه واژه های تركیبی و پیشوندها و پسوندها را دارند ، بسیار مهم هستند . این ویژگیها ، برای جنبه های زبانشناختی شبكه یا برای تحلیل هم واژگانی[۴۴] نیز مهمند .

۱۸) كمك جستجو : بازخورد ربط ، صفحات و جستجوهای مرتبط / مشابه ، شخصی سازی
داشتن این ویژگیها بسیار خوب است ، و به محققین شبكه كمك می كنند ، همانطوریكه تصور می شود برای عموم كمك خوبی هستند .
۱۹) قابلیت تركیب همه ویژگیها در یك پرسش واحد ( شامل تعداد نامحدود واژگان جستجویی )‌یا ایجاد مجموعه ها ،‌براساس نتایج پیشین (‌ مدل "ساختن بلوكها ")
این ویژگیها بسیار مهم هستند . این ویژگیها محققان را قادر می سازند تا پرسشهای دقیق تری را ایجاد نمایند .
۲۰)قابلیت جستجوی غیر متنی
مقاله بر بازیابی متنی تمركز دارد ، اما باید رسانه اضافی نیز به همانگونه محاسبه شود. قابلیتهای بخصوص برای جستجوهای چند رسانه ای برای تحقیق شبكه فراتر از دامنه تحقیق كنونی است .
● واقعیت – ویژگیهای موتورهای جستجو در گذشته و حال
۱) پوشش
در سال ۱۹۹۵ شبكه به اندازه كافی بی تجربه بود تا این ادعای لایكوس[۴۵] را بپذیرد كه " ۹۱% شبكه نمایه سازی شده است " . بعد از اینكه تحقیقات توسط بهارات و برودر و لاورنس و گیلز[۴۷] منتشر شد ، این ادعاها دیگر تكرار نشدند ، و ما بسادگی نمیتوانیم انتظار داشته باشیم كه ابزارهای جستجو جامعیت داشته باشند. هرچند ، " جنگ اندازه موتورهای جستجو شروع شده " وباادعای یاهو كه ۲/۱۹ میلیارد صفحه را نمایه سازی می نماید، در حالیكه گوگل با این ادعا ستیز می كند، به شدت ادامه دارد . چنسی و پری[۵۰] تعداد نتایج منعكس شده توسط گوگل و یاهو را حدود ۱۰۰۰۰ پرسش با كمتر از ۱۰۰۰ نتیجه مقایسه می نماید ، آنها آزمایش را دوبار اجرا كردند : در مطالعه اول گوگل ۲۷۰ درصد بیشتر از یاهو نتیجه منعكس كرد، درحالیكه در آزمایش دوم آنها فهمیدند كه گوگل ۶۵% بیشتر از یاهو نتیجه داده است ( دومین آزمایش بمنظور غلبه بر بعضی دغدغه های روش شناختی نامشخص انجام شد ) .
مشكل دیگر عدم یكسانی پوشش است . اسنایدر و روزنباوم[۵۱]نشان دادند كه حتی پوشش نسبی دامنه های عمده موتورهای جستجوی مختلف ،یكسان نیست. تلوال( ۲۰۰۰) پوشش دامنه های ملی بزرگ را آزمودو دریافت كه پوشش بسیار نا متوازن می باشد كه محاسبه عامل تاثیر شبكه بر اساس داده های فراهم شده توسط موتورهای جستجو ممكن نیست. نتایج اخیر نشان می دهد كه پوشش موتورهای جستجو هنوز نا متوازن است . ما برای "- kxht site:.hu"(بدون واژهkxht در دامنه مجارستان) در یاهو و گوگل ،‌وsite:hu-(kxht)" " در۱۳ ژانویه در ام.اس.ان. و دوباره در ۱۷جولای ۲۰۰۵ بااین پرسش site:hu -(kxht) جستجو را صورت دادیم . ما مجبور بودیم واژه های بسیار نادری را خارج نمائیم ، زیرا گوگل جستجوهای مجزا را برای سایتها در آن زمان پشتیبانی نمی كرد. دور سوم جستجوهادر۳ سپتامبر ۲۰۰۵ زمانی كه هر سه موتور جستجوهای نوع "site:.hu"(or "site:hu" for MSN) راانجام می دادند ،‌ صورت گرفت.
تشخیص تفاوتهای نسبی در پوشش دامنه ها بین موتورهای جستجو و همچنین بین رتبه بندی موتورهای جستجو برای پوشش وقتی دامنه ها یك به یك در نظر گرفته می شوند،بسیار ساده است. مورد دیگر، تغییرات عظیم در تعداد صفحات گزارش شده بین دو نقطه جمع آوری داده ، گوگل و ام.اس.ان. صفحات مجارستانی بسیار كمتری را در دفعه دوم گزارش نمودند، درحالیكه یاهو دو برابر بیشتر است و این مقدار وقتی برای سومین بار جستجو شد دوباره دو برابر شد . گوگل و ام.اس.ان. صفحات بیشتری از جیبوتی[۵۲] به نسبت سورینام[۵۳] در دو دور اول جستجو گزارش كردند درحالیكه نتایج یاهو خلاف این را نشان میداد . بنظر میرسد ام.اس.ان. به گوگل و یاهو در تعداد صفحات كانادایی نمایه شده توسط آنها می باشند ، درحال نزدیك شدن می باشد ، و در دور سوم جستجو یاهو با پوشش بیشتر صفحات كانادایی سبقت گرفته است ( حداقل این چیزی است كه گزارش شده است ) .
۲) پایایی
مثالهای گذشته درباره عدم اعتبار موتورهای جستجو شامل نتایج شمرده شده توسط آلتاویستا نیز میشود. روسو[۵۵] نوسانات روزانه را در تعدادی از نتایج بازیابی شده توسط آلتاویستا را گزارش میكند . این نوسانات با رشد مداوم تعداد نتایج گزارش شده توسط نورثرن لایت مقایسه شده است . بارایلان ( ۲۰۰۰) نوسانات روزانه شدیدی را در نتایج بازیابی شده توسط هات بوت[۵۶] مشاهده كرده زمانیكه با اسنپ[۵۷] مقایسه شده ، جائیكه هردو ابزار جستجو توسط اینكتومی اداره میشود . پایداری[۵۸] موتورهای جستجو در طول زمان می تواند با مجموعه ای از معیارهای پیشنهاد شده توسط بار ایلان ( ۲۰۰۲) اندازه گیری شود .
اغلب تعداد نتایج گزارش شده وقتی كه به سمت پائین لیست نتایج حركت می كنیم تغییر می كند . مثلا در گوگل جستجوی واژه “digifeed” در آگوست ۲۰۰۵ بین ساعت ۱۳:۵۱ و ۱۴:۰۰ شش بار صورت گرفت .
بار اول ، گوگل ۶۹۷ نتیجه را گزارش كرد ، و سپس ما به تمام مجموعه نتایج رفتیم ( شامل مواردی كه در اول حذف شده بود ) . این دفعه تعداد نتایج ثبت شده ۷۴۴ بود ، اما وقتی كه به سمت صفحه آخر حركت كردیم ، این تعداد به ۵۷۱ كاهش یافت . بعد از ذخیره صفحه ، به پرسش برگشتیم ، این بار تعداد نتایج به ترتیب ۱۰۳۰ ، ۱۰۷۰ و ۸۵۶ شدند . این نوسانات ، احتمالا به دلیل سرورهای متفاوتی است كه درخواستهای متفاوتی را كنترل می كنند ، ولی هنگامی كه جستجو در شبكه صورت می گیرد ، هنوز مشكل جدی ثابلیت اطمینان و پایایی موتورهای جستجو می باشد ۳) مستند سازی شفاف ، بی پرده و واضح
گزارش اخیر ( ووترز[۵۹] ،۲۰۰۴) عملیات فاش سازی موتورهای جستجو را به بحث گذاشته است ( بیشتر مرتبط با مكاندهی[۶۰] و شمول[۶۱] اختصاص داده شده )
متاسفانه موتورهای جستجو همیشه مشكلات را گزاش نمی نمایند . مثلا ، بار ایلان ( ۲۰۰۲) ثابت كرده كه گوگل تعداد واقعی صفحات پیوند داده شده به یك وب سایت كه توسط موتور جستجو نمایه سازی شده را گزارش نمی كند . تنها اخیرا گوگل به این مطلب اذعان داشته است . حتی وقتی موتورهای جستجو سوالات واضحی را دریافت می دارند ، همیشه زحمت دادن پاسخ رضایتمند را برخود نمی پسندند ، مثل موردی كه با هات بوت وجود داشت . بعضی مواقع فشار واقع شده بر موتورهای جستجو از طرف میزگرد موتورهای جستجو / متخصصان شبکه نتایج واضحتری را دریافت می دارد. موتورهای جستجو دلیل اینكه چرا آنها اسناد نمایه سازی شده را برای بعضی از پرسشهایی كه این مدارك باید نهایتا در بازیابی ظاهر شوند ، پاسخ نمی دهند . ( متروپ و نیوون هایسن[۶۳] ، ۲۰۰۱) مثلا پرسشی زیر را در گوگل در نظر بگیرید .
link: www.umu.se/inforsk/ISSI۲۰۰۵/
این سوال ۱۱ نتیجه را در ۲۹ آگوست ۲۰۰۵ گزارش كرد ( ۱۰نتیجه نمایش داده شد ) . پرسش مشابهlink:http://www.umu.se/inforsk/ISSI۲۰۰۵ در یاهو ۹۶ نتیجه را گزارش كرد ( ۹۵ نتیجه نمایش داده شد ) . دومین و سومین نتایج (می خواستیم حداقل دو مكانیاب متحد منابع را برای پوشش به نتایج نمایش داده نشده ، برداریم ) در صفحات یاهو توسط گوگل نیز نمایه سازی شده اند .
اغلب مستندسازی كه موتورهای جستجو فراهم می آورند ، قابلیتهای كلی موتورهای جستجو را منعكس نمی نماید. ویژگیهایی كه وجود دارد ذكر نشدند ، درحالیكه ویژگیهایی كه اعلام کرده اند ، بدرستی كار نمی كنند و یا وجود ندارند . مثلا ویژگی نشان دادن پیوند دامنه پیوند[۶۴] یاهو صفحاتی را كه به یك وب سایت پیوند داده شده است را بازیابی می كند ، هرچند فرا- واژه[۶۵] دامنه پیوند ( ویژگی بسیار مفیدی كه به تجزیه و تحلیل پیوند می پردازد ) در یاهو ذکر نشده است .
اخیرا پیوند یاهو و گزینه های دامنه پیوند بدرستی كار نمی كنند ( حداقل یكی از آنها – به بحث میزگرد سرچ انجینواچ مراجعه نمائید ، ۲۰۰۵) بعنوان مثال تعداد نتایجی كه یاهوبه پرسش
( ۵۳۶۰۰۰) link: http://www.huji.ac.il گزارش می كند در مقابل پرسش
( ۳۰۹۰۰۰) linkdomain: huji.ac.il در ۲۹ آگوست ۲۰۰۵ مقایسه شده است . چیزی بطور واضح اشتباه است ، وقتی كه همه پیوندها به صفحه خانگی دانشگاه هبرو[۶۶] اشاره می كنند باید در پرسش دامنه پیوند بخوبی منعكس شود . هر چند تا زمانی كه موتورهای جستجو ۱۰۰۰ نتبجه را نشان میدهند ، قادر نیستیم بررسی کنیم چه می گذرد. سعی كردیم تعدادی از سایتهای را كه تعداد پیوندهای داخلی كمی دارند را ( به منظور دانستن اینكه در آنها چه می گذرد ) آزمایش نمائیم ، اما قادرنبودیم نتایج مشكوكی را در این موارد تهیه نمائیم .
بعضی مواقع در گوگل بنظر میرسد در " عملیات ریاضی موتورجستجو " كمی ضعیف است . مثلا ، در ۲۹ آگوست ۲۰۰۵ در بین ۵ دقیقه پرسشهای زیر را انجام دادیم :
پرز[۶۷] =۲۹۳۰۰۰۰ نتیجه
رابین[۶۸] =۱۲۳۰۰۰۰ نتیجه
رابین پرز[۶۹]=۱۳۸۰۰۰ نتیجه
رابین یا پرز ۲۲۸۰۰۰۰ نتیجه ( كه باید درحدود ۴۰۲۲۰۰۰ = ۱۳۸۰۰۰- ۱۲۳۰۰۰۰+۲۹۳۰۰۰۰ باشد با پذیرش اینكه تعداد پیشین درست باشند ، اما در هر مورد تعداد نتایج باید بیشتر از ۲۹۳۰۰۰۰ باشد )
پرز – رابین =۱۵۴۰۰۰۰ نتیجه ( انتظار می رفت ۲۷۹۲۰۰۰ = ۱۳۸۰۰۰+۲۹۳۰۰۰۰ باشد )
رابین پرز = ۹۴۸۰۰۰ نتیجه ( این كاملا نزدیك به تعداد مورد انتظار نتایج ۱۰۹۲۰۰۰ = ۱۳۸۰۰۰- ۱۲۳۰۰۰۰ می باشد ) .
یك دلیل برای گزارش مساله برانگیز گزارش شده توسط یاهو یا گوگل ، می تواند این باشد كه از زمانیكه تعداد نتایج بوضوح ، بیشتر از تعداد مدارك نشان داده شده است ، تعداد نتایج فقط یك تخمین نادرست است .
همانطوریكه قبلا گفتیم ، قادر نبودیم مساله پیوند در برابر دامنه پیوند را در یاهو در دامنه های كوچك آزمایش نمائیم . هرچند برای گوگل ما می توانستیم مثالهای " كوچك " را بخوبی بیابیم . برای پرسشهای “digifee ” و " “transnova گوگل بترتیب ۷۹۲ و ۹۹۸ نتیجه را در ۳۰ آگوست ۲۰۰۵ گزارش نمود . پرسش" و" ۴ نتیجه را منعكس نمود ، هرچند برای پرسش " یا " ۳۶۵۰ نتیجه گزارش شده ، كه بیشتر از تعداد دو پرسش منفرد بود – دوباره اینجا مورد اشتباهی وجود دارد. ورونیس[۷۰] توضیح ممكنی را برای پاسخهای عجیب پرسشهای بولی گوگل فراهم نموده است ، هرچند بنظر می رسد او پیشنهاد كند كه این مشكلات تا پایان مارس ۲۰۰۵ حل شده باشد .ما جستجوهای مساله ساز را در پایان آگوست ۲۰۰۵ انجام دادیم .
ام.اس.ان. با شمول – ممانعت[۷۱] مشكل دارد . مثالهای زیر را در نظر بگیرید ، دوباره در ۳۰ آگوست ۲۰۰۵ : امریكا ( ۲۰۷۹۶۷۵۶۶ نتیجه ) ، اسرائیل ( ۳۳۴۲۴۶۶۹ نتیجه ) ، امریكا یا اسرائیل ( ۱۸۰۴۰۶۲۴۶ نتیجه ) . بنظر می رسد كه موتورهای جستجو همیشه مشكلاتی با عملیات ریاضی ساده دارند ، اینگورسن ( ۱۹۹۸) بیان میدارد كه تعداد نتایج گزارش شده توسط آلتاویستا را برای پرسش الف " و" ب با تعداد نتایج پرسش ب " و" الف یكسان نیست .
بعضی مواقع مستندسازی جزئی است ، مثلا شرح مفصلی برای الگوریتم رتبه بندی وجود ندارد ، اما برای این مورد گوگل توضیح منطقی و معقولی ارائه می دهد ( گوگل ، ۲۰۰۵ الف ) . از طرف دیگر الگوریتم ریشه یابی نامشخص بكار رفته توسط گوگل تاحدی حیاتی است : " زمان مناسب ، نه تنها برای واژه درخواستی شما جستجو صورت می دهد ، بلكه برای واژه هایی كه شبیه به واژه مورد نظر یا به همه واژه های مورد نظر جستجو صورت داده می شود "( گوگل ۲۰۰۵) . چه زمانی ریشه یابی مقتضی فراخواهد رسید ؟ ظاهرا برای واژه های مفرد در برابر جمع زمان مناسب وجود نخواهد داشت .
بنظر می رسد اهمیت زیادی به صفحات كمكی[۷۲] مبذول نشده است ، كه این صفحات بسختی مكانیابی[۷۳] می شوند ، مثلا پیوندی به منوی كمك یا مستندسازی برای صفحه جستجوی یاهو وجود ندارد .
(http://search.yahoo.com)
۴) بهنگام بودن
بعضی مواقع موتورهای جستجو برای بروز رسانی نمایه های خود یقینا با شكست مواجه می شوند ، مثل مشكلات گذشته ای كه از آلتاویستا و نورثرن لایت[۷۴] از در میان محققان گزارش شده است . ثلوال بررسی كرد كه برای موتورهای جستجو چقدر طول میكشد تا صفحات نمایه سازی نشده ای را كه پیوندهایی به آنها از صفحاتی كه قبلا به موتورهای جستجو ارائه شده ، نمایه سازی نمایند .
درمدخل ویكیپدیا[۷۶] برای پرنس هاری[۷۷] به چه سرعتی و چه مدت دوباره نمایه سازی میشود .
http://en.wikipedia.org/wiki/Prince_Harry_of_Wales
در ۱۲ ژانویه ۲۰۰۵ پرنس در لباس نازی ها در یک مجلس نمایش لباس ظاهر شد . مدخل ویکیپدیا ۲۵ بار این مدخل جنجالی را تا ۱۴ ژانویه ۲۰۰۵ بروز نموده است . گوگل نسخه پنهانی[۷۸] از ۲۱ دسامبر ۲۰۰۴ ( که در ۱۸ ژانویه ۲۰۰۵ دوباره بازنگری شده ) و نسخه بتا و پنهان ام.اس.ان. از ۹ ژانویه دارند . یاهو صفحه مورد نظر را در آن زمان پنهانی نکرده است . الان برای یک مثال بروز ، طوفان کاترینا ( که در زمان نگارش مقاله به تازگی نیواورلئان را درنوردیده است ) صفحه ای پویایی[۷۹] از ویکیپدیا در ۲۶ آگوست ۲۰۰۵ وجود دارد .
http://en.wikipedia.org/wiki/Hurricane_Katrina
نسخه جاری در آن زمان که نسخه هایی از موتورهای جستجو را بررسی می کردیم از ۲۹ آگوست ۲۰۰۵ موجود بود . گوگل هنوز صفحه مورد نظر را نمایه سازی نکرده بود ( اما وقتی در۳۰ آگوست ۲۰۰۵ دوباره بررسی کردیم ، صفحه توسط گوگل نمایه سازی شده بود ) ام.اس.ان. و یاهو نیز هردو نسخه پنهانی از ۲۷ آگوست داشتند .
۵) نمایه سازی کل مدرک
لایکوس[۸۰] عادت دارد که فقط عناوین ، سرعنوان متن[۸۱] ، و گزیده ای از ۲۰ خط اول را ، یا ۱۰% مدرک را با مجموعه کلید واژه هایی که از سند استخراج شده نمایه سازی نماید . بعضی منابع ادعا می کنند که گوگل کنونی تنها ۱۰۱ کیلوبایت اولی یک وب سایت را نمایه سازی می نماید ( سولیوان ، ۲۰۰۴ د) – ما قادر نبودیم این اطلاعات را از سایت گوگل بیابیم ( دوباره یک مورد عدم وضوح در اطلاع رسانی ) . آزمایش کوچک ما این ادعا را درژانویه ۲۰۰۵ وقتی که ما به صفحه http://www.gutlesspacifist.com/gp/archives/۲۰۰۴_۰۴.html
مراجعه کردیم اثبات می نماید ، اندازه حدود ۱۵۴ کیلوبایت ، و توسط گوگل نمایه سازی شده ، و نزدیک به پائین متن ذیل ظاهر شده بود : " جنگ باید نتیجه پاسخ به پشیمانی کنونی باشد " ( این متن در نسخه پنهانی نیز بخوبی ظاهر شد ) . وقتی که دنبال این عبارت جستجو شد ، گوگل دو نتیجه را بازیابی نمود ، اما صفحه ذکر شده بالا نبود . یاهو نیز صفحه را پنهانی کرده ، و برای عبارت بخصوصی بازیابی نمود : این برای نسخه بتا ام.اس.ان. یکسان بود . برای هر سه موتور جستجو با وارد کردن مکانیاب متحد منبع ، صفحه نشان میدهد که موتورجستجو آنرا نمایه سازی کرده است یا نه . زمانیکه آزمایش را در آگوست ۲۰۰۵ دوباره اجرا می کنیم ، ۱۵۴ کیلوبایت طول صفحه در نتیجه جستجو ظاهر می شود ، که بنظر میرسد گوگل متن بیشتری را به نسبت تصویر نسبته به قبل نمایه سازی می کند . این بار ما کتابهای الکترونیک پروژه گوتنبرگ در اخلاقیات توسط ارسطو به آدرس
http://www.gutenberg.org/dirs/etext۰۵/۸ethc۱۰.txt را آزمایش کردیم . – یک صفحه و چندین سایت جایگزین[۸۲] توسط گوگل نمایه سازی شده بود و ظرفیت آن نیز ۶۶۲ کیلوبایت بود ، هرچند همه نسخه های پنهان در ۵۱۴ کیلو بایتی ( و ناگهان در میانه جمله ) متوقف شده بودند ، و اگر ما برای یک عبارت در زیر این نقطه جستجو کنیم ، نمی توانیم آنرا بیابیم ، درحالیکه جستجوها در نقطه بالای متن موفقیت آمیز خواهند بود . نکته جالب توجه اینکه برای پرسش “Greek: hae peri ta aethae pragmateia aen dikaion esti prosagoreuen politikaen” ( نزدیک پایان کتاب ) ، نسخه پی.دی.اف[۸۳] اخلاقیات توسط گوگل بازیابی شد ، هرچند این پرونده های پی.دی.اف.ظرفیت ۷۳۰ کیلوبایت داشتند . بنابراین بنظر می رسد در میانه سال ۲۰۰۵ گوگل حدود ۵۰۰ کیلو از صفحات اچ.تی.ام.ال. را نمایه سازی می کند درحالیکه برای مدارک پی.دی.اف. این محدوده بیشتر است . دوفز[۸۴]( ۲۰۰۵) در آوریل ۲۰۰۵ گزارش کرد که گوگل شاید بیشتر از ۱۰۱ کیلو اولیه را نمایه سازی می نماید . ام.اس.ان. نسخه ۷ بیتی کتاب الکترونیکی http://www.gutenberg.org/dirs/etext۰۵/۷ethc۱۰.txt که ۶۶۲ کیلو ظرفیت دارد را نمایه سازی می کند و واژه های یونانی را در پایان کتاب بازیابی می نماید . حتی یاهو هم که نسخه های ۷ بیتی و ۸ بیتی را نمایه سازی می نماید هیچکدام از اینها را هنگامیکه واژه های یونانی جستجو میشده ، بازیابی نکرده است . یاهو تنها ۵۲۵ کیلو اولیه این فایلها را نمایه سازی می کند . موتورهای جستجو حداکثرظرفیت متن که برای یک صفحه وجود دارد را بیان نمی کنند ، بنابراین فقط می توانیم در باره این مساله تصور نمائیم .
۶) زمان پاسخگویی ، دسترس پذیری
گرچه گوگل تقریبا همیشه قابل دسترس است ، در جولای ۲۰۰۴ توسط ویروس مایدوم[۸۵] ویروسی شد و برای چند ساعت کار نمی کرد ( شیم و کانلوس [۸۶]۲۰۰۴) . بنظر میرسد یاهو در مورد تعداد درخواستها در یک چهارچوب زمانی محدود است ( فرنچ[۸۷] ۲۰۰۴) ، زمانیکه این محدودیت بیشتر می شود شخص پیغام "سرور مشغول است ، و دوباره امتحان کن " را بجای نتیجه واقعی دریافت می دارد . مشکل دیگر اینست که موتور جستجو نتایج جستجو را بدلیل وقفه هایی که گزارش نشده اند یا برای کاربر قابل توجه بوده اند ، نمایش نمی دهند.
۷) عینیت – بدون تاثیر عوامل تجاری و بدون تاثیر بر محیط
تمام صنعت بهبود موتورهای جستجو به منظور طراحی و دوباره طراحی صفحات وب که در واژه های جستجویی بخصوصی در موتورهای جستجو بخصوص افزایش یافته اند ، صورت می پذیرد . کاربران سعی می کنند از موتورهای جستجو " درخواست کنند " ، بنابراین بجای اینکه ابزارهای فاقد جسارتی باشند ، موتورهای جستجو عاملهای تاثیرگذاری در شبکه شده اند .
انترونا و نیسنباوم[۸۹] بطور مفصل و مشروح قدرت سیاسی موتورهای جستجوی عظیم را به بحث گذاشته اند . موتورهای جستجو ، تجاری هستند و مجبورند مزایای خود رانشان دهند ، بنابراین بطور طبیعی موضوعات عامه پسند را بطور گسترده تری پوشش می دهند ، که تبلیغات بیشتری بر روی آنها انجام شده است . با توجه به اینکه برنامه های تبلیغاتی عمده ( " پیوندهای پشتیبانی شده [۹۰] " بوسیله موتورهای جستجو تصاحب شده (Adwords توسط گوگل و Overture توسط یاهو ). ون کوورینگ[۹۱] اینکه " سیستم کنونی فراهم آوری خدمات پیوسته برای مردم خوب است " را به پرسش می کشاند .
شامل شدن در نمایه موتورها[۹۲] ، مورد بحث انگیز دیگری است – گرچه مكاندهی آنها را ضمانت نمی كند - سطح پوشش درستی از یسامد روزآمد رسانی را ضمانت می نماید كه برای شركت كنندگان در این برنامه ها مزایایی دارد . هم اكنون تنها یاهو برنامه امکان شمول را در میان چندین موتور جستجوی بحث شده دارد . زمانیكه برنامه در ماه مه ۲۰۰۴ معرفی شد موردی بسیار بحث برانگیز شد .
" گوگلینگ (Googling) " ( " جستجو كردن نام شخصی در گوگل كه به كوشش برای یافتن اطلاعات بیشتر درمورد وی منجر می شود " Whatis.com،۲۰۰۴) و " گوگل بمبینگ (Google bombing) " ( " تلاش برای تاثیر گذاری در رتبه بندی یك سایت در نتایج منعكس شده توسط گوگل " ، ویكیپدیا ، ۲۰۰۵) در فعالیتهای اجتماعی ، امری پذیرفته شده است . بارایلان ( بی تا ) صفحات رقابتی[۹۳] در مدخل ویكیپدیا در مورد یهود و صفحه خانگی jewwatch.com را مشخص نموده است .
گوگلینگ ، گوگل بمبینگ ، بهمراه بهینه سازی ترقی گونه موتورهای جستجو و صنعت بازاریابی ( سمپو[۹۴] ۲۰۰۴) نشانگر تاثیر موتور جستجو بر محیط خود می باشند . در دانشگاه واشینگتن ، حتی رشته گوگل وجود دارد ( " این یك پدیده اجتماعی شده است ، " جین[۹۵] ، ۲۰۰۴)
۸) همه نتایج گزارش شده قابل بازیابی باشند
هم اكنون همه موتورهای جستجویی كه در این مقاله بحث شده اند تعداد نتایج خود را به مقداری كه خود برای نمایش هر پرسش بخواهند ، محدود می كنند . گوگل و یاهو هزار نتیجه و ام.اس.ان. ۲۵۰ نتیجه نمایش می دهند . این مشكل می تواند با استفاده از فنون بخش بندی متفاوت ، تا حدی برطرف شود ( مثلا با دامنه و تاریخ ) . جستجوهای تاریخی می تواند از طریق " رابط نهایی گوگل " http://www.faganfinder.com/google.html ) برای این موتور ، اجرا شود ، هرچند گزینه محدود كردن تاریخ در گوگل ( حدفاصل تاریخی[۹۶] : استفاده از شكل تاریخی ژولین[۹۷] ) در مدتی پیش كار خود را متوقف كرده بود ( دوباره گزارش نشده است ) . هنوز در مرجع رابط اعمال برنامه ریزی گوگل مستند شده است ( گوگل ۲۰۰۵ ای ) بنابراین از طریق رابط اعمال برنامه ریزی ، قابل اعمال است . همان تعداد نتایج با حدفاصل تاریخی و بدون آن منعكس شده است : عملگر برای پرسش اطلاع سنجی: حدفاصل تاریخی به ۱ ژوئن و ۱ سپتامبر ۲۰۰۵ محدود شده است و جستجوها در ۱ سپتامبر انجام شده است . ابزار كمكی گوگل پیشرفته[۹۸] تاریخ را فهرست می نماید : توضیحگر( به فرد اجازه می دهد برای " منابع " در ۳،۶ و ۱۲ ماه جستجو صورت می دهد :
تعداد نتایج در ۶ و ۱۲ ماه بطور قابل توجهی كمتر از تعداد نتایج در ۳ ماه گذشته است ! . همه جستجوها بین سه دقیقه انجام شده ، و این عمل برای بررسی تعداد تکرار شده است . جستجوهای مشابه در یاهو پاسخهای غیر متناقضی را فراهم می نماید . جستجوهای پیوندی نمی تواند با هیچ گزینه ای در گوگل تركیب شود ، بنابراین محدوده كاری حدفاصل تاریخی ، نمی تواند برای شكستن نتایج به قطعات كوچكتر به منظور گرفتن بیش از ۱۰۰۰ نتیجه باهم تركیب شود . فرم جستجوی پیشرفته آلتاویستا می تواند برای جستجوهای محدود به تاریخ برای یاهو مورد استفاده قرار گیرد ( آلتاویستا توسط یاهو اداره می شود )
۹) گزینه های رتبه بندی ، دسته بندی مختلف
تنها ام.اس.ان. گزینه ای برای تاثیر در رتبه بندی نتایج جستجو دارد – فرد می تواند اسلایدهایی را برای تنظیم اهمیت دقت انطباق و نقاط پیوند به صفحات ، و با توجه به تاریخ صفحه ای كه به نمایه اضافه شده ، میتواند استفاده نماید . هرچند وقتی جستجو برای " كاترینا " صورت می گیرد و تنظیم تازگی به حداكثر انجام می شود و همه دیگرمولفه ها به حداقل كاهش می یابند ، اولین نتایج موردی است از ۳۰ آگوست ۲۰۰۵ ، درحالیكه موارد معدود بعدی از ۳۰ آگوست ۲۰۰۵ می باشند . نتایج بالای " تازگی " جستجو بندرت متفاوت از نتایج جستجوهای منظم برای كاتریناست .
موتورهای جستجوی متفاوت بطور قابل توجهی الگوریتمهای رتبه بندی متفاوتی را بکار می بندند . داگپایل[۹۹] ابزار زیبایی دارد که به استفاده کنندگان اجازه میدهد رتبه بندی نتایج را در ده نتیجه گوگل ، یاهو ، ام.اس.ان. و اسکجیوز را با یکدیگر مقایسه نماید .http://comparesearchengines.dogpile.com/index.aspx . آنها اخیرا مطالعه ای را درهمپوشانی مبتنی بر بیش از ۲۲۰۰۰ جستجو منتشر کرده اند ( داگپایل ۲۰۰۵) . مطالعه توسط تیمی که توسط آماندا اسپینک و جیم جینسن[۱۰۰] اداره شد ، به انجام رسید . ووگان[۱۰۱] بطور تجربی رتبه بندی موتورهای جستجو را با قضاوت انسانی مقایسه نمود . معیارهای متفاوتی برای مقایسه رتبه بندی توسط فاژین [۱۰۲]و دیگران و بارایلان ، لونس و مت – هسن[۱۰۳] معرفی شد .۱۰) نمایش برونداد بصورت منعطف
بعضی از احتیاجات توسط موتورهای جستجو به انجام رسیده اند . فرد می تواند گزینه انقضای سایت را در یاهو و ام.اس.ان. فعال و غیرفعال کند ( از طریق رابط آلتاویستای آن ) . موتورهای جستجو به استفاده کننده اجازه می دهند تعداد نتایج صفحه را تنظیم نمایند . هیچکدام از آنها تکنیکهای خوشه بندی[۱۰۴] را بکار نمی گیرند ( مثل موردی که در ویویسیمو http://vivisimo.com بکارگرفته شده ) و استفاده کنندگان نمی توانند شکل برونداد را برای نتایج فردی تغییر دهند . آنها به استفاده کننده اجازه می دهند ، فیلتر گذاری محتوای فحشاء را فعال و غیر فعال نمایند .
۱۱) نتایج پنهان
گوگل ، یاهو و ام.اس.ان. دسترسی به نسخه پنهان صفحات را پیشنهاد می کنند . گوگل و ام.اس.ان. نیز تاریخی که صفحات پنهان شده اند ، که ویژگی مفید اضافی را فراهم می نمایند.
۱۲) بازیابی با کیفیت بالا در زبانهای غیر انگلیسی
موتورهای جستجویی که در اینجا به بحث گذاشته شده اند ، فنون بخصوصی را برای ارتقاء نتایج برای زبانهای غیر انگلیسی بکار نمی بندند . برای زبان آلمانی ، بنظر می رسد گوگل بعضی تکنیکهای اضافی را بکار گرفته است .
۱۳) رابط اعمال برنامه ریزی در دسترس
هم اکنون گوگل[۱۰۷] و یاهو[۱۰۸] ای.پی.آی. را پیشنهاد می کنند .
۱۴) جستجوهای تمام بولی ، گوناگونی عملگرها
موتورهای جستجوی تجاری به " مردم" ارائه خدمت می کنند ، و مردم نمی خواهند از عملگرهای بولی استفاده نمایند ، و وقتی که از عملگرها استفاده می نمایند ، اغلب بطور کامل و صحیح از آنها استفاده نمی کنند . بنابراین جستجوهای تمام بولی ( اجازه به استفاده از پرانتز و دیگر فنون که تا از گزاره های ترکیبی استفاده نمایند ) در لیست عملیات موتورهای جستجو در درجه اول قرار ندارد . همانطور که قبلا دیدیم ، حتی " یا " مستقل بطور کامل و صحیح در گوگل عمل نمی نماید ، و پرانتز بی معنی است . حتی نتایجی که از " عملیات ریاضی ساده استفاده می کنند " ( + / -) بنظر می رسد بدرستی در گوگل کار نمی کند . انتظار می رود که تعداد نتایج برای پرسش " کارولینسکا " برابر با مجموع تعداد نتایج پرسش " کارولینسکا استکلهلم " و " كارولینسكا – استكهلم "‌ باشد ، هرچند نتایج بسیار متفاوت است ( ۸۲۳۰۰۰ در مقابل ۱۳۷۰۰۰۰ ) یاهو و ام.اس.ان. هیچ چیزی درباره پشتیبانی از پرانتز نمی گویند ، اما بنظر میرسد قابل اعمال باشند .عملگر قرابت یا همجواری توسط هیچکدام از موتورهای جستجو پشتیبانی نمی شوند ( آلتاویستا معمولا عملگر قرابت را بکار می گیرد ) . گوگل عملگر * دارد ( ۲۰۰۵) ، قرمز* آبی به این معنی است که قرمز و آبی با یک یا بیش از یک واژه از یکدیگر جدا شده اند . مورد جالب توجه اینست که کمتر از یکسال پیش ( گوگل ، ۲۰۰۴ ) از * به معنی دقیقا یک واژه جدا از هم بکار میرفته است ، بنابراین با معنی بود اگر" اطلاع سنجی * کتابسنجی " در مقابل " اطلاع سنجی * * کتابسنجی " جستجو می شد . معنی جدید عملگر * ، از آنجایی که ما می دانیم ، اینست که تنها " کتابسنجی اطلاع سنجی " و " اطلاع سنجی کتابسنجی " را ( بعنوان یک عبارت ) از مجموعه ای از نتایج برای اطلاع سنجی کتابسنجی (این بار نه یک عبارت جستجویی ) بیرون نگاه می دارد ، هرچند این مورد وجود نداشت ، و ما نمی توانستیم معنی این عملگر را کشف نمائیم .
نه ( یا یک " – " قبل از واژه جستجویی ) یک عملگر است ، که بعنوان یک عملگر مستقل مفید است . هم اکنون هم ام.اس.ان. و هم گوگل آنرا پشتیبانی می نمایند ، اما یاهو از آن پشتیبانی نمی نماید .
۱۵) فنون پیشرفته برای بازیابی داده برای تجزیه و تحلیل پیوند
قابلیتهای کنونی موتورهای جستجو برای بازیابی پیوندهای داده شده از یک وب سایت ، زمانیکه آلتاویستا و آل د وب هنوز خدمات مستقلی بودند (پیوندهای خارجی[۱۰۹]) ، بدتر از آنچه قبلا استفاده می شده ، می باشد . بنابراین عملگر پیوند (‌ : ) صفحاتی را بازیابی می نماید که پیوندهایی به صفحات مشخص داشته اند و در این مورد مقصد یک راهنما ست كه همه صفحات پیوند دهنده به هر صفحه ( نمایه شده توسط موتور جستجو ) در این راهنما وجود دارد ، گرچه این در صفحات کمکی بوضوح بیان نشده بود . گوگل قادر است بعضی از صفحات پیوند را بازیابی نماید و تنها به صفحات بخصوصی این پیوند صورت می گیرد ، و این جستجو نمی تواند با چیز دیگری ترکیب شود . در یاهو ، ویژگی مستند نشده دامنه پیوند و می تواند با دیگر واژه ها جستجویی ترکیب شود ، اما این به بازیابی پیوندها به صفحات میزبان مورد نظر کمک می نماید ، هرچند این جستجو عمل نمی نماید ، اگرمثلا ما بخواهیم پیوند هایی که به سایت رونالد روسو منجرشده است را به آدرس زیرمطالعه نمائیم .
http://users.pandora.be/ronald.rousseau/ و نخواهیم تنها به مطالعه صفحه خانگی بپردازیم ، اخیرا ، ام.اس.ان. عملگر دامنه پیوند ( : ) را به امکانات خود اضافه نموده است .
۱۶) گوناگونی توضیحگرهای جستجو
بعضی از محدودیتها ، مثلا محدود کردن جستجو به یک دامنه یا یک زبان وجود دارند . آنها همیشه قابل ترکیب نیستند . مثلا گوگل همه واژه های بعد از ۳۲ مین واژه را در یک پرسش نادیده می گیرد ( معمولا تنها ۱۰ واژه را در نظر گرفته ) . ام.اس.ان. بطور واضح محدودیت جستجو در ۱۰ واژه را دارد (مستند نشده است ) ، برای پرسش " ۱ ، ۲ ......۱۱" نتایجی وجود نداشت ، اما صفحه http://www.timeanddate.com/calendar/?year=۲۰۰۴&country=۱
توسط این موتور نمایه سازی شده است ، و صفحه پنهان شامل شماره هایی بین ۱ و ۱۱ است . بنظر میرسد یاهو محدودیت زمان پرسش نداشته باشد . همه موتورهای جستجو طول واژه ها را تا اندازه ای محدود می نمایند ( نوتس ۲۰۰۵) . راه آسانی برای جستجوهای محدود به زمان برای باهو ، رابط پشرفته آلتاویستا است كه برای این امر بسیار بهتر است . هم اكنون ام.اس.ان. جستجوی محدود به تاریخ را اجازه نمی دهد . بسیار مفید است اگر قادر باشیم در یك سایت یا دامنه ، بدون واژه های جستجو اضافی و یا با آن واژه ها جستجو نمائیم ( جدول ۱ را ببینید ) . این جستجو ها با جستجوهای پیوندی مركب در تحقیقات وب سنجی ظاهر می گردند . مثلا پرسش
linkdomain:issi-society.info -site:issi-society.info همه صفحاتی را كه به صفحات جامعه آی.اس.اس.آی. پیوند داده است را نشان داده ، درحالیكه خود پیوندها را از میان آنها خارج می نماید . ( كه اغلب برای اهداف ناوبری[۱۱۱] استفاده می شود ) . این پرسشها در گوگل به دو دلیل ممكن نیست ، این موتور عملگر دامنه پیوند را ندارد ، و حتی اگر پرسش
linkdomain:issi -society.info for link: www.issi-society.info/ را بكار بریم ( صفحه خانگی جامعه آی.اس.اس.آی. ) قادر نخواهیم بود صفحات خود پیوند را ، زمانیكه عملگر پیوند نمی تواند تركیب شود از صفحات خارج نمائیم . این محدودیتی جدی برای اجرای تحقیقات مبتنی بر پیوند می باشد .
۱۷) ویژگیهای اضافی : ریشه یابی ، كوتاه سازی ، چپ/راست نویسی ، نویسه عام ، حساسیت به حروف ، بررسی هجی ، انقضاء سایت .
هر سه موتور جستجو بعضی از انواع بررسی هجی را دارند ، همه آنها به حروف بزرگ حساس نیستند ، و ریشه یابی در آنها بی تاثیر است ( نوعی ریشه یابی در گوگل وجود دارد ، وضعیت دیگر موتورهای جستجو معلوم نیست ) . معمولا استفاده از نویسه عام یا دیگر وسایل كوتاه سازی را اجازه نمی دهند . یاهو ممكن است نوعی ریشه یابی را بكار بندد : گرچه تعداد نتایج بازیابی شده برای " سگ " و برای " سگها " متفاوت است ، در هر دو حالت " سگ " و " سگها " در جزئیات[۱۱۲] پررنگ شده است . از دیدگاه محقق بهتر است موتورهای جستجو به آنها اجازه دهند ریشه یابی ، حساسیت به حروف و كوتاه سازی فعال یا غیر فعال شود . معمولا فرد می تواند انقضای سایت را در ام.اس.ان. و یاهو فعال و غیر فعال نماید ، اگر رابط التاویستا بكار گرفته شود ( حداكثر دو صفحه از یك سایت ) .
۱۸) كمك جستجو : بازخورد ربط ، صفحات و جستجوهای مشابه / مرتبط ، شخصی سازی
گوگل گزینه ای برای بازیابی " صفحات مشابه " به یك صفحه بخصوص دارد ; هرچند این ویژگی استفاده محدودی دارد ، اما بنظر میرسد در مقایسه با تجربه قبل ما با این ویژگی ، در حال توسعه است . در ۳ سپتامبر ۲۰۰۵ صفحاتی كه بطور منطقی با صفحه خانگی رونالد روسو مرتبط بود ارائه شد ، اما هنگامیكه بدنبال صفحات مرتبط با تعریف " chunnel " در ویكیپدیا ( اسم مستعار انگلیسی channel ) رفتیم ، نتایج بسیار نا امید كننده بودند .
یاهو چیزی در امتداد خطوط مرتبط با جستجوها پیشنهاد می كند ، برای موضوعات وسیع ، لیستی از پرسشها در زیر واژه " نیزسعی كنید " آورده میشود . برای " اطلاعات " لیست كاملی از جستجوها شامل بیش از صد پیشنهاد ، شامل " اطلاعات درباره زندانیهای بخش آشپزی " ، اما نه شامل " بازیابی اطلاعات " آورده می شود ( احتمالا مردم بیشتر " اطلاعات درباره زندانیهای بخش آشپزی " را به نسبت " بازیابی اطلاعات " جستجو كرده اند . ام.اس.ان. به ما اجازه می دهد تا " اطراف رتبه بندی را نیز امتحان " نمائیم ( موثر بودن این گزینه باید بیشتر مورد تحقیق قرار گیرد ) .
شخصی سازی موضوع داغی است . گوگل اخیرا خدمت " جستچوی شخصی شده " را معرفی كرده است ، جائیكه شخصی سازی بر اساس تاریخچه جستجوی كاربر مبتنی است . این ویژگی شاید برای تحقیقات شبكه مفید باشد ( بعنوان راهی برای دریافت صفحات " بهتر" در بین ۱۰۰۰ نتیجه بازیابی شده ) ، هرچند مفید بودن آن در آینده كشف خواهد شد .
۱۹) توانایی تركیب همه ویژگیها در یك سوال ساده ( شامل تعداد نامحدود واژه های جستجو ) یا ایجاد تنظیمات ، براساس نتایج قبلی ( مدل "ساختن بلوك " ) .
گوگل و ام.اس.ان. تعداد واژه های جستجو را در یك پرسش محدود می كنند ( گرچه گوگل اخیرا محدودیت را از ۱۰ به ۳۲ افزایش داده است ) این مورد می تواند برای محققین شبكه طراحی كه پرسشی دقیق را بوجود می آورند ، نقصان محسوب می شود . گوگل جستجوی بولی پیچیده را اجازه نمی دهد ( استفاده از پرانتز ) و تركیب عملگر پیوندها ( : ) را با هر واژه جستجویی ، ممكن نساخته است . گوگل اجازه می دهد " درون نتایج قبلی جستجو " انجام شود ، اما این ، تنها راهی دیگر برای اضافه كردن واژه های جستجویی به پرسش می باشد ، نه اینكه بر روی مجموعه نتایج قبلی ، جستجویی انجام دهیم ، همانطوریكه دربعضی از سیستمهای جستجویی ممكن است ( مثلا دیالوگ[۱۱۳] و وب آو ساینس[۱۱۴] ) .
۲۰)‌ قابلیتهای بازیابی غیر متنی
هم اكنون همه موتورهای جستجو ، جستجوی تصویر را پیشنهاد می كنند (‌احتمالا عمدتا بر اساس توصیف متنی )‌. تحفیفات زیادی در حوزه بازیابی اطلاعات چندرسانه ای صورت می گیرد . قابلیتهای جستجوی غیر متنی كه مورد علاقه محققین شبكه است ، خارج از حوزه مقاله كنونی است .
● نتیجه گیری :
موتورهای جستجوی تجاری ، از رویای محققان شبكه در مورد یك ابزار شبكه ایده آل ، نسبتا دور هستند . چیزی كه ما نیازمند آنیم ، ابزاری قابل اعتماد و منعطف به جامعه علمی است . احتمالا ما فهرست آمال و آرزوهای محققان شبكه را بطوركامل پوشش نداده ایم ‌، اما این فهرست را آغاز نموده ایم . لنارت بجورنبورن[۱۱۵] پیشنهاد می كند كه این موتور جستجوی ایده آل را "‌ وبومت[۱۱۶] "‌ بنامیم . الان ما نامی برای آن داریم و ویژگیهایی اساسی این موتورها را نیز داریم – ما نیازمند بودجه ،‌ منابع و دانش چگونگی آن هستیم .
چند كلمه درباره پایایی این مطالعه . ما همه این تحقیقات را ذخیره كردیم ،‌ و در مورد تاریخی ( و اغلب ساعت آن ) كه این جستجوها انجام شده نیز دقت نمودیم . جستجوها بصورت وسیعی ذخیره شده و در این مقاله مستند شده است .‌ تا زمانیكه تقریبا بدست آوردن دقیق نتایج غیرممكن خواهد بود ، ضروری بود جستجوها در زمان گزارش مقاله ذكر گردند . آماده ایم كه خواننده علاقمند را با داده های خام این مطالعه آشنا نمائیم .
در اكثریت مثالهااز گوگل استفاده شده است .دلیل این امر اینست كه از زمانیكه گوگل اخیرا محبوبترین موتور جستجوست ‌، بیشتر توجه ما معطوف به عملكرد این موتور بوده است . در مطالعات بعدی تصمیم داریم دیگر موتورهای جستجو را نیز همینگونه در امر تحقیق "‌ زیر میكرسكوپ " قرار دهیم . هرچند كه موتورهای جستجو نقصهایی دارند ، ولی‌ ما از آنها هم در زندگی روزمره و هم در تحقیق ، استفاده می كنیم ،‌ زیرا تنها ابزارهای جستجویی در شكل وسیع در امر بازیابی هستند كه بطور رایگان برای همگان قابل دسترس هستند .
ما قصد داریم ویژگیهای در دسترس را بصورت دوره ای بازنگری كرده ( مثلا در سال یك مرتبه ) و پیشرفتها را منتشر نمائیم . نسخه اولیه این مقاله در صورتجلسات آی.اس.اس.آی سال ۲۰۰۵ظاهر شد ،‌ كه قابلیتهای موتورهای جستجو را در ابتدای سال ۲۰۰۵ بررسی كردیم . با مقایسه دو نسخه می توان تفاوتها و توسعه هایی را مشاهده كرد ،‌ كه نشان دهنده نیاز به ارزیابی دوره ای است . شبكه و موتورهای جستجو بطور مداوم درحال تغییرند ، بنابراین در آینده كامل ضروری است ویژگیهای جدید ‌، برای تحقیقات شبكه در دسترس باشد .
پیشنهاد می كنیم مجموعه ای از آزمایشها را با راهنمایی روش شناختی درباره اجرا و مستند سازی این آزمایشها برای ارزیابی عملكرد موتورهای جستجو بطور متناوبی ایجاد شود .


پی نوشت:
نوشته :‌جودیت بار- ایلان[۲]
ترجمه :‌ رضا رجبعلی بگلو[۳]
Email: rezarajab_beglou@yahoo.com
تشكر
از همكاری لنارت بجورنبورن برای فهرست نمودن ویژگیها ،‌ و مخصوصا رونالد روسو كه ایده نوشتن این مقاله را (‌ چند سال پیش )‌ به ما دادند قدردانی می كنیم .
منابع :
‌Albert, R., Jeong, H., & Barabasi , A.L.( ۱۹۹۹) . The diameter of the world wide web . Naturre, ۴۰۱, ۱۳۰- ۱۳۱.
AlltheWeb (۲۰۰۳). Query language.<http://web.archive.org/web/۲۰۰۳۱۰۰۲۰۱۴۳۱۴/http://www.alltheweb.com/help/faqs/query_language> (archived October ۲،۲۰۰۳، accessed September ۲، ۲۰۰۵)
AltaVista (۲۰۰۲). Searching Web elements.<http://web.archive.org/web/۲۰۰۱۰۴۱۳۱۶۰۱۵۵/doc.altavista.com/help/search/search_web_elements.html> (archived October ۴، ۲۰۰۱، accessed September ۲، ۲۰۰۲)
Ambrogi، R. J. (۱۹۹۵). Legal research on the Internet. A primer. <http://www.legaline.com> (accessed September ۱، ۲۰۰۵ )
Bar-Ilan، J. (۲۰۰۰). Evaluating the stability of the search tools HotBot and Snap: A case study. Online Information Review، ۲۴(۶)، ۴۳۹-۴۴۹.
Bar-Ilan، J. (۲۰۰۲). How Much Information Search Engines Disclose on the Links to a Web Page? – A Longitudinal Case Study of the &#۰۳۹;Cybermetrics&#۰۳۹; Home Page. Journal of Information Science، ۲۸(۶).
Bar-Ilan، J. (no date). Web links and search engine ranking - The case of Google and the query “Jew”. To appear in the Journal of the American Society for Information Science and Technology.
Bar-Ilan، J. (۲۰۰۲a). Methods for Measuring Search Engine Performance over Time. Journal of the American Society for Information Science and Technology.، ۵۴(۳)، ۳۰۸-۳۱۹، ۲۰۰۲.
Bar-Ilan، J. (۲۰۰۲b). How Much Information Search Engines Disclose on the Links to a Web Page? –A Longitudinal Case Study of the &#۰۳۹;Cybermetrics&#۰۳۹; Home Page. Journal of Information Science، ۲۸(۶) ۴۵۵-۴۶۶.
Bar-Ilan، J. (۲۰۰۵). What do we know about links and linking? A framework for studying links in academic environments. Information Processing and Management، ۴۱(۴)، ۹۷۳-۹۸۶.
Bar-Ilan، J. (۲۰۰۵b). Expectations versus reality – Web search engines at the beginning of ۲۰۰۵. In Proceedings of the ۱۰th International Conference of the International Society for Scientometrics and Informetrics، ۸۷-۹۶.
Bar-Ilan، J.، & Gutman، T. (۲۰۰۵). How do search engines respond to some non-English queries. Journal of Information Science، ۳۱(۱)، ۱۳-۲۸.
Bar-Ilan، J.، Levene، M.، & Mat-Hassan، M. (۲۰۰۴). Dynamics of search engine rankings – A case study. In Proceedings of the ۳rd International Workshop on Web Dynamics، New-York، May ۲۰۰۴. http://www.dcs.bbk.ac.uk/webDyn۳/webdyn۳_proceedings.pdf (accessed August ۳۱، ۲۰۰۵)
Bar-Ilan، J.، Mat-Hassan، M.، & Levene، M. (no date). Methods for comparing rankings of search engine results. To appear in Communication Networks. Preliminary version http://arxiv.org/abs/cs.IR/۰۵۰۵۰۳۹> (accessed September ۱، ۲۰۰۵)
Bharat، K.، & Broder، A. (۱۹۹۸). A technique for measuring the relative size and overlap of public Web search engines. In Proceedings of the ۷th International World Wide Web Conference، April ۱۹۹۸، http://www.ra.ethz.ch/CDstore/www۷/۱۹۳۷/com۱۹۳۷.htm (accessed September ۱، ۲۰۰۵)
Brewington، B. E.، & Cybenko، G. (۲۰۰۰). Keeping up with the changing Web. Computer، ۳۳(۵)، ۵۲-۵۸. Brin، S.، & Page، L. (۱۹۹۸). The anatomy of a large-scale hypertextual Web search engine. In Proceedings of the ۷th International World Wide Web Conference، April ۱۹۹۸.
<http://www-db.stanford.edu/pub/papers/google.pdf> (accessed September ۱، ۲۰۰۵)
Broder، A.، Kumar، R.، Maghoul، F.، Raghavan. P.، Rajagopalan، S.، Stata، R.، Tomlins، A. & Wiener،
J. (۲۰۰۰). Graph structure in the Web.http://www.cindoc.csic.es/cybermetrics/articles/v۹i۱p۲.html In Proceedings of the ۹th International World Wide Web Conference، May ۲۰۰۰. <http://www۹.org/w۹cdrom/۱۶۰/۱۶۰.html> (accessed September ۱،۲۰۰۵)

Callishain، T. (۲۰۰۴). Yahoo ’s groovy linkdomain syntax. ResearchBuzz.
<http://www.researchbuzz.org/yahoos_groovy_linkdomain_syntax.shtml> (updated May ۲۶، ۲۰۰۴، accessed September ۲، ۲۰۰۵)
Cheney، M. & Perry، M. (۲۰۰۵a). A comparison of the Yahoo and Google indices.
<http://vburton.ncsa.uiuc.edu/oldstudy.html> (updated ۱۶ August، ۲۰۰۵، accessed ۲۹ August، ۲۰۰۵)
Cheney، M. & Perry، M. (۲۰۰۵b). A comparison of the Yahoo and Google indices.
<http://vburton.ncsa.uiuc.edu /indexsizepage.html> (accessed ۲۹ August، ۲۰۰۵)
comScore (۲۰۰۵). comScore reports July ۲۰۰۵ search engine
rankings.<http://www.comscore.com/press /release.asp?press=۶۲۲ > (updated on ۱۹
August ۲۰۰۵، accessed on ۲۷ August، ۲۰۰۵).
Cyber Atlas (۲۰۰۰). Web pages by language.
<http://www.clickz.com/stats/sectors/demographics/article.php/۴۰۸۵۲۱> (updated
on ۵ July، ۲۰۰۰، accessed on ۲۷ August، ۲۰۰۵)
Dogpile (۲۰۰۵). Different engines، different results <http://comparesearchengines.dogpile.com/OverlapAnalysis.pdf> (accessed September ۱، ۲۰۰۵)
Duffez، O. (۲۰۰۵). Google indexes more than ۱۰۱K per document. Search Engine News.
<http://www.prweaver.com/blog/۲۰۰۵/۰۴/۰۷/۱۷۰-google-indexes-more -than-۱۰۱k-per-document> (updated April ۷، ۲۰۰۵،accessed August ۲۹، ۲۰۰۵)
Faba -Perez، C.، Guerrero-Bote، V. P.، & De Moya -Anegon، F. (۲۰۰۳). Data mining in a closed Web
environment. Scientometrics، ۵۸(۳)، ۶۲۳-۶۴۰.
Fagin، R.، Kumar، R. and Sivakumar، D. (۲۰۰۳). Comparing top k lists. SIAM Journal on Discrete Mathematics، ۱۷(۱)، ۱۳۴-۱۶۰.
Fetterly، D.، Manasse، M.، Najork، M.، & Wiener، J. (۲۰۰۴). A large-scale study of the evolution of Web pages. Software: Practice and Experience، ۳۴(۲)، ۲۱۳-۲۳۷.
French، G. (۲۰۰۴). Tool compares Google and Yahoo algorithms. <http://www.webpronews.com/insiderreports/searchinsider/wpn-۴۹- ۲۰۰۴۰۳۱۲ToolComparesGoogleAndYahoo Algorithms.html> (updated March ۱۲، ۲۰۰۴، accessed August ۳۰، ۲۰۰۵)
Global Reach. (۲۰۰۴). Global Internet statistics (by language).<http://www.global-reach.biz/globstats/ > (updated on ۳۰ March،۲۰۰۴، accessed on ۲۷ August، ۲۰۰۵)
Google (۲۰۰۴). Google help: Cheat sheet .<http://web.archive.org/web/۲۰۰۴۱۱۲۸۰۰۴۷۵۳ AND /http://www.google.com/help/cheatsheet.html> (archived November ۲۸، ۲۰۰۴،accessed September ۱، ۲۰۰۵)
Google (۲۰۰۵a). Information for Webmasters.<http://www.google.com/webmasters/۴.html>
(accessed August ۲۹،۲۰۰۵)
Google (۲۰۰۵b). The basics of Google search .<http://www.google.com/intl/en/help/basics.html > (accessed August۲۹، ۲۰۰۵)
Google (۲۰۰۵c). Google Help: Cheat sheet. <http://www.google.com/help/cheatsheet.html>
(accessed September۱، ۲۰۰۵)
Google (۲۰۰۵d). Advanced search made easy <http://www.google.com/intl/en/help/refinesearch.html > (accessed September ۱، ۲۰۰۵)
Google (۲۰۰۵e). Google Web APIs (beta). <http://www.google.com/apis/reference.html>
(accessed Spetember۱، ۲۰۰۵)
Guggenheim، E.، & Bar-Ilan، J. (۲۰۰۵). Tauglichkeit von Suchmaschinen f ür deutschesprachige
Abfragen. Information، Wissenschaft und Praxis، ۵۶(۱)، ۳۵-۴۰.
Huberman، B. A.، & Adamic، L. A.، (۱۹۹۹). Growth dynamics of the World Wide Web. Nature، ۴۰۱، ۱۳۱.
Ingwersen. P. (۱۹۹۸). The calculation of Web Impact Factors. Journal of Documentation، ۵۴(۲)، ۲۳۶-۲۴۳.
Introna، L. D.، & Nissenbaum، H. (۲۰۰۰). Shaping the Web: Why the politics of search engines matters . The Information Society، ۱۶، ۱۶۹-۱۸۰.
Janes، J. W. (۲۰۰۴). LIS ۵۹۸. Google.<http://www.ischool.washington.edu/jwj/google/> (accessed September ۱، ۲۰۰۵)
Jansen، B. J.، Spink، A.، & Saracevic، T. (۲۰۰۰). Real life، real users and real needs: A study and analysis of user queries on the Web. Information Processing and Management، ۳۶، ۲۰۷-۲۲۷.
Kleinberg، J. M. (۱۹۹۸). Authoritative sources in a hyperlinked environment. Journal of the ACM، ۴۶(۵)، ۶۰۴-۶۳۲، ۱۹۹۹.
Kumar، R.، Novak، J.، Raghavan، P.، & Tomkins، A. (۲۰۰۳). On the bursty evolution of Blogspace، In
Proceedings of the ۱۲th International World Wide Web Conference، (pp. ۵۶۸-۵۷۶).<http://www۲۰۰۳.org/cdrom/papers/refereed/p۴۷۷/p۴۷۷-kumar/p۴۷۷- kumar.htm> (accessed September ۱، ۲۰۰۵)
Kumar، S. R.، Raghavan، P.، Rajagopalan، S.، & Tomkins، A. (۱۹۹۹). Trawling emerging cyber –communities automatically. In Proceedings of the ۸th International World Wide Web Conference ، May ۱۹۹۹. <http://www۸.org/w۸-papers/۴a-searchmining/trawling /trawling.html> (accessed September ۱، ۲۰۰۵)
Lawrence، S.، & Giles، C. L. (۱۹۹۸). Searching the World Wide Web. Science،۲۸۰ (۵۳۶۰)، ۹۸-۱۰۰.
Lawrence، S.، & Giles، C. L. (۱۹۹۹). Accessibility of information on the Web.Nature، ۴۰۰، ۱۰۷-۱۰۹.
Mettrop، W.، & Nieuwenhuysen، P. (۲۰۰۱). Internet search engines - fluctuations in document
accessibility. Journal of Documentation، ۵۷(۵)، ۶۲۳-۶۵۱.
MSN (۲۰۰۵). Search builder and advanced search options.<http://search.msn.com/docs/help.aspx?t=SEARCH_REF_AdvSrchOperators.htm> (accessed September ۱، ۲۰۰۵)
MSN (۲۰۰۵b). New operators explained. MSN Search’s Weblog.<http://blogs.msdn.com/msnsearch/archive/۲۰۰۵/۰۶/۲۴/۴۳۲۴۳۹.aspx> (updated June ۲۴، ۲۰۰۵، accessed September ۲،۲۰۰۵)
Notess، G. (۲۰۰۰). Search engine inconsistencies. Online (March ۲۰۰۰).
<http://www.onlinemag.net/OL۲۰۰۰/net۳.html> (accessed September ۱، ۲۰۰۵)
Notess، G. (۲۰۰۵). Yahoo! Review on Search Engine Showdown. Search Engine Showdown.<http://www.searchengineshowdown.com/features/yahoo/review.html > (updated April ۲۵، ۲۰۰۵، accessed August ۲۹، ۲۰۰۵).
Notess، G. (۲۰۰۵b). Long word showdown. Search Engine Showdown.<http://www.searchengineshowdown.com/stats/longwords.shtml> (updated March ۵، ۲۰۰۵،accessed September ۲، ۲۰۰۵).Olsen، S. (۲۰۰۱). AltaVista serving up out-of-date listings. <http://news.com.com/۲۱۰۰ -۱۰۲۳-۲۷۴۸۳۹.html?legacy=cnet> (accessed September ۱، ۲۰۰۵)
Oxford Dictionary (۱۹۸۹). Reliability.<http://dictionary.oed.com/cgi /entry/۵۰۲۰۲۰۰۲?query_type =word&queryword=reliability&first=۱&max_to_show=۱۰&single=۱&sort_type=alpha> (accessible through subscription، accessed January ۱۵، ۲۰۰۵).
Price، G. (۲۰۰۵). More on the total database size battle and Googlewhacking with Yahoo.Searchenginewatch.<http://blog.searchenginewatch.com/blog/۰۵۰۸۱۱-۲۳۱۴۴۸>
(updated ۱۱ August، ۲۰۰۵، accessed ۲۸ August، ۲۰۰۵).
Rousseau، R. (۱۹۹۹). Daily time series of common single word searches in AltaVista and NorthernLight. Cybermetrics، ۲/۳(۱)، paper ۲.<http://www.cindoc.csic.es /cybermetrics /articles/v۲i۱p۲.html > (accessed September ۱، ۲۰۰۵)
Shim، R.، & Kanellos، M. (۲۰۰۴). Google downed by latest MyDoom. Retrieved January ۱۳، ۲۰۰۵، from <http://news.zdnet.co.uk/internet/۰،۳۹۰۲۰۳۶۹،۳۹۱۶۱۶۷۸،۰۰.htm>
(accessed September ۱، ۲۰۰۵)
Searchenginewatch Forum (۲۰۰۴). Google say not reporting all backlinks. <http://forums.searchenginewatch.com/showthread.php? t=۲۴۲۳&page=۲&pp=۲۰> (updated November ۱۸، ۲۰۰۵، accessed August ۲۹، ۲۰۰۵)
Searchenginewatch Forum (۲۰۰۵). Ridiculous increase in Yahoo backlink counts & is bigger index real? <http://forums.searchenginewatch.com/showthread.php?threadid=۷۱۹۵> (updated August ۴، ۲۰۰۵، accessed August ۲۹، ۲۰۰۵)
SEMPO (۲۰۰۴). Summary report: The state of search engine marketing ۲۰۰۴. <http://www.sempo.org/research /SEMPO-Market-Sizing -۲۰۰۴-SUMMARY-v۱.pdf> (accessed September ۱، ۲۰۰۵)
Smith، Alastair (۱۹۹۹). ANZAC webometrics: exploring Australasian Web structures. In Proceedings of Information Online and On Disc ۹۹: Strategies for the next millennium. Sydney، Australia، ۱۹-۲۱ January ۱۹۹۹ [Sydney]:ALIA، ۱۹۹۹. Pp ۱۵۹-۱۸۱. <http://www.csu.edu.au /special/online۹۹/proceedings۹۹/۲۰۳b.htm> (accessed August ۳۰، ۲۰۰۵).
Snyder، H. & Rosenbaum، H. (۱۹۹۹). Can search engines be used as tools for web-link analysis? A critical view. Journal of Documentation، ۵۵، ۳۷۵-۳۸۴.
Spink، A.، & Jansen، B. J. (۲۰۰۴). Web search: Public searching the Web.London: Springer.
Statistical Cybermetrics Research Group (۲۰۰۴ a). SocSciBot۳.<http://socscibot.wlv.ac.uk/help /tutorial۳.html > (accessed September۱، ۲۰۰۵)
Statistical Cybermetrics Research Group (۲۰۰۴b). The academic weblink database project.
<http://cybermetrics.wlv.ac.uk/database/> (accessed September ۱،۲۰۰۵)
Sullivan، D. (۱۹۹۸). Northern Light add search functions، freshens index.
<http://searchenginewatch.com/sereport/article.php/۲۱۶۶۴۷۱ (accessed September ۱، ۲۰۰۵)
Sullivan، D. (۲۰۰۴a). Major search engines and directories.<http://searchenginewatch.com/links/article.php/۲۱۵۶۲۲۱> (accessed September ۱، ۲۰۰۵)
Sullivan، D. (۲۰۰۵). Search engine sizes. Searchenginewatch.<http://searchenginewatch.com/reports/article.php/۲۱۵۶۴۸۱> (updated ۲۸ January، ۲۰۰۵ ، accessed August ۲۸، ۲۰۰۵).
Sullivan، D. (۲۰۰۴c). Yahoo reawakens the paid inclusion debate.Searchenginewatch. <http://searchenginewatch.com/searchday/article.php/۳۳۵۵۲۲۱> (accessed
September ۱، ۲۰۰۵)
Sullivan، D. (۲۰۰۴d). Search engine size wars V erupts. Searchenginewatch. <http://blog.searchenginewatch .com/blog/۰۴۱۱۱۱-۰۸۴۲۲۱> (updated November
۱۱، ۲۰۰۴، accessed August ۲۹، ۲۰۰۵)
Thelwall، M. (۲۰۰۰a). Web impact factors and search engine coverage. Journal of Documentation، ۵۶، ۱۸۵-۱۸۹.
Thelwall، M. (۲۰۰۱). A web crawler design for data mining، Journal of Information Science ۲۷(۵)، ۳۱۹-۳۲۵.
Thelwall، M. (۲۰۰۱b). The responsiveness of search engine indexes. Cybermetrics، ۵(۱)، paper ۱. <http://www.cindoc.csic.es/cybermetrics/articles/v۵i۱p۱.html> (accessed September ۱، ۲۰۰۵)
Thelwall، M. (۲۰۰۳). What is this link doing here? Beginning a fine-grained process of identifying reasons for academic hyperlink creation. Information Research، ۸(۳).
<http://informationr.net/ir/۸ -۳/paper۱۵۱.html> (accessed September ۱، ۲۰۰۵)
Thelwall، M. (۲۰۰۵). Link analysis: An information science approach. San Diego: Academic Press.
Vaughan، L. (۲۰۰۴). New measurements for search engine evaluation proposed and tested. Information Processing and Management، ۴۰ (۴)، ۶۷۷-۶۹۱.
Van Couvering، E. (۲۰۰۴). New media? The political economy of Internet search engines. Paper presented at the Annual Conference of the International Association of Media & Communications Researchers، Porto Alegre، Brazil.<http://personal.lse.ac.uk/vancouve/IAMCR-CTP _SearchEnginePolitical Economy_EVC_۲۰۰۴-۰۷-۱۴.pdf> http://personal.lse.ac.uk/vancouve /IAMCR-CTP_SearchEnginePoliticalEconomy_EVC_۲۰۰۴ -۰۷-۱۴.pdf> (accessed September ۳، ۲۰۰۵)
Veronis، J. (۲۰۰۵a). Google’s missing pages. Mystery solved? Technologies du Langage. <http://aixtal.blogspot.com/۲۰۰۵/۰۲/web-googles -missing-pages-mystery.html>
(updated February ۸، ۲۰۰۵،accessed October ۱۷، ۲۰۰۵)
Veronis، J. (۲۰۰۵b). Google: A snapshot of the update. Technologies du Langage. <http://aixtal.blogspot.com/۲۰۰۵/۰۳/google-snapshot-of -update.html> (updated
March ۲۵، ۲۰۰۵، accessed October ۱۷، ۲۰۰۵)
Whatis.com (۲۰۰۲). Googling.<http://searchwebservices.techtarget.com/sDefinition/۰،،sid۲۶_gci۷۹۹۳۶۷،۰۰.html> (updated March ۹، ۲۰۰۲، accessed September ۱، ۲۰۰۵)
Wikipedia (۲۰۰۵). Google bomb.<http://en.wikipedia.org/wiki/Googlebomb> (updated August ۲۹،۲۰۰۵، accessed September ۱، ۲۰۰۵)
Wouters، J. J. (۲۰۰۴). Searching for disclosure: How search engines alert consumers to the presence of advertising in search results.<http://www.consumerwebwatch.org/news/paidsearch/finalreport.pdf> (accessed September ۱، ۲۰۰۵)
WWW۱۰ Panel (۲۰۰۱). Search: Beyond the keyword interface. At The ۱۰th International World Wide Web Conference، Hong-Kong، May ۲۰۰۰. Outline.<http://www۱۰.org/program/w۱۰-panel.shtml> (accessed September۱، ۲۰۰۵)
Yahoo (۲۰۰۵). Help: Using meta search words to find specific URLs، subpages، link popularity and more. http://help.yahoo.com/help/us/ysearch/tips/tips-۰۸.html (accessed ۲۹ August، ۲۰۰۵).
پانوشتها:
[۱] International Journal of Scientometrics، Informetrics and Bibliometrics ISSN ۱۱۳۷-۵۰۱۹، VOLUME ۹ (۲۰۰۵): ISSUE ۱. PAPER ۲
[۲] Judit Bar – Ilan
[۳] rezarajab_beglou@yahoo.com
[۴] Multidisciplinary
[۵] Thelwal
[۶] Albert، Jeong & Barabasi،
[۷] SocSciBot
[۸] Crawler
[۹] CYBER metrics
[۱۰] Spink
[۱۱] Jansen
[۱۲] Huberman & Adamic،
[۱۳] Broder
[۱۴] Fetterly
[۱۵] http://www.archive.org
[۱۶] Sullivan
[۱۷] http://www.teoma.com
[۱۸] http://beta.exalead.com/search
[۱۹] Comscore
[۲۰] Stability
[۲۱] ‌Timeliness
[۲۲] snapshot
[۲۳] Brewington and Cybenko’s (۲۰۰۰) (a،ß)-currency measure.
[۲۴] Timeouts
[۲۵] Spammers
[۲۶] Placement
[۲۷] Inlinks
[۲۸] Anchors
[۲۹] Snippet
[۳۰] Cached results
[۳۱] Cyber Atlas
[۳۲] Globalstats
[۳۳] API (application programming interface )
[۳۴] Partial Results
[۳۵] NEAR
[۳۶] ADJACENT
[۳۷] Relative links
[۳۸] Embedded content links
[۳۹] WWW۱۰ Panel، ۲۰۰۱
[۴۰] Stemming
[۴۱] Truncation
[۴۲] Wildcard
[۴۳] Case sensitivity
[۴۴] Co-word
[۴۵] Lycos
[۴۶] Ambrogi
[۴۷] Lawrence and Giles
[۴۸] Sullivan
[۴۹] Price
[۵۰] Cheney and Perry
[۵۱] Snyder and Rosenbaum
[۵۲] Djibouti
[۵۳] Suriname
[۵۴] Notess
[۵۵] Rousseau
[۵۶] Hotbot
[۵۷] Snap
[۵۸] stability
[۵۹] Wouters
[۶۰]placement
[۶۱] inclusion
[۶۲] Searchenginewatch forum
[۶۳] Mettrop & Nieuwenhuysen
[۶۴] Linkdomain
[۶۵] Meta – word
[۶۶] Hebrew
[۶۷] Peres
[۶۸] Rabin
[۶۹] Rabin Peres
[۷۰] Veronis
[۷۱] Exclusion
[۷۲] help pages
[۷۳] Locate
[۷۴] Northern Light
[۷۵] Olsen
[۷۶] Wikipedia
[۷۷] Prince Harry
[۷۸] Cached Copy
[۷۹] Active Page
[۸۰] Lycos
[۸۱] Header text
[۸۲] Mirror Site
[۸۳] PDF
[۸۴] Duffez
[۸۵] MyDoom Worm
[۸۶] Shim & Kanellos،
[۸۷] French، ۲۰۰۴
[۸۸] AltaVista’s email answer to Alastair Smith’s query ۱۹۹۹
[۸۹] Introna and Nissenbaum)۲۰۰۰)
[۹۰] sponsored links
[۹۱] Van Couvering (۲۰۰۴)
[۹۲] Paid inclusion
[۹۳] competing pages
[۹۴] SEMPO
[۹۵] Janes
[۹۶] Daterange
[۹۷] Julian
[۹۸] Google’s advanced
[۹۹] Dogpile
[۱۰۰] Amanda Spink and Jim Jansen
[۱۰۱] Vaughan
[۱۰۲] Fagin
[۱۰۳] Levene and Mat-Hassan
[۱۰۴] clustering
[۱۰۵] Gutman
[۱۰۶] Guggenheim
[۱۰۷] http://www.google.com/apis
[۱۰۸] http://developer.yahoo.net
[۱۰۹] Backlinks
[۱۱۰] Callishain
[۱۱۱] Navigation
[۱۱۲] Snippets
[۱۱۳] Dialog
[۱۱۴] Web of Science
[۱۱۵] Lennart Bjorneborn
[۱۱۶] Webomet
منبع : نما مجله الکترونیکی پژوهشگاه اطلاعات و مدارک علمی ایران


همچنین مشاهده کنید