جمعه, ۳۱ فروردین, ۱۴۰۳ / 19 April, 2024

مجله ویستا

نگاهی به موتورهای جست وجو در اینترنت

حتماً شما هم بارها، زمانی كه به یك مقاله علمی، سیاسی و... نیاز داشته اید یا حتی برای یافتن معنی اصطلاحی، پشت كامپیوترتان نشسته اید و با استفاده از اینترنت در مدت زمان كوتاهی آن را پیدا كرده اید. اما آیا تابه حال فكر كرده اید چگونه در عرض چند ثانیه انبوهی از اطلاعات در اختیار شما قرار می گیرد؟ صدها میلیون صفحه در اینترنت در دسترس وجود دارند و منتظر هستند تا اطلاعات را با تنوع شگفت انگیزی از موضوعات ارائه دهند. زمانی كه شما می خواهید در مورد یك موضوع مخصوص اطلاعات كسب كنید، چگونه می دانید كه چه صفحاتی را باید بخوانید؟ احتمالاً مانند اكثر مردم، شما از یك موتور جست وجوی اینترنت بازدید می كنید.
موتورهای جست وجوی اینترنتی، سایت های مخصوصی در شبكه هستند و طوری طراحی شده اند كه به افراد كمك می كنند تا اطلاعات مورد نیازشان را كه در سایت های دیگر ذخیره شده است بیابند. تفاوت هایی در شیوه عملكرد موتورهای جست وجوی مختلف وجود دارد، اما همه آنها سه وظیفه اصلی را انجام می دهند:
۱ ) در اینترنت، یا بخش های برگزیده ای از اینترنت، براساس كلمات مهم جست وجو را انجام می دهند.
۲) یك فهرست از كلماتی كه پیداكرده اند و جایی كه آنها را پیدا كرده اند، تهیه می كنند.
۳) این امكان را برای كاربران فراهم می كنند تا كلمات یا مجموعه ای از كلمات مورد نظر خود را كه در فهرست یافت می شود جست وجو كنند.
موتورهای جست وجوی اولیه یك فهرست شامل تنها چندصد هزار صفحه و فایل نگهداری می كردند و در روز شاید یك یا دو هزار بازدیدكننده داشتند. امروزه یك موتور جست وجوی خوب، صدها میلیون صفحه را فهرست می كند و در روز پاسخگوی ده ها میلیون جست وجو كننده است. حالا باید ببینیم چگونه این مسئولیت مهم انجام می شود و چگونه موتورهای جست وجوی اینترنتی، بخش های مختلف را به كار می برند تا ما بتوانیم اطلاعات مورد نیاز خود را در شبكه بیابیم.
● جست وجو میان صدها میلیون صفحه
قبل از اینكه یك موتور جست وجوگر بتواند به شما بگوید كه یك فایل در كجا قرار دارد، باید آن فایل پیدا شود. یك موتور جست وجوگر برای یافتن اطلاعات از میان صدها میلیون صفحه كه در شبكه وجود دارند، روبات نرم افزاری خاصی به نام spiders را به كار می گیرد تا لیستی از كلماتی كه در سایت های شبكه یافت می شود را ایجاد كند. فرآیندی كه یك spider لیست خود را ایجاد می كند، Web crawling نامیده می شود. برای ایجاد و نگهداری یك لیست مفید و مناسب از كلمات، یك spider موتور جست وجوگر باید صفحات بسیار زیادی را بررسی كند. چگونه هر spider مسیرش را در شبكه آغاز می كند ؟ معمولاً نقطه شروع، لیستی از صفحاتی است كه توسط سرورها زیاد استفاده می شوند و همچنین صفحاتی كه عمومی تر و معروف تر هستند. spider از یك سایت عمومی شروع می كند، كلمات موجود در صفحات آن را لیست می كند و هر لینكی كه در آن سایت یافت می شود را دنبال می كند. به این طریق سیستم جست وجوگر به سرعت شروع به حركت می كند و در بخش هایی كه بیشتر از همه مورد استفاده قرار می گیرد حركت می كند.
Google.com به عنوان یك موتور جست وجوگر علمی آغاز به كار كرد. سرجی برین و لورنس پیج بیان كرده اند كه spiderهای سیستم آنها با چه سرعتی می توانند كار كنند. آنها سیستم اولیه خود را به گونه ای ساختند كه از چندین spider استفاده كند، معمولاً سه تا در یك زمان. هر spider می توانست با حدود سیصد صفحه شبكه كه در یك زمان باز بودند اتصال برقرار كند. در بهترین عملكرد خود، با استفاده از چهار spider، این سیستم می توانست در هر ثانیه به صد صفحه متصل باشد و حدود ۶۰۰ كیلو بایت داده را در هر ثانیه ایجاد كند. برای سرعت بخشیدن به جست وجو، ایجاد سیستمی برای ارائه اطلاعات لازم به spider لازم است. سیستم گوگل اولیه دارای سروری بود كه به فراهم كردن URL ها برای spider ها اختصاص یافته بود. به جای وابسته بودن به یك فراهم كننده سرویس اینترنتی برای DNS كه نام یك سرور را به یك آدرس تبدیل می كند، گوگل DNS خودش را داشت تا تاخیرها را به حداقل برساند.
زمانی كه spider گوگل یك صفحه HTML را مشاهده می كرد، به دو نكته توجه می كرد: كلمات درون صفحه، در كجا كلمات پیدا شده اند.
كلماتی كه در عنوان اصلی یا عناوین فرعی و یا سایر موقعیت هایی كه دارای اهمیت نسبی هستند، قرار دارند برای جست وجوی بعدی كاربر مورد توجه خاص قرار می گرفتند. spider گوگل هر كلمه معنی داری در صفحه را فهرست می كرد و از كلمات a an, the صرف نظر می كرد. سایر spider ها از روش های متفاوتی استفاده می كردند. در كل تمامی این روش ها معمولاً سعی می كند تا عملكرد spider را سریع تر كند، به كاربران اجازه بدهد تا با كارایی بهتر و بهینه تر جست وجو كنند و یا هر دو آنها. به عنوان مثال، بعضی spider ها كلماتی كه در عنوان ها، عنوان های فرعی و لینك ها وجود دارند یا كلماتی كه بارها در صفحه تكرار می شوند و هر كلمه ای در بیست خط اولیه متن را نگهداری می كند. سایت Lycos از این روش استفاده می كند.
سایر سیستم ها، از قبیل AltaVista، هر كلمه در صفحه، شاملa an, the و سایر كلمات كه بی اهمیت هستند را هم لیست می كنند.
● ایجاد فهرست
زمانی كه spider ها وظیفه یافتن اطلاعات از صفحات شبكه را به اتمام رساندند (البته باید در نظر داشته باشیم كه این وظیفه هرگز واقعاً تمام نمی شود، خاصیت تغییر دائمی شبكه به این معنی است كه spiders ها همیشه در حال حركت و جست وجو هستند)، موتور جست وجو باید این اطلاعات را به شكلی كه مفید باشد، ذخیره كند. دو مولفه كلیدی برای در دسترس قرار دادن اطلاعات جمع آوری شده برای كاربران وجود دارد: اطلاعات ذخیره شده با داده ها - روشی كه توسط آن اطلاعات فهرست می شود.
در آسان ترین حالت، موتور جست وجوگر می تواند تنها كلمه و URL را ذخیره كند. در حقیقت، این روش برای موتوری با كاربرد محدود است، زیرا در این حالت راهی وجود ندارد برای اینكه تعیین كند آیا كلمه در بخش مهم یا بخش بی اهمیتی از صفحه استفاده شده است، آیا كلمه تنها یك بار یا چندین مرتبه تكرار شده است یا صفحه لینك هایی به صفحات دیگری كه شامل آن كلمه هستند، دارد. به عبارت دیگر راهی برای ایجاد لیستی رتبه بندی شده كه تلاش می كند تا مفیدترین و بهترین صفحات را در بالای لیست نتایج جست وجو قرار بدهد، وجود ندارد.
برای به دست آوردن نتایج بهتر، بیشتر موتورهای جست وجو اطلاعات بیشتری علاوه بر كلمه و URL ذخیره می كنند. موتور ممكن است تعداد دفعاتی كه كلمه در صفحه تكرار شده است را ذخیره كند، یا ممكن است مقداری را به هر ورودی اختصاص بدهد و زمانی كه كلمات در عناوین، عنوان های فرعی و لینك ها ظاهر می شوند ارزش اختصاص یافته به آنها بیشتر می شود. هر موتور جست وجوگر تجاری، فرمول متفاوتی برای ارزش گذاری كلمات فهرست خود دارد. این مسئله یكی از دلایلی است كه موجب می شود جست وجوی یك كلمه در موتورهای جست وجوگر متفاوت، لیست های متفاوتی را ارائه بدهد و صفحاتی با ترتیب های متفاوت ارائه شود.
داده ها برای صرفه جویی در فضای ذخیره سازی رمزگذاری می شوند. مثلاً در صفحه گوگل اطلاعاتی از قبیل اینكه آیا كلمه با حروف بزرگ بوده است، اندازه فونت آن، موقعیت كلمه و سایر اطلاعاتی كه به رتبه بندی آن كمك می كند را به صورت بیت و بایت ذخیره می كند. در نتیجه میزان بسیار زیادی از داده ها می تواند به شكل بسیار فشرده ای ذخیره شود. بعد از اینكه اطلاعات فشرده شد، برای فهرست شدن آماده است.
هدف از ایجاد یك فهرست این است كه باعث شود تا بتوانیم اطلاعات را با سریع ترین حالت ممكن پیدا كنیم. به طور كل، تنها چند راه برای ایجاد فهرست وجود دارد، اما یكی از مهمترین و موثرترین روش ها، ایجاد جدول hash است. در این روش فرمولی به كار می رود تا به هر كلمه یك ارزش عددی اختصاص بدهد.
پرسش و جست وجوی انجام شده توسط كاربر می تواند خیلی ساده باشد، حتی یك كلمه. برای پرسش های پیچیده تر لازم است تا از عملگرهای بولین (AND, OR, NOT, NEAR,) و... استفاده كنید تا بتوانید شرایط جست وجو را گسترش بدهید.
به طور خلاصه عملكرد یك موتور جست وجو به این صورت است: نرم افزار spider با جست وجو در سایت های مختلف لیستی از كلمات و جایی كه قرار دارند فراهم می كند، سپس براساس سیستم ارزش گذاری خود فهرستی رتبه بندی شده تهیه می كند، داده ها را رمزگذاری می كند و سرانجام اطلاعات را برای دسترسی كاربران ذخیره می كند.
● آینده موتورهای جست وجوگر
در جست وجوهایی كه از عملگرهای بولین استفاده می شود، جست وجوهای لفظی است. موتور دقیقاً همان كلمات یا عبارتی كه وارد شده است را جست وجو می كند. زمانی كه كلمات ورودی دارای چندین معنی هستند، جست وجوی صحیح آنها مشكل است. در این حالت، اگر برای شما تنها یكی از معانی آن كلمه مهم باشد، احتمالاً شما نمی خواهید سایر صفحات را كه شامل معانی دیگر كلمه است ببینید. شما می توانید یك جست وجوی لفظی ایجاد كنید كه تا حدودی معنی های ناخواسته را حذف كند، اما بهتر این بود كه خود موتور جست وجو می توانست این كار را انجام بدهد.
یكی از حوزه های تحقیق در موتورهای جست وجوگر، جست وجو براساس مفهوم است. به عنوان مثال، استفاده كردن از تحلیل های آماری صفحاتی كه شامل كلمات یا عباراتی است كه شما جست وجو می كنید، برای اینكه صفحات دیگری را كه ممكن است شما به آن علاقه داشته باشید پیدا كند. بدیهی است كه در یك موتور جست وجوگر مبتنی بر مفهوم، اطلاعات ذخیره شده برای هر صفحه، بیشتر است. هنوز بسیاری از گروه ها تلاش می كنند تا نتایج و عملكرد این نوع از موتورهای جست وجو را افزایش دهند. قلمرو دیگری كه پژوهشگران درباره آن تلاش می كنند، پرسش ها به زبان طبیعی نامیده می شود. منظور از این پژوهش این است كه شما بتوانید پرسش تان را به گونه ای تایپ كنید مثل اینكه آن را از شخصی كه كنار شما نشسته است می پرسید و نیازی نباشد تا از عملگرهای بولین یا ساختارهای پیچیده برای پرسش استفاده كنید. معروف ترین سایت جست وجو به شیوه پرسش به زبان طبیعی، سایت AskJeeves.com است. این سایت تنها با جملات ساده كار می كند، اما تلاش بسیاری انجام می شود تا این روش جست وجو گسترش یابد تا بتواند سئوالات پیچیده تر را هم بپذیرد.
همچنان تلاش های بسیاری برای افزایش كیفیت و ارائه خدمات بیشتر موتورهای جست وجوگر انجام می شود و هر روز شاهد خبرهای جدیدی در این زمینه هستیم و رقابت بین سایت های دارای موتور جست وجوگر بیشتر و بیشتر می شود.

نوشته شده توسط: مهشید گوهری

منبع : ایده پویا

سایر

قیمت صندلی سینمایی تاشو رض کو مدل R-1600C

شیشه اتومبیل غرب تهران

آموزش مربيگري مهدکودک

نمایندگی کابل سیمند(سیمند کابل)

همچنین مشاهده کنید

جمعه, ۳۱ فروردین, ۱۴۰۳ / 19 April, 2024

نگاهی به موتورهای جست وجو در اینترنت

قیمت صندلی سینمایی تاشو رض کو مدل R-1600C

شیشه اتومبیل غرب تهران

آموزش مربيگري مهدکودک

نمایندگی کابل سیمند(سیمند کابل)

قانون طلایی گوگل

در گوگل، پیتر دراکر، مدیری بود که چگونگی مدیریت نسل جدید "کارمندان دانش" را به خوبی می دانست

وقتی موتورهای جست و جو گر را نادیده می گیریم

با تاریخچه شکل گیری و راه اندازی موتور جستجوی بین المللی گوگل Google آشنا شویم

What is Flickr

گوگل و حفظ حریم خصوصی کاربران

از زمانی که [۱]PI گوگل را به عنوان نامزد دریافت جایزه «برادر بزرگ» در سال ۲۰۰۳ میلادی معرفی کرد، بحث‌های زیادی بین مخالفان و موافقان گوگل درگرفته است.

بازی، شادی، کار مفید!

چندی پیش مجله «Fortune» فهرست ۱۰۰ شرکت برتر امسال برای کار در جهان را به انتخاب کارشناسانش منتشر کرد.

کلمات کلیدی و سایت پرترافیک

گوگل به مطب می‌رود

غول جست‌وجو کاری می‌کند که پزشکان و بیماران دسترسی بهتری به سوابق الکترونیکی پزشکی داشته باشند

چطور از تجسس موتورهای جست‌وجو در امان بمانیم؟

اخیراً دادگستری آمریکا نظارت خود را گسترش داده و از موتورهای جست‌وجو خواسته تا مطالبی را که کاربران در یک هفته گذشته در آنها جست‌وجو کرده‌اند، تحویل دهند

نقش موتورهای جستجوگر در تجارت نوین

طبابت در بیمارستان گوگل!

نکاتی در مورد جستجو در یکی از بزرگترین جستجوگرهای اینترنتی

جست وجو در دنیای مجازی

تاریخچه گوگل از ابتدا تا امروز

موتور جست وجوگر هوشمند و سریع گوگل در حال حاضر تمام رقیبان قدر خود را در مدت زمان کوتاهی پشت سر گذاشته و خود را یکه تاز میدان کرده است.

رتبه بندی سایتها در موتورهای جستجوگر

آشنایی کامل با عملکرد و کارکرد موتورجستجوگر Search Engine

جستجو در اینترنت

ابزارهای کاوش و ضروریت آنها

مطالبی در مورد گوگل

امروزه گوگل تنها محدود به فعالیت تجاری نیست بلکه پدیده‌ای فرهنگی نیز محسوب می‌شود.

آداب جستجو در اینترنت

رفتار اطلاع‌یابی جست‌وجوگران ایرانی به روایت Google Trends

گرایش‌های گوگل این قابلیت را به کاربران می‌دهد که بفهمند کلیدواژه ویژه‌ای در چه کشوری بیشترین جست‌وجو در گوگل را به خود اختصاص داده است.

ماشین در جست وجوی معنا

تحلیلی بر موتور جستجوی فارسی پارسیک

موتور جستجوی پارسیک در اردیبهشت ۱۳۸۱ و با هدف ایجادخدمات جستجو به پارسی‌ زبانان تاسیس شده است. و توانسته در سال ۱۳۸۲ جایزه ذره بین طلایی را دریافت نماید ....

گوگل به دنبال چیست

طریقه ثبت یک سایت در موتورهای جستجو

بهترین روش برای برای جلوگیری از بروز این مشکل، عدم استفاده از روشهای سوال برانگیز برای موتورهای جستجو است

قابلیتهای پنهان گوگل که باید بدانید

بر هیچکسی پوشیده نیست که گوگل از برترین و بهترین جستجوگر های این دنیای بزرگ هست و همیشه از گزینه های اصلی برای جستجوکردن به شمار می آید.

جستجوی وب بطور کارآمدتر: رهنمودها، فنون و راهبردها

موتور جستجوگر و اهمیت آن

۱۰ قاعده طلایی گوگل به روایت اریک اشمیت

اریک اشمیت به این واقعیت اشاره دارد که خلاقیت و پرورش آن در کارکنان یک شرکت، رمز پیروزی در شرکت‌های دیجیتالی امروز جهان است.

چرا سایتی مثل گوگل نداریم؟

سایتهای خبری و موتورهای جستجوگر

موتورهای جستجوگر خبری، کار بلاگرها، روزنامه نگاران، روابط عمومی ها و گردانندگان سایتها را تا حد بسیار زیادی راحت کرده اند.

چاپ کارت pvc،چاپ کارت پی وی سی،چاپ افست کارت …

بهترین قیمت توری لوزی (اکسپندد متال) ، توری …

نمایندگی رسمی فروش کلیه محصولات شرکت صنعتی …

نمایندگی کابل سیمند(سیمند کابل)

وتو امریکا در برابر 12 رای مثبت به عضویت فلسطین در سازمان ملل (فیلم)

نامه وارده/ یک تشکر بابت درک شرایط کشور

عضو دفتر رهبری: برخی مسئولان به دلیل اقدامات نامناسب در برخورد با …

درآمدزایی از پلتفرم‌های بومی/ کپی برداری از یوتیوب جواب می‌دهد؟

دولت سوسیال دموکراتیک چیست؟

چرا ایرانیان از قدرت خریدشان رضایت ندارند؟

دام تل‌آویو برای واشنگتن - دیپلماسی ایرانی

روایت اکونومیست از دلایل خوش‌بینی به نسل زد

ماجرای حمله اسرائیل به اصفهان؛ نفوذ از داخل بود نه حمله برون مرزی

اعتراض روزنامه شهرداری تهران به حس «نوع‌دوستی» به زباله‌گردها؛ آنها …

چه کسی پیگیر بازگشت گشت ارشاد به خیابان‌ها است؟ / نزدیکان رئیس مجلس …

نیویورک تایمز : اشتباه محاسباتی اسرائیل باعث تنش شد / عصبانیت امریکا …

یک دهه سرپیچی بازار اجاره از دستورات

اکثر اسراییلی ها مخالف حمله به ایران هستند - دیپلماسی ایرانی

دستور پخت ناامیدی؛ چه کسی جامعه را ناامید می‌خواهد؟

دوباره گشت ارشاد؛ جلوی بن‌شدادها و بن‌عامرها را بگیریم

روزنامه اسرائیلی : موشک ایران به تاسیسات اتمی اسرائیل اصابت کرد/ …

چگونه مخالفان اردوغان را خلع سلاح کردند؟/ آغاز پایان سلطان

چرا معاون اژه‌ای تغییر کرد؟

سوال مهم و جدید از کاظم صدیقی: با آگاهی باغ بی‌زبان بیت‌المال را به …

ببینید | خودنمایی شگفت‌انگیز نیسان پاترول؛ عبور مقتدرانه از خیابان …

۵ وزیر دولت در صفِ اول «اصلاح کابینه» از نگاه محمودزاده /رئیسی با …

چه کسانی حق ارشاد ندارند؟ علی علیه السلام پاسخ می دهند

جلیل محبی: این گشت ارشاد کار دولت است!

هدف نهایی اسرائیل از تجاوز به ساختمان کنسولگری ایران - دیپلماسی ایرانی

اعتراض شدید آذر منصوری به بازگشت گشت ارشاد: صحنه‌های زشت برخورد خشن …