سه شنبه, ۱۸ اردیبهشت, ۱۴۰۳ / 7 May, 2024
مجله ویستا

توضیحی در مورد Robots.txt


توضیحی در مورد Robots.txt
همان طور که می دانید، جمع شدن صفحات سایت توسط یک موتور جستجو، اولین گام در ایجاد یک سایت قابل دسترس روی محیط وب است. ساده ترین راه برای این کار این است که به موتور های جستجوی بگویید سایت شما موجود است!
برای این کار می توانید آدرس سایت (URL) خود را در موتورهای جستجوی مختلف ثبت کنید. (که کمابیش با نحوه انجام این کار آگاهی دارید)
● حذف روبات
قبل از اینکه بخواهید سایت و یا وبلاگ خود را در هر موتور جستجویی قرار دهید، به خاطر داشته باشد که داشتن یک روبات که کل سایت شما را ایندکس کند، ایده خوبی نیست! اولین دلیل آن، این است که بعضی صفحات مثل برنامه هایی که در دایرکتوری cgi-bin شما هستند، نیازی به ایندکس شدن ندارند و دومین دلیل اینکه بعضی از صفحات موقت و ناپایدار هستند و ایندکس کردن آن ها، منجر به ایجاد خطاهای بسیاری هنگام بازیابی آن ها می شود.
● Robots.txt
برای محدود کردن دسترسی به روبات، پروتکل Robot Exclusion، تهیه شده است و ایده ابتدایی آن، استفاده از فایل خاص Robot.txt در دایرکتوری ریشه سایت است.
برای مثال اگر یک Spider در حال ایندکس کردن http://www.weblogina.com باشد، ابتدا به جستجوی فایل http://www.weblogina.com/robots.txt می پردازد. اگر این فایل را پیدا کرد، قبل از شروع به اینکس سایت، آن را تجزیه و تحلیل می کند.
فرمت اولیه فایل Robots.txt، لیستی از Spider های خاص است که می خواهید آن ها را محدود کنید و یا مسیر های دایرکتوری خاصی را برای آن ها ممنوع نمایید.
● User-agent:
ـ Disallow: /cgi-bin/
ـ Disallow: /images/
ـ Disallow: /archive/
در این حالت، دسترسی را برای همه روبات ها به دایرکتوری cgi-bin، images و archive ممنوع کرده ایم.
باید در آنچه که در فایل Robots.txt قرار می دهید دفیت کنید. فایل زیر را در نظر بگیرید:
● User-agent:
ـ Disallow: /cgi-bin/
ـ Disallow: /important.html/
ـ Disallow: /only-users.php/
در این فایل important.html و only-users، مجاز به ایندکس شدن نیستند اما با این کار به مردم فهماندید که این فایل ها، حساس هستند. اگر محتویاتی را می خواهید مخفی کنید، نباید آن را در فایل Robots.txt لیست کنید چرا که با تایپ آدرسی مثل http://www.weblogina.com/robots.txt لیست فایل هایی را که نمی خواهید دیگران ببینند، به راحتی قابل رویت است!
● کنترل Robot با تگ meta
یک روش دیگر برای فایل Robots.txt (به خصوص برای کسانی که دسترسی به دایرکتوری ریشه ندارند)، استفاده از برچسب meta برای کنترل ایندکس کردن است. برای عدم اجازه به ایندکس یک صفحه خاص، از این تگ meta در بخش head قالبتان استفاده کنید:
تگ را داخل <> قرار دهید!

http://www.weblogina.com
منبع : مطالب ارسال شده