سه شنبه, ۱۸ اردیبهشت, ۱۴۰۳ / 7 May, 2024
مجله ویستا
توضیحی در مورد Robots.txt
همان طور که می دانید، جمع شدن صفحات سایت توسط یک موتور جستجو، اولین گام در ایجاد یک سایت قابل دسترس روی محیط وب است. ساده ترین راه برای این کار این است که به موتور های جستجوی بگویید سایت شما موجود است!
برای این کار می توانید آدرس سایت (URL) خود را در موتورهای جستجوی مختلف ثبت کنید. (که کمابیش با نحوه انجام این کار آگاهی دارید)
● حذف روبات
قبل از اینکه بخواهید سایت و یا وبلاگ خود را در هر موتور جستجویی قرار دهید، به خاطر داشته باشد که داشتن یک روبات که کل سایت شما را ایندکس کند، ایده خوبی نیست! اولین دلیل آن، این است که بعضی صفحات مثل برنامه هایی که در دایرکتوری cgi-bin شما هستند، نیازی به ایندکس شدن ندارند و دومین دلیل اینکه بعضی از صفحات موقت و ناپایدار هستند و ایندکس کردن آن ها، منجر به ایجاد خطاهای بسیاری هنگام بازیابی آن ها می شود.
● Robots.txt
برای محدود کردن دسترسی به روبات، پروتکل Robot Exclusion، تهیه شده است و ایده ابتدایی آن، استفاده از فایل خاص Robot.txt در دایرکتوری ریشه سایت است.
برای مثال اگر یک Spider در حال ایندکس کردن http://www.weblogina.com باشد، ابتدا به جستجوی فایل http://www.weblogina.com/robots.txt می پردازد. اگر این فایل را پیدا کرد، قبل از شروع به اینکس سایت، آن را تجزیه و تحلیل می کند.
فرمت اولیه فایل Robots.txt، لیستی از Spider های خاص است که می خواهید آن ها را محدود کنید و یا مسیر های دایرکتوری خاصی را برای آن ها ممنوع نمایید.
● User-agent:
ـ Disallow: /cgi-bin/
ـ Disallow: /images/
ـ Disallow: /archive/
در این حالت، دسترسی را برای همه روبات ها به دایرکتوری cgi-bin، images و archive ممنوع کرده ایم.
باید در آنچه که در فایل Robots.txt قرار می دهید دفیت کنید. فایل زیر را در نظر بگیرید:
● User-agent:
ـ Disallow: /cgi-bin/
ـ Disallow: /important.html/
ـ Disallow: /only-users.php/
در این فایل important.html و only-users، مجاز به ایندکس شدن نیستند اما با این کار به مردم فهماندید که این فایل ها، حساس هستند. اگر محتویاتی را می خواهید مخفی کنید، نباید آن را در فایل Robots.txt لیست کنید چرا که با تایپ آدرسی مثل http://www.weblogina.com/robots.txt لیست فایل هایی را که نمی خواهید دیگران ببینند، به راحتی قابل رویت است!
● کنترل Robot با تگ meta
یک روش دیگر برای فایل Robots.txt (به خصوص برای کسانی که دسترسی به دایرکتوری ریشه ندارند)، استفاده از برچسب meta برای کنترل ایندکس کردن است. برای عدم اجازه به ایندکس یک صفحه خاص، از این تگ meta در بخش head قالبتان استفاده کنید:
تگ را داخل <> قرار دهید!
http://www.weblogina.com
منبع : مطالب ارسال شده
نمایندگی زیمنس ایران فروش PLC S71200/300/400/1500 | درایو …
دریافت خدمات پرستاری در منزل
pameranian.com
پیچ و مهره پارس سهند
تعمیر جک پارکینگ
خرید بلیط هواپیما
ایران آمریکا رافائل گروسی اصفهان نیچروان بارزانی محمد اسلامی رهبر انقلاب مجلس شورای اسلامی دولت دولت سیزدهم شورای نگهبان مجلس
هواشناسی تهران قتل شهرداری تهران حجاب دادگاه آموزش و پرورش وزارت بهداشت فضای مجازی شهرداری سلامت پلیس
مالیات خودرو قیمت طلا سایپا قیمت خودرو بازار خودرو قیمت دلار ایران خودرو بانک مرکزی حقوق بازنشستگان مسکن بورس
تلویزیون نمایشگاه کتاب سینما افعی تهران سریال موسیقی سینمای ایران دفاع مقدس تئاتر کتاب صدا و سیما نمایشگاه کتاب تهران
دانشگاه آزاد اسلامی دانش بنیان فضا
رژیم صهیونیستی اسرائیل غزه فلسطین حماس جنگ غزه روسیه رفح چین نوار غزه طوفان الاقصی اوکراین
استقلال فوتبال پرسپولیس ذوب آهن لیگ برتر نساجی لیگ برتر ایران لیگ برتر فوتبال ایران بازی رئال مادرید سپاهان جواد نکونام
هوش مصنوعی سامسونگ ناسا آیفون مایکروسافت اپل گوگل باتری اندروید ماهواره اینوتکس
بیماران خاص مواد غذایی ویتامین رژیم غذایی زیبایی بیمه کاهش وزن دندانپزشکی فشار خون