چکونه از فایل Robots.txt استفاده کنیم ؟
ابتدا باید بفهمیم منظور از Robot Files ها چیه
موقعی که سرچ انجین ها به سایت شما میان ، اولین چیزی که به اون توجه میکنند فایل Robot هست.
البته در بعضی از سرچ انجین ها متفاوت هست ولی این قاعده به طور کلی صادق است.
این فایل به سرچ انجین ها میگه چی چیزی رو باید ایندکس کنن و چه چیزی را نباید ایندکس کنند.
همچنین ممکنه sipemap شما که بصورت xml هست رو نشون بده.
بعد از این سرچ انجین ها ارسال میکنن bot یا Robot یا Spider تا crawl کنه سایت شما رو همونطور که در فایل robot.txt گفته شده.
بات های گوگل رو Googlebot و بات های Bing رو Bingbot میگویند.
همچنین Alexa ، Lycos ،Ask و بقیه هم بات های مخصوص خودشون رو دارند.
اغلب بات ها از طرف سرچ انجین ها هستند ، گرچه گاهی اوقات بعضی سایت ها بات های خودشون رو ارسال میکنن برای دلایل متعددی.
به عنوان مثال برخی سایت ها ازتون میخوان که کد مخصوصی رو توی وب سایتتون برای Verify شدن قرار بدید
بعد بات خودشون رو میفرستن تا بیاد چک کنه که شما کد Verify رو توی سایتتون قرار دادید یا نه .
فایل های Robot.txt کجا قرار میگیرن ؟
فایل robots.txt متعلق به document Root Folder هست
که در واقع همون Public html هست
شما به سادگی میتونید یه فایل خالی بسازید و اسم فایل رو robots.txt بزارید.
این باعث کاهش error های سایت شما میشه و در بهبود Rank سایت تاثیر گذار است.
بلاک کردن Robots و سرچ انجین ها
اگر میخواهید جلوگیری کنید از Visit سایتتون توسط سرچ انجین ها و همچنین Rank دادن به سایتتون توسط اون سرچ انجین ها
میتونید از کد زیر استفاده کنید.
#Code to not allow any search engines!
User-agent: *
Disallow: /
همچنین شما میتونید مانع بشید که robots ها فقط یه قسمت خاص از سایتتون رو crawl نکنن.
در مثال زیر ما نمیخواهیم که ربات ها و سرچ انجین ها فولدر cgi-bin folder همچنین tmp و junk سایت را crawl کنند.
# Blocks robots from specific folders / directories
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
در مثال بالا ، http://www.yoursitesdomain.com/junk/index.html توسط موتورهای جستجو crawl نمیشه ولی به عنوان مثال http://www.yoursitesdomain.com/index.html توسط سرچ انجین ها Crawl میشه.
Google and the Bing Network
سرچ انجین های شرکت گوگل و بینگ ، امروزه زیاد به فایل robot.txt توجهی نمیکنند و برای اینکه تاخیر در بازید سایتتون
توسط ربات های گوگل و بینگ رو کم کنید بهتره وبمستر اکانت توی گوگل و بینگ بسازید و دامنه سایت خودتون رو بهش معرفی کنید
در اینصورت شما کمترین تاخیر در بازدید از سایتتون توسط ربات های این دو شرکت را دارید.
نکته : اگر شما میخواهید ترافیک سایتتون رو کاهش بدید از طریق مسدود کردن crawler هایی مثل yandex یا Baidu که عملا استفاده ای
در ایران ندارند ، این کار را باید از طریق فایل .htaccess انجام دهید.
هیچ نظری وجود ندارد