לרוב בוני האתרים אין מושג מה משמעות הקובץ robots.txt אך למרות זאת רובם יודעים בדיוק מהו הרובוט ומהי מטרתו. הרובוט נקרא גם spider זהו הכלי בו משתמשים מענוי החיפוש על מנת לקטלג ולהכניס לאינדקס את האתרים אצלו במאגר. בצורתו הבסיסית הרובוט יסרוק אתר ויקטלג את הקישורים החיצוניים, ברגע שהוא יסיים לסרוק את האתר הוא יעבור את הקישורים. לכל קישור הוא יבצע את אותה פעולה וכך הלאה... זוהי הצורה בה מנועי חיפוש מוצאים אתרים ובונים לעצמם מאגר ענקי של אתרים. הם תלויים באתרים אחרים שיקשרו לאתרים רלוונטים, אשר יקשרו לאתרים אחרים וכו'...
ברגע שמנוע חיפוש סורק אתר מסויים, הוא דבר ראשון יחפש את הקובץ robots.txt לכן יש לזכור למקם אותו בתקייה הראשית של האתר
לדוגמא: http://www.domain.com/robots.txt
קובץ זה מסביר לרובוט איך עליו לנהוג, או יותר נכון, אילו חלקים באתר לא לסרוק ולא להכניס לאינדקס. לשיטה זו קוראים “The Robots Exclusion Standard”
פורמט הקובץ Robots.txt
הפורמט של קובץ זה הוא מיוחד ופשוט הוא בנוי משורת “User-agent:” ושורת “Disallow:” שורת ה “User-agent:” משמשת לקביעה עבור איזה רובוט אנו רוצים לייחס את החסימה. ניתן להשתמש ב * עבור כל הרובוטים דוגמא:
על מנת לחסום את כל הרובוטים מלסרוק תקייה מסויימת, נשתמש בזה:
User-agent: *
Disallow: /cgi-bin/
ברגע שכל רובוט יקרא את שורות אלו, הוא ידע שהוא לא צריך לסרוק את התקיה cgi-bin וגם לא מה שכלול בה
קביעת חסימה עבור רובוט מסויים שימושים במקרים רבים עבור עמודי מעבר אשר משמשים בדרך כלל לאופטימיזציה במנועי החיפוש.
הנה דוגמא כיצה לחסום את גוגל מלסרוק את התקיה cgi-bin:
User-agent: googlebot
Disallow: /cgi-bin/
שמות רובוטים נפוצים:
Googlebot – Google.com
Inktomi Slurp – HotBot.com
IA Archiver – Alexa
AskJeeves – AskJeeves.com
דוגמאות נפוצות
User-agent: *
Disallow:
דוגמא זו תודיע לכל הרובוטים שאפשר לסרוק הכל ללא שום הגבלה (יש לא לכתוכ כלום לאחר ה Disallow)
User-agent: *
Disallow: /
דוגמא זו תחסום את הסריקה של כל האתר ע"י כל הרובוטים האפשריים (יש להזין תו / בודד לאחר ה Disallow)
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /downloads/
Disallow: admin.asp
דוגמא זו פונה לכל הרובוטים בחסימה לתקיות cgi-bin, images, downloads ואת הקובץ admin.asp ניתן גם להזין תת תקיות
|