בולנט - דברים מיוחדים...     פרוטו - בניית אתרים

Israeli ASP Organization

ארגון ה-ASP הישראלי

מאמרים/דוגמאות קוד
קישורים
ספרות
חיפוש כללי:

חפש!
כלליHTMLASPASP.NETSQLמסדי נתוניםJavaScriptXML * XSLDHTML * CSSעיצוב וגרפיקהשרתיםComponentsפרסום ושיווקקידום אתריםקופירייטינגPHP
פרסומת
דף ראשי מדורים דרושים הרשמה למועדון אודותינו צור קשר
מיקום: מאמרים ודוגמאות קוד > כללי

robots.txt למה כמה ואיך?

לרוב בוני האתרים  אין מושג מה משמעות הקובץ robots.txt אך למרות זאת רובם יודעים בדיוק מהו הרובוט ומהי מטרתו. הרובוט נקרא גם spider
זהו הכלי בו משתמשים מענוי החיפוש על מנת לקטלג ולהכניס לאינדקס את האתרים אצלו במאגר. בצורתו הבסיסית הרובוט יסרוק אתר ויקטלג את הקישורים החיצוניים, ברגע שהוא יסיים לסרוק את האתר הוא יעבור את הקישורים. לכל קישור הוא יבצע את אותה פעולה וכך הלאה...
זוהי הצורה בה מנועי חיפוש מוצאים אתרים ובונים לעצמם מאגר ענקי של אתרים. הם תלויים באתרים אחרים שיקשרו לאתרים רלוונטים, אשר יקשרו לאתרים אחרים וכו'...

ברגע שמנוע חיפוש סורק אתר מסויים, הוא דבר ראשון יחפש את הקובץ robots.txt לכן יש לזכור למקם אותו בתקייה הראשית של האתר

לדוגמא:
http://www.domain.com/robots.txt

קובץ זה מסביר לרובוט איך עליו לנהוג, או יותר נכון, אילו חלקים באתר לא לסרוק ולא להכניס לאינדקס.
 לשיטה זו קוראים
“The Robots Exclusion Standard”

פורמט הקובץ Robots.txt

הפורמט של קובץ זה הוא מיוחד ופשוט
הוא בנוי משורת “User-agent:”
ושורת “Disallow:”
 
שורת ה “User-agent:” משמשת לקביעה עבור איזה רובוט אנו רוצים לייחס את החסימה. ניתן להשתמש ב * עבור כל הרובוטים
 
דוגמא:

על מנת לחסום  את כל הרובוטים מלסרוק תקייה מסויימת, נשתמש בזה:

User-agent: * Disallow: /cgi-bin/

ברגע שכל רובוט יקרא את שורות אלו, הוא ידע שהוא לא צריך לסרוק את התקיה cgi-bin וגם לא מה שכלול בה

קביעת חסימה עבור רובוט מסויים שימושים במקרים רבים עבור עמודי מעבר אשר משמשים בדרך כלל לאופטימיזציה במנועי החיפוש.

הנה דוגמא כיצה לחסום את גוגל מלסרוק את התקיה  cgi-bin:

 

User-agent: googlebot Disallow: /cgi-bin/


שמות רובוטים נפוצים:

Googlebot – Google.com Inktomi Slurp – HotBot.com IA Archiver – Alexa AskJeeves – AskJeeves.com

דוגמאות נפוצות

 

User-agent: * Disallow:


דוגמא זו תודיע לכל הרובוטים שאפשר לסרוק הכל ללא שום הגבלה (יש לא לכתוכ כלום לאחר ה Disallow)


 

User-agent: * Disallow: /


דוגמא זו תחסום את הסריקה של כל האתר ע"י כל הרובוטים האפשריים (יש להזין תו  / בודד לאחר ה Disallow)

 

 

User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /downloads/ Disallow: admin.asp

דוגמא זו פונה לכל הרובוטים בחסימה לתקיות cgi-bin, images, downloads ואת הקובץ admin.asp
ניתן גם להזין תת תקיות



         

מחבר: אדם ליבסקירמת קושי: 2  ||  ציון: (7.75)כל הזכויות שמורות ל-IAO ©

חנות לסטלן  |   מתכונים  |   חגי ישראל  |   פורטל משחקים  |   חנויות מחשבים ו-ציוד הקפי  |   מגזין מסטול לסטלן המצוי  |   קליפרים  |   גידול צמחים פרחים  |   ספא פינוק מושלם