בולנט - דברים מיוחדים...     פרוטו - בניית אתרים

Israeli ASP Organization

ארגון ה-ASP הישראלי

מאמרים/דוגמאות קוד
קישורים
ספרות
חיפוש כללי:

חפש!
כלליHTMLASPASP.NETSQLמסדי נתוניםJavaScriptXML * XSLDHTML * CSSעיצוב וגרפיקהשרתיםComponentsפרסום ושיווקקידום אתריםקופירייטינגPHP
פרסומת
דף ראשי מדורים דרושים הרשמה למועדון אודותינו צור קשר
מיקום: מאמרים ודוגמאות קוד > קידום אתרים

רובוטי סריקה - Crawlers

הדרך בה אוספים מנועי החיפוש מידע על האתר שלכם היא באמצעות רובוטי סריקה (הנקראים גם Spiders, Crawlers וגם Robots), הסורקים את האינטרנט כל הזמן. רובוטים אלו הם בעצם תוכנות (די פרימיטיביות - למרות שהן משופרות כל הזמן) שתפקידן הוא להוריד דפי אינטרנט לתוך מאגר נתונים, לחפש בהם קישורים לדפים חדשים, ולהוריד גם אותם (וכן הלאה).

אתר חברותי לרובוטים

מאחר והרובוטים די פרימיטיביים, אז הם אוהבים אתרים פשוטים. אתרים המבוססים על טכנולוגיות מתקדמות יותר מסתכנים בכך שהרובוטים לא יבינו אותם. טכנולוגיות מהם כדאי להימנע כוללות:

  • פלאש - Flash
    הרובוטים כיום מסוגלים לקרוא מעט מן הדברים המופיעים בתוך הפלאש. אתרים שלמים הבנויים על פלאש אחד יופיעו במנוע החיפוש כדף בודד, ללא רוב התוכן של האתר. פלאש הוא אוייב הרובוטים מספר אחד כיום.
  • פריימס - Frames
    שיטה שלאט לאט נעלמת מן העולם. הבעיה בשיטה זו היא כי הכתובת הכללית של הדף נשארת קבועה, והתוכן מתחלף בתוך ה-Frame. לכן, אי אפשר להגיע ישירות לדף מסויים בתוך האתר, ורק הדף הראשי יופיע. אם יופיע דף פנימי, אז הוא יופיע ללא המסגרת החיצונית. בכל מקרה, התוצאה היא לא טובה.
  • איי-פריימס - IFrames
    זוהי טכנולוגיה חדישה יותר, אך עדיין יוצרת את אותה הבעיה. התוכן מתחלף בתוך ה-IFrame, ולכן הרובוט לא יכול לראות את התכנים השונים. מאד לא מומלץ. אם המטרה היא רק להשיג מסגרת פנימית עם גלילה (בתוכה יש קוד שאיננו מובא מדף נפרד) אז עדיף להשתמש ב-DIV או SPAN לגביהם מגדירים ב-CSS גלילה.
  • דפים דינמיים עם Session ID
    אתרים רבים משתמשים בנתון Session ID בתוך כתובת הדף הדינמי כדי לעקוב אחר משתמשים באתר. מצב זה גורם לרובוט לחשוב כי מדובר בדף חדש שאינו קיים עוד במאגר שלו (כי ה-Session ID הוא חדש). דפים מסוג זה יעלמו בסופו של דבר מתוצאות החיפוש לחלוטין.
  • דרישת איפשור Cookies
    אתרים מסויימים דורשים כי המשתמש יפעיל את אופציית ה-Cookies כדי לאפשר לו לראות את האתר. הרובוטים של מנועי החיפוש לא יודעים לייצר Cookies, ולכן לא יוכלו לקרוא דפים הדורשים אותם. זה לא שאסור להשתמש ב-Cookies - פשוט לא לחייב שימוש בהם.
  • שימוש בקישורי JavaScript בלבד
    רובוטים יודעים לזהות קישורים מסוג <a href> בלבד, ואינם עוקבים אחר קישורי JavaScript. באתרים בהם ישנם קישורים מסוג JavaScript לא יופיעו הדפים אליהם אין קישור רגיל.

ושוב נחזור על הבסיס - פשוט זה טוב.

רמות סריקת האתר

הרובוטים המשמשים לסריקת האינטרנט מבצעים זאת בשלוש רמות שונות של ירידה לפרטים. קיימות שלוש רמות סריקה עיקריות:

  • סריקה אחר דפים חדשים
    סריקה זו מבוצעת על מנת לאתר דפים חדשים שעדיין לא מופיעים במאגר הדפים של מנוע החיפוש. הרובוט יכול "לגלות" את הדף החדש בעקבות הכנסתו בדף "הוסף אתר" של מנוע החיפוש, או בעקבות כך שהמנוע נתקל בקישור אל הדף החדש באחד הדפים שכבר קיימים אצלו במאגר הדפים.
  • סריקה שיטחית של הדפים החשובים
    סריקה זו עוברת על הדפים החשובים ביותר באתר (בדרך כלל דף הבית), ונעשית לעיתים תכופות יותר.
  • סריקת עומק
    בסריקה זו נסרקים כל דפי האתר המופיעים במסד הנתונים של מנוע החיפוש כדי לאתר דפים חדשים ושינויים בתוכן הדפים הקיימים. סריקה זו נעשית אחת לזמן ארוך יותר.

מניעת גישת רובוטים לאיזורים מסוימים באתר

לעיתים קרובות אתם תרצו למנוע גישה של רובוטי החיפוש לאיזור מסויים בתוך האתר שלכם. דוגמא בסיסית לכך היא ספרייה המכילה חומר שאינכם מעוניינים שיחשף בטעות, או דף שכבר אינו מעודכן.

קיימות שתי דרכים עיקריות למניעת גישת הרובוטים לאיזורים מסויימים באתר.

קובץ robots.txt

לעיתים קרובות תהיו מעוניינים למנוע גישה של רובוט של מנוע חיפוש מסויים לאתר שלכם (או לחלק ממנו), או תהיו מעוניינים לחסום את הגישה של כל הרובוטים לאיזור מסויים. לשם כך נוצר קובץ robots.txt.

שימו לב: איסור גישה של מנוע חיפוש לדף מסויים אמנם ימנע את איסוף התוכן של הדף, אך לעיתים, אם יש הפניות לאותו דף בדפים בהם מנועי החיפוש כן יכולים להיכנס, אז הדף כן יופיע בתוצאות החיפוש, אך ללא המידע לגביו (כותרת, תיאור וכו). אם אתם רוצים למנוע את הופעת הדף לחלוטין, יש להשתמש בשיטה השנייה (תג robots).

קובץ robotx.txt צריך להימצא בספרייה הראשית של האתר (בדרך כלל הוא לא קיים באופן טבעי, אלא צריך ליצור אותו). כל חלק בתוך הקובץ כולל את סוג הרובוט והגבלות על אותו רובוט. כמו-כן יהיו בקובץ מגבלות המוטלות על כל הרובוטים.

כדי ללמוד כיצד ליצור את קובץ robots.txt, כדאי לקרוא את המאמר בניית קובץ robots.txt.

תג מטה (Robots Meta Tag)

כדי לשלוט על הדרך בה רובוטי החיפוש מעבדים דפים מסויימים באתר, ניתן להשתמש בתג robots. הנושאים בהם שולט תג זה הם:

  • האם להכניס את הדף למסד הנתונים של מנוע החיפוש או לא.
  • האם לעקוב אחרי קישורים היוצאים מן הדף הזה או לא.

אורן שץ

קידום אתרים – SEO Israel



         

מחבר: אורן שץרמת קושי: 1  ||  ציון: (3.25)כל הזכויות שמורות ל-IAO ©

חנות לסטלן  |   מתכונים  |   חגי ישראל  |   פורטל משחקים  |   חנויות מחשבים ו-ציוד הקפי  |   מגזין מסטול לסטלן המצוי  |   קליפרים  |   גידול צמחים פרחים  |   ספא פינוק מושלם