בולנט - דברים מיוחדים...     פרוטו - בניית אתרים

Israeli ASP Organization

ארגון ה-ASP הישראלי

מאמרים/דוגמאות קוד
קישורים
ספרות
חיפוש כללי:

חפש!
כלליHTMLASPASP.NETSQLמסדי נתוניםJavaScriptXML * XSLDHTML * CSSעיצוב וגרפיקהשרתיםComponentsפרסום ושיווקקידום אתריםקופירייטינגPHP
פרסומת
דף ראשי מדורים דרושים הרשמה למועדון אודותינו צור קשר
מיקום: מאמרים ודוגמאות קוד > קידום אתרים > גוגל

מנוע החיפוש גוגל - סקירה טכנולוגית

מנוע החיפוש גוגל - סקירה טכנולוגית

גוגל, מנוע החיפוש הגדול ביותר בעולם חודר ליותר ויותר תחומים בחיינו, קשה כמעט לתאר את העולם הטכנולוגי בימינו ללא נוכחותו של גוגל.

רבים מאיתנו משתמשים בגוגל כמעט מידי יום ביומו, ובכל זאת, מה אנחנו באמת יודעים על הטכנולוגיה המופלאה השוכנת מתחת לאותו מסך החיפוש בעל המראה הפשוט לכאורה?

צוות קידום האתרים של חברת מורנוס החליט לרכז כאן עבורכם את מירב האינפורמציה הטכנית הידועה לנו על מנוע החיפוש גוגל.

 

אז מהי כמות המידע הנוכחית אשר גוגל מאנדקס בתוכו

נכון לימים אלו, סוף שנת 2004 מנוע החיפוש גוגל מאנדקס מספר שיא של מעל 4 מיליארד דפי אינטרנט שונים בגודל ממוצע של 10 KB, הניתנים לאיחזור מלא ולחיפוש בתוכן הדפים.

 

כיצד גוגל עונה לשאלות החיפוש

יהיה זה בלתי מעשי בעליל להריץ שאילתות חיפוש על כל מילה נתונה בכל רגע נתון על פני כל אחד מהעמודים באינטרנט המוכרים לגוגל, לכן מנוע החיפוש מחלק את הבעיה הגדולה, לבעיות קטנות יותר:

הוא מאנדקס בזמנו החופשי באמצעות רובוטים את כל הדפים ברשת הניתנים לזחילה, לאחר מכן הוא מאנדקס את הדפים שמצא לפי תוכן הדפים כך שיוכל להציג לדוגמא את כל הדפים המכילים את המילה "מנוע" באם יקליד גולש שאילתה שכזו, ולחילופין ידע לבצע חיתוכי מידע המכילים את המילה "מנוע" וגם את המילה"חיפוש" מחשבי "האינדוקס" השונים הללו מפוזרים בין מרכזי הידע והאשכולות השונים בצורה של "הכפלת" הידע מספר פעמים על גבי מרכזי מידע שונים, באשכולות שונים, ובמחשבים שונים.

מבנה זה של שכפול ידע בצורה חכמה על פני מספר מחשבים במספר אתרים המכילים את אותו מידע למעשה הוא זה שמבטיח את פעילותו הרציפה של מנוע החיפוש גם אם התרחשה תקלה טכנית באחד מן המחשבים ה"מאנדקסים" המכילים את האינדקס הספציפי המתאים לשאילתה זו או אחרת.

כאשר מתקבלת שאילתת חיפוש מסויימת היא נשלחת למעשה למחשב "המאנדקס" המתאים המכיל את התשובה לשאילתה, וכך פעולת איחזור המידע מתבצעת רק באותם מחשבים ספציפיים המכילים את האינפורמציה הרצויה. פעולה זו מניבה פעולה חישובית המחזירה תוצאות חיפוש במנות של 1000 תוצאות, מצליבות את המידע עם שרת הפירסומות של גוגל, מוסיף את הקישורים הממומנים לתוצאות ה"אורגניות" ונותן את האפשרות למשתמשים להציג את התוצאות בצורות שונות (מספר התוצאות לעמוד)

 

כמה מחשבים מחוברים יחדיו יוצרים למעשה את גוגל

מערך המיחשוב של גוגל מתבסס על כ30 אשכולות שונים (Data-Centers) המכילים בתוכם כל אחד בתורו מעל 2,000 מחשבים דמוייPC. סה"כ זהו מערך חסר תקדים של 60,000 מחשבים שונים המחוברים יחדיו בשיתוף פעולה מדהים ויוצרים את מערכת החיפוש היעילה הידועה בשם גוגל. זוהי המערכת המבוזרת המסחרית הגדולה ביותר הנמצאת בשימוש בעולם המכילה כ 40TB של אינפורמציה. הנחת העבודה הבסיסית של גוגל היא שכ 2 מחשבים שונים בכל יום בכל אחד מהאשכולות השונים יקרסו/יפסיקו לעבוד ובכל זאת מנוע החיפוש ימשיך לעבוד כרגיל.

 

מבנה טיפוסי של מרכז ידע (Data Center)

באופן עקרוני, מונה כל מרכז ידע כמות של כ 2,000 מחשבים שונים המאורגנים יחדיו במבנה מיחוד המאפשר שיכפול והעתקה של האינפורמציה על פני מחשבים שונים במרכזי ידע שונים. ככל הידוע לנו גוגל אינם משתמשים במחשבים בתצורת "להבים" ולא אימצו טכנלוגיה זו. כל המחשבים באותו מרכז ידע יאוכסנו על גבי ארונות שרתים סטנדרטים (racks). כל מחשב בתורו הוא בעל קצב תקשורת של עד 2Mbps ובחישוב כללי כל מרכז ידע הוא בעל רוחב פס ממוצע אופטימלי של עד 2Gbps .

 

תמיכה בריבוי שפות

נכון לסוף שנת 2004 מנוע החיפוש גוגל מציע ממשק משתמש מתורגם ל 104 שפות אנושיות שונות, בינהם שפות כגון יידיש, זולו, פרסית, וקלינגונית!

 

החומרה בה משתמש גוגל

החומרה בה משתמש גוגל בדרך כלל היא שרתי Intel 2U בעלי מעבד Xeon כפול הפועל בארכיטקטורת X86 כשל מחשב אישי, ודיסקים קשיחים בפורמט IDE סטנדרטי. המאפיין החשוב ביותר של שרתים אלו הוא יכולת "ההחלפה החמה" של ספקי הכח ושל מספר רב של דיסקים קשיחים בו זמנית, ותמיכה במערכי RAID מגוונים של הכוננים הקשיחים. תכונה זו היא קריטית בכדי לשמר את מידת השירות הרציפה עליה מעוניינים לשמור בגוגל.

 

מערכת הקבצים של גוגל

מנוע החיפוש משתמש במערכת קבצים יחודית לו הידועה בשם GFS - Google File System מערכת זו נבנתה במיוחד ע"י צוות מהנדסי התוכנה של גוגל והיא מותאמת ומואצת לעבודה הספציפית של איחזור מידע מהיר בזמן אמת בסביבת העבודה המיוחדת של גוגל. גודל הבלוק (יחידת האיכסון הבסיסית הניתנת להצבעה ומיפוי) הוא 64MB ! מערכת קבצים יחודית זו נבדלת בין היתר בשל הארכיטקטורה שלה המסוגלת להתגבר על תקלות כגון הפרעה באספקת מתח, נפילת שרתים, קריסת דיסקים קשיחים, אובדן תקשורת וכדומה, בקלות יחסית ללא הפרעה למהלך התקין של מנוע החיפוש.

 

סוגי הקבצים אותם מסוגל גוגל לאנדקס

בניגוד לטענה הרוווחת כי גוגל מסוגל לאנדקס רק מספר מועט של סוגי קבצים, אנו יודעים בודאות כי גוגל תומך באופן רשמי בסוגי הקבצים הבאים:

pdf, asp, jsp, html, shtml, xml, cfm, doc, xls, ppt, rtf, wks, lwp, wri, swf.

ובעוד מספר רב ולא מתועד של קבצים מסוגים שונים ומשונים. כמו כן, החברה עורכת ניסויים מתמידים בשיפור יכולת אינדוקס הקבצים השונים הקיימים בעולם ובמיוחד בפורמטים מתקדמים של דחיסת וידאו ואודיו.

 

תיקון שגיאות איות הגדול בעולם

לגוגל יש את המילון הגדול בעולם לטיפול בשגיאות כתיב והוא מכיל ואריאנטים רבים ושונים של אותה מילה ואף של מילים "קרובות" מבחינת המשמעות. צירוף חסר תקדים זה של כח מיחשוב כה חזק ובתוספת של "ידע" מה קיים בדפים רבים ברשת מאפשר לגוגל לבצע חיפושים מקורבים רבים בדיוק משתפר והולך.

 

כשל מרכזי אחרון אשר גרם להפסקת פעילות מוחלטת

התקלה האחרונה המתועדת אשר גרמה למנוע החיפוש לעבוד לחלוטין אירעה בשנת 2000, באותם ימים שכנו כל המחשבים של גוגל באותו "מרכז ידע" פיזי כאשר נתב התקשורת המחבר לרשת האינטרנט קרס וחדל לתפקד במשך כשעה. אלו שניסו להשתמש במנוע החיפוש באותה עת קיבלו את דף השגיאה הנפוץ 404.

 

איכות תוצאות החיפוש

ניתן להתווכח רבות על איכות התוצאות אותם מספק מנוע החיפוש כתשובה לשאילתות הגולשים, אך נראה כי כולם מסכימים עם העובדה כי זהו כרגע מנוע החיפוש הפופולרי ביותר בעולם וככזה חובה עליו להמשיך ולשפר את תוצאות החיפוש ולספק שירות טוב יותר מן המתחרים הרבים שצצו לו עם השנים.

 

יצחק מורנו, מורנוס - המומחים לשיווק באינטרנט
http://www.moreno.co.il



         

מחבר: יצחק מורנורמת קושי: 2  ||  ציון: (7.1)כל הזכויות שמורות ל-IAO ©

חנות לסטלן  |   מתכונים  |   חגי ישראל  |   פורטל משחקים  |   חנויות מחשבים ו-ציוד הקפי  |   מגזין מסטול לסטלן המצוי  |   קליפרים  |   גידול צמחים פרחים  |   ספא פינוק מושלם