מנועי חיפוש ואינדקסים

‏ • 22 ביוני, 2002



כלי החיפוש באינטרנט נחלקים לשני סוגים עיקריים – “מנועי חיפוש אוטומטיים” ואינדקסים אשר נבנים בצורה ידנית. “מנועי החיפוש האוטומטיים” אוספים את הנתונים בעזרת “תוכנות שיטוט” הסורקות את אתרי האינטרנט ועוברות מדף לדף ומאתר לאתר (דרך הקישורים). הן יוצרות קובץ גדול מאוד של מאות מיליוני דפים שעברו אינדוקס. הקובץ עליו נעשה החיפוש כולל כל מילה שתוכנות השיטוט איתרו. ניתן לחפש במנועים אלה בצורה ישירה מילים או ביטויים כמאות מיליוני דפים. דוגמאות של מנועים אוטומטיים: AltaVista , , Northernlight ,Excite , Fast, Google , HotBot .
אף אחד ממנועי ם אל הלא מכסה את כל האינטרנט (מעל 2 מיליארד דפים), הגדולים שבהם מכסים כ 50 אחוזים מהדפים. למרבית מנועי החיפוש האוטומטיים יש הסכם עם אינדקסים גדולים ובמקרה שלא מוצאים בהם את המידע הרצוי הם מפנים לאינדקס עמו הם קשורים. חלק ממנועי החיפוש האוטומטיים אינם כוללים תוכנת שיטוט והם רוכשים את האינדקס עליו מבוצע החיפוש ממנוע ה INKTOMI . מנוע זה לא מציע שרות חיפוש ברשת אלא רק קבצים גולמיים למנועי החיפוש השונים.

אינדקסים כוללים מידע שנאסף על ידי אנשים שמקטלגים את האתרים תחת “עץ קטגוריות” ומספקים תיאור כללי של האתר. הדוגמא המוכרת ביותר של אינדקס הוא ה – Yahoo אשר מכסה 1.7 מליון אתרים (נכון לאוק’ 2000 ) , קיימים עוד שני אינדקסים בגודל דומה (http://dmoz.org, ו www.looksmart.com ) ואלפי אינדקסים קטנים המתמחים בנושאים ספציפיים. במקרים רבים האינדקסים הספציפיים הם יותר מקצועיים וממוקדים בתחום אותו הם מכסים וכדאי להקדיש זמן לאיתור אינדקס טוב בתחום בו מתעניינים. כמה הצעות כיצד למצוא אינדקסים מתמחים.
מטה מנועים -מטה מנועים הוא סוג נוסף של מנועי חיפוש אשר שולח את השאלה עליה אנו מחפשים מידע למספר מנועי חיפוש ואינדקסים במקביל. מטה מנועים טובים יודעים לרכז את התוצאות כך שלא יהיו כפילויות. יתרונם על פני המנועים והאינדקסים הרגילים הוא בכיסוי שהם מספקים. החסרון העיקרי של סוג זה הוא בחוסר היכולת למקד את החיפוש מומלץ להשתמש בסוג זה של מנועים היא בשני מקרים – אם במנועים הרגילים לא מוצאים את המידע המבוקש או בשלב ראשוני של החיפוש כדי לאתר מנועים/אינדקסים שיש בהם הרבה מידע רלבנטי.

חיפוש בWEB הנסתר ( Invisible-Web)

חלק גדול מאוד מהמידע המצוי באינטרנט נמצא תחת תכנות בסיסי נתונים. “תוכנות השיטוט” של מנועי החיפוש האוטומטיים אשר מאנדקסות את דפי הרשת לא יכולות להיכנס לאתרים אלו ולכן את המידע הרב המצוי באתרים אלו לא ניתן למצוא במנועי החיפוש האוטומטיים. המידע המצוי במנועים על אתרים אלה דומה לזה הקיים באינדקסים הידניים, הוא כולל רק את הטקסטים של דף השער ודפים סטטים של האתר שאינם תחת תכנת בסיס הנתונים. למעשה מנועי חיפוש אלו מתחברים לשרתים של ספקי האינטרנט (ISP) ומקטלגות משם את הדפים. מנוע החיפוש “גוגל” (www.google.com) , הנחשב למנוע החזק בעולם, עובד בשיטה זו. שלא כמו מנועי חיפוש אחרים הוא מדרג את התוצאות לפי מספר הצפיות באתר, הנמדדות. החיסרון בשיט ה זו היא שאתר בעל מעט כניסות עשוי שלא להרשם למנוע זה (כי הוא אינו מופיע בשרתי הISP) .

מרבית האתרים הגדולים נבנים על תכנות בסיסי נתונים וההערכה היא שהיקף המידע שלא עובר אינדוקס על ידי תכנות השיטוט גדול פי 50 בקירוב מהמידע המצוי בדפים הסטטיים שמאונדקסים על ידי “תכנות השיטוט”. כדי להתמודד עם הבעיה פותחו סוגים שונים של מטה מנועים הסורקים במקביל קבוצות גדולות של אתרים הבנויים על דטה בייסים. אולם הפתרונות הקיימים הם חלקיים בלבד ויש להיות מודע לבעיה בתכנון איסטרטגית החיפוש ובעת בחירת מנועי החיפוש.

מיקוד תוצאות החיפוש

לאחר בחירת מנוע החיפוש והגדרת מילות החיפוש הבעיה בה נתקלים רב הגולשים היא כמויות גדולות מאוד של דפים העונים לקריטריונים שהוגדרו בחיפוש אך בפועל לא מספקים את המידע הנדרש. מיקוד החיפוש הוא תהליך צמצום מספר התוצאות והגדלת מידת הרלבנטיות שלהן.
המיקוד נעשה בעזרת שני קבוצות של כללים – שימוש באופרטורים בוליאנים והגבלת החיפוש לשדות נבחרים. ניתן לבנות שאילתות מורכבות הכוללות גם שימוש באופרטורים בוליאנים וגם הגבלה של החיפוש לשדות נבחרים.

האופרטורים הבוליאנים העיקריים:

OR – פקודה המשמשת להגדלת מרחב החיפוש על ידי חיבור של שתי מלים. דוגמה: אם הוגדרה שאילתה: – clothes or shirts יאותרו הדפים/רשומות המכילים את המילה clothes והדפים המכילים את המילה ,shirts והדפים המכילים את שתי המלים. זוהי בדרך כלל שאילתת ברירת המחדל.
AND – פקודה המשמשת לצמצום מרחב החיפוש על ידי הצבת תנאי המחייב הופעת שתי המלים שהוגדרו בשאילתה. לדוגמה: אם הוגדרה שאילתה: – clothes and shirts יאותרו רק רשומות המכילות את שתי המלים, רשומות המכילות מלה אחת בלבד לא יאותרו.
NEAR – פקודה זו קיימת רק במנועי חיפוש בודדים; היא מציבה תנאי מחמיר יותר מ -AND כיוון שהיא דורשת ששתי המלים שבניהן הופיעה הפקודה NEAR ימצאו במרחק לא גדול האחת מהשנייה (על פי רב 10 מלים). במנועי חיפוש מקצועיים קיימת לעיתים גם אפשרות להגדיר את המרחק הרצוי בין המלים וכן לשלוט בסדר ההופעה של המלים.
NOT – פקודה זו מצמצמת את תוצאות החיפוש בכך שהיא מבטלת את כל הרשומות שבהן נמצאה מלה מסוימת. לדוגמה: אם הוגדרה השאילתה: clothes not shirts נקבל רק דפים בהם מופיעה המלה clothes ולא מופיעה בהם המלה shirts.

בנוסף לאופרטורים הבוליאנים מאפשרים מנועי חיפוש רבים גם שימוש בפקודות נוספות:
ביטויים (Phrase) – שימוש בביטוי מצמצם את תוצאות החיפוש רק לרשומות הכוללות את הביטוי המדויק שהוגדר בשאילתה. הסימון המקובל של מלה או קבוצת מלים כביטוי נעשה בדרך כלל על ידי הכנסת המלה או המלים לגרשיים. דוגמה: חיפוש הביטוי “Israel “export institute יאתר רק דפים הכוללים את הביטוי בדיוק כפי שנכתב. החיפוש לא יאתר דפים הכוללים את המלים .Israel export
פקודת קיטוע (*) – משמשת להרחבת החיפוש, של מונח מסוים למונחים הבנויים על אותו שורש, אבל יש להם סיומות שונות. לדוגמה: הגדרת שאילתה: – *stud תאתר דפים הכוללים את המלים ,student students, studying וכו’. יש להיזהר מחיתוך מוקדם מדי של מלים שיביא לאיתור מספר רב של מלים לא רלוונטיות.

שימוש באותיות גדולות או קטנות – חלק ממנועי החיפוש מאפשרים להגדיר באיזה סוג אותיות מעונינים להשתמש. אותיות גדולות או אותיות קטנות (upper case או lower case). לרב, חיפוש באותיות קטנות מאתר גם מלים שנכתבו באותיות גדולות, אך לא להפך. לכן אם רוצים להיות בטוחים, ולא לצמצם את מספר תשובות, מוטב להשתמש באותיות קטנות. שימוש באותיות גדולות ייעשה כשרוצים לצמצם את מרחב החיפוש; למשל בעת חיפוש שמות אנשים או מקומות, כשידוע שהמלה אותה מחפשים מתחילה באות גדולה.

הצורה בה מגדירים למנוע החיפוש את האופרטורים השונים (התחביר) איננה קבועה. ישנם אומנם צורות מקובלות אבל יש צורך ללמוד את הדרך בה יש להגדיר את הפקודה בכל מנוע. בחלק מהמנועים בחירת האופרטורים נעשית מתוך תפריט מוכן מראש.
ניתן לבנות שאילתה הכוללת מספר מילים ואופרטורים בוליאנים. שימוש בסוגרים מאפשר לחבר שאילתה יותר מורכבת, לדוגמא:
(clothes and shirts) and not (us or usa or u.s. or u.s.a.)
השאילתה מבקשת ממנוע החיפוש את כל הדפים/רשומות בהן מופיעות שתי המילים clothes ו shirts אולם לא מופיעה המילה US בכל אחת מהאפשרויות המופיעות בסוגריים.

הגבלת החיפוש לשדות נבחרים בדף

השיטה השניה למיקוד תוצאות החיפוש היא הגבלת השאילתה לשדות נבחרים בדף/רשומה. בדפי HTML ורשומות באידקסים של מנועי חיפוש ישנם מספר שדות, חלקם חובה וחלקם אופציונלי המשמשים לתיאור המידע, לדוגמה שדות לתיאור תוכן הדף/רשומה, כתובת הדף, תאריך עדכון הדף ובקבוצות דיון גם שם הקבוצה, שם המחבר ועוד.

מנוע החיפוש שמציע הכי הרבה אפשרויות חיפוש בשדות נבחרים הוא ה Google , מנועי חיפוש אחרים מאפשרים חיפוש בשדות היותר חשובים אך לא בכולם. הפקודות המשמשות להגבלת החיפוש לשדות נבחרים נכתבות בצורה שונה בכל מנוע. יש ללמוד את האפשרויות ואת צורת הכתיבה בעזרת מסכי העזרה – HELP.

להלן הסבר על אפשרויות החיפוש בשדות העיקריים.
חיפוש בשדה ה-Title מומלץ כדרך טובה לצמצום ומיקוד
תוצאות השאילתה.
חיפוש בשדה כתובת הדף

לכל דף באינטרנט ישנה כתובת חד חד ערכית הנקראת URL . Uniform Resource) Locator ) –כתובת זו מורכבת משני חלקים. חלק ראשון משותף לכל דפי האתר נקרא HOST מסתיים בסלש (/) ואחריו חלק שני שניתן לכל דף על ידי בונה האתר.
החלק הראשון של השם (HOST) כולל לרב 3 איברים – איבר ראשון קשור לשם החברה/ארגון/מוצר, איבר שני מעיד על סוג האתר (GOV, COM, CO, EDU, MIL,ORG, NET ) ואיבר שלישי המציין באיזו מדינה נרשם שמו של האתר ( IL, UK, FR, וכו’)
ניתן למקד את תוצאות החיפוש על ידי הגבלת החיפוש לשם המופיע בכתובת הדף (לרב שם החברה או המוצר), לסוג הארגון לו שייך האתר (חברה פרטית, ממשלתי, ארגון וכו’) ולמדינה בה נרשם שם האתר.
קיימות 3 אפשרויות חיפוש על שדה כתובת הדף (לא בכל המנועים):
חיפוש על הטקסט המופיע ב URL
חיפוש על הטקסט המופיע ב HOST
חיפוש ב DOMAIN (החיפוש הוא על האיבר האחרון של ה HOST . דוגמאות הגבלת החיפוש בשדה שם האתר ב Altavista : url:toyota – יאותרו כל הדפים שבשם הדף שלהם מופיעה המלה toyota (קרוב לוודאי שהם עוסקים בטויוטה)host:toyota – יאותרו כל הדפים שבשם האתר שלהם מופיעה המילה toyota (קרוב לוודאי שהדפים שייכם לאתר של חברת טיוטה) domain:il – יאותרו כל הדפים של אתרים שנרשמו בישראל.url:gov and domain:uk – יאותרו כל הדפים של אתרי ממשלה שנרשמו באנגליה.
יש לזכור שאתרים בארה”ב לא כוללים סיומת US המציינת את הארץ ולכן חיפוש על DOMAIN מאתר את סוגי האתרים האמריקאים. לדוגמא –
domain:gov – יאותרו כל הדפים של אתרי ממשלת ארה”ב.

חיפוש על פי תאריך הרשומה – על כל דף נרשם בשדה מיוחד התאריך בו הוא הועלה לרשת האינטרנט. חיפוש על שדה זה מאפשר לצמצם את החיפוש לטווח זמן רצוי, והוא שימושי כשמחפשים מידע טרי. מנועי חיפוש רבים מאפשרים בחירת טווח תאריכים בהם יבוצע החיפוש.

שדות נוספים עליהם ניתן לבצע חיפוש הם:

  • שדות המתארים את סוג הקובץ
  • שדה המתאר את תוכן התמונה המופיעה בדף
  • שדות לינק – מאפשר לגלות איזה אתרים יצרו לינק לדף מסוים באינטרנט.
  • בחירת השפה בה כתובים הדפים.

הגדרת השאילתה

השלב ראשון בתהליך חיפוש המידע הוא הגדרת הנושא עליו אנו מחפשים מידע, ובחירת המלים בהן נשתמש כדי לבצע את החיפוש. הקפדה על בחירת המלים הנכונות היא מפתח להצלחת החיפוש. מומלץ להיעזר במילון ובתזאורוס (שכולל הרבה מלים נרדפות), וכן לקרוא
חומר בתחום ולדלות מתוכו את המלים הרלוונטיות. בשלבי החיפוש הראשונים נתקלים לרב במלים נוספות המתארות את נושא החיפוש, כדאי להרחיב את החיפוש ולהשתמש גם בהן.
בתחילת החיפוש מומלץ להגדיר שאילתה רחבה הכוללת את כל המלים המתארות את נושא החיפוש ובהמשך להתחיל לצמצם את החיפוש על ידי הוספת תנאים מגבילים.

בחירת מנוע החיפוש

ישנם באינטרנט מאמרים ומחקרים רבים העוסקים בהשוואות בין מנועים ובבדיקת יעילותם. חלק מהמאמרים משווה את תכונות המנועים וחלקם משווה תוצאות מבחני חיפוש שבוצעו במנועים השונים. המסקנה העיקרית העולה היא שאין מנוע מושלם. בנוסף לכך מרבית מנועי החיפוש עוברים שינויים מהירים ולכן גם יתרונותיו של מנוע מסוים מוגבלים לזמן נתון. עם זאת קיימת הסכמה בין מרבית המידענים על מספר מנועים מובילים (נכון לכתיבת המאמר). בקטגורית האינדקסים מרבית המידענים מעדיפים את השימוש ב YAHOO ובקטגורית מנועי החיפוש את Altavista , Google ו – Northernlight וברמת פופולריות יותר נמוכה – Hotbot, Excite, Fast.

מנוע Google נחשב על ידי מידענים רבים למנוע הטוב ביותר. הוא מציע הכי הרבה אפשרויות למיקוד החיפוש ויש לו כיסוי טוב של דפי האינטרנט. השיקול העיקרי בבחירת סוג מנוע החיפוש (מנוע אוטומטי או אינדקס) נובע מאסטרטגית החיפוש בה אנו בוחרים. בחיפוש ישיר של מידע יש להשתמש במנועי החיפוש לעומת זה בחיפוש אחר אתר המכסה נושא מסוים עדיף להשתמש באינדקס. החיפוש הישיר מתאים בעיקר לאיתור מידע ספציפי (לדוגמא מידע על מחלה מסוימת) החיפוש של אתר בנושא מסוים מתאים בעיקר כאשר המידע שאנו מחפשים הוא יותר רחב, לדוגמא מידע על גידול דגים.
יש לזכור שמנועי החיפוש האוטומטיים לא מכסים את המידע המצוי באתרים הבנויים על תכנות בסיסי נתונים וכדי להגיע למידע זה רצוי להשתמש באינדקסים רגילים או מיוחדים המתמחים ב INVISIBLE WEB (הסבר בסעיפים קודמים).לכל מנועי החיפוש המובילים יש ממשק חיפוש מתקדם המאפשר מיצוי מלא של אפשרויות החיפוש ומיקוד החיפוש ומומלץ להשתמש בממשק זה. עקרונות החיפוש בכל המנועים הם זהים אבל האפשרויות וצורת הגדרת התנאים שונה בין מנוע למנוע , לכן יש ללמוד את אפשרויות השימוש במנוע הנבחר בעזרת מסכי ההסבר – HELP.

בהשוואה בין אינדקסים ומנועי חיפוש נהוג לבחון את התכונות הבאות:

  • הקף הכיסוי – מספר הדפים או האתרים שיש באינדקס
  • מידת הרלוונטיות של התוצאות ואיכות הדרוג (*)
  • איזה מידע מספק המנוע על הרשומות שעלו בחיפוש.
  • מידת הטריות של החומר – באיזו תדירות חוזרים על תהליך האינדוקס
  • אפשרויות מיקוד החיפוש
  • מידת הידידותיות למשתמש.

מהירות התגובה

דרוג תוצאות החיפוש נעשה בעזרת אלגוריתם שנבנה על ידי בעלי המנוע/אינדקס. מטרתו של האלגוריתם היא להביא לכך שתוצאות רלבנטיות למחפש יופיעו בראש רשימת התוצאות. מבנה האלגוריתם נשמר בסוד ומשתנה מידי פעם כדי למנוע מבוני האתרים להשפיע במכוון על דרוג התוצאות. ישנן חברות המתמחות בבניית דפים שיביאו לדרוג גבוה בתוצאות החיפוש, הטכניקה המקובלת היא לבנות דף מיוחד עבור כל מילת מפתח ומנוע חיפוש.

תגיות: ,

תגובות בפייסבוק