גישות ושלבים בהתפתחות מנועי חיפוש ארגוניים

30 בספט׳ 2003

עודכן: 11 בדצמ׳ 2024

עם תחילת מהפיכת המידע בתחילת שנות ה-90, החלה עלייה אקספוננציאלית בכמות המידע הזורם לארגוניים ובמגוון מקורותיו.

כמויות מידע עצומות אלו הביאו את הצורך בכלים מתאימים אשר באמצעותם יוכל הארגון ופרטיו להתמצא בידע הרב המצוי בקרבו אך נעלם מעיניו. הכלי השכיח ביותר הינו מנוע החיפוש הארגוני.

מנוע החיפוש הינו שם כללי לאפליקציה שנועדה לאתר עבור הארגון ופרטיו את פיסת המידע ומקורה החיוניים בעת הצורך. אולם מאחוריה מסתתרים גישות רבות וטכנולוגיות שונות ומגוונות, שעל אף כל המאמצים וההשקעות הרבות בתחום, עדיין אנו חשים שהמנועים הקיימים אינם מגיעים למידע הרלוונטי ביותר, ובדרך כלל מכניסים הרבה "מידע זבל" אשר גורם לרעש במימד התוצאות ולחוסר יעילות השימוש במנוע החיפוש בארגון.

אז כיצד מתכננים מנוע חיפוש? ומהם האלמנטים הנדרשים להפכו ליעיל ושימושי?

על מנת לענות על שאלה זו ישנו הצורך להבין ולהתחקות אחרי רצונותיו הקוגניטיביים האפשריים של הפרט בארגון בבואו להשתמש במנוע החיפוש.

לעיתים רצונו של פרט לאתר מסמך על סמך מילה שזכר שמופיעה בו, לאו דווקא בעלת חשיבות לתוכן המסמך, - Reflection.

במקרים אחרים הרצון הוא למצוא חומר ותכנים אודות נושא מסוים שבאפשרותו להגדיר במילה או מספר מילים. Concept, Category.

לעיתים קרובות רצונו של הפרט לאתר מידע אודות נושא שאין ביכולתו להגדירו בצורה המובהקת ביותר, באופן אובייקטיבי, אלה כפי שהנושא נתפס במוחו בהקשר הקוגניטיבי Context.

הטכנולוגיה הותיקה והשכיחה ביותר בקרב משפחת מנועי החיפוש הינה Full text index .

בטכנולוגיה זו עובר כל מסמך בארגון קטלוג (Indexation) של כל המילים המופיעות בו, ובעת החיפוש מתאפשר איתור מהיר של כל המסמכים המכילים את "ביטוי החיפוש" - "Query Term".

טכנולוגיה זו מאפשרת ביצועים מהירים על פני כמות מידע רב.

בחיפוש המבוסס על זיכרון רפלקטיבי הנועד לאתר מסמך ספציפי על סמך זיכרון מילה המופיעה בו, טכנולוגיה זו יעילה מאד ואף הכרחית. אולם בחיפוש מידע על נושאים, טכנולוגיה זו מזינה את דף התוצאות ב"רעש" רב (מסמכים לא רלוונטיים רבים) אשר מושא חיפושנו נעלם בתוכו והופך את המנוע לבלתי יעיל ואת חווית החיפוש למתסכלת ומרתיעה.

במהלך השנים עברה טכנולוגיה זו שיפורים שונים, באמצעות הוספת אלמנטים בלשניים (Linguistic elements) כמו מנועי שירוש – Stemming ומילוני מילים- נרדפות Synonyms על מנת להעצים את יכולות המנוע למציאת מסמכים הקשורים לביטוי החיפוש .

התוצאה אומנם הכילה מסמכים רלוונטיים אולם בתוספות "רעש" ביחס הולך וגובר.

ניסיונות לנטרול ה "רעש" על ידי הוספת אלמנטים בוליאניים ( (Boolean search, מערכות סינון ( Filter by ), ניסיונות לשיפור סדר התוצאות על ידי אלגוריתמיים סטטיסטים כמו השפעה של כמות מופעי "ביטוי החיפוש" במסמך או היזון חוזר של המשתמשים במסמך, מיצו את עצמם והכינו את הקרקע לקפיצה הטכנולוגית הבאה (second generation) מנועי חיפוש המבוססים על נושאים Concept/Category , "מציאת מסמכים המדברים על" ולאו דווקא "מסמכים המכילים את".

טכנולוגיות אלו מורכבות בעיקרן כיוון שהן מתימרות "לדעת" על מה המסמך מדבר ולהתאימו למושא החיפוש. מנועים אלו מתבססים בדרך כלל על שיטות מתמטיות סטטיסטיות כמו Vector-Space או על רשתות בינה מלאכותיות ((Neuron nets . שיטות אלו ממפות על ידי אלמנטים מתמטים את הקשרים האופייניים בין המילים השונות על פני מרחב כלל המסמכים במקורות המידע בארגון (שלב הלימוד) ומשתמשים במיפוי זה לבניית מפה סמנטית לכל מסמך חדש המצטרף למאגר הארגוני. מפה סמנטית זו מבטאת באופן כמותי ואיכותי את הקשרים הלינגוויסטים בין כלל המילים במסמך ומספקת מידע על ערך המילים וקשריהן לנושאי תוכן המסמך.

בשלב החיפוש, המנוע מתאים את "ביטוי החיפוש" לכלל המסמכים אשר בהן הביטוי הינו בעל ערך גבוה במפה הסמנטית שלהם, או בעל קשר גבוה למילים אחרות המופיעות במפות אלו. אחד היתרונות המיוחדים למנועים אלו, מעבר להורדת הרעש והגדלת רלבנטיות התוצאות, הינו אפשרות איתור מסמכים בעלי ערך גבוה סביב נושא "ביטוי החיפוש" למרות שהביטוי עצמו אינו מופיע במסמכים אלו, וזאת בהתבסס על קשר מובהק המתבטא ממסמכים אחרים. כלומר ישנה השפעה כוללת של כל מאגר המידע הארגוני על שייכות מסמך לביטוי החיפוש, דבר שמנועים אינדקסאליים מנועים מלעשות.

למרות הורדה משמעותית של ה "רעש" ופרישה רחבה של יכולת מציאת מסמכים רלוונטיים לנושא החיפוש, מסתבר כי לנושאים זהים ישנם זוויות קונטקסט ואליות רבות ולא תמיד עומדים בקנה אחד עם רצון המחפש.

על מנת לנסות להגיע לתאימות גבוהה לרצון המחפש יש להוסיף אלגוריתמים קונטקסטואליים אשר מנסים להתחקות אחר התנסות (פעילות) המחפש בעבר בהקשר ל"ביטוי החיפוש", וכמו כן להתחקות אחר "פעילות מסמכי היעד" והמשתמשים בהם.

על ידי ניתוחים סטטיסטים-סמנטיים של פעילות זו יחד עם הבנת המבנה הסוציו-ארגוני, מסוגלים מנועים קונטקסטואליים אלו (Contextual Engines) למנף את הטכנולוגיה הקונספטואלית ולחדד את מימד התוצאות (True Relevancy) לקונטקסט הרצוי עבור המחפש.

גישות ושלבים בהתפתחות מנועי חיפוש ארגוניים

רוצה ללמוד עוד על פורטלים ואתרים?

הנה מספר כתבות שאולי יעניינו אותך:

פוסטים קשורים

Comments