Abstract
בעידן המידע של ימינו, כמויות הטקסט הזמינות בפורמט אלקטרוני (ב-web, ברשתות ארגוניות, במסמכי חדשות ובמקומות אחרים) הן עצומות. מנועי חיפוש וכלי אחזור מידע (Information Retrieval) הם שימושיים לאיתור מסמכים העונים על שאילתה מסוימת, אבל עזרתם מועטה בניתוח מסמכי הטקסט הלא-מובנים (un-structured) עצמם. כריית ידע מטקסט (Text Mining) הוא התהליך בו מנתחים באופן אוטומטי מסמכים בשפה טבעית (לא-מובנים) על מנת לזהות מידע וידע אותם קשה לאחזר ישירות. כריית ידע מטקסט (IE או Information Extraction) מתמקדת בתהליך איתור הישויות והקשרים במסמכים אלו. מערכת אפקטיבית עבור שלב כריית המידע הינה חיונית לביצוע שלב הניתוח (Text Mining). במאמר זה מוצגת מערכת מודולרית לכריית מידע מטקסט, המבוססת על שפת DIAL .DIAL מאפשרת לממש פתרונות כריית ידע עבור תחומים שונים במהירות תוך שימוש בתשתית עיבוד שפה טבעית (NLP) משותפת. המחברים מדגימים בפירוט מימוש מערכת לשליפת יחסים (אירועים) מתוך מסמכי חדשות או מסמכי מודיעין. המאמר כולל הערכה של טיב ביצועי המערכת וכן דיון על הרחבה אפשרית של המערכת לתחומים אחרים, כגון מסמכי דואר אלקטרוני (תקציר מתוך המאמר).
Original language | Hebrew |
---|---|
Pages (from-to) | 27-55 |
Number of pages | 29 |
Journal | עלון קבוצת ענין אחזור טקסט - SIGTRS |
Volume | 12 |
Issue number | 1 |
State | Published - 2006 |
IHP publications
- IHP publications
- Data mining
- neuro linguistics programming