סטודנט מהטכניון פיתח מנגנון לזיהוי רגשות בהודעות טקסט

31 מאי, 2015

עדן סייג זכה בתחרות הפרויקט המצטיין של אמדוקס, לאחר שפיתח מערכת המנתחת טקסטים בעמודי פייסבוק פופולריים בישראל, ומזהה תבניות כתיבה המרמזות על רגשות, כמו אירוניה או רגש עליונות

עדן סייג מהחוג למדעי המחשב בטכניון זכה בתחרות הפרויקט המצטיין של אמדוקס, לאחר שפיתח מערכת המנתחת טקסטים בעמודי פייסבוק פופולריים בישראל, ומזהה תבניות כתיבה המרמזות על רגשות, כמו אירוניה או רגש עליונות

TECHNION-TEXT

האם המחשב יכול לזהות את הנימה הרגשית המסתתרת מאחורי טקסטים? מדובר בבעיה עתיקת יומין: מאפיינים כמו ביטוי רגשי, אירוניה ו’טון דיבור’ מתפספסים לעתים קרובות בהודעות טקסט ודואר אלקטרוני, והדבר גורם תכופות לקצר בתקשורת. הסיבה לכך היא שבשפה המדוברת יש לנימת הדיבור תפקיד נכבד בהעברת המסר: הנימה מסמנת לנו התנשאות ונחמדות, החלטיות, פקפוק וכיו"ב. זו גם הסיבה שרבים מאיתנו מוסיפים אימוג'ים וסמיילים נוספים בהודעות – כדי לתאר את הרגש שבו נכתבה ההודעה. עם זאת, ברור שסמלים כאלה הם לכל היותר רמז שטחי, ולא רגש מורכב כמו בחיים האמיתיים.

זה היה הרקע לפרויקט של עדן סייג, סטודנט בפקולטה למדעי המחשב בטכניון שזכה בתחרות הפרויקט המצטיין של אמדוקס. במסגרת הקורס 'פרויקט בבינה מלאכותית', בהנחיית פרופסור שאול מרקוביץ', הוא פיתח מערכת לומדת המזהה את הנימה הרגשית המובעת בטקסטים, על-סמך זיהוי של תבניות חוזרות.

תבניות חוזרות אלה נלמדות באופן אוטומטי על-ידי המערכת באמצעות ניתוח התוכן של קבוצות פופולריות ברשת החברתית וניתוח האינטראקציה החברתית סביבן. המערכת מזהה את מילות המפתח ואת הרגלי הדקדוק האופייניים למשפטים, וכך מצליחה לזהות את נימת הדיבור המשתמעת מהם.

"בקיץ 2013," סיפר סייג, "נפתחו ברשתות החברתיות עמודים הומוריסטיים המיועדים לקבוצות מוגדרות, כמו למשל 'אנשים עילאיים ומתנשאים' ו'אנשים בינוניים וסבירים', עם עשרות אלפי עוקבים לכל אחד. במהלך העבודה על הפרויקט הבנתי שאפשר להשתמש בתוכן העמודים האלה כבסיס נתונים הומוגני הנמצא בלב הקונצנזוס, ובעזרתם ללמד את המערכת לזהות נימה מתנשאת בטקסט, או לחלופין נימה עממית. במהלך הפרויקט נבחנו 5,000 פוסטים שנכתבו בעמודים אלה ברשת, ובעזרת ניתוח סטטיסטי למדה המערכת לזהות מבנה טקסט המזוהה כמתנשא או לחלופין כטקסט בינוני.

להערכות, השיטה שפותחה בהתבסס על העמודים האלו תאפשר בעתיד לזהות תבניות חוזרות בהתבסס על כל מאגר נתון ברשת. "נכון להיום היא יודעת לזהות תבנית המאופיינת כמתנשאת או כסבירה, אך הרצתה על עמודי רשת פופולריים אחרים תוכל לסייע בזיהוי טקסטים המבטאים למשל נטייה לאובדנות, קריאה לעזרה או לחלופין התפעלות והנאה".

במהלך העבודה, סייג למד כי הדיוק הגדול ביותר מתקבל כאשר משלבים חיפוש מילות מפתח עם ניתוח מבנים דקדוקיים, ומשתפר מאוד כאשר מנצלים את חוכמת ההמונים – למשל על-ידי התחשבות בכמות הלייקים שהטקסט קיבל. "אני מקווה שבעתיד אצליח לפתח מנגנון שישקף לכותב את האופן שבו צפויים דבריו להתפרש על-ידי הקורא, ובכך יסייע לאנשים להביע את עצמם בצורה טובה יותר ולחסוך מקרים של אי-הבנה".

Share via Whatsapp

פורסם בקטגוריות: אנשים , חדשות , טכנולוגיות מידע