מגמות בהתפתחות תחום ה-Machine Vision: התמליל המלא של הרב-שיח

28 ינואר, 2009

הדיון נערך לקראת כנס IMVC 2012 בארגון קבוצת טכנולוגיות והובלת ד"ר חן שגיב וקובי כהן

הדיון נערך לקראת כנס IMVC 2012 בארגון קבוצת טכנולוגיות ובהובלת ד"ר חן שגיב (שגיב-טק) וד"ר קובי כהן

הנחייה:

  • רוני ליפשיץ, עורך Techtime

משתתפים:

  • יניב טייגמן, שותף-מייסד ו-CTO חברת Face.com
  • מיכאל צ'רטוק, שותף-מייסד ו-CTO חברת SuperFish
  • ד"ר פאבל קיסילב, מעבדות המחקר של יבמ בישראל
  • ד"ר אמיר נ., רפאל
  • ד"ר טל הסנר, האוניברסיטה הפתוחה

רוני מציג את שאלת הדיון שבה מתמקד המפגש: המגמות המרכזיות ביישומי Machine Vision ו-Machine Learning, מתי יידעו המערכות הממוחשבות להבין תמונות ומה הן המגבלות.

פאבל: "בעניין של מדיקל אימג'ינג: מתפתחות מערכות לקבלת החלטות, המבוססות על ידע רחב שניצבר כמו תמונות X-Ray ו-CT הקיימות בדטהבייס. כיום לא משתמשים בבסיס הנתונים הזה. יבמ מקדמת עכשיו את נושא ה-Smart Planet: עיבוד מידע המגיע מחיישני וידאו ועיבוד תמונה לקבלת החלטות אוטומטיות. תמונות הן רק חלק מהמידע המגיע מבסיסי הנתונים".

טל :"מספר המאמרים גדל אקספוננציאלי בעשור האחרון מדי שנה. קהילת המשין לרנינג היא מאוד רחבה ועשירה. בשבילי, משין ויז'ן זו אפליקציה של משין לרנינג. יש הרבה ראייה בלי משין, והרבה משין בלי ראייה. לפני עשר שנים לא הייתי מאמין שיהיו יישומים כמו שיש היום בשוק. קהיליות המשין לרנינג והראייה הממוחשבת הן עצומות ומושקעים בהן הרבה מאוד משאבים".

אמיר: "לפני 10 שנים עוד לא היתה מצלמה דיגיטלית. יש גידול בהיקף הקלט, וכשיש כל-כך הרבה מידע, מתפתחים כיוונים חדשים. לפני 10 שנים אנשים לא הבינו את היישומים שדיברנו עליהם, וכיום הדברים הרבה יותר ברורים להם".

יניב: "השילוב של משין לרנינג ביישומי ראייה ממוחשבת התפתח כמעין תרופה לבעיות אנליטיות שהיה קשה להתמודד איתן, כמו למשל זיהוי פנים.

טל: "כשיש מעבדים חזקים והרבה מאוד תמונות, אפשר להציף את הכלים בהרבה מאוד דוגמאות, ולתת למערכת ללמוד את הקשר שבין תמונות פנים לבין אנשים".

אמיר: "מה שהשתנה זה לא הכלים המתימטיים. בקהילה נפוץ הפתגם שלפיו 'משין לרנינג הוא תחום שהפך את הבורות לאמנות'. הרבה מהכלים המתימטיים בתחום פותחו בתחום הסטטיסטיקה לפני עשרות שנים. למרות זאת הראינו שבאמצעות הכלים המתימטיים המוכרים, ניתן לעשות דברים חדשים לגמרי. מדובר בהסתכלות שונה שהתבטאה גם במהפך באקדמיה: מהצגת תוצאות של ניסויים שונים, גם באקדמיה רוצים היום להציג מערכות עובדות".

אמיר: "כשרוצים ללמד את המערכת לזהות אובייקט ולקטלג חפצים, קיימת תחרות מי יצליח לעשות זאת במספר קטן של תמונות. מדוע? הרי יש לנו הרבה מאוד תמונות. מדוע לחסוך בנתונים"?

טל: "חקר הראייה הממוחשבת באקדמיה לא מתמקד בייצור יישומים. יש עוד מטרות, כמו הבנת המוח האנושי והבנה מתימטית מעמיקה יותר".

אמיר: "בעבר התעשייה ניסתה לבצע מידול פיסיקלי של אובייקטים, אולם השיטה עבדה כל עוד הסמנסורים היו פשוטים. חלק ממהפיכת המשין לרנינג מתבטא בוויתור על המידול הפיסיקלי, והסתמכות על ריבוי נתונים. מהניסיון שלי, הביצועים הטובים ביותר מתקבלים מהיכולת לשלב תובנות פיסיקליות ביחד עם השימוש בהרבה מאוד נתונים. לדעתי זה שינוי גדול שהתרחש בתחום המשין לרנינג בשנים האחרונות".

מיכאל: "יש היום ניסיון להשתמש רק במשין לרנינג גם בתחום הראייה הממוחשבת. אולם כמה שלא תמדל את העולם, קיימים הבדלים תרבותיים. כך למשל, בשפות שונות מחולק ספקטרום הצבעים בצורה שונה, והמערכת צריכה להתאים את גבולות הצבעים לשפה ולתרבות. זה למשל משהו שלימוד מכונה יכול פתור בתחום ראיית המכונה. כיום להערכתי היישומים המרתקים ביותר הם בתחום הביו-אינפורמטיקה. בשלב הבא למידת מכונה תיכנס לתחום הסייבר סקיוריטי.

יניב: "טכנולוגיות חדשות המאפשרות למשל לדבר אל המחשב, או אפליקציות כמו שזאם הפופולרית, מבוססות על לימוד מכונה. על אלגוריתם המבוסס על הרבה מאוד פיסות מידע, מיליארדי חלקי-מלים ששימשו לאימון השרת".

אמיר: "יש הערכת-יתר למוח האנושי. כשאתה מושיב תצפיתנית מול מול המסך, היא רואה רק פרומיל מההתרחשויות. כבני-אדם, אנחנו מסתפקים במידע מועט בזכות הקונטקסט: חושים נוספים, ידע מוקדם ואסוציאציות".

יניב: "ברשתות חברתיות יש מידע עצום שיכול לשמש כחומר-גלם לפתרון אחר לגמרי. מצלמה בקניון למש, יכולה לנחש מה הם הצרכים של מבקר אקראי באמצעות מידע קונטקסטואלי המגיע מרשתות חברתיות. כעת אנחנו עוסקים בפיתוח בתחום הזה ביחד עם שותפים".

טל: "כדי להרים כזאת מערכת לפני 10 שנים היה צריך להושיב אנשים שיזינו מאסות של מידע. היום ניתן לבנות בקלות דטהבייס עשיר מבחינת מקורות המידע וסוגיו. משין לרנינג בנוי בשביל לעשות את הססטיסטיקות האלו".

מיכאל: "זה עניין של זמן עד שנפתור את בעיית הפער הסמנטי (Semantic Gap). לקח זמן אבל המחשב ניצח את השחמט. יש עבודה שמראה שמחשב יכול לנצח את האדם בזיהוי פנים: כשמציגים לאדם שתי תמונות פנים שהוא לא מכיר – הוא יפסיד למחשב".

פאבל: "מעבר לקונטקסט, יש את הנושא ה-Crwod Sourcing (חוכמת ההמון), בזכות כמות הנתונים המגיעה מאבזרים כמו סמארטפונים. כל אחד יכול להביע דעתו על מוצרים ופריטים שונים והמערכת לומדת כמות החלטות או נתונים אדירה – וזהו כיוון שמשין לרנינג הולך לקראתו – יצירת פתרונות המבוססים על שיפוט אנושי בהיקף גדול, ולא על מודלים פיסיקליים".

אמיר: "באפליקצליות ווביות (Web) יש הרבה מידע והמחיר לטעות הוא נמוך. במצב שבו יש מעט נתונים ביישום קריטי שבו המחיר לטעות הוא גדול – הפתרונות הם אחרים. כאשר המצלמות נמצאות ברכב נוסע, כל טעות היא קריטית. ביישומים כאלה צריך לסווג אילוצים ותנאים".

טל: "אני לא חושב שראייה ממוחשבת צריכה לפתור את בעיית הסמנטיק גאפ. המחשב הוא לא חיקוי של המוח, כמו שמכונה מעופפת איננה ציפור מלאכותית – אלא מטוס. למערכות שאנחנו מפתחים יש יתרונות מובהקים בהשוואה לבני-אדם. בני-אדם ידועים לשמצה בחוסר היכולת שלהם לזכור מידע ויזואלי לאורך זמן. התשובה לשאלה מתי המחשבים יראו כמונו, היא אף-פעם. כי לא זה מה שאנחנו מפתחים".

מיכאל: "אנחנו נסגור את הסמנטיק גאפ. המחשב יידע להגיד על תמונה כל מה שאדם יודע. בעוד 20 שנה הפער הסמנטי יהיה תחום סגור. גם היום אם ניתן למחשב תמונה של כל הנוכחים כאן בחדר, הוא יידע לספק נתונים בסיסיים כמו מספר הנוכחים ומי נמצא בחדר. בשבילי זה נקרא לסגור את הפער. כאשר גוגל נתנה לאנשים אפשרות לתייג תמונות, לאחר 6-7 תיוגים ראשונים של כל תמונה התחילו חילוקי דעות ביניהם.

טל: "המוח האנושי מוקדש בעיקר לפיענוח ראייה. מעריכים שיותר מ-30% ממשאבי המוח מוקדשים לפיענוח ויזואלי. לכן אני לא חושב שנוכל לטעון שפתרנו את הבעיה".

מיכאל: "הסנסורים שלנו יותר טובים מהעין. המוח מקבל רק 10% מהמידע שמגיע לעין. במערכות הנדסיות זה לא קורה".

פאבל: "מי שמגדיר כיום אם המערכת היא טובה או לא הם בני-האדם. אם אנחנו מדברים על העתיד, הכיוון הוא שהמערכת עצמה תדע לבנות אלגוריתם באופן אוטומטי ובמעורבות מינימלית של בני-אדם, על-סמך הידע שלה עצמה".

אמיר: "גם כשיש הרבה מאוד מדידות אי-אפשר לבחור את המדידות הטובות ללא קונטקסט. תיאורטית אי-אפשר לפתור את בעיית הפער הסמנטי".

יניב: "השימושים של עיבוד תמונה כבר לא נמצאים רק במצלמה. לוקחים את הדגימה ושולחים אותה למערכת מחשב גדולה כדי לקבל את התשובה. באפליקציית goggles של גוגל, פרטי מידע ויזואליים נישלחים למחשב רחוק, והוא מאתר את האלמנטים הדומים בתמונות".

אמיר: "האפליקציה הזו ממחישה עד כמה הפער עדיין גדול. צילמתי תמונה של הבת שלי – וקיבלתי בחזרה תמונות של עוגת תות".

יניב: "גוגל הורידה את יכולות זיהוי הפנים בגלל סוגיות של פרטיות. יכול להיות שזו הסיבה שהתמונה שקיבלת אינה קשורה לבת שלך".

שאלת סיכום של המנחה: מהי התחזית שלכם לעתיד הקרוב?

פאבל: "מדעי הרוח נכנסים לתחומי הלימוד-מכונה, אולי באמצעות מגמת 'חוכמת ההמון'".

טל: "לפי ההתפתחויות בשנים האחרונות, בעתיד הקרוב נראה יותר ויותר מערכות ראייה ממוחשבת המסייעות לאדם לבצע מה שהוא עושה בחיי יומיום. הטכנולוגיה הזו תעטוף את הפעילות היומיומית שלנו".

יניב: "היא תסייע לנו לתקשר עם הסביבה. תהיה כלי התקשרות חדש. יישומים בטלפון יבצעו זיהוי של אנשים, חולים בעלי מוגבלויות יבצעו זיהוי עצמים באמצעות ראייה ממוחשבת. כיום מתנהל אפילו מיזם מהפכני הקושר בין תמונות פנים לבין מחלות. אחת המטרות היא לזהות אוטיזם בשלבי החיים המוקדמים ביותר באמצעות עיבוד תמונה של ילדים ותינוקות".

מיכאל: "הפתרון לבעיית הפער הסמנטי נמצא בהישג יד. גוגל פתרה את הבעייה ברמת הטקסט, ויבמ פתרה את בעיית הטריוויה באמצעות המחשב ווטסון. גם בתחום התמונות הפיתרון לבעיית החיפוש הוויזואלי הוא שימוש בהרבה מאוד נתונים ובטכנולוגייות לימוד מכונה".

אמיר: "כשהפער הסמנטי ייסגר, יתחולל זינוק אדיר. נהיה בנקודת צומת שבה הרבה מאוד אפליקציות יפרצו קדימה, ובמידה רבה נצטרך לקבל החלטות מה לעשות איתן. כבר היום יש לנו מספיק אבני בניין ליצור דברים שעדיין לא מיושמים. בתחום האיבחון הרפואי, למשל, כבר היום אפשר לתת לרופא מערכת ייעוץ יעילה אולם הדבר לא נעשה בגלל מחסום של שמרנות. כשהפער הסמנטי ייסגר, אני חושב שגם השמרנות הזו תיפרץ".

Share via Whatsapp

פורסם בקטגוריות: דעות