חוקרים ישראלים: מידע פגום מייצר בינה מלאכותית שגויה

בתמונה למעלה מימין לשמאל: ד"ר לימור זיו (צילום: נתנאל ישראל) וד"ר מעיין נקש. צילום: אוניברסיטת בר-אילן

בעולם הממהר לדבר על מודלים, חישובים וכוח עיבוד, מחקר חדש של אוניברסיטת בר־אילן מציב זרקור על המרכיב הפחות נוצץ – אך אולי החשוב מכולם – הנתונים. לפי ד"ר לימור זיו מבית הספר לתקשורת וד"ר מעיין נקש מהמחלקה לניהול, רוב הכשלים במערכות בינה מלאכותית אינם טמונים באלגוריתמים עצמם, אלא באיכות הדאטה שמזין אותם.

המחקר, שהתפרסם בכתב העת המדעי Machine Learning & Knowledge Extraction, נחשב לאחד הראשונים שבחנו את הנושא מזווית אמפירית רחבה. השתיים ריאיינו 74 בכירים בתחום ה-AI והדאטה ממדינות שונות – ארצות הברית, אירופה, הודו וישראל – במטרה להבין מה באמת קורה “מאחורי האלגוריתם”: כיצד נאספים הנתונים, כיצד הם מנוהלים, ואילו כשלים מתגלים לאורך הדרך.

איכות הנתונים – צוואר הבקבוק של המהפכה

הממצאים מציירים תמונה חדה: האתגר המרכזי של עולם הבינה המלאכותית אינו טמון ביכולות חישוב אלא ביסודות המידע שעליהם נבנים המודלים. החוקרות זיהו כי בעיות כמו נתונים חסרים, תיוג שגוי, כפילויות או חוסר סטנדרטיזציה גורמות להטיות, לכשלים אתיים ואף לפגיעה באמון הציבור. "רק ארגונים שמשקיעים בבקרת איכות, ניקוי וארגון הדאטה מצליחים להפיק מערכות AI אמינות ובעלות ערך אמיתי", אומרת ד"ר זיו.

המחקר ממחיש כיצד כשלים בנתונים באים לידי ביטוי ישירות במודלים עצמם. כך למשל, במערכות לזיהוי תמונות רפואיות התברר כי תיוג ידני לא עקבי גרם לאלגוריתם לזהות את בית החולים שבו צולמה התמונה – ולא את המחלה. “המודל זיהה את מקור בית החולים, לא את התסמינים. זה היה כמעט מושלם סטטיסטית – ורחוק לחלוטין מהמציאות,” סיפר אחד המרואיינים.

במערכות המלצה פיננסיות, נתונים חסרים הובילו את המודלים להמציא “עובדות” ולמלא את הפערים לפי דפוסים ישנים, מה שחיזק אפליות קיימות. ד"ר נקש מתארת זאת כ"אשליית שלמות": “כשהדאטה לא שלם, המודל ממלא את החסר לפי העבר – וכך הוא מקבע את ההטיות.”

גם כפילויות ושונות בין פורמטים גרמו למודלים “להתבלבל”: “חצי מהמודלים שלנו נכשלו כי הנתונים הגיעו מ־15 מערכות שונות שלא דיברו באותה שפה,” סיפר מנהל דאטה בכיר. ובמקרים אחרים, מערכות גיוס למדו לתת ניקוד נמוך יותר לקורות חיים של נשים – לא בגלל כוונה זדונית, אלא מפני שהדאטה ההיסטורי הכיל בעיקר גברים.

החוקרות מזהירות גם מתופעת ה־Data Drift: מודלים מצליחים בתחילת הדרך מאבדים דיוק כאשר המציאות משתנה. “המודל לא טעה,” אמר אחד המרואיינים, “העולם פשוט השתנה – אבל בלי מנגנון ניטור מתמשך, אתה מגלה את זה רק אחרי הנזק.”

ממודל לאתיקה – כשהנתונים הם התשתית

איכות הנתונים, מציינות זיו ונקש, אינה רק סוגיה טכנית. מדובר במרכיב שמגדיר את האמינות, ההוגנות והאחריות של מערכות AI. כאשר הנתונים מוטים או חסרים, גם האלגוריתם החכם ביותר ישכפל את ההטיות האנושיות. לכך מתווספים סיכוני פרטיות ואבטחת מידע – במיוחד בעידן שבו ארגונים משתפים דאטה עם ספקי בינה מלאכותית חיצוניים או משתמשים במודלים פתוחים. כמה מהמרואיינים הזהירו כי “דליפת מידע מארגוני בריאות או פיננסים עלולה להיות רק עניין של זמן.”

מסגרת חדשה: מחזור החיים של דאטה

על בסיס הממצאים הציעו החוקרות מודל מושגי חדש – Data-Centric AI Lifecycle – שמדגיש כי הנתונים הם לא שלב אחד בתהליך, אלא מערכת חיה ומתמשכת של איסוף, עיבוד, ניטור ושיפור. לפי הגישה הזו, יש לראות בנתונים תשתית ארגונית לכל דבר – נכס הדורש תחזוקה, בקרה וחדשנות מתמדת, בדומה למערכות הפעלה או רשתות תקשורת.

המודל החדש מציע לארגונים לבחון מחדש את כל שרשרת הערך של הפיתוח: החל מהגדרת הצרכים ועד לניהול רציף של איכות הנתונים בזמן אמת. “אם רוצים בינה מלאכותית אמינה, צריך להתחיל בדאטה אמין,” מסכמות החוקרות.

לקראת עידן “Data First”

המחקר מצטרף לגל הולך וגדל של גישות המדברות על מעבר מבינה מלאכותית מוכוונת מודלים לבינה מוכוונת דאטה (Data-Centric AI). משמעות הדבר היא שינוי תרבותי עמוק בארגונים: השקעה פחותה ב"קסם" האלגוריתם ויותר בתחזוקת התשתית האנושית והמידעית שמזינה אותו. במילים אחרות – לפני שמשדרגים את המודל, צריך לנקות את הנתונים.

בעידן שבו בינה מלאכותית חודרת לכל תחום – מרפואה ועד ביטחון – מסקנת החוקרות מבר־אילן היא תזכורת חיונית: אין אינטליגנציה מלאכותית בלי אינטליגנציה של דאטה.