חוקרים ישראלים: מידע פגום מייצר בינה מלאכותית שגויה

בתמונה למעלה מימין לשמאל: ד"ר לימור זיו (צילום: נתנאל ישראל) וד"ר מעיין נקש. צילום: אוניברסיטת בר-אילן

בעולם הממהר לדבר על מודלים, חישובים וכוח עיבוד, מחקר חדש של אוניברסיטת בר־אילן מציב זרקור על המרכיב הפחות נוצץ – אך אולי החשוב מכולם – הנתונים. לפי ד"ר לימור זיו מבית הספר לתקשורת וד"ר מעיין נקש מהמחלקה לניהול, רוב הכשלים במערכות בינה מלאכותית אינם טמונים באלגוריתמים עצמם, אלא באיכות הדאטה שמזין אותם.

המחקר, שהתפרסם בכתב העת המדעי Machine Learning & Knowledge Extraction, נחשב לאחד הראשונים שבחנו את הנושא מזווית אמפירית רחבה. השתיים ריאיינו 74 בכירים בתחום ה-AI והדאטה ממדינות שונות – ארצות הברית, אירופה, הודו וישראל – במטרה להבין מה באמת קורה “מאחורי האלגוריתם”: כיצד נאספים הנתונים, כיצד הם מנוהלים, ואילו כשלים מתגלים לאורך הדרך.

איכות הנתונים – צוואר הבקבוק של המהפכה

הממצאים מציירים תמונה חדה: האתגר המרכזי של עולם הבינה המלאכותית אינו טמון ביכולות חישוב אלא ביסודות המידע שעליהם נבנים המודלים. החוקרות זיהו כי בעיות כמו נתונים חסרים, תיוג שגוי, כפילויות או חוסר סטנדרטיזציה גורמות להטיות, לכשלים אתיים ואף לפגיעה באמון הציבור. "רק ארגונים שמשקיעים בבקרת איכות, ניקוי וארגון הדאטה מצליחים להפיק מערכות AI אמינות ובעלות ערך אמיתי", אומרת ד"ר זיו.

המחקר ממחיש כיצד כשלים בנתונים באים לידי ביטוי ישירות במודלים עצמם. כך למשל, במערכות לזיהוי תמונות רפואיות התברר כי תיוג ידני לא עקבי גרם לאלגוריתם לזהות את בית החולים שבו צולמה התמונה – ולא את המחלה. “המודל זיהה את מקור בית החולים, לא את התסמינים. זה היה כמעט מושלם סטטיסטית – ורחוק לחלוטין מהמציאות,” סיפר אחד המרואיינים.

במערכות המלצה פיננסיות, נתונים חסרים הובילו את המודלים להמציא “עובדות” ולמלא את הפערים לפי דפוסים ישנים, מה שחיזק אפליות קיימות. ד"ר נקש מתארת זאת כ"אשליית שלמות": “כשהדאטה לא שלם, המודל ממלא את החסר לפי העבר – וכך הוא מקבע את ההטיות.”

גם כפילויות ושונות בין פורמטים גרמו למודלים “להתבלבל”: “חצי מהמודלים שלנו נכשלו כי הנתונים הגיעו מ־15 מערכות שונות שלא דיברו באותה שפה,” סיפר מנהל דאטה בכיר. ובמקרים אחרים, מערכות גיוס למדו לתת ניקוד נמוך יותר לקורות חיים של נשים – לא בגלל כוונה זדונית, אלא מפני שהדאטה ההיסטורי הכיל בעיקר גברים.

החוקרות מזהירות גם מתופעת ה־Data Drift: מודלים מצליחים בתחילת הדרך מאבדים דיוק כאשר המציאות משתנה. “המודל לא טעה,” אמר אחד המרואיינים, “העולם פשוט השתנה – אבל בלי מנגנון ניטור מתמשך, אתה מגלה את זה רק אחרי הנזק.”

ממודל לאתיקה – כשהנתונים הם התשתית

איכות הנתונים, מציינות זיו ונקש, אינה רק סוגיה טכנית. מדובר במרכיב שמגדיר את האמינות, ההוגנות והאחריות של מערכות AI. כאשר הנתונים מוטים או חסרים, גם האלגוריתם החכם ביותר ישכפל את ההטיות האנושיות. לכך מתווספים סיכוני פרטיות ואבטחת מידע – במיוחד בעידן שבו ארגונים משתפים דאטה עם ספקי בינה מלאכותית חיצוניים או משתמשים במודלים פתוחים. כמה מהמרואיינים הזהירו כי “דליפת מידע מארגוני בריאות או פיננסים עלולה להיות רק עניין של זמן.”

מסגרת חדשה: מחזור החיים של דאטה

על בסיס הממצאים הציעו החוקרות מודל מושגי חדש – Data-Centric AI Lifecycle – שמדגיש כי הנתונים הם לא שלב אחד בתהליך, אלא מערכת חיה ומתמשכת של איסוף, עיבוד, ניטור ושיפור. לפי הגישה הזו, יש לראות בנתונים תשתית ארגונית לכל דבר – נכס הדורש תחזוקה, בקרה וחדשנות מתמדת, בדומה למערכות הפעלה או רשתות תקשורת.

המודל החדש מציע לארגונים לבחון מחדש את כל שרשרת הערך של הפיתוח: החל מהגדרת הצרכים ועד לניהול רציף של איכות הנתונים בזמן אמת. “אם רוצים בינה מלאכותית אמינה, צריך להתחיל בדאטה אמין,” מסכמות החוקרות.

לקראת עידן “Data First”

המחקר מצטרף לגל הולך וגדל של גישות המדברות על מעבר מבינה מלאכותית מוכוונת מודלים לבינה מוכוונת דאטה (Data-Centric AI). משמעות הדבר היא שינוי תרבותי עמוק בארגונים: השקעה פחותה ב"קסם" האלגוריתם ויותר בתחזוקת התשתית האנושית והמידעית שמזינה אותו. במילים אחרות – לפני שמשדרגים את המודל, צריך לנקות את הנתונים.

בעידן שבו בינה מלאכותית חודרת לכל תחום – מרפואה ועד ביטחון – מסקנת החוקרות מבר־אילן היא תזכורת חיונית: אין אינטליגנציה מלאכותית בלי אינטליגנציה של דאטה.

NetZero Ventures והמכון הלאומי לאגירת אנרגיה השיקו בבר-אילן מעבדות לפיתוח ומסחור של פתרונות אנרגיה ואקלים

[קרדיט צילום – ישראל פנחסוב]

NetZero Tech Ventures והמכון הלאומי לאגירת אנרגיה משיקים באוניברסיטת בר-אילן מעבדות מחקר ופיתוח ברמה עולמית (Energy Prototype Labs) בהשקעה של עשרות מיליוני שקלים, שנועדו לתמוך בסטארט-אפים בפיתוח אבות טיפוס טכנולוגיים בתחומי האנרגיה והאקלים ולקדם את מסחורם. מעבדות אלה יוצרות את האקוסיסטם הראשון מסוגו מקצה לקצה בישראל בתחומי האקלים והאנרגיה שיקדם חדשנות ויאפשר לחוקרי אקדמיה מכל מוסדות הלימוד, יזמים, סטארט-אפים וחברות תעשייתיות למנף פריצות דרך טכנולוגיות, להגיע למימוש ראשוני, עם פוטנציאל לבנות על בסיסן חברות מסחריות בגיבוי NetZero Ventures ומשקיעים אחרים.

המעבדות הוקמו מכיוון שלטכנולוגיות עמוקות בתחום האנרגיה, לסטארט-אפים בשלבים מוקדמים בתחומי האקלים וכן למעבדות מחקר באקדמיה אין לרוב גישה לציוד המתקדם הנדרש בכדי להעביר טכנולוגיות פורצות דרך מהמעבדה לשוק המסחרי. ללא משאבים מסוג זה טכנולוגיות אלה לא יכולות להוכיח היתכנות והן מחמיצות הזדמנויות השקעה של משקיעים, מענקים בינלאומיים ושותפויות אסטרטגיות.

המיזם יצא לפועל באמצעות השקעה כוללת של עשרות מיליוני שקלים בתשתית ובציוד בהובלת המכון הלאומי לאגירת אנרגיה  ו-NetZero Ventures, שאיגדו משאבים ממספר גורמים: התמיכה של משרד האנרגיה במכון לאגירת אנרגיה, Helmsley Trust, אוניברסיטת בר-אילן, הטכניון, שותפים פרטיים של NetZero Ventures ורשות החדשנות. המעבדות יקדמו את אקוסיסטם החדשנות בתחום האנרגיה מהמעבדה לשוק המסחרי.

פרופ' דורון אורבך מאוניברסיטת בר-אילן, מנהל משותף וראש המכון הישראלי לאגירת אנרגיה: "המטרה של תשתית זו היא לשדרג את רמת הבשלות הטכנולוגית (TRL) של פיתוחים חדשניים שנולדים באוניברסיטאות ישראליות ובסטארט-אפים בשלבים מוקדמים. המעבדות החדשות תומכות במעבר משלב המעבדה לפיילוט רחב היקף והן פותחות בכך אפשרויות לשיתופי פעולה עם התעשייה ועם משקיעים בינלאומיים, כולל תוכניות של האיחוד האירופי כמו הורייזון אירופה שלעתים מחייבות רמת בשלות טכנולוגית גבוהה יותר כדי להתקבל".

המעבדות כוללות תשתית מתקדמת לפיתוח פתרונות חדשניים בתחומים: תאי דלק, מימן ואחסון אנרגיה, לכידה, אחסון ושימוש בפחמן, כשגולת הכותרת היא ׳חדר יבש׳ שתוכנן כחלל פתוח הראשון מסוגו באקדמיה הישראלית. מתקן חדשני זה יאפשר הרכבת אבות טיפוס של הדור הבא של סוללות והוא כולל קו ייצור של מוצרים בשלב הפיילוט שמקטין באופן משמעותי את הסיכון במסחור של טכנולוגיות בתחום הסוללות.

מלבד התשתית לפיתוח טכנולוגי, המעבדות יוצרות אקוסיסטם שלם למסחור חדשנות באמצעות מערך ההשקעה והנבטת חברות הזנק שמובילה NetZero Ventures, המשקיעה הפעילה ביותר בסטארט-אפים בשלבים מוקדמים בתחומי טכנולוגיות האנרגיה והאקלים בישראל. NetZero מפעילה חממה בשיתוף פעולה עם רשות החדשנות, קרנות בינלאומיות וחברות אנרגיה רב-לאומיות כמו: TotalEnergies, IP, DelekUS, BGV ו-Eren Groupe. היא משקיעה בסטארט-אפים בשלבים מוקדמים ומספקת להם מומחיות טכנית ותמיכה עסקית בבניית החברות ובכניסה לשוק שנדרשת למסחור רחב היקף.

במסגרת השקת המעבדות החדשות, הוכרזו הזוכים בתחרות בינלאומית לחדשנות אקלים בהובלת NetZero Ventures ובשיתוף חברת שברון, וכן הוכרזו הזוכים של קול קורא למחקר אקדמי של המכון הלאומי לאגירת אנרגיה.

שמואל קדמי, מנכ"ל NetZero Ventures: "לא מדובר בתשתיות פיזית בלבד אלא בבניית גשר בין גילוי מדעי לבין שיווק מסחרי. אנו מרכזים תחת קורת גג אחת את המרכיבים הנדרשים לכך – החל מכלי מעבדה פורצי דרך וכלה בקישור ללקוחות בינ״ל ולמשקיעי המשך – שיניעו את הגל הבא של פתרונות ישראליים חדשניים בתחומי האנרגיה והאקלים". קדמי הוסיף: "אנו מיישמים גישה עסקית-כלכלית הכוללת זיהוי טכנולוגיות מבטיחות בתחומי המדע העמוק של מעבדות באקדמיה ובניית חברות הזנק על בסיסן. נוסף על כך אנו משקיעים בחברות צעירות שכבר יש בהן צוותי ליבה".

IQM הפינית סיפקה לבר-אילן ולאוניברסיטה העברית שבב עם 12 קיוביטים

חברת IQM הפינית, המפתחת חומרה ותוכנה למחשבים קוונטיים, סיפקה לאוניברסיטת בר-אילן ולאוניברסיטה העברית רכיבים של מחשב קוונטי כחלק משיתוף פעולה מחקרי. ל-Techtime נודע כי IQM סיפקה לשתי האוניברסיטאות הישראליות, ללא תשלום, משלוח ראשון של שבב הכולל 12 קיוביטים, מתוך מטרה שהחוקרים הישראלים יבצעו ניסויים ויחקרו היבטים יישומיים שונים של הרכיבים הקוונטיים הללו, וישתפו את IQM בידע ובממצאים.

תוצאות מדידה שהתבצעה באוני' העברית

מדובר ברכיב חומרה חלקי ולא במעבד קוונטי מלא. את שתי קבוצות המחקר יובילו פרופ' נדב כץ, ראש המרכז לאינפורמטיקה קוונטית באוניברסיטה העברית, ופרופ' מיכאל שטרן מהמחלקה לפיזיקה באוניברסיטת בר-אילן. בהמשך צפויה IQM לשלוח לאוניברסיטאות רכיבים נוספים, ובחברה הפינית מקווים כי שיתוף הפעולה האקדמי יוביל בסופו של דבר לשיתופי פעולה מסחריים.

IQM מפתחת מחשבים קוונטיים אשר מיועדים עבור מרכזי נתונים ומכוני מחקר. הקיוביטים, יחידות הבסיס החישוביות במחשב קוונטי, של IQM מתבססים על מוליכי-על. בשנת 2020 נבחרה IQM על ידי ממשלת פינלנד להקים בשיתוף מכון המחקר הטכני הלאומי VTT לבנות את המחשב הקוונטי הראשון של המדינה. על פי התוכנית, המחשב אמור לכלול 52 קיוביטים עד שנת 2024. בחודש נובמבר 2021 הכריזו IQM ו-NTT על הגעה לאבן דרך של מחשב קוונטי עובד עם 5 קיוביטים. לפני כחצי שנה נבחרה IQM גם על ידי ממשלת גרמניה לבנות מחשב קוונטי שמיועד לפעול בממשק עם מחשב-על ולהאיץ פתרון בעיות חישוביות שמחשבי-על מתקשים לפתור.

פרופ' כץ, המוביל את המחקר באוניברסיטה העברית, אמר בשיחה עם Techtime: "הם סיפקו לנו את הליבה, השבב, ואנחנו מספקים את המעטפת שכוללת ציוד קירור, בקרה, סימולציה, אלקטרוניקה וכדומה. אנחנו חוקרים את תהליך המדידה הקוונטית ושאלות יישומיות הנוגעות לאופנים שבהם ניתן לשפר את הביצועים של הקיוביטים ולהפחית את שיעור השגיאות.  IQM מספקת עבורנו רכיבים ברמה מאוד גבוהה, ואנחנו מביאים את העומק האקדמי. תחום המחשוב הקוונטי מתפתח כל הזמן, אבל הדרך עוד ארוכה, וההתקדמות תושג בשיתופי פעולה. בישראל יש יזמות והון אנושי, וזה מה שגרם ל-IQM ליזום את שיתוף הפעולה.