בתמונה למעלה: עריכת פרמטרים בתוך המודל שינתה לגמרי את התמונות שהוא ייצר
חוקרים מהטכניון פיתחו שיטות חדשות המאפשרות לשנות את התוצאות המתקבלות ממודלים מחוללי תמונות, בלא צורך לאמן אותם מחדש. התהליך יכול לתקן הטיות בבסיסי הנתונים של המודלים – אולם גם לעוות תוצאות נכונות ולשנות אותן בהתאם להוראות החדשות. החוקרים חיפשו דרך להתמודד עם בעיה מוכרת בתחום הבינה המלאכותית: הטיות שנוצרו במהלך האימון של המודל אשר גורמות להם לספק תשובות לא מתאימות.
צריך לזכור שמודלים מחוללי–תמונות אשר מפיקים תמונות חדשות על סמך תיאור טקסטואלי (Text-to-Image Generative Models) מאומנים על כמויות עצומות של צמדי תמונה–כיתוב. למשל צימוד הכיתוב "תמונה של כלב" לתמונת כלב. לאחר אימון של אלפי (או מיליוני) פעמים, המודל יכול לייצר תמונות מקוריות של כלבים.
הדס אורגד וד"ר בהג'ת קעואר מהפקולטה למדעי המחשב בטכניון, הסבירו: "מאחר שהמודלים מאומנים על נתונים מהעולם האמיתי, הם רוכשים הנחות על העולם. חלק מהן שימושי מאוד, למשל ההנחה שהשמיים כחולים מאפשרת לקבל תמונות יפות גם על סמך תיאורים קצרים ופשוטים. מצד שני, המודל מקודד גם הנחות שגויות או לא רלוונטיות על העולם, והטיות חברתיות שנמצאות בבסיסי הנתונים: אם נבקש ממחולל התמונות מStable Diffusion לייצר תמונה של של CEO (מנכ"ל/ית), רק ב-4% מהמקרים הוא יספק תמונות של נשים".
התיקון הסטנדרטי ארוך, יקר וזולל אנרגיה
בעיה נוספת נעוצה בכך שהעולם ממשיך להשתנות גם לאחר השלמת תהליך האימון. הדוקטורנטית דנה ארד: "במהלך האימון המודלים מעבדים הרבה מידע עובדתי. למשל, הם לומדים את זהותם של ראשי ממשלה, נשיאים, שחקנים שגילמו דמויות פופולריות ועוד. מודלים כאלה מפסיקים להתעדכן לאחר תהליך האימון, ולכן אם נבקש ממודל כזה לייצר לנו תמונה של נשיא ארצות הברית, סביר שנקבל תמונה של דונלד טראמפ, שכמובן אינו כבר הנשיא". הפתרון הסטנדרטי לבעיות כאלה הוא תיקון מתמיד של בסיס הנתונים ואז ביצוע אימון–מחדש או כיוונון (fine-tuning). אולם התיקונים האלה יקרים, דורשים זמן רב וצורכים הרבה מאוד אנרגיה בשרתים. "וגם אז אין שליטה מלאה על הנחות סמויות או על הנחות בלתי-רצויות חדשות הנוצרות במודל".
צוות החוקרים שפיתח את טכניקות התיקון (מימין לשמאל): ד"ר יונתן בלינקוב, הדס אורגד, ד"ר בהג'ת קעואר ודנה ארד
אלגוריתם TIME ואלגוריתם ReFACT
השיטות שפיתחו הדוקטורנטים בהנחיית ד"ר יונתן בלינקוב מבוססות על שינוי ישיר של פרמטרים בתוך המודל ומייתרות את הצורך באימון מחדש. השיטה הראשונה, TIME, פותחה על-ידי אורגד וקעואר ומבוססת על עריכה–מחדש של כ-1.95% מהפרמטרים של המודל, בתהליך מהיר המתבצע בתוך פחות משנייה. ביחד עם חוקרים מאוניברסיטאות Northeastern ו-MIT פותח תהליך המשך ל-TIME, המיועד לשלוט בהתנהגויות אתיות לא רצויות של המודל, כמו למשל פגיעה בזכויות יוצרים או הטיות חברתיות – על-ידי מחיקת "אסוציאציות" לא רצויות ממנו.
השיטה השנייה, ReFACT, פותחה על-ידי ארד ואורגד ומבוססת על אלגוריתם עריכה משופר: בשיטת ReFACT עורכים מחדש רק 0.25% מהפרמטרים של המודל, בלא לפגוע באיכות התמונות ובעובדות והנחות של המודל שרוצים לשמר. שתי השיטות מבוססות על קבלת קלט בנוגע לפריט שאותו רוצים לערוך. כך למשל, במקרה של הנחות לא מפורשות המודל מקבל "מקור" שעל בסיסו הוא בנה הנחות לא מפורשות (למשל "זר שושנים", שעבורו המודל מניח שהשושנים אדומות) ו"יעד" המתאר את אותן נסיבות, אבל עם התכונות המבוקשות (למשל "זר שושנים כחולות", כדי שהמודל יניח מעתה שהשושנים הן כחולות). בדומה ניתן לשנות את הקטגוריה "נשיא ארצות הברית", כאשר המקור הוא "דונאלד טראמפ" והיעד הוא "ג'ו ביידן".
החוקרים אספו כ-200 עובדות והנחות, בחנו עליהן את שיטות העריכה והראו כי מדובר בשיטות יעילות לעדכון מידע ולתיקון הטיות. הממצאים הוצגו באוקטובר 2023 בכנס ICCV, שהוא אחד מהכנסים החשובים בעולם בתחום ראייה ממוחשבת ולמידת מכונה. טכניקת ReFACT הוצגה לאחרונה בכנס NAACL, הנחשב לאחד מהכנסים המובילים למחקר בתחום עיבוד שפה טבעית.
הערת אזהרה
חשוב מאוד לזכור שאין דבר כזה "תיקון מודל". האלגוריתמים מאפשרים לבצע שינוי במודל – שבעיני אחדים הוא תיקון – ובעיני אחרים השחתה. ואכן, החוקרים ערים לבעיה הזאת ובפיסקת הסיכום במאמר הם מזהירים: "הטכנולוגיה שהוצגה מיועדת לשפר את המפגש אדם-מכונה. אולם ניתן לעשות בה שגם שימושים אחרים, כמו למשל לשתול ביטויים פוגעניים או תפישות עולם חברתיות שליליות. לאור המחקרים שנעשו בתחום, אנחנו מאמינים שהשיתוף במידע הזה יביא יותר תועלת מנזק".