"תיוג מוטה פוגע ביישומי בינה מלאכותית"

28 יולי, 2022

חברת טולוקה, המספקת שירותי תיוג דאטה עבור אימון מודלים של AI וצברה קהל מתייגים מגוון מכל העולם, נכנסת לישראל. "החברות הישראליות הן גלובליות, וחשוב להן לבסס את יישומי ה-AI על מידע רלוונטי לשוקי היעד"

חברת טולוקה (Toloka) הבינלאומית, המספקת שירותי תיוג דאטה בקנה-מידה גדול עבור אימון של יישומי בינה מלאכותית, נכנסת לפעילות בישראל, וזאת במטרה לחשוף את שירותיה לחברות טכנולוגיה ישראליות העוסקות בפיתוח יישומי AI כמו ראייה ממוחשבת, עיבוד שפה טבעית, מנועי חיפוש, סחר מקוון ועוד. כמו כן, מלאכת התיוג בפלטפורמה של טולוקה מתבצעת במתכונת של מיקור-המונים (crowd-sourcing), ובטולוקה גם מעוניינים להרחיב את קהל המשתתפים הישראלי בפלטפורמה.

בשיחה עם Techtime הסבירה מייסדת ומנכ"לית החברה, אולגה מגרוסקיה [בתמונה], את המהלך. "אנחנו נכנסים לשוק הישראלי כי אנחנו מזהים פוטנציאל אדיר בקהילת הסטארט-אפים בישראל, שרבים מהם עוסקים בבינה מלאכותית. חברות הטכנולוגיה הישראליות הינן חברות גלובליות, עם לקוחות קצה בכל העולם, ועל כן חשוב להן לבסס את יישומי הבינה המלאכותית שלהן על מידע שרלוונטי לשוקי היעד שלהן."

אימון מוטה מוביל ליישום מוטה

אחד השלבים העיקריים בפיתוח יישום של בינה מלאכותית הוא שלב האימון. בשלב זה, מזינים את המערכת הלומדת בכמויות גדולות של דאטה, והמערכת סורקת את המידע באמצעות אלגוריתמים של למידת-עומק במטרה למצוא תבניות משותפות – ולבנות מהן מודל. כך למשל, כדי לאמן יישום AI לזהות חתול, יש להזין את המערכת במספר רב של דוגמאות של חתולים, ממינים שונים, בצבעים ובגדלים שונים, ובהקשרים ויזואליים שונים. ככל שמאגר הדוגמאות גדול ואיכותי יותר, כך האימון יהיה אפקטיבי יותר, והיישום המוגמר יידע לזהות חתולים ברמת דיוק גבוהה יותר.

המידע שמשמש עבור אימון המודל חייב להיות מתויג (כלומר, לציין היכן מופיע החתול), ופעולה זו מתבצעת על ידי בן אדם אנושי, באופן ידני. בדרך כלל, תיוג המידע מתבצע על ידי חברה חיצונית או באופן פנימי על ידי החברה המפתחת את היישום. מאחר שבאופן הזה המידע בדרך כלל מתויג על ידי קבוצה הומוגנית של אנשים, הדבר מוביל לעיתים להטיות (bias) מגדריות, אתניות, סוציו-אקונומיות ולשוניות.

אולגה: "כולנו מכנים את התחום הזה בינה 'מלאכותית', אך למעשה הטכנולוגיה הזו מתבססת על בינה אנושית. הבסיס של יישומים רבים של בינה מלאכותית הוא התיוג, והוא מתבצע על ידי בני אדם, שאופן התיוג שלהם מושפע מהרקע שלהם."

כדי להימנע מבעיית ההטייה, פלטפורמת התיוג של טולוקה מתבססת על מיקור-המונים. כל אחד יכול להירשם ולבצע משימות תיוג של תמונות, טקסט או קבצי קול, בשפות שונות (לרבות עברית), בתמורה לתשלום. כך מצליחה טולוקה לבנות מאגר מאוד מגוון של מתייגים ולהתאים לכל משימת תיוג את המתייגים הרלוונטיים מבחינת רקע ושפה. מהצד השני, חברות פיתוח יכולות לרכוש דרך הפלטפורמה מאגרי דאטה מתויגים (data sets) לפי דרישה. הפלטפורמה מספקת כיום יותר מ-80 מיליון הערות נתונים בשבוע.

אולגה מדגישה כי ההטיה אינה סוגיה אתית או חברתית בלבד, אלא פונקציונאלית, וכי אימון מודל על בסיס מידע מוטה יפגע בסופו של דבר במהימנות של היישום. "במקרים רבים, זה מאוד חשוב מי מתייג את המידע, למשל אם מדובר בדגימות קול במבטאים וניבים שונים עבור אימון יישומי NLP, לצורך הבנה נכונה של המשמעות בהקשר המקומי. כמו כן, האופן שבו דאטה מתויג כיום הוא מאוד מסורבל ואיטי, וזה מקשה על הסקיילאביליות של עולם הבינה המלאכותית".

ייצוג של אוכלוסיית העולם

באחרונה פרסמה טולוקה נתונים על התפלגות קהל המתייגים הפעילים בפלטפורמה לפי ארץ מוצא, מעמד סוציו-אקונומי, דת, מגדר ועוד. נכון לשנת 2022, בפלטפורמה היו מדי חודש כ-250 אלף משתמשים פעילים מ-123 מדינות. כלל המשתמשים משתייכים לכ-600 קבוצות אתניות שונות. הגיל הממוצע הוא 29.6 שנה וההתפלגות המגדרית היא כ-60% גברים ו-40% נשים.

אולגה: "זו פלטפורמה פתוחה, כל אחד מכל מקום בעולם יכול להירשם ולבצע משימות תיוג. הצלחנו לצבור קהל משתמשים מאוד מגוון. זה מייצר לחברות שמפתחות יישומי AI גישה לאנשים מכל העולם ומכל הגוונים. מאות חברות הייטק מכל העולם עושות שימוש בדאטה המתויג שלנו, ולכל אחת יש דרישות שונות."

כדי לוודא כי הדאטה מתויג באופן מדויק ומהימן, טולוקה עושה שימוש בכל מיני טכניקות וכלים סטטיסטיים כמו דירוג משתמשים, הצלבות, הכרעות רוב ועוד. "הערך המוסף שלנו זה תהליכי בדיקות האיכות. בסופו של דבר, אם המידע אינו מתויג כהלכה המודל לא יעבוד. זהו אתגר, מאחר שהתיוג מתבצע מרחוק ועל ידי אנשים מכל העולם. אנחנו מיישמים שורה של כלים מתמטיים שמאפשרים לנו להגיע למובהקות סטטיסטית של מהימנות התיוג."

פורסם בקטגוריות: ביג דאטה , בינה מלאכותית , חדשות