מי צריך LLM? מודלי שפה קטנים סוגרים את הפער

בתמונה למעלה: צילום מסך מתוך סרטון הדרכה של Allen Institute For Artificial Intelligence

מאת: יוחאי שויגר

מכון מחקר אמריקאי מהעיר סיאטל, The Allen Institute For Artificial Intelligence, פיתח משפחה של "מודלי שפה קטנים" (SLM) המציגים, לטענת המכון, ביצועים המשתווים ברמתם למודלי השפה הגדולים (LLM) במשימות של פענוח תמונה והבנת שפה טבעית. מדובר במודלים בקוד פתוח, והמכון מעמיד לרשות חוקרים ומפתחים, בחינם, את קוד המקור, הדאטה ששימש לאימון ומשקלי המודל.

משפחת המודלים, הקרויה Molmo, כוללת מספר מודלים שגודלם נע בין מודל זעיר בן מיליארד פרמטרים, אשר יכול לרוץ על גבי כל סוגי המכשירים, ועד למודל בן 75 מיליארד פרמטרים. לשם השוואה,  המודלים הגדולים של OpenAI וגוגל, GPT-4V ו-Gemini 1.5, מתבססים על יותר מ-1.5 טריליון פרמטרים, וכאמור במכון המחקר טוענים שביצועי המודל הגדול במשפחה שלהם, שמתבסס על 75 מיליארד פרמטרים בלבד, משתווה אליהם במשימות של פענוח תמונה והבנת טקסט.

לדברי המכון, אימון המודל הצריך בסך הכול 600 אלף תמונות, בעוד ה-LLMים האחרים בתעשייה מתבססים על מאגרים של מיליארדי תמונות. במכון מסבירים כי ניתן דגש לאיכות ולא לכמות, וכי התמונות ששימשו לאימון תויגו לפרטי פרטים וברמת דיוק גבוהה על ידי בני אדם – ולא באופן אוטומטי ושטחי – דבר שאיפשר שימוש בפחות תמונות.

לדברי המכון, יכולותיו הוויזואליות הגבוהות מאפשרות למודל לפענח תמונות, תרשימים וממשקי-משתמש מורכבים, להצביע בתוכם על אלמנטים ספציפיים – ולקבל החלטות על סמך ניתוח ויזואלי. בכך הוא מתאים ליישומי רובוטיקה וסוכני AI מקוונים. המודל מסוגל למנות את מספר הפריטים מסוג מסוים המופיעים בתמונה (למשל כמה תפוחים יש בסלסלת הפירות) ולסמן בנקודה את האובייקט המבוקש.

אחד מצווארי הבקבוק המשמעותיים בתחום הבינה המלאכותית הוא צריכת האנרגיה. האימון וההרצה של ה-LLM שפותחו בשנים האחרונות על ידי חברות כמו OpenAI, מטא וגוגל, מצריכים משאבי אנרגיה עצומים, דבר שהופך את הטכנולוגיה הזו לבעלת חתימת פחמן מאוד גדולה. ככל שמודל השפה מתבסס על פחות פרמטרים, כך הוא גם צורך פחות אנרגיה והוא גם כלכלי יותר. יתרון נוסף של מודלים קטנים יותר הוא בכך שניתן להריצם על מכשירי-קצה כמו סמרטפונים, בניגוד למודלים הגדולים שהרצתם מתבצעת בעיקר בענן.

בסרטון: הדגמת מודל Molmo:

סגירת הפער בין ה-LLM ל-SLM

מודל שפה גדול הוא מודל חישובי שמסוגל לייצר תכנים טקסטואליים ולבצע משימות של הבנה ואינטראקציה בשפה טבעית (NLP). מדובר למעשה במודל סטטיסטי שמתבסס על ניתוח מאגרים עצומים של דאטה, בין אם תמונות, טקסטים או סרטונים. המושג "מודל שפה קטן" מתייחס למודלים שמגלמים רשת נוירונים קטנה יותר, אשר כוללת פחות פרמטרים ואומנה על דאטה מצומצם יותר. בשעה שאימון ואחסון LLMים מצריכים משאבי עתק ועל כן רק ענקיות טכנולוגיה יכולות לפתחם, התפתחות תחום המודלים הקטנים פותח פתח גם לחברות קטנות יותר וסטארט-אפים להותיר חותם בתחום ה-GenAI.

בשיחה עם Techtime הסביר אמיר צוקר, ה-CTO של חברת ה-IT קודווליו (CodeValue), כי חלה קפיצת מדרגה בתחום מודלי השפה הקטנים. "מודלי שפה קטנים זהו ורטיקל שמתפתח במהרה ונהייה יישומי יותר ויותר. ה-LLMים הם עצומים בגודלם, כוללים מיליארדי פרמטרים ומושתתים על דאטה עצום. הם מצריכים משאבים אדירים, גם בפיתוח וגם ביישום, וזה חסם שמחזק את הצורך במודלים קטנים וחסכוניים יותר. הם לא אמורים להוות חלופה מלאה למודלים הגדולים, אבל יכולים להחליפם ביישומים ומקרי בוחן רבים. נרשמה התקדמות מאוד גדולה בתחום, והמודלים הקטנים מגלים יכולת יותר ויותר גבוהה בהבנה והסקה. בתחילה היה פער מאוד גדול בין LLM ל-SLM, אבל הפער הזה הולך ומצטמצם בצורה מרשימה".

למודלים קטנים יש ארכיטקטורה פשוטה יותר, והם יכולים לרוץ באופן מקומי באביזרי-קצה, אך על פניו, מאחר שהם מושתתים על דאטה מצומצם יותר, הם אמורים להיות מוגבלים יותר בהבנת דקויות ונוטים יותר לטעויות, ומעניין יהיה לראות אם משפחת Molmo שוברת את האקסיומה הזו.