אינטל ומכון ויצמן שיחררו את פקק "הפיענוח הספקולטיבי"
17 יולי, 2025
החוקרים הישראלים פיתחו פתרון מהפכני המאפשר להשתמש במודלי-עזר מהירים וחסכוניים כדי להאיץ לפחות פי שלושה את מהירות העיבוד של מטלות AI המתבצעות במודלי השפה הגדולים, כמו ChatGPT או Gemini
בתמונה למעלה: נדב תימור (מימין) ופרופ' דוד הראל. צילום: מכון ויצמן למדע
צוות משותף של חוקרים ממעבדות אינטל (Intel Labs) וממכון ויצמן למדע חשפו השבוע את התוצאות של מחקר פורץ דרך בתחום האצת מהירות העיבוד של יישומי בינה מלאכותית המבוססים על מודל שפה גדולים (LLM). המחקר הוצג בכנס למידת המכונה ICML 2025 שהתקיים השבוע בוונקובר קנדה, אשר נחשב לאחד מאירועי המחקר החשובים בעולם הבינה המלאכותית. העבודה הזאת נבחרה להצגה בעל פה בפני המשתתפים בכנס. מעמד המהווה אות הצטיינות מכובד מאוד, שכן רק 1% מתוך כ-15,000 עבודות שהוגשו לכנס מקבלות את המעמד הזה.
המחקר בוצע על-ידי פרופ' דוד הראל ונדב תימור ממכון וייצמן, ועל-ידי משה וסרבלט, אורן פרג, דניאל קורת ומשה ברצ'אנסקי מאינטל ובהשתתפות גאורב ג'יין מחברת d-Matrix. מודלי שפה גדולים כמו ChatGPT או Gemini הם כלי אדיר, אולם הם איטיים וזוללי משאבים. בשנת 2022 הבינו בתעשייה שניתן לייעל את העיבוד באמצעות חלוקת עבודה בין אלגוריתמים שונים. הדבר הביא לפיתוח גישה חדשה בשם "פיענוח ספקולטיבי" (Speculative Decoding). בשיטה הזו, מודל-עזר קטן וזריז מנחש את התשובה הנכונה, כאשר המודל הגדול והחזק צריך רק לאמת את הניחוש במקום לבצע חישוב מלא מאפס.
מודל-עזר קטן וזריז
כיצד הדבר עובד? במצב הקיים היום המודלים נדרשים לבצע סדרה גדולה של חישובים גדולים מאוד כדי להשלים כל מטלה. נניח שאנחנו מבקשים מהמודל להשלים את המשפט "בירתה של צרפת היא…". ללא פיענוח ספקולטיבי, המודל חושב, ומייצר את המילה "פריז". לאחר מכן הוא קורא את "בירתה של צרפת היא פריז", וחושב שוב כדי לייצר את המילה הבאה: "עיר". בשלב האחרון הוא קורא את כל המשפט החדש, וחושב שוב, כדי לייצר את המילה "האורות". כלומר כדי לייצר 3 מילים, המודל הגדול נדרש לבצע שלושה "סבבי חשיבה" נפרדים ויקרים.
הפיענוח הספקולטיבי מכניס לתמונה מודל-עזר זריז. בשלב הראשון מודל-העזר קורא את המשפט ומיד מנחש טיוטה של שלוש מילים: "פריז", "עיר", "האורות" (שלב הניחוש המהיר). לאחר מכן מתבצע שלב האימות: המודל הגדול והחזק מקבל את הטיוטה הזו, ובודק את כולה בבת אחת. הוא שואל את עצמו: "האם הניחוש הזה נכון?". במקרה הזה, התשובה היא "כן". כלומר המודל הגדול נדרש לבצע רק "סבב חשיבה" אחד כדי לאשר את הטיוטה כולה.

"הפקק" שבלם את התעשייה
למרות שהטכניקה הזו מוכרת לפחות 3 שנים, הטמעתה בתעשייה מלווה בקשיים רבים: מודלי AI אינם באמת מבינים מילים. הם בונים מפה של קשרים סטטיסטיים בין מלים שונות, ו"התשובה" של המודל מבוססת על שכיחות הופעתן המשותפת. בפועל, כל מודל לומד ובונה לעצמו "שפה דיגיטלית" ייחודית, שהיא מילון של צורונים וסימנים (Tokens) שרק הוא מבין. המילה "תפוח" יכולה להיות מיוצגת במודל אחד על-ידי הסימן #123, ובמודל אחר על-ידי הסימן #987. עד היום עבדה שיטת ההאצה הספקולטיבית רק במידה ושני המודלים דיברו בדיוק באותה שפה דיגיטלית. כלומר, פותחו על-ידי אותה חברה והשתמשו באותו מילון. אי-אפשר היה לקחת מאיץ שנבנה למודל של גוגל, ולצרף אותו למודל מבוסס OpenAI.
הדבר יצר "נעילה" שהגבילה את התעשייה. המפתחים לא יכלו לבחור במודל הקטן והמהיר ביותר בשוק, אלא רק בזה שתאם לשפת מודל ה-LLM שבו השתמשו. הפיתוח הישראלי הצליח להתגבר על הבעיה הזו באמצעות פיתוח אלגוריתמים מסוג חדש המעניקים לכל מודל-עזר יכולת לעבוד מול כל ארכיטקטורות ה-LLM הקיימות. מעתה, מפתחים יכולים להתאים כל מודל קטן לכל מודל גדול, גם אם הם פותחו בחברות שונות, מתבססים על ארכיטקטורות שונות ומשתמשים באוצר מילים שונה לחלוטין.
פתרון מפתיע לבעיית התאימות
כדי להתגבר על המחסום הזה פיתחו החוקרים שני פתרונות. הראשון הוא אלגוריתם המאפשר למודל שפה גדול שסיים תהליך "חשיבה", לתרגם את התוצאות שהגיע אליהן בשפתו הייחודית לשפה המובנת לכל שאר המודלים. השני, הוא אלגוריתם הגורם למודלים אלה (הקטן והגדול) להשתמש בעבודתם המשותפת בעיקר בסימנים (tokens) שהם cognates – סימנים שמשמעותם זהה בשפות שונות. "תחילה חששנו שיותר מדי מידע 'יאבד בתרגום' והמודלים השונים יתקשו לעבוד יחד", אמר נדב תימור, דוקטורנט בקבוצת המחקר של פרופ' דוד הראל במכון ויצמן למדע והמחבר הראשון של המאמר. "אך החששות התבדו".
תימור: "האלגוריתמים השיגו האצה מקסימלית של פי 2.8 בביצועים של מודלי שפה גדולים, המובילה לחיסכון אדיר בהוצאות על כוח עיבוד. הם מעניקים לכל המפתחים יכולת להשתמש בשיטות האצה שעד כה היו זמינות רק לארגונים שאימנו לעצמם את מודלי ה-AI הקטנים. חברת סטארט-אפ שרצתה ליהנות מהאצת הביצועים של פיענוח ספקולטיבי, היתה צריך לאמן בעצמה מודל קטן, וזו משימה מורכבת הדורשת התמחות והשקעה גדולים מאוד".
האלגוריתמים החדשים כבר שולבו בפלטפורמת הקוד הפתוח Hugging Face, שבאמצעותה הם זמינים למפתחים בכל העולם.
שתפו בלינקדאין את הגרסה באנגלית של הכתבה.
לקריאת המאמר המקורי: https://arxiv.org/pdf/2502.05202
פורסם בקטגוריות: בינה מלאכותית , חדשות
פורסם בתגיות: AI , בינה מלאכותית
