חוקרים "שיכפלו" את מודל החשיבה של דיפסיק ב-30 דולר בלבד
3 פברואר, 2025
הדגימו כיצד מודל בגודל 3 מיליארד פרמטרים בלבד, מפתח "בעצמו" יכולות חשיבה בשיטת האימון "למידה באמצעות חיזוקים", שבה השתמשה חברת דיפסיק

בתמונה למעלה: תהליך החשיבה של המודל. מתוך פוסט של החוקר הראשי ברשת Nitter
מאת יוחאי שויגר
חוקרים מאוניברסיטת ברקלי שבקליפורניה הצליחו "לשכפל" את אופן פעולתו של מודל החשיבה של DeepSeek הסינית, בעלות מזערית של 30 דולר בלבד. למעשה, החוקרים עשו שימוש בשיטת האימון הייחודית שבה פיתחו בדיפסיק את מודל החשיבה R1, והדגימו כיצד, באמצעות אותה שיטת אימון, ניתן לייצר מודלים קטנים שמצליחים לפתח "בעצמם" יכולות חשיבה.
החוקרים אימנו את המודל באמצעות משחק מתמטי הקרוי "הספירה לאחור" (Countdown Game), שבו המשתתפים מקבלים 4 מספרים, ועליהם להגיע, באמצעות שילוב של פעולות מתמטיות, למספר מטרה כלשהו. החוקרים הציבו את המשימה הזו בפני מודל קטן יחסית של כ-3 מיליארד פרמטרים, ובדקו כיצד הוא מתמודד עם הבעיה. החוקרים השתמשו בשיטת האימון "למידה באמצעות חיזוקים" (Reinforcement Learning), שבה המודל מקבל תגמול שלילי במידה והוא טועה ותגמול חיובי במידה והוא צודק. זוהי השיטה שבה השתמשו בדיפסיק בשלב ה-post-training בפיתוח המודל R1.
היתרון בשיטה זו שניתן לבצע אותה באופן אוטומטי, עם התערבות אנושית מינימלית, ובמשאבי עיבוד מצומצמים יותר. עם זאת, ניתן לעשות זאת רק במשימות שבהן יש תשובות נכונות ולא נכונות, כמו בבעיות מתמטיות, ולא במשימות "יצירתיות" כמו כתיבת טקסט חופשי. בהדגמה שביצעו החוקרים מברקלי, בניסיונות הראשונים המודל הפיק ניחושים אקראיים, אך בהדרגה המודל פיתח, באופן עצמוני לחלוטין, טכניקות ואסטרטגיות של תיקון-עצמי ופתרון בעיות באמצעות ניסוי וטעייה – עד אשר הגיע לתשובה הנכונה. המחקר הראה שבאמצעות "למידה באמצעות חיזוקים" מודלי שפה יכולים לפתח באופן עצמאי יכולות "חשיבה".
קפיצת מדרגה ב-3-7 מיליארד פרמטרים
החוקרים אימנו את המודל באמצעות השכרת שירותי GPU בענן, תוך מספר שעות ובעלות של כ-30 דולר בלבד. בנוסף, החוקרים הציבו בפני המודל בעיות בכפל של מספרים, ועד מהרה המודל יישם בעצמו שיטות של פיצול הבעיה למספר כפולות יותר פשוטות, ממש בדומה לאופן שבו בני אדם מתמודדים עם בעיות כפל מורכבות. לדברי החוקרים, הניסוי המחיש את יכולתו של המודל לפתח טכניקות חשיבה המותאמות לאופי הבעיה. הניסוי בוצע במודלים בגדלים שונים. המודל הקטן, של כחצי מיליארד פרמטרים, לא הצליח לפתח טכניקות מיוחדות מלבד ניחוש. מודל שכלל 1.5 מיליארד פרמטרים התחיל לפתח טכניקות ראשוניות של בדיקה-עצמית, ואילו המודלים בגודל של 3-7 מיליארד פרמטרים הציגו קפיצת מדרגה משמעותית ביכולות החשיבה. לפי ההערכות, מודל החשיבה o1 של OpenAI כולל מאות מיליארדי פרמטרים.
המחקר ממחיש ביתר שאת את ההשלכות מרחיקות הלכת שעשויות להיות למודל R1 של דיפסיק על עולם הבינה המלאכותית, ובפרט על פיתוח מודלי חשיבה (reasoning). בדומה למודל של דיפסיק, הניסוי שביצעו החוקרים בברקלי ממחיש כי ניתן לייעל באופן משמעותי את פיתוח מודלי החשיבה, בעיקר בשלב ה-post-training, וזאת בעוד שעד עתה ההנחה היתה כי אימון מודלים כאלה מצריך משאבי דאטה ועיבוד עצומים, שעלותה נאמדת במאות מיליוני דולרים. דבר מעניין נוסף שעולה מהמחקר בברקלי הוא האפשרות לפתח מודלי חשיבה קטנים המותאמים לביצוע משימות ספציפיות. המחקר גם ממחיש את האופן שבו מודלים בקוד-פתוח, בדומה לזה של דיפסיק, מסייעים לקדם את החדשנות בתחום ומערערים את המונופול של חברות הענק.
פורסם בקטגוריות: בינה מלאכותית , חדשות