מאת: יוחאי שויגר
אנבידיה חשפה אתמול (ב') בכנס GTC לראשונה את התצורה המלאה של פלטפורמת Vera Rubin, שהיא הדור הבא של תשתיות בינה מלאכותית שנועד לתמוך בעידן הסוכנים (Agentic AI). בניגוד לדורות קודמים שהתבססו על שרתים בודדים, Rubin מוצגת כמערכת שלמה בתצורת rack-scale, שבה מספר ארונות ייעודיים פועלים יחד כסוג של “מפעל AI” מלא.
הארכיטקטורה כוללת מספר סוגים של מסדים (racks), שכל אחד מהם אחראי על שכבה אחרת במערכת: GPU racks מבוססי Rubin מבצעים את החישובים הכבדים דוגמת אימון מודלים והסקה בזמן אמת, CPU racks מנהלים את סביבת העבודה, הסוכנים השונים והלוגיקה התפעולית, מסדי האיחסון (storage racks) מנהלים את משאבי הזיכרון וההקשר (context) של מודלים גדולים, ומסדי קישוריות (networking racks) מחברים את כל המערכת באמצעות תשתיות תקשורת מהירות. לצד אלה משולבים גם מאיצי הסקות ייעודיים המיועדים להאיץ את תהליך הפקת התשובות.
ה-CPU חוזר למרכז הבמה
אחד מהחידושים הבולטים בארכיטקטורה בא לידי ביטוי במסד Vera CPU rack: ארון ייעודי המכיל מאות מעבדים ונועד להתמודד עם עומסי העבודה החדשים של סוכני AI. בעולם ה-AI המסורתי, עיקר העומס היה על ה-GPU, בעוד שה-CPU שימש כרכיב תומך. אך בעידן הסוכנים, חלק גדול מהפעילות עובר דווקא ל-CPU: הרצת קוד, הפעלת כלים, ניהול תהליכים, בדיקות תוצאה וסימולציות. בכל מסד מותקנים עד 256 מעבדי Vera. הוא יכול להריץ עשרות אלפי סביבות CPU במקביל, כאשר כל סביבה פועלת באופן עצמאי.
המעבד עצמו מבוסס על 88 ליבות נפרדות בעלות רוחב פס גבוה של עד עד 1.2 טרה־ביט לשנייה. אחד ההיבטים הקריטיים כאן הוא החיבור הישיר שבין ה-CPU ל-GPU באמצעות NVLink, שמאפשר שיתוף נתונים במהירות גבוהה. המשמעות היא שה-CPU כבר אינו רק “מנהל” את ה-GPU, אלא חלק אינטגרלי מהחישוב עצמו.
התפקיד החדש של אינטל
במקביל להכרזה של אנבידיה, הודיעה חברת אינטל שמעבדי Xeon 6 שלה נבחרו לשמש כמעבקים המארחים (Host CPU) במערכות DGX Rubin NVL8 של אנבידיה. מדובר בשרתים הכוללים 8 מעבדי GPU ומהווים את יחידת הבסיס של המערכת.במערכות האלו אחרי מעבד Xeon אחראי על ניהול ה-GPU, תזמון משימות והזרמת נתונים. היתרונות המרכזיים של Xeon בהקשר זה הם תמיכה בנפחי זיכרון גדולים במיוחד, רוחב פס גבוה ותאימות רחבה לתשתיות קיימות.
המעבד תומך בנפח זיכרון של עד 8 טרה-בייט המאפשר טיפול במודלי AI גדולים ובמטמוני KV cache גדולים בתהליך ההסקה. אינטל שילבה בו את טכנולוגיית הזיכרון החדשה MRDIMM המספקת רוחב פס מהיר פי 2.3 בהשוואה לדור הקודם, ואת טכנולוגיית Priority Core Turbo להקצאת ליבות ייעודיות למשימות תזמור קריטיות, ואת טכנולוגיית האבטחה Intel TDX. היא מספקת הגנה והצפנה של זיכרון ומצב ה-CPU בסביבות AI, כך שמודלים ומידע רגיש נשמרים מוגנים גם בזמן העיבוד עצמו. קבוצות הפיתוח של אינטל בישראל המתמחות באבטחת חומרה, וירטואליזציה ופתרונות Confidential Computing למרכזי נתונים ול-AI מילאו תפקיד מרכזי בפיתוח טכנולוגיית TDX.
עם זאת, בארכיטקטורה החדשה של Rubin, תפקיד זה הופך לחלק קטן יותר מהתמונה הכוללת. המעבר מ-Blackwell ל-Rubin ממחיש היטב את השינוי: בדור הקודם, מערכות AI התבססו בעיקר על שרתים מסוג DGX או HGX, שבהם כל יחידה כללה GPU של אנבידיה לצד מעבד CPU (לרוב של אינטל). כלומר, ה-Xeon היה רכיב מרכזי כמעט בכל שרת. בפלטפורמת Rubin, לעומת זאת, המערכת כבר אינה מבוססת על אוסף של שרתים זהים, אלא על מערך הטרוגני של מסדים ייעודיים בעלי תפקידים שונים.
ה-Vera CPU rack הופך לשכבה שמריצה את הסוכנים ואת הלוגיקה של המערכת כולה, בעוד שמעבדי Xeon נותרים בעיקר בתפקיד ה-host במערכות NVL8. במילים אחרות, אינטל עדיין נמצאת בתוך המערכת — אך כבר אינה מהווה את הבסיס שלה. התמונה הכוללת מתבהרת: אנבידיה ממשיכה במסע הארוך המיועד להביא אותה למצב שבו היא מחזיקה בשליטה מלאה בכל תשתיות הבינה המלאכותית: מה-GPU דרך ה-CPU ועד לרשת ולאחסון.
ראוי לציין שלמרות שהיא ששיתוף הפעולה עם אינטל הוא ארוך טווח ואסטרטגי, החברה בונה במקביל אלטרנטיבה פנימית שמציבה אותה בעמדה חזקה יותר לאורך זמן. יותר מזה, הפלטפורמה החדשה מעצבת מחדש את מבנה מרכזי הנתונים. המעבר משרתים כלליים לתשתיות ייעודיות ל-AI שבהן גם המעבד המרכזי מותאם לעידן הסוכנים, עשוי להגדיר מחדש את לא רק את מבנה "מפעל ה-AI", אלא גם את חלוקת התפקידים בין ענקיות השבבים.
נאום הפתיחה אמש של מנכ"ל אנבידיה ג'נסן הואנג ב-GTC:

