לא על ה-GPU לבדו יחיה ה-AI

בתמונה למעלה: ד"ר עמית גולנדר. התמונה באדיבות אסטרה לאבס ישראל

מאת: ד"ר עמית גולנדר, סמנכ"ל פיתוח טכנולוגיות אחסון וזיכרון ב-Astera Labs Israel

רבים סבורים שישראל פספסה את עידן ה-AI, אך מבט על תשתיות המחשוב מגלה תמונה הפוכה לחלוטין. הפיתוח בישראל, בין אם דרך סטארט-אפים ובין אם בשלוחות של חברות בינלאומיות, נמצא בחזית הפיתוח של תשתיות מפעלי ה-AI. תשומת הלב הציבורית הופנתה עד לאחרונה לעוצמת המעבדים הגרפיים ומאיצי ה-AI ‏(XPU), אבל מהנדסי מערכות מבינים שככל שמודלי הלמידה העמוקה גדלו בשנים האחרונות, וככל שדרוש להם ולסוכני ה-AI יותר הקשר, צוואר הבקבוק עבר לחיבוריות ולזיכרון.

מודלי שפה פופולריים כמו GPT, Gemini, Llama ו-DeepSeek מכילים עשרות או מאות מיליארדי פרמטרים, כך שהזיכרון של מאיץ בודד אינו גדול מספיק כדי להכיל את המודל. דרושים מאיצים רבים רק כדי לפרוס מימוש בודד של המודל. בנוסף, המודל אינו צרכן הזיכרון היחיד של המאיץ, ולכן הבעיה חמורה עוד יותר. לבסוף, כדי לטפל בעומס בקשות של משתמשים רבים, גם אם משתמשים במודל אחד בלבד, דרושים מימושים רבים.

עם הביקוש הגואה לשירותי AI, למשל LLM inference, והרצון להוזיל את עלות השירות, עברו ארכיטקטורות מודרניות של מערכות AI מאופטימיזציה ברמת השרת הבודד עם שמונה מאיצים, לאופטימיזציה של ארון מחשוב שלם המכיל עשרות רבות, ובקרוב מאות, של מאיצים. צפיפות המחשוב המבוזר יוצרת אתגרים חדשים: הרחבה אנכית (Scale-Up), הרחבה אופקית (Scale-Out), זיכרון, אחסון, הספק וקירור. ניצולת המאיצים היקרים, ומכאן גם עלות השירות כולו, ייקבעו לפי החוליה החלשה ביותר.

האתגר הראשון: הרחבת המחשוב בצורה אפקטיבית וגמישה

הרחבה אנכית דורשת לחבר מאיצי AI קרובים יחסית, למשל באותו ארון, כך שישתפו את מרחב הזיכרון שלהם. החיבוריות מאתגרת במיוחד משום שהיא חייבת להיות בו-זמנית בעלת השהיה נמוכה ורוחב פס גבוה. כמו כן, בניגוד לחיבוריות מסורתית בדטה סנטר, המידע אינו זורם בעיקר בכיוון מסוים וצפוי, צפון-דרום, אלא בכל הכיוונים.

כך למשל, בשלב האימון, מאיץ המשרת שכבות מסוימות של מודל הלמידה העמוקה יתקשר עם המקבילים אליו כדי לשתף היקשים מהלמידה (data parallelism), ויקבל וימסור מידע ממאיצים שמשרתים את השכבות שבאות, לוגית, לפניו ואחריו (pipeline parallelism). תהליך האינפרנס נראה במבט ראשון פשוט יותר, אך דורש חיבוריות למאיצים המשויכים למומחים שונים (MoE), ולמאיצים שחישבו את השאלה (PDD) או שמחזיקים את ההקשר הכולל של השיחה מהעבר הקרוב (KV Cache).

הרחבה אנכית של מאיצים הייתה עד לאחרונה נחלת מובילות השוק בלבד: NVIDIA במערב ו-Huawei בסין. עם זאת, תהליכי דמוקרטיזציה כבר החלו. מתגי PCIe גדולים ומתאמי אותות (retimers) מתחילים לאפשר תצורות Scale-Up מבוססות סטנדרטים פתוחים. פרוטוקול UALink ותוכנית NVLink Fusion נוצרו כדי לאפשר בקרוב גם למאיצים נוספים להשתתף בחיבוריות היברידית, או ליצור ארון מחשוב משלהם מבלי להמציא מחדש את תשתית הארון. מבנה סטנדרטי והיברידי כזה יפתח אפשרויות החלפה, שדרוג והתאמה לבעיות ספציפיות — גמישות שאינה קיימת כיום.

הרחבה אופקית, שבה מחברים ארונות אנכיים ליצירת מפעל AI גדול יותר, מתבססת על Ethernet בקצבים גבוהים למרחקים של מטרים, ונמצאת בעיצומו של מאמץ תקינה שיבשיל ככל הנראה במהלך השנה.

האתגר השני: לזכור את ההקשר

כדי להשיג יעילות אנרגטית ותוצאות טובות נדרש זיכרון. חישוב מחדש של הקשרים שחושבו לפני דקות או שעות יכול לבזבז שני שלישים מהחומרה והאנרגיה. חבל גם לקבל תשובות בינוניות או הזויות רק משום שמודלי השפה חסרים מידע עדכני או מידע פנים-ארגוני. למאיצים יש זיכרון קטן ויקר, וגם כשמחברים מאיצים רבים יחד, הזיכרונות שלהם רחוקים מלהספיק.

הם מיועדים בעיקר לשמירת המודל שרץ כרגע ולהקשר של השניות האחרונות בלבד. הקשרים מטווח זמן רחוק יותר (KV cache offload), בסיסי נתונים לגראונדינג, מסקנות ביניים של סוכני AI, מודלים או שכבות קרות שאינן רצות באותו רגע ומערכות תומכות נוספות — כולם זקוקים לזיכרונות מסוגים שונים: DRAM ברמת השרת, הרחבות זיכרון מבוססות CXL, ו-NVMe interposers ו-SSDs.

לכן נדרשות היררכיות של זיכרונות במחירים וביצועים שונים, כדי להתאים לכל סוג מידע את החומרה הזולה ביותר שעדיין עומדת בפרופיל הביצועים הנדרש. כמובן שנדרשים גם מתגי PCIe חזקים כדי לחבר את הרכיבים הללו מבלי לעכב את המאיצים.

בשורה התחתונה, ה-XPU חשוב, אך הוא רחוק מלהיות חזות הכול. ההבדל בין מאיצים דולקים לבין מאיצים שבאמת משרתים בקשות של משתמשים קשור ישירות לחיבוריות ולזיכרונות שמרכיבים את שאר ארון המחשוב. ההשקעה בתשתית המלאה אינה רק החלטה טכנית — זו החלטה עסקית קריטית, שתקבע את קצב הריצה שלכם בעידן ה-AI: האם תובילו, או תישארו מאחור.