אנבידיה הודיעה על רכישת SchedMD, החברה שמפתחת ומתחזקת את Slurm – מערכת ניהול העומסים (Workload Manager) הפופולרית ביותר בעולם ה-HPC וה-AI. סכום העסקה לא פורסם, אך המהלך מסמן צעד נוסף באסטרטגיה של אנבידיה להרחיב את אחיזתה לא רק בחומרת האצה, אלא גם בשכבות התוכנה הקריטיות שמנהלות בפועל את משאבי המחשוב היקרים ביותר בעולם הבינה המלאכותית.
SchedMD היא חברה אמריקאית שהוקמה בשנת 2010 על ידי מפתחי Slurm, אך שורשי הטכנולוגיה עמוקים יותר. Slurm פותח בתחילת שנות ה-2000 במעבדות Lawrence Livermore National Laboratory, במטרה ליצור חלופה פתוחה למערכות תזמון קנייניות לאשכולות מחשוב עתירי ביצועים. מאז הפך Slurm לסטנדרט דה-פקטו: כיום הוא מותקן בכמחצית מהמחשבים המובילים בעולם (TOP500), ומשמש אוניברסיטאות, מכוני מחקר, גופי ביטחון, חברות פארמה, פיננסים ויותר ויותר גם ארגונים שמפעילים תשתיות AI פנימיות.
בפשטות, Slurm הוא המנוע שמחליט מי מקבל משאבי מחשוב, מתי ואיך. הוא מנהל תורים, מקצה CPUs, זיכרון ו-GPUs, ומוודא שהעומסים רצים בצורה הוגנת ויעילה על פני אשכולות שיכולים לכלול אלפי שרתים. בעולם ה-AI, שבו אימון מודלים צורך כמויות עצומות של GPU, Slurm הפך לרכיב קריטי ב-workflow: בלי תזמון חכם, חלק ניכר מהמשאבים היקרים הללו פשוט מבוזבז.
המשתמשים הישירים ב-Slurm אינם מפתחי האפליקציות, אלא צוותי התשתיות – אלה שמפעילים את הדאטה-סנטרים והאשכולות. מפתחי AI “פוגשים” את Slurm רק דרך הגשת jobs, מבלי לדעת בהכרח איך מתקבלות החלטות ההקצאה מאחורי הקלעים. בענני ציבור, לעומת זאת, מנגנוני תזמון דומים פועלים לרוב באופן פנימי ושקוף ללקוחות.
חשוב להבחין בין Slurm לבין פתרונות כמו Run:AI, שנרכשה גם היא על ידי אנבידיה. בעוד Slurm הוא ה-scheduler הבסיסי של האשכול – שכבת תשתית נמוכה שמכירה משאבים – Run:AI פועלת כשכבת אופטימיזציה חכמה מעל Kubernetes, עם מודעות לצוותים, פרויקטים, ניסויים וערך עסקי. במילים אחרות: Slurm מחלק את "הברזל", Run:AI מחלק אותו בהקשר ארגוני. השילוב ביניהם יוצר רצף שלם – מהחומרה ועד ניהול עומסי AI ברמה העסקית.
כאן נכנס ההיבט האסטרטגי של הרכישה. למרות ש-Slurm הוא קוד פתוח, השליטה בגוף שמוביל את פיתוחו מעניקה לאנבידיה השפעה עמוקה על כיוון המוצר, קצב הפיתוח והאופטימיזציה לחומרה שלה. Slurm כבר היום מותאם היטב ל-GPUs של אנבידיה, אך כעת ניתן לצפות לאינטגרציה הדוקה אף יותר עם CUDA, NVLink, InfiniBand ויכולות כמו MIG (טכנולוגיה לפיצול GPU אחד לשימוש מקביל). התוצאה: ניצול גבוה יותר של GPUs – מה שמתורגם בסופו של דבר לעוד רכישות חומרה.
מעבר לכך, אנבידיה ממשיכה לבנות שליטה אנכית מלאה ב-stack של תשתיות AI: מעבדים, רשת, ספריות תוכנה, תזמון עומסים וניהול ארגוני. הרכישה של SchedMD אולי נראית צנועה לעומת עסקאות ענק אחרות, אך בפועל היא נוגעת בנקודת החיכוך הקריטית ביותר של עולם ה-AI – מי שולט בזמן החישוב. ובתחום שבו כל דקת GPU שווה כסף רב, זו שליטה אסטרטגית מהמעלה הראשונה.
[בתמונה: מייסד ומנכ"ל אנבידיה, ג'נסן הואנג]
