קואלקום מציגה את AI200 ו-AI250: שבבי בינה מלאכותית חדשים לשלב ההיסק

בתמונה למעלה: חתימת הסכם הרכש בין קואלקום ל-Humain הסעודית. מקור: קואלקום

חברת קואלקום (Qualcomm) הכריזה אתמול (ב') על שני שבבי בינה מלאכותית חדשים למרכזי נתונים – AI200 ו-AI250 – שנבנו במיוחד לשלב ההיסק (Inference), כלומר להפעלת מודלים מאומנים בקנה מידה עצום. מדובר בכניסה מחודשת של קואלקום לעולם השרתים, עם הבטחה להציע את אחת הפלטפורמות היעילות ביותר בשוק מבחינת צריכת חשמל, רוחב פס לזיכרון ועלות כוללת להפעלה.

לפי נתוני החברה, שבב ה-AI200 יתמוך בזיכרון של עד 768 ג׳יגה-בייט מסוג LPDDR, בעוד דגם ה-AI250 כולל ארכיטקטורה חדשה המבוססת על Near-Memory Computing – כלומר, חישוב שמבוצע קרוב מאוד לרכיבי הזיכרון עצמם, במקום להעביר את הנתונים הלוך ושוב אל המעבד. השינוי הזה מצמצם באופן דרמטי את צוואר הבקבוק של העברת הנתונים ומגדיל את רוחב הפס האפקטיבי של הזיכרון פי עשרה בהשוואה למאיץ הקודם של החברה, Cloud AI 100 Ultra, כך לפי קואלקום.

מטרת הארכיטקטורה היא להשיג יעילות מקסימלית בשלב ההיסק, שבו נדרש לקרוא במהירות עצומה מיליארדי פרמטרים המאוחסנים בזיכרון המודל. בקואלקום מסבירים כי השילוב בין רוחב פס מוגדל, חישוב סמוך לזיכרון וקירור נוזלי ישיר מאפשר להריץ מודלים גדולים (כמו LLMs ומערכות מולטימודליות) בצריכת אנרגיה נמוכה משמעותית ביחס למערכות GPU מסורתיות.

לקוחה ראשונה מסעודיה

החברה מדגישה כי מדובר בפתרון Rack-Scale — לא רק שבב בודד אלא מערכת שלמה, שבה כמה עשרות מאיצים (accelerators) מחוברים יחד בתוך Rack יחיד עם רשת פנימית מהירה, ספקי כוח משותפים וניהול אחיד של עומסים וקירור. הרעיון הוא להפוך את ה-Rack עצמו ליחידת עיבוד חכמה, המוכנה מראש להרצת שירותי AI בהיקף ענק – החל מצ’אטבוטים ועד מודלים תעשייתיים בזמן אמת.

במקביל להשקה, קואלקום הכריזה אתמול גם על לקוחה משמעותית ראשונה עבור השבבים החדשים: חברת ה-AI הסעודית Humain  מתכננת לפרוס החל משנת 2026 ארונות שרתים מבוססי ‎AI200 ו-AI250 בהיקף של כ-200 מגה-ואט במרכזי נתונים בסעודיה, כחלק מהמאמץ הסעודי להתבסס כמוקד גלובלי למשאבי היסק.

ההשקה מסמנת מהלך אסטרטגי רחב יותר מצד קואלקום: החברה, שידועה בעיקר בזכות שבבי הסמארטפון שלה, מבקשת לתרגם את יתרונה ההיסטורי ביעילות חישובית גם לשוק מרכזי הנתונים. בניגוד לענקיות כמו אנבידיה, שמכוונות בעיקר לשוק האימון (Training), קואלקום מתמקדת בשלב ההיסק – שבו מתבצעת בפועל עיקר צריכת המשאבים בתעשיית הבינה המלאכותית.

אם תצליח לעמוד בהבטחותיה – קצב עיבוד גבוה, יעילות חשמלית ועלות תפעול נמוכה – היא עשויה לערער את ההגמוניה של אנבידיה בשוק, ולפתוח עידן חדש שבו מרכזי נתונים לא יתוכננו סביב ה-GPU, אלא סביב יחידות Inference ייעודיות. זהו לא רק שינוי הנדסי, אלא שינוי תפישתי: מעבר מהמירוץ אל “המעבד הכי חזק”, למירוץ החיסכון והיעילות של “ה-AI הכי חסכוני”.

ניאולוג'יק גייסה 10 מיליון דולר ותשיק מעבד היסק למרכזי נתונים

חברת הסטארט-אפ ניאולוג'יק (NeoLogic) מנתניה הודיעה על גיוס של 10 מיליון דולר בסבב A, בהובלת קרן ההון סיכון הדנית KOMPAS VC ובהשתתפות Maniv Mobility, M Ventures ו-lool Ventures. ההון יאפשר לה להאיץ את השקת מעבד השרתים הראשון שלה, להרחיב את צוותי הפיתוח, המכירות והשיווק, ולהיערך להתקנות ראשונות כבר בתחילת 2026.

ניאולוג'יק מפתחת מעבד שרתים ייעודי לעיבוד בינה מלאכותית בשלב ההיסק (Inference) – השלב שבו מודלים מאומנים מעבדים שאילתות (prompts). מדובר בשלב שמתרחש מאחורי הקלעים של כל שירות AI, החל מצ'אטבוטים וכלה בזיהוי תמונה, אך הוא מהווה את אחד מצרכני האנרגיה הכבדים ביותר במרכזי נתונים. המעבד של החברה אינו CPU כללי ואינו GPU קלאסי, אלא שבב שתוכנן מהיסוד כדי לספק יחס ביצועים־לוואט גבוה במיוחד, ובכך לאפשר למפעילי תשתיות להריץ יותר משימות AI בפחות אנרגיה – עד 30% חיסכון לפי נתוני החברה.

ליבת הפיתוח היא טכנולוגיית CMOS+ – שילוב של תהליך CMOS סטנדרטי, הנפוץ ביותר בעולם השבבים, עם שורת חידושים שהחברה פיתחה ברמת הארכיטקטורה והמעגלים. ה"פלוס" בשם מתייחס לשכבת אופטימיזציה נוספת: מבנה לוגי שמפחית את מספר הטרנזיסטורים הפעילים בכל פעולה, צפיפות טרנזיסטורים גבוהה יותר המאפשרת מהירות עיבוד גבוהה בשטח קטן, והתאמות ייעודיות לזרימות עבודה של AI, במיוחד בשלב ההיסק. כל זאת תוך שמירה על תאימות מלאה לקווי ייצור CMOS רגילים – מה שמאפשר ייצור המוני יעיל ומהיר ללא השקעה בתשתיות חדשות.

המעבד החדש מצטרף לגל הולך וגדל של חדשנות ישראלית בתחום שבבי ה-Inference. בשנים האחרונות קמו בארץ מספר חברות שמנסות לתת מענה לבעיה הגלובלית של צריכת האנרגיה האדירה ביישומי AI. בין הבולטות ניתן למנות את NeuReality, שפועלת מכפר סבא וחיפה ומפתחת רכיבי AI ייעודיים למרכזי נתונים במבנה CPU-free, תוך שילוב תוכנה ותשתית ניהול להפעלה בקנה מידה גדול. חברה נוספת היא CogniFiber, שמפתחת טכנולוגיית חישוב פוטוני ייחודית המשלבת סיבים אופטיים בשבב כדי להריץ משימות AI במהירות האור ובצריכת אנרגיה נמוכה במיוחד. וניתן למנות גם את Hailo, המפתחת מאיצי בינה מלאכותית המיועדים לשימוש בקצה – כגון מחשבים, רכבים ובקרים – כדי לבצע inference באופן עצמאי וללא תלות בענן.

המשותף לכל השחקנים הללו – כולל ניאולוג'יק – הוא הרצון לתת למרכזי הנתונים כלי חישוב המותאמים לעומסי העבודה החדשים של עידן הבינה המלאכותית, מבלי להכביד על העלויות התפעוליות והסביבתיות. ניאולוג'יק מקווה שטכנולוגיית ה-CMOS+ שלה תהווה קלף מנצח בשוק הצפוי להגיע להיקף של למעלה מ־150 מיליארד דולר עד סוף העשור, ושכבר היום נחשב לאחד התחומים התחרותיים והחדשניים ביותר בתעשיית השבבים העולמית.

ניוריאליטי הטמיעה את המודלים הגדולים בשרת ההיסק שלה

[מייסד משותף ומנכ"ל ניוריאליטי, משה תנך. צילום: יוסי זליגר]

חברת ניוריאליטי (NeuReality), המפתחת ארכיטקטורת היסק (Inference) ייעודית לבינה מלאכותית, הודיעה כי שרת ההיסק של החברה, NR1 Inference Appliance, יכלול מעתה, באופן מובנה, את מודלי השפה הגדולים (LLMs) הפופולריים, כדוגמת Qwen, Mistral, Llama ו-Granite. לדברי החברה, ההטמעה תאפשר להאיץ פריסת מודלים של בינה מלאכותית יוצרת (GenAI) וסוכני בינה מלאכותית (agentic AI) גם בענן פרטי וגם באתר הלקוח.

השרת מבוסס על שבב ה-NR1, מעבד ייעודי שפיתחה החברה לביצוע משימות היסק. היסק הינו הפעולה שבה המודל מפיק תשובה במענה לשאילתא (prompt) של משתמשים. כיום, ככל שאימוץ יישומי AI הולך ומתרחב, יותר ויותר משאבי עיבוד מוקצים למשימות היסק, וזאת לעומת תחילת מהפכת ה-AI, שבה עיקר עומס העיבוד היה קשור לתהליכי אימון המודלים.

בשרת של ניוריאליטי, שבב ה-NR-1 משולב בתוך מערכת חומרה מלאה הכוללת תקשורת רשת, ממשקי ניהול, תמיכה בפריסה בענן או ב-Edge. ה-Appliance נועד לארגונים שזקוקים לעיבוד מהיר של כמויות גדולות של בקשות AI – בתחומים כמו שירות לקוחות, בריאות, פיננסים ותחבורה. הוא מותאם לשימוש ישיר, ללא צורך באינטגרציה מורכבת, וכולל כלים לניהול, ניטור ואוטומציה של עומסי עבודה מבוססי AI. השרת ניתן להפעלה בתוך פחות מ-30 דקות.

לדברי ניוריאליטי, מבחני ביצועים אחרונים חושפים שיפור דרמטי: עד פי 6.5 יותר יחידות מידע (Tokens) בהשוואה לפתרונות מבוססי מעבדי x86 – וכל זאת באותה עלות ובצריכת אנרגיה זהה. בניסוי השוואתי מול שרתי x86, מערכת NR1 Inference Appliance השיגה חיסכון ניכר בעלות לכל מיליון טוקנים בעת הרצת מודל Llama 3.3B-70B על אותו מאיץ גרפי.

משה תנך, מייסד משותף ומנכ"ל NeuReality: "הפוטנציאל של בינה מלאכותית ברור לכולם – האתגר האמיתי הוא להפוך אותה לכלכלית ונגישה מספיק כדי לאפשר הטמעה פשוטה ושימוש רחב בשירותי ההיסק (inference)  בתוך ארגונים". לדברי תנך, "המערכת שלנו מספקת את תוספת הביצועים הדרושה כדי למצות את מלוא הפוטנציאל של המעבדים הגרפיים, תוך ניהול חכם של שאילתות ופלט. כך אנו מאפשרים לחברות להפיק את המירב מהשקעותיהן במערכות AI יקרות בדטה סנטרים".

הפתרון של ניוריאליטי כבר נמצא בשימוש אצל לקוחות בענן ובענף הפיננסים. לחברה שיתוף פעולה עם קוואלקום, המאפשר שילוב עם מאיצי Qualcomm Cloud AI 100 Ultra.