אנבידיה השיקה מודלי הסקה לסוכני AI, שפותחו בישראל

חברת אנבידיה (Nvidia) הכריזה על שני מודלי הסקה חדשים ייעודיים לסוכני AI. שני המודלים, Nano 2 ו-Llama Nemotron Super 1.5, הם חלק ממשפחת מודלי ההסקה Nemotron של אנבידיה, והם פותחו בין היתר במרכז הפיתוח של אנבידיה בישראל. זו הפעם הראשונה שאנבידיה חושפת פעילות מו"פ בישראל בתחום מודלי AI.

המודלים נבנו במיוחד להפעלת סוכני AI, מערכות אוטונומיות המבצעות משימות מורכבות ורב־שלביות, והם שונים ממודלי ההסקה המוכרים מעולם הצ’אטבוטים. בעוד שמודלי הסקה לשיחה מתמקדים בניהול דיאלוג טבעי, מודלי ההסקה החדשים מותאמים לביצוע מהיר, חסכוני ומדויק של רצפים ארוכים של פעולות – מתכנון והחלטה, דרך הפעלת כלים חיצוניים ועד בדיקת תוצאות – כפי שנדרש בסוכני AI.

Nemotron Nano 2 מציע גרסה קומפקטית להרצה על התקני קצה כמו רובוטים או מצלמות חכמות, ואילו Llama Nemotron Super 1.5, המבוסס על שדרוג של מודל LLaMA של מטא, מיועד למשימות חישוביות כבדות בסביבות עתירות נתונים.

היעילות של המודלים מאפשרת לארגונים לשלב סוכני AI בקנה מידה רחב מבלי להכביד על עלויות המחשוב. בין המשתמשים בטכנולוגיה כבר כיום ניתן למנות את CrowdStrike, Uber, Zoom, EY ואמדוקס הישראלית, בפרויקטים של אוטומציה, שירות לקוחות, לוגיסטיקה וניטור איומים בזמן אמת.

לצד Nemotron, הציגה אנבידיה את Cosmos Reason – מודל ויזואלי-שפתי (VLM) בעל יכולות הסקה פיזיקליות. המודל נועד לאפשר למכונות להבין את העולם הפיזי באופן הדומה לתפיסה אנושית: לזהות חפצים, להבין את מיקומם היחסי, להעריך מרחקים, לזהות תנועה, ולפרש אינטראקציות בין עצמים. הוא משלב בין ניתוח תמונה ווידאו לבין הבנת שפה, כך שניתן "לשאול" אותו על סצנה ולקבל ניתוח מדויק, או להורות לו לבצע פעולה בהתאם למתרחש בזמן אמת.

השילוב בין Nemotron ל-Cosmos Reason מעניק לסוכן AI יכולת פעולה מלאה בעולם האמיתי: Nemotron מספק את "המוח", כלומר תכנון, חישוב, לוגיקה וקבלת החלטות, בעוד Cosmos Reason מספק את "החושים" – ראייה, הבנה מרחבית והסקה פיזיקלית. יחד הם מאפשרים לסוכן לא רק לחשוב אלא גם לראות, להבין ולפעול, לדוגמה ברובוט תעשייתי שיכול לזהות תקלה, לתכנן את דרך התיקון, ולהוציא אותה לפועל באופן אוטונומי לחלוטין.

ניוריאליטי הציגה לראשונה ביצועי "עולם אמיתי" של שרת ה-AI

[בתמונה למעלה מימין לשמאל: צביקה שמואלי, משה תנך ויוסי קיסוס. צילום: אביב קורט]

חברת ניוריאליטי (NeuReality) מקיסריה פרסמה תוצאות של מבחני ביצועים שבדקו את ביצועיה של פלטפורמת שרת ה-AI של החברה, NR1-S, בהרצת משימות הסקת AI בסביבה המדמה מרכז נתונים (Data Center). מטרת המבדקים היתה להדגים את יכולת הפתרון של החברה לסייע משמעותית בהפחתת צריכת האנרגיה ועליות החומרה של דאטה-סנטר המריץ פתרונות הסקה (inference), כלומר יישום של מודולי AI.

NR1-S הוא שרת-על-שבב ייעודי שפיתחה ניוריאליטי לביצוע משימות הסקה, והוא כולל את המודולים של החברה, NR1-M, שתפקידם לווסת באופן אופטימאלי את העבודה של יחידות העיבוד. מודולים אלה מתוכננים לעבוד בשילוב עם מאיצי AI ייעודיים – ובמבחני הביצועים שנערכו נעשה שימוש במשפחת המאיצים Cloud AI-100 של קוואלקום. הפתרון נבחן בהשוואה למערכות מבוססות CPU הנמצאות בשימוש על ידי יצרנים כגון אנבידיה וחברות ענק המפעילות דאטה סנטרים גדולים במיוחד.

לדברי החברה, המבדקים העלו כי השילוב עם מאיצי קואלקום הוכיח רמת סקלאביליות אופטימאלית של 100%, חסכון של עד 90% בעלויות, ויעילות אנרגטית עד פי 15 יותר טובה בדאטה סנטרים של AI, בהרצות נפוצות של בינה מלאכותית.

בפרט, השילוב של ניוריאליטי וקוואלקום הדגים הפחתה של עלות הבעלות הכוללת (TCO) בשיעורים של 80% בעיבוד שפה טבעית, 88% בעיבוד דיבור אוטומטי ו-90% בעיבוד תמונה המשמשים בשירותים פיננסיים, בריאות, בטיחות ציבורית ותחבורה. כמו כן הוא הדגים יעילות משולבת של עלות ואנרגיה טובה פי 5-6 בעיבוד שפה טבעית, פי 8-10 בעיבוד דיבור אוטומטי ופי 13-15 בראיה ממוחשבת, יישומים שימושיים במיוחד בדימות רפואי, ביטחון פנים, תיעוד קליני מבוסס קול, תביעות ביטוח, גילוי הונאות בנקאיות, שירות לקוחות, יצירת תוכן ובידור מבוסס מולטימדיה. כמו כן, NR1-S עם Qualcomm® Cloud AI-100 Pro השיג סקלאביליות לינארית של 100% עם ResNet-50, ארכיטקטורה פופולארית למשימות סיווג תמונות.

תרשים המציג את השיפור בעלויות ובביצועים [מתוך בלוג החברה]

צווארי הבקבוק של GenAI

אילן אביטל, מנהל המו"פ של NeuReality, ואשר צוות ההנדסה שבראשותו סיים את ביצוע שלב המבחנים המקיפים של NR1-S, מסר: "תוצאות הביצועים בעולם האמיתי מציגות מענה ייחודי לאתגרים הגדלים שעמם מתמודדים ספקי וצרכני תשתיות AI מהדור הבא. יחידות עיבוד גרפיות (GPUs) מהירות יותר מניעות חדשנות בזכות יכולות AI מתקדמות, אך הן גם מרחיקות אותנו יותר ויותר מהיכולת להתמודד עם המציאות התקציבית והאנרגטית של רוב החברות".

מודלים של בינה מלאכותית יוצרת כמו מודלי שפה גדולים (LLMs) נתקלים באותם צווארי בקבוק של CPU כמו AI מסורתי. לפי הפוסט שפרסמו אילן אביטל ואנשי צוותו לסיכום מבחן הביצועים, הבעיה מחמירה עם מודלי AI מתקדמים ומאיצים אשר אינם מנוצלים היטב.

"התעשייה של היום ממשיכה להתקדם תוך ראייה צרה המבוססת על השגת ביצועים גולמיים גבוהים יותר עבור המודלים הגדולים והמתקדמים ביותר של AI באמצעות מערכות AI חזקות יותר ויותר. כתוצאה מכך, צריכת האנרגיה והעלויות ממשיכות לעלות ולהקשות על השימוש המעשי של AI עבור רוב הארגונים", הוסיף אביטל.

משה תנך, מנכ"ל ומייסד משותף של NeuReality, אמר: "התוצאות, שבחנו ביצועים בעולם האמיתי, מצביעות על משהו שונה לגמרי.  למרות שמדובר בימים מוקדמים בעידן ה-AI, חשוב כבר עכשיו להציע נתיב טוב יותר עבור דאטה סנטרים המריצים משימות של הסקה בבינה מלאכותית".

תרשים המציג את החיסכון באנרגיה [מתוך בלוג החברה]

ניוריאליטי נוסדה בשנת 2019 ומונהגת על ידי צוות הנהלה בעל ניסיון רב בארכיטקטורת דאטה סנטרים, מערכות ותוכנה. מייסדי החברה הם משה תנך, המשמש כמנכ"ל, צביקה שמואלי, סגן נשיא לתפעול, ויוסי קסוס המשמש כסגן נשיא לפיתוח שבבים. לפני הקמת ניוריאליטי, משה תנך כיהן בתפקידים בכירים כמנהל הנדסה במארוול ובאינטל וסגן נשיא למו"פ בדיזיינארט נטוורקס (שנרכשה מאוחר יותר על ידי קוואלקום). צביקה שמואלי כיהן כסגן נשיא Backend במלאנוקס וכסגן נשיא להנדסה בהבאנה לאבס. יוסי קסוס שימש כדירקטור בכיר להנדסה במלאנוקס וכראש תחום פיתוח השבבים באיזיצ'יפ. הצוות המוביל של החברה כולל את ה-CTO ליאור חרמוש, לשעבר מייסד משותף ומדען ראשי של ParallelM ו-fellow בחברת PMC Sierra, ואילן אביטל  מנהל המו"פ(CRO – Chief RND Officer) , מבכירי מערך המו"פ של אינטל לשעבר ,שכיהן כסגן נשיא הנדסה של חטיבת התקשורת למרכזי נתונים (VP Engineering, Datacenter Networking).

ניוריאליטי מעסיקה כיום כ-70 עובדות ועובדים במרכזי הפיתוח של החברה בקיסריה ובתל אביב. בכוונת החברה לגייס בשנה הקרובה עשרות עובדות ועובדים נוספים על מנת לתמוך באתגרי הפיתוח ובצמיחת החברה המואצת.