אנפורנה לאבס מפתחת מעבד חדש ל-AWS

חברת אנפורנה לאבס (Annapurna Labs) הישראלית, שנירכשה על-ידי אמזון בשנת 2015, מפתחת את מעבד אימון הרשתות החדש של AWS, בשם Trainium3, אשר ייוצר בתהליך של 3 ננומטר וצפוי לצאת לשוק בסוף 2025. זהו מעבד האימון השלישי של אנפורנה לאבס, והראשון שייוצר בתהליך כל-כך מתקדם. בתחילת החודש החלה AWS לספק את שירות האימון של פלטפורמת Amazon EC2, באמצעות שרתים חדשים המבוססים על מעבדי הדור השני של אנפורנה לאבס, Trainium2.

החברה הכריזה על שני סוגי שרתים חדשים: שרתי Trn2 כוללים 16 מעבדי Trainium2 המחוברים אחד עם השני באמצעות רשת פנימית מהירה ומספקים עוצמת עיבוד של עד 20.8Petaflops. להערכת החברה הם מעניקים יתרון ביצועים/עלות של 30%-40% בהשוואה לשרתי אימון מקבילים המבוססים על מעבדי GPU. ליישומים כבדים יותר, הדרושים אימון רשתות בעלות בגודל של טריליון פרמטרים, החברה מספקת את שרתי Trn2 UltraServers, הכוללים 64 מעבדי Trainium2 בכל שרת.

בימים אלה AWS מקימה אשכול שרתים ביחד עם חברת Anthropic האמריקאית, שבה היא השקיעה כ-4 מיליארד דולר ב-2023, במסגרת פרוייקט Project Rainier. חברת Anthropic מפתחת מודלי LLM גדולים ומספקת אותם לשימוש באמצעות הענן. האשכול החדש, בשם EC2 UltraCluster יתבסס על תשתית שתיבנה באמצעות שימוש בכמה מאות אלפי מעבדי Trainium2. להערכת AWS, זו תהיה תשתית עיבוד ה-AI הגדולה בעולם.

בהזדמנות הזו חשפה AWS פרטים ראשונים על מעבד הדור הבא: Trainium3. זה יהיה השבב הראשון של AWS אשר ייוצר בתהליך של 3 ננומטר, ושרתי UltraServer שיתבססו על Trainium3 יהיו חזקים לפחות פי ארבעה מהשרתים מבוססי Trainium2. השירותים הראשונים שיתבססו על Trainium3 צפויים להיות זמינים בסוף 2025.

שירות האימון החדש של AWS מבוסס על אנפורנה לאבס

חברת AWS הכריזה על שירות חדש של אימון רשתות נוירוניות בענן, המתבסס על שבבי Trainium של אנפורנה לאבס הישראלית, שנירכשה על-ידי אמזון בשנת 2015. כיום החברה פועלת מישראל ומארה"ב, ומפתחת מאיצי עיבוד ושבבים ייעודיים המשמשים להאצת שירותי הענן של אמזון. השבב תוכנן במטרה להאיץ את תהליכי האימון של רשתות נוירוניות המבצעות מטלות דוגמת זיהוי קול ותמונה, חיפוש סמנטי במאגרי נתונים, גילוי תקיפות סייבר, בניית תחזיות וכדומה.

החברה העריכה שהשירות החדש, Trn1, הניתן במסגרת Amazon EC2, מהיר פי שניים בהשוואה לשירותים המקבילים המבוססים על מעבדי GPU. אמזון מתקינה את מאיצי Trainium באשכולות מחשבים מסוג EC2 UltraCluster, אשר יכילו עד 30,000 מאיצים בכל אשכול ויספקו עוצמת עיבוד כוללת של עד 6.3exaflops. שירות Trn1 הוא למעשה מחשב וירטואלי הקרוי instance, אשר מספק ללקוח תשתית של שרת המתנהג כמו שרת יחיד ממשי. בכל instance כזה יש עד 16 מאיצי Trainium.

זהו האינסטנס הראשון של AWS המספק מהירות תקשורת של עד 800Gbps, שהושגה בזכות מעבדי Graviton שגם הם פותחו באנפורנה לאבס. מאיצי Trainium הם מרכיב בחבילת פתרונות Nitro שאותם אנפורנה לאבס מפתחת. מדובר במשפחה של פתרונות חומרה ותוכנה המיועדת להאיץ את הביצועים של מעבדי ה-CPU, מערכות האיחסון ותשתית הקישוריתו במרכזי נתונים, באמצעות הסטת עומסים אל רכיבי חמרה ייעודיים המבצעים את המטלות הספציפיות במהירות רבה.

חברת אמזון, הבעלים של AWS, הודיעה שהיא בעצמה החלה להשתמש בשירותי Trn1 כדי להפעיל את מנוע החיפוש באתר הקניות המקוונות שלה. מעניין לציין שבעבר רמזה AWS, שהמאיץ Trainium מיועד להחליף את מעבד גאודי שפותח על-ידי חברת הבאינה לאבס הישראלית, אשר נירכשה על-ידי אינטל בשנת 2019. מדובר בשתי חברות שונות שהוצמחו על-ידי אביגדור וילנץ.

אמזון השיקה שרתים מבוססי אנפורנה

חברת AWS הכריזה על שרתים וירטואליים המבוססים על המעבד החדש, Graviton3, אשר פותח בישראל על-ידי הצוות של אנפורנה (Annapurna Labs), שאותה רכשה אמזון בשנת 2015 תמורת כ-350 מיליון דולר. השרתים החדשים מיועדים לספק שירותי עיבוד רבי עוצמה על-גבי תשתית השירותים הגמישה EC2. להערכת חברת AWS, שרתים וירטואליים המבוססים על המעבד החדש, מספקים שיפור של 25% בביצועים בהשוואה לשרתי EC2 המבוססים על מעבד Graviton2.

הם מהירים פי שניים בטיפול בעומסים מוצפנים (cryptographic workloads), מהירים פי שלושה ביישום הסקות של רשתות נוירוניות ומהירים כמעט פי שניים בביצוע פעולות חישוב נקודה צפה. כל זאת ביחד עם הפחתה של 60% בצריכת האנרגיה ושיפור של 40% במהירות הגישה לזכרון. מדובר במהלך שמבחינת אמזון נחשב להצלחה גדולה: 48 מתוך 50 הלקוחות הגדולים ביותר של Amazon EC2 משתמשים בשרתים המבוססים על מעבדי גרביטון.

הסתמכות על פיתוח עצמי

מעבד גרביטון הראשון יצא בשנת 2018 והתבסס על תהליך ייצור של 16 ננומטר. זה היה המעבד הכללי הראשון של AWS. בחודש יוני 2020 הכריזה AWS על המעבד Graviton2 אשר מספק חיסכון של 40% בעלות ביחס לביצועים בהשוואה למעבדים מקבילים של חברת אינטל. בדצמבר 2021 החברה הכריזה על סיום הפיתוח של מעבד Graviton3. ההכרזה הנוכחית מכניסה את המעבד לפעילות מסחרית שוטפת. מעבד Graviton3 מבוסס על SoC ענק אשר בנוי מ-7 שבבים שונים (Chiplets) וכולל כ-55 מיליארד טרנזיסטורים – בהשוואה לכ-30 מיליארד טרנזיסטורים במעבד הדור הקודם.

המעבד המרכזי כולל 64 ליבות PCU בשבב יחיד המקושרות באמצעות רשת תקשורת פנימית הפועלת בתדר של 2GHz, אשר מעבירה ביניהם את המידע בקצב של עד 2 טרה-בייט בשנייה. לצד כל ליבה יש זיכרון מטמון מקומי, ובסך הכל המעבד כולל זיכרון מטמון בנפח של 100MB. ארבעת השבבים בצדדים הם בקרי DDR5 של המעבד, המעבירים מידע בקצב של 300Gbps. שני השבבים בתחתית הרכיב (ראו תמונה למעלה) הם שני ממשקי PCIe5.0.

בתעשייה העריכו שהשילוב של מודולי PCIe5.0 ו-DDR5, יאפשר לה לפתח בקלות רבה יותר את הדור הבא, Graviton3, מכיוון שהוא יתמקד בשיפור המעבד המרכזי ולא בבקרים ההיקפיים. אמזון בנתה כרטיסי שרת פיסיים (Nitro card) הכוללים שלושה מעבדי Graviton3 בכרטיס יחיד, ועל-ידי כך השיגה הפחתה נוספת בצריכת האנרגיה של כל מסד. לא נמסרו פרטים על הייצור, אולם ידוע שהמעבד הקודם היה מבוסס על 64 ליבות Arm Neoverse באורך מילה של 64 סיביות, ושהוא יוצר בתהליך של 7 ננומטר.

הצוות של אנפורנה מפתח את מעבדי Graviton של אמזון

בתמונה למעלה: מעבד גרביטון-1 שנכנס לשוק בשנת 2018.

צוות המפתחים הישראלי של אמזון, לשעבר חברת אנפורנה לאבס (Annapurna Labs) שנמכרה לאמזון בשנת 2015 תמורת כ-350 מיליון דולר, אחראי על פיתוח המעבד החשוב ביותר של ספקית שירותי הענן AWS, הנמצאת בבעלות אמזון. כך התברר בכנס הווירטואלי re:invent שאמזון קיימה החודש. מדובר ביוזמה אסטרטגית שתאפשר לאמזון להישען על מעבדים ותשתיות חומרה מתוצרת עצמית, ולא על פתרונות גנריים המבוססים על מעבדים של חברות כמו AMD ואינטל.

מנכ"ל AWS, אנדי ג'סי, אמר שמדובר במהלך ארוך טווח. "העבודה שלנו על פיתוח שבבים מאפשרת לנו להיות חברה חדשנית. יש לנו קשרים מצויינים עם אינטל ו-AMD, והם יימשכו גם בעתיד. אולם לפני מספר שנים הגענו למסקנה שכדי להביא את מעטפת העלות-ביצועים אל הקצה, אנחנו צריכים לפתח בעצמנו חלק מהשבבים. לכן רכשנו ב-2015 את אנפורנה (הישראלית) שיש בה מתכנני שבבים מאוד מנוסים ומתוחכמים, ושלחנו אותם לעבוד".

אנפורנה תמשיך לפתח מעבדי גרביטון נוספים

ג'סי: "התחלנו עם שבב העיבוד הכללי Graviton המבוסס על ארכיטקטורת ARM. הלקוחות התלהבו ממנו והשתמשו בו הרבה יותר מהר מהתחזיות המוקדמות שלנו. זה עניין גדול. כעת הכרזנו על שרת מבוסס Graviton2, שיהיה המחשב שלנו ליישומים עתירי עיבוד המקושר ברשת מהירה הפועלת בקצב של 100Gbps. כיום אנחנו ממשיכים להשקיע בפיתוח גרסאות חדשות של גרביטון".

מעבד גרביטון הראשון יצא בשנת 2018 והתבסס על תהליך ייצור של 16 ננומטר. זה היה המעבד הכללי הראשון של AWS. בחודש יוני השנה הכריזה AWS על המעבד Graviton2 אשר מספק חיסכון של 40% בעלות ביחס לביצועים בהשוואה למעבדים מקבילים של חברת אינטל. בשיחת הוועידה בסוף אוקטובר 2020, דיווחה אמזון שנטפליקס משתמשת בשרתים המבוססים על מעבדי Graviton2, אשר מעניקים לה חסכון של 40% בעלות בהשוואה לשרתים מקבילים המבוססים על מעבדי אינטל.

המעבד החדש כולל 30 מיליארד טרנזיסטורים. הוא מבוסס על עד 64 ליבות Arm Neoverse בעלות 64 סיביות ומיוצר בתהליך של 7 ננומטר. המעבד החדש חזק פי 7 מהדור הקודם ובעל מהירות גישה לזיכרון גבוהה פי חמישה. ארכיטקט התשתיות של AWS, ג'יימס המילטון, מסר שאמזון בנתה שלושה שרתים ייעודיים המבוססים על מעבד גרביטון-2: שרת יישומים כללי, שרת יתר ביצועים ליישומי וידאו, הדמיות וכדומה ושרת ניהול מערכי זיכרון גדולים מאוד. להערכת המילטון, כיום זהו המעבד החזק והיעיל ביותר בעולם הפועל בסביבת שירותי הענן.

בין הלקוחות של המעבד החדש יש חברות שתעשיית השבבים היא ליבת העסקים שלהן. חברת סינופסיס (Synopsys) הודיעה לאחרונה שהיא העלתה לענן את תוכנת אימות תכנוני השבבים VCS, ושהיא תפעל על-גבי שרתים מבוססי גרביטון-2 של AWS. אפילו אמזון מתכננת להשתמש בשירות של עצמה, ודיווחה שהיא תשתמש בתוכנה המקוונת לבדיקת רכיבי SoC שהיא מפתחת.