שירות האימון החדש של AWS מבוסס על אנפורנה לאבס

חברת AWS הכריזה על שירות חדש של אימון רשתות נוירוניות בענן, המתבסס על שבבי Trainium של אנפורנה לאבס הישראלית, שנירכשה על-ידי אמזון בשנת 2015. כיום החברה פועלת מישראל ומארה"ב, ומפתחת מאיצי עיבוד ושבבים ייעודיים המשמשים להאצת שירותי הענן של אמזון. השבב תוכנן במטרה להאיץ את תהליכי האימון של רשתות נוירוניות המבצעות מטלות דוגמת זיהוי קול ותמונה, חיפוש סמנטי במאגרי נתונים, גילוי תקיפות סייבר, בניית תחזיות וכדומה.

החברה העריכה שהשירות החדש, Trn1, הניתן במסגרת Amazon EC2, מהיר פי שניים בהשוואה לשירותים המקבילים המבוססים על מעבדי GPU. אמזון מתקינה את מאיצי Trainium באשכולות מחשבים מסוג EC2 UltraCluster, אשר יכילו עד 30,000 מאיצים בכל אשכול ויספקו עוצמת עיבוד כוללת של עד 6.3exaflops. שירות Trn1 הוא למעשה מחשב וירטואלי הקרוי instance, אשר מספק ללקוח תשתית של שרת המתנהג כמו שרת יחיד ממשי. בכל instance כזה יש עד 16 מאיצי Trainium.

זהו האינסטנס הראשון של AWS המספק מהירות תקשורת של עד 800Gbps, שהושגה בזכות מעבדי Graviton שגם הם פותחו באנפורנה לאבס. מאיצי Trainium הם מרכיב בחבילת פתרונות Nitro שאותם אנפורנה לאבס מפתחת. מדובר במשפחה של פתרונות חומרה ותוכנה המיועדת להאיץ את הביצועים של מעבדי ה-CPU, מערכות האיחסון ותשתית הקישוריתו במרכזי נתונים, באמצעות הסטת עומסים אל רכיבי חמרה ייעודיים המבצעים את המטלות הספציפיות במהירות רבה.

חברת אמזון, הבעלים של AWS, הודיעה שהיא בעצמה החלה להשתמש בשירותי Trn1 כדי להפעיל את מנוע החיפוש באתר הקניות המקוונות שלה. מעניין לציין שבעבר רמזה AWS, שהמאיץ Trainium מיועד להחליף את מעבד גאודי שפותח על-ידי חברת הבאינה לאבס הישראלית, אשר נירכשה על-ידי אינטל בשנת 2019. מדובר בשתי חברות שונות שהוצמחו על-ידי אביגדור וילנץ.

אמזון השיקה שרתים מבוססי אנפורנה

חברת AWS הכריזה על שרתים וירטואליים המבוססים על המעבד החדש, Graviton3, אשר פותח בישראל על-ידי הצוות של אנפורנה (Annapurna Labs), שאותה רכשה אמזון בשנת 2015 תמורת כ-350 מיליון דולר. השרתים החדשים מיועדים לספק שירותי עיבוד רבי עוצמה על-גבי תשתית השירותים הגמישה EC2. להערכת חברת AWS, שרתים וירטואליים המבוססים על המעבד החדש, מספקים שיפור של 25% בביצועים בהשוואה לשרתי EC2 המבוססים על מעבד Graviton2.

הם מהירים פי שניים בטיפול בעומסים מוצפנים (cryptographic workloads), מהירים פי שלושה ביישום הסקות של רשתות נוירוניות ומהירים כמעט פי שניים בביצוע פעולות חישוב נקודה צפה. כל זאת ביחד עם הפחתה של 60% בצריכת האנרגיה ושיפור של 40% במהירות הגישה לזכרון. מדובר במהלך שמבחינת אמזון נחשב להצלחה גדולה: 48 מתוך 50 הלקוחות הגדולים ביותר של Amazon EC2 משתמשים בשרתים המבוססים על מעבדי גרביטון.

הסתמכות על פיתוח עצמי

מעבד גרביטון הראשון יצא בשנת 2018 והתבסס על תהליך ייצור של 16 ננומטר. זה היה המעבד הכללי הראשון של AWS. בחודש יוני 2020 הכריזה AWS על המעבד Graviton2 אשר מספק חיסכון של 40% בעלות ביחס לביצועים בהשוואה למעבדים מקבילים של חברת אינטל. בדצמבר 2021 החברה הכריזה על סיום הפיתוח של מעבד Graviton3. ההכרזה הנוכחית מכניסה את המעבד לפעילות מסחרית שוטפת. מעבד Graviton3 מבוסס על SoC ענק אשר בנוי מ-7 שבבים שונים (Chiplets) וכולל כ-55 מיליארד טרנזיסטורים – בהשוואה לכ-30 מיליארד טרנזיסטורים במעבד הדור הקודם.

המעבד המרכזי כולל 64 ליבות PCU בשבב יחיד המקושרות באמצעות רשת תקשורת פנימית הפועלת בתדר של 2GHz, אשר מעבירה ביניהם את המידע בקצב של עד 2 טרה-בייט בשנייה. לצד כל ליבה יש זיכרון מטמון מקומי, ובסך הכל המעבד כולל זיכרון מטמון בנפח של 100MB. ארבעת השבבים בצדדים הם בקרי DDR5 של המעבד, המעבירים מידע בקצב של 300Gbps. שני השבבים בתחתית הרכיב (ראו תמונה למעלה) הם שני ממשקי PCIe5.0.

בתעשייה העריכו שהשילוב של מודולי PCIe5.0 ו-DDR5, יאפשר לה לפתח בקלות רבה יותר את הדור הבא, Graviton3, מכיוון שהוא יתמקד בשיפור המעבד המרכזי ולא בבקרים ההיקפיים. אמזון בנתה כרטיסי שרת פיסיים (Nitro card) הכוללים שלושה מעבדי Graviton3 בכרטיס יחיד, ועל-ידי כך השיגה הפחתה נוספת בצריכת האנרגיה של כל מסד. לא נמסרו פרטים על הייצור, אולם ידוע שהמעבד הקודם היה מבוסס על 64 ליבות Arm Neoverse באורך מילה של 64 סיביות, ושהוא יוצר בתהליך של 7 ננומטר.

הצוות של אנפורנה מפתח את מעבדי Graviton של אמזון

בתמונה למעלה: מעבד גרביטון-1 שנכנס לשוק בשנת 2018.

צוות המפתחים הישראלי של אמזון, לשעבר חברת אנפורנה לאבס (Annapurna Labs) שנמכרה לאמזון בשנת 2015 תמורת כ-350 מיליון דולר, אחראי על פיתוח המעבד החשוב ביותר של ספקית שירותי הענן AWS, הנמצאת בבעלות אמזון. כך התברר בכנס הווירטואלי re:invent שאמזון קיימה החודש. מדובר ביוזמה אסטרטגית שתאפשר לאמזון להישען על מעבדים ותשתיות חומרה מתוצרת עצמית, ולא על פתרונות גנריים המבוססים על מעבדים של חברות כמו AMD ואינטל.

מנכ"ל AWS, אנדי ג'סי, אמר שמדובר במהלך ארוך טווח. "העבודה שלנו על פיתוח שבבים מאפשרת לנו להיות חברה חדשנית. יש לנו קשרים מצויינים עם אינטל ו-AMD, והם יימשכו גם בעתיד. אולם לפני מספר שנים הגענו למסקנה שכדי להביא את מעטפת העלות-ביצועים אל הקצה, אנחנו צריכים לפתח בעצמנו חלק מהשבבים. לכן רכשנו ב-2015 את אנפורנה (הישראלית) שיש בה מתכנני שבבים מאוד מנוסים ומתוחכמים, ושלחנו אותם לעבוד".

אנפורנה תמשיך לפתח מעבדי גרביטון נוספים

ג'סי: "התחלנו עם שבב העיבוד הכללי Graviton המבוסס על ארכיטקטורת ARM. הלקוחות התלהבו ממנו והשתמשו בו הרבה יותר מהר מהתחזיות המוקדמות שלנו. זה עניין גדול. כעת הכרזנו על שרת מבוסס Graviton2, שיהיה המחשב שלנו ליישומים עתירי עיבוד המקושר ברשת מהירה הפועלת בקצב של 100Gbps. כיום אנחנו ממשיכים להשקיע בפיתוח גרסאות חדשות של גרביטון".

מעבד גרביטון הראשון יצא בשנת 2018 והתבסס על תהליך ייצור של 16 ננומטר. זה היה המעבד הכללי הראשון של AWS. בחודש יוני השנה הכריזה AWS על המעבד Graviton2 אשר מספק חיסכון של 40% בעלות ביחס לביצועים בהשוואה למעבדים מקבילים של חברת אינטל. בשיחת הוועידה בסוף אוקטובר 2020, דיווחה אמזון שנטפליקס משתמשת בשרתים המבוססים על מעבדי Graviton2, אשר מעניקים לה חסכון של 40% בעלות בהשוואה לשרתים מקבילים המבוססים על מעבדי אינטל.

המעבד החדש כולל 30 מיליארד טרנזיסטורים. הוא מבוסס על עד 64 ליבות Arm Neoverse בעלות 64 סיביות ומיוצר בתהליך של 7 ננומטר. המעבד החדש חזק פי 7 מהדור הקודם ובעל מהירות גישה לזיכרון גבוהה פי חמישה. ארכיטקט התשתיות של AWS, ג'יימס המילטון, מסר שאמזון בנתה שלושה שרתים ייעודיים המבוססים על מעבד גרביטון-2: שרת יישומים כללי, שרת יתר ביצועים ליישומי וידאו, הדמיות וכדומה ושרת ניהול מערכי זיכרון גדולים מאוד. להערכת המילטון, כיום זהו המעבד החזק והיעיל ביותר בעולם הפועל בסביבת שירותי הענן.

בין הלקוחות של המעבד החדש יש חברות שתעשיית השבבים היא ליבת העסקים שלהן. חברת סינופסיס (Synopsys) הודיעה לאחרונה שהיא העלתה לענן את תוכנת אימות תכנוני השבבים VCS, ושהיא תפעל על-גבי שרתים מבוססי גרביטון-2 של AWS. אפילו אמזון מתכננת להשתמש בשירות של עצמה, ודיווחה שהיא תשתמש בתוכנה המקוונת לבדיקת רכיבי SoC שהיא מפתחת.