מהפיכת האיחסון הבאה תתחיל במשאב בלתי מנוצל: בקרי SSD

3 פברואר, 2019

הטמעת יכולות בינה מלאכותית בתוך בקרי ה-SSD הקיימים היום בשוק, מאפשרת לייצר מטא-מידע ברמת הדיסק ואבזר הרשת המקומי, ולבצע חיפוש ועיבוד חכם בלא צורך בהעברה מאסיבית של מידע ברשתות התקשורת

בתמונה למעלה: בקר SSD של חברת מארוול

מאת: נועם מזרחי, Marvell Fellow, VP Technology and Architecture, Marvell CTO office

קצב ייצור הנתונים נמצא במגמת עלייה תלולה. בעבר היו בני אדם המקור העיקרי של ייצור נתונים. כיום נוספו אליהם מקורות חדשים: מצלמות אבטחה, חיישנים, רחפנים, מכוניות מקושרות לרשת, מכשירי IoT וציוד ייצור, המייצרים נתונים במגוון של דרכים ופורמטים. אלא שיש להבדיל בין נתונים ובין מידע. רק שבריר מהנתונים הנאספים כיום חשוב מספיק על מנת לטפל בהם כנכס אמיתי. קחו למשל מצלמת אבטחה, שבה דקה בודדת של פעילות רלוונטית היא החשובה באמת, ולא השעות הארוכות של וידאו חסר עניין. באנלוגיה, ניתן לחשוב על "נתונים" כעל מכרה שבו מחפשים מטילי זהב, שהם ה"מידע". היכולת להפוך את הנתונים למידע בעל ערך – פעילות ה"כרייה" – יכולה להיות מוגדרת כ"ניתוח אנליטי של ביג דאטה".

הגרף למעלה שהוכן על-ידי אנליסטים בחברת המחקר Statistica, מתאר את הזינוק העצום בקיבולת הנתונים המאוחסנים, במהלך העשור האחרון. הניתוח הזה חוזה כי בשנת 2020 יגיע הביקוש לאחסון ל- 42,000 אקסא-בייט. אולם הרוב המוחלט של הנתונים המאוחסנים – לפחות 80% על פי רוב ההערכות – עודו מאופיין בפורמט בלתי מובנה (Unstructured data) לחלוטין, מה שמציג בעיות כאשר מנסים להשתמש בנתונים האלה לצורך ניתוח אנליטי.

על-פי ההערכה המקובלת בתעשייה, רק 5% מהמידע המאוחסן אכן מנותח בפועל. מובן כי ככל שנמצא דרך לצרף לנתונים בפורמט בלתי מובנה גם את המטא-נתונים המתארים אותם באופן אפקטיבי, נוכל לנתח כמויות גדולות הרבה יותר של נתונים, תוך הגדלה משמעותית של הערך אותו מפיקים מהנתונים.

יתרונות הבינה המלאכותית

טכנולוגיית הבינה המלאכותית (AI) כבר הוכיחה את ערכה בתחומי ההמלצות על מוצרים בעולם המסחר המקוון, תרגום שפה טבעית, טכנולוגיות בעולם הפיננסים (FinTech), מערכות מעקב ואבטחה, זיהוי אובייקטים ומעקב אחריהם ועוד. למרות השונות בין היישומים האלה, עוברת ביניהם נימה אחת משותפת: לראשונה יש בידינו טכנולוגיה המסוגלת לסרוק כמויות עצומות של מידע בלתי מובנה, ולעבד אותן באופן המאפשר להפיק ממנו ערך אמיתי.

נועם מזרחי, חברת מארוול. צילום: ארז לוי
נועם מזרחי, חברת מארוול. צילום: ארז לוי

מכאן שניתן להשתמש בבינה מלאכותית לא רק לצורך התהליך האנליטי עצמו, אלא גם לעיבוד מקדים של נתונים גולמיים בפורמט בלתי מובנה, על מנת לתייג אותם ולהוסיף להם מטא-נתונים המייצגים אותם באופן פשוט אך מדוייק. בסיס הנתונים המפושט הזה יכול בהמשך להיות בסיס לניתוח, באמצעות שכבות גבוהות יותר של תוכנה אנליטית לעיבוד ביג דאטה. בינה מלאכותית תאפשר לארגונים להפיק הרבה יותר מידע מהנתונים שאותם הם מאחסנים – ואשר עד עתה, ברוב המקרים, נותרו "אפלים" במהותם.

אנחנו רוצים, אם כן, לייצר מטא-נתונים שיאפשרו לתוכנה האנליטית שלנו לפעול באופן אפקטיבי יותר, ויש בידינו  כלי בינה מלאכותית המאפשרים ליצור את המטא-נתונים הללו, על בסיס כמויות עצומות של מידע בלתי מובנה. עכשיו, אנחנו צריכים רק להביא את כמויות הענק של הנתונים האלה אל מערכות הבינה המלאכותית שלנו, בכל מקום שבו הן עשויות להימצא. אבל האם זו באמת הדרך הנכונה לפעול בה?

עיבוד מקומי במקום שינוע נתונים

אם ניקח את שני המקומות העיקריים שבהם נוצרים נתונים ומאוחסנים כיום, "הענן" ו"שולי הרשת" (edge), יתברר שהזזת כמויות העתק של הנתונים האלה ממקום למקום היא עניין יקר, שכדאי להימנע ממנו. בענן, ניתוב הנתונים דרך מרכז עיבוד הנתונים מייצר עומסים על תשתיות הרשת הקיימות, דורש כמות גדולה של חשמל ועוצמת עיבוד, ומגדיל את זמני ההשהייה. בדומה, בשולי הרשת קיימים משאבי מחשוב וחשמל מוגבלים מאוד, ההופכים את משימת ההעלאה של כמויות גדולות של נתונים אל הענן לתהליך בלתי מעשי. בשני המקרים, מפתח לייעול התפעול טמון בצמצום כמות הנתונים אותם אנו מעבירים ממקום למקום, והסתמכות על מטא-נתונים המייצגים את המידע השמור בהקשר של הניתוח המבוקש.

לכן עדיף להקצות ולהגדיר את המטא-נתונים במקום שבו הנתונים נוצרים ומאוחסנים בראשית הדרך, בלא צורך להעביר את הנתונים. מכאן שיש צורך בטכנולוגיית אחסון חכמה אשר יודית לייצר את התגים המלווים את המידע המאוחסן. בעיקרון, מערכות SSD כבר כוללות את הרכיבים הנדרשים כדי לשמש כישויות מחשוב. כיום הן משמשות רק בהקשר של תפעול הכונן עצמו, אולם אפשר להקצות אותן בחלקים מהזמן לייעוד חדש של ביצוע המשימות החדשות, תוך השלמה של רכיבי חומרה, תוכנה או קושחה נוספים הנדרשים על מנת להשלים משימות ופונקציות כאלה.

ה-SSD הוא משאב מיחשוב בלתי מנוצל

אחת מהגישות לפעולה כזו עשויה להיות שימוש בחלון הזמן שבו הכונן עומד ללא שימוש פעיל (idle), על מנת לבצע משימות מיפוי הפועלות ברקע. גישה אחרת עשויה להיות עיבוד הנתונים תוך כדי כתיבתם לכונן. חיסכון בחשמל ובעלויות, כמו גם צמצום הצורך בהעברת נתונים וקיצור זמני ההשהיה, יחד עם הקטנה של כלל התעבורה ברשת, הם רק כמה מהיתרונות אותם ניתן להפיק כאשר משתמשים בגישת האצת עיבוד כזאת כבר בנקודת האחסון.  היכולת המובנית למידרוג והרחבת הגישה הזאת, אומרת כי ארגונים וספקי שירותי ענן יכולים להרחיב את היקף היכולות שלהם באמצעות מינוף הפונקציונליות של כלי AI עדכניים.

במהלך כנס Flash Memory Summit, שהתקיים בסנטה קלארה קליפורניה באוגוסט אשתקד, הציגו חברת Marvell וחברת NVIDIA מערכת ראשונה מסוגה להוכחת יכולת עיבודי AI על-גבי כונני SSD. המערכת הדגימה תיוג נתונים יעיל ללא צורך בגישה אל משאבי המעבד המרכזי (CPU) של המחשב המארח.

ההדגמה הראתה כיצד בקרים של Marvell המוצעים כמוצרי מדף למרכזי עיבוד נתונים ולמערכות SSD, בעבודה משולבת עם טכנולוגיית האצה ליישומי למידה עמוקה (NVIDIA Deep Learning – NVDLA), קולטים מודל בינה מלאכותית שעבר אימון והדרכה, מבצעים הידור שלו (compilation) לעותק המתאים לעבודה וסורקים בסיס נתונים גדול של מידע בלתי מובנה, דוגמת ספריית וידיאו, המאוחסן על גבי הכונן. מכאן, נוצרים תגים ונוצר בסיס נתונים של מטא-נתונים, המייצג באופן נוח לשימוש את הנתונים בהקשר של החיפוש העתיד להתבצע עליהם.

מנוע בינה מלאכותית בקצות הרשת

כך למשל, אם המטרה היא אבחון וזיהוי אובייקטים או סצינות, עשוי מנוע הבינה המלאכותית לסרוק את קבצי הווידאו על-גבי הכונן ולבנות רשימת מטא-נתונים של רגע ההופעה של אובייקט או סצינה לאורך הווידאו הזה. טכנולוגיית אחסון המשופרת באמצעות כלי בינה מלאכותית, מאפשרת ניתן לשמור על בסיס הנתונים הכולל את המטא-נתונים על-גבי ה-SSD בסביבה המקומית – ולהפוך אותו זמין לטיפולה של תוכנה אנליטית שתבחן את המטא-נתונים ככל שיידרש.

אם נחשוב למשל, על גופי אכיפת חוק המחפשים אחר "חפץ חשוד" במקום כל שהוא לאורך שעות אינסופיות של קבצי וידאו ממצלמות אבטחה, ניתן להעלות מודלים מאומנים היודעים לזהות בדיוק "חפץ" כזה, ולהריץ במקביל את תוכנת התיוג על גבי כל תוכן וידאו זמין, לרוחב כל כונני האחסון עליהם מנוהל הווידאו הזה במקביל.

כל הופעה של ה"חפץ" תסומן ותתויג, באופן שיהפוך את משימת הניתוח העתידי לקלה ומהירה יותר. ניתן לחשוב על האפקטיביות של ארכיטקטורה כזאת בניתוח אנליטי המתבצע ברקע הפעילות של צ'אטבוט, כאשר יש לסרוק בסיס נתונים גדול של שיחות צ'אטבוט השמורות במערכת, על-מנת לעדכן את מודל הדיבור של הבוטים ולשפר את איכות השירות. אפשר יהיה למדוד ולהעריך מתי משתמשים מרוצים או מוטרדים מהתשובות אותן הם מקבלים, האם השיחות ארוכות מדי או קצרות מדי, וכיוצא באלה.

ברגע שבו נוצר מודל בינה מלאכותית היודע לעקוב אחר הפרמטרים המסויימים האלה, אפשר להדר ולהריץ אותו על-גבי מנוע בינה מלאכותית הפועל כבר במערכת האחסון, ולסרוק את השיחות במבקביל בזמן אמת ובעיבוד אצווה. ביישומים דוגמת הכנסת פירסומות מכוונות לקוח המושפעות מהמתרחש בסטרימינג של וידאו, חיפוש במאגרי וידיאו של מצלמות מעקב ואבטחה וביישומים אחרים עתירי תנועות קלט-פלט, מינוף הקרבה לנתונים מציג יתרונות משמעותיים בכל הנוגע לביצועים.

ארכיטקטורות חדשות של איחסון ועיבוד מידע

השילוב של בקרי SSD עם בינה מלאכותית מדגים כיצד ניתן ליישם ארכיטקטורות חדשות לאחסון נתונים במגוון רחב של יישומים תובעניים בתחומי ה-Big Data, ללא צורך במעגלים משולבים יקרים הנבנים במיוחד לצורך זה. כאשר נותנים יכולות לוגיקה נוספות לחומרות SSD הזמינות, הן הופכות חכמות משמעותית. המטא-נתונים והתגים החיוניים לטיפול בעומסי עבודה עתידיים של ניתוח אנליטי יכולים להיות מטופלים ישירות כבר ברמה המקומית – ללא צורך בתקשורת אל משאבי עיבוד ייעודיים.

יישום הטקטיקה החלופית הזאת, במקום הסתמכות על עיבוד מרכזי קונבנציונאלי, יהפוך את התהליכים ליעילים בהרבה. הוא יצרוך רק את מינימום רוחב פס התקשורת הזמין, וימנע היווצרות של צווארי בקבוק. כאשר מאיצי עיבוד לבינה מלאכותית משולבים ישירות בבקרים חסכוניים של מערכות SSD, כבר ברמת המעגלים המשולבים של הבקר עצמו, אפשר יהיה להשלים במהירות משימות ניתוח אנליטי – תוך צריכה נמוכה משמעותית של קיבולת עיבוד ושל ההספק הנצרך, והימנעות מהצורך לתכנן מן היסוד שבבי ASIC ייעודיים ומורכבים במיוחד הנדרשים לביצוע המשימות האלה.

בזכות השימוש בארכיטקטורה ניתנת לתכנות, תתרחב גם האפשרות להקצות משאבי מערכות לצורך עדכון מודלים של בינה מלאכותית המשובצים במערכות האחסון – ואפשר יהיה לטפל ולפתח גם יישומים ושימושים חדשים.

Share via Whatsapp

פורסם בקטגוריות: ביג דאטה , בינה מלאכותית , חדשות , סמיקונדקטורס , רכיבים ופתרונות אלקטרוניים