בינה מלאכותית במערכות Pro AV מקצועיות

26 אפריל, 2021

עיבוד מבוסס בינה מלאכותית בקצה הרשת מייצר יתרונות עסקיים וטכנולוגיים חסרי תקדים, דוגמת תמלול אוטומטי של מפגשים, שילוט מוכוון לקוח, חוויית צפייה מסוג חדש באירועי ספורט ושמירה על הפרטיות

מאת: רוב גרין, מנהל בכיר תחום Pro AV, Broadcast ו-Consumer בחברת Xilinx

הכתבה בחסות Avnet Silica Israel

למרות שהאימוץ של בינה מלאכותית (machine learning) מצוי עדיין בתחילתו, ארגונים רבים כבר משתמשים בטכנולוגיה בזכות היתרונות הרבים שלה בשיפור היעילות, חיזוי התנהגות והפקת תובנות עסקיות ואחרות. חברת McKinsey מעריכה שעד היום אימצו 39% מהארגונים טכנולוגיות לימוד מכונה בדרך כזו או אחרת. גם בשוק שידורי הרדיו והטלוויזיה והאודיו-וידאו המקצועי (Pro AV) יש לטכנולוגיות האלה תפקיד חשוב ביצירת מודלים עסקיים ומקורות רווח חדשים. להלן ארבע דוגמאות:

קידוד האזור הרלוונטי (ROI – Region-of-Interest)

טכנולוגיית קידוד האזור הרלוונטי (ROI – Region-of-Interest) מאפשרת להפחית את העומס על הרשת בלא לפגוע ברזולוציה באמצעות טיפול באזורים החשובים, והתעלמות מאזורים לא חשובים. כך למשל, כאשר מצלמת מעקב עוקבת אחר אזור בזירה מסויימת, יש פרטים בתמונה שהם חשובים מאוד, ואחרים שהם חסרי חשיבות. כך למשל, אם מדובר במצלמת זיהוי פנים, יש צורך בכל המידע שהיא מספקת על הפנים, אולם ניתן להתעלם מהרקע שאינו תורם למשימת זיהוי הפנים.

מבחינת הצופה האנושי, ההבדל כמעט ואינו מורגש. המקודד יכול לצמצם את קצב העברת הנתונים של האזורים הלא-רלוונטיים בתמונה מ-5Mbps ל-1.5Mbps ועל-ידי כך להפחית בכ-70% את עלות הזרמת הווידאו, נתון שניתן לתרגם במקרים רבים לחסכון של כ-700 דולר לשעה על הזרמת וידאו לכ-10,000 צופים. הדבר נכון גם לגבי עלויות האיחסון: כיום עלות האיחסון קבצי וידאו בענן בנפח של 2,000GB מסתכמת בכ-1,000 דולר לחודש. צמצום הנפח הזה בכ-70% מאפשר להשתמש באמצעי אחסון קטנים וזולים בהרבה, או לחלופין לאחסן כמות גדולה יותר של מידע בכוננים הקיימים.

מודול KRIA של Xilinx ליישום בינה מלאכותית בקצה הרשת (Edge)

ליכולת לבצע קידוד מסתגל במתכונת ROI יש השלכות נוספות. נניח שאנחנו מצויים בחדר בקרה וצריכים להקרין על מסך רחב קטעי וידאו שבהם יש צורך להבחין בפרטים חיוניים שונים. ניתן במקרה הזה לבצע קידוד מסתגל סטטי על פריטים הכוללים טקסטים (שעון למשל), וקידוד מסתגל דינמי מוכוון בינה מלאכותית (ML-based coordinates), כדי לקבל את כל המידע על פניהם של אנשים.

שילוט דיגיטלי חכם

פרסום ממוקד הוא "הגביע הקדוש" של אנשי השיווק. שימוש במודלים של בינה מלאכותית כדי לנתח את מאפייני האנשים הנחשפים בפני שלט דיגיטלי, מאפשר למקד את הפרסום בקהל יעד רלוונטי בהתאם למדדים כמו גיל או מין, ועל-ידי כך לגבות תשלום גבוה יותר מהמפרסמים. הדבר גם מייצר נתונים בעלי ערך למפרסמים, כמו למשל הבנת תחומי העניין של הצופים הספציפיים, והתאמת התוכן הפרסומי אל קהל היעד (personalised ads). הדבר נכון גם ביישומים אחרים: רבות דובר על רמת הסניטציה הירודה של צגי המגע בעמדות שירות דיגיטליות (כספומטים למשל). המרתם למכשירים המספקים שירות באמצעות פיקוד מבוסס מחוות – במקום פיקוד מבוסס מגע – מאפשרת לספק שירות נקי ובריא יותר.

מעקב אחר אובייקטים באמצעות "חלונות"

תתארו לכם אירוע צנוע: מתקיים דיון של פנל הכולל שלושה מומחים מבית הספר לאמנות, אשר בו מנתחים את עבודותיו של אמן מסויים. זהו פרוייקט בעל תקציב נמוך מאוד המיועד לקהל מצומצם. בדרך-כלל מציבים מצלמה יחידה מול פנל הדוברים, אשר מכסה את הארוע כולו. לחלופין, באמצעות מודל מבוסס בינה מלאכותית, אפשר להשתמש במצלמת 4K יחידה אשר מכסה את הארוע כולו, ובמקביל מייצרת "חלונות צפייה" ברזולוציה נמוכה יותר של כל אחד מהמשתתפים (Object Tracking & Windowing).

התוצאה היא ארבעה סוגים של מקורות וידאו שונים: צילום תקריב של כל אחד מהדוברים וצילום רחב של כל הפנל המלא. המפעיל פשוט בוחר את תמונה הרלוונטית בכל רגע, כאשר התוצאה שוות ערך לשימוש בארבע מצלמות שונות במקביל – אולם בעלות של מצלמה יחידה. ניתן להתאים את הגישה הזאת, באמצעות מודלים שונים של לימוד מכונה, לאירועים מסוגים שונים, כמו למשל אירועים ספורטיביים שבהם הצופה יכול לעקוב אחר כל משתתף או אובייקט המעניינים אותו.

זיהוי דיבור

היכולת לזהות דיבור (Speech Recognition) באמצעות עיבוד דיבור טבעי (Natural Language Processing – NLP) כבר נכנסה לבתים רבים בתוך מכשירים דוגמת Alexa של גוגל או סירי של אפל. הטכנולוגיה הזאת ישימה גם בציוד Pro AV מקצועי כדי לפשט ולזרז את תהליך התקנת הציוד בלא צורך בקישוריות לענן ובתמיכה מקוונת, ואפילו לבצע תמלול אוטומטי של דיונים מרובי משתתפים. התרגום מתבצע בזמן אמת ומייצר כתוביות בשפות שונות, כאשר בכל אזור שפה מופיעות כתוביות בשפה המקומית.

לסיכום, ניתן ליישם את יכולות הבינה המלאכותית האלה בקצות הרשת באמצעות שימוש בפלטפורמת Zynq UltraScale+ MPSoC של חברת Xilinx. לעיבוד ישיר בקצה הרשת בלא צורך בקישוריות אל מעבדים בענן, יש יתרונות רבים בקבלת ביצועים גבוהים, זמני השהייה קצרים (low latency), שמירה על הפרטיות והגברת היעילות העסקית והפיננסית של הארגון.

לפרטים נוספים:

איתמר קהלני, מנהל קו מוצרי Xilinx בחברת אבנט סיליקה, 054-5206287, [email protected]

פורסם בקטגוריות: FPGA , בינה מלאכותית , חדשות , כתבות טכנולוגיות בחסות אבנט

פורסם בתגיות: XILINX , אבנט , בינה מלאכותית , שבבים