רעיונות מתמטיים בני מאות שנים מפעילים את מכונות ה-LLM

מאת: יוחאי שויגר

קל לחשוב שמודלי שפה גדולים הם קודם כול תופעה לשונית — מכונות שמבינות פסקאות, מזהות הקשר ובוחרות מילים כאילו היו בני אדם. אבל מאחורי המעטפת הזאת פועלת מכונה מתמטית אדירה, מורכבת הרבה יותר מכל תחביר או משמעות. מה שמניע את ה-LLM הוא לא אוצר מילים, אלא מערך עצום של עקרונות אלגבריים, דיפרנציאליים, סטטיסטיים ואינפורמטיביים שנבנו בהדרגה לאורך מאות שנים. לייבניץ וניוטון של המאה ה-17, קיילי וסילבסטר של המאה ה-19, ושאנון של המאה ה-20 – אף אחד מהם לא דמיין מודל המדבר עברית ומייצר רעיונות, אבל כל אחד מהם תרם אבן יסוד למנגנון שמאפשר היום למודלי השפה “להבין” אותנו.

אותם כלים שנולדו כדי לחשב מסלולי כוכבים, להבין כוחות פיזיקליים או להעביר מסר נקי בקו טלפון רועש, הם בדיוק הברגים והאומים שמחזיקים את מוח ה-LLM. מה שתוכנן כדי למדוד שינוי, תנועה, רעש ואי-ודאות, הפך – כמעט במקרה – לתשתית שעליה בנויים מודלי השפה המודרניים. הכתבה הזו פורשת את הסיפור מאחורי המתמטיקה: איך רעיונות בני מאות שנים הפכו לבסיס הרעיוני והחישובי של מכונות החשיבה הגדולות של ימינו.

וקטורים ומטריצות – הברגים והאומים של מוח ה-LLM

וקטורים ומטריצות הם פעולת החישוב הבסיסית ביותר שמודלי שפה יודעים לעשות. כל פעולה – מייצוג של מילה בתוך ההקשר, דרך הבנת משפט שלם, ועד הניחוש של המילה הבאה או תיקון המשקלים בזמן אימון – מסתכמת בסופו של דבר במכפלות שלהם. זו השפה החישובית שבה מודל שפה חושב.

הסיבה העמוקה לכך היא ששפה היא דבר רב-ממדי. מילה איננה רק צליל או שורה במילון; יש לה משמעות, תפקיד תחבירי, קשרים סמנטיים, משקל רגשי, דפוסי שימוש. עולם שלם שנפרש על פני מאות ואלפי ממדים חבויים. כדי לייצג דבר כזה בצורה מתמטית, אתה זקוק לכלי שמתאים לעבודות מרובות־ממדים. וקטור הוא הדרך המודרנית לייצג ישות רב-ממדית כזאת, למשל “חתול” או “לרקוד”, והמטריצה היא הפעולה שמסוגלת להזיז, לסובב, לעוות או למקד את הווקטור הזה בתוך המרחב. ממש כפי שפיזיקאים השתמשו בווקטורים כדי לייצג תנועה במרחב פיזי, מודל השפה משתמש בהם כדי לייצג תנועה במרחב המשמעות.

מתוך הבסיס הזה צמח הדבר ששינה את הכול: מנגנון ה-Attention. הרעיון נולד ב-2017 במאמר המפורסם Attention Is All You Need של צוות Google Brain, והפך לאבן היסוד של המודלים המודרניים. הוא זה שאיפשר למודל לא רק לייצג מילים, אלא גם “להבחין” אילו מילים קשורות זו לזו. כשמודל נתקל במשפט כמו “החתול ישב על השטיח כי הוא היה עייף”, המילה “הוא” לא מובנת מאליה. כדי להבין למה היא מתייחסת, המודל מפיק משלוש מטריצות שונות שלושה וקטורים חדשים: Query, Key ו-Value, ומחשב באמצעותם עד כמה כל מילה “שמה לב” לכל מילה אחרת. אם ה-Query של “הוא” קרוב ל-Key של “החתול”, המודל מבין שקיימת זיקה סמנטית ומשקיע את רוב תשומת הלב שם. מאחורי התופעה הלשונית הזאת פועלת פעולת אלגברה ליניארית יבשה לחלוטין: מכפלות של וקטורים ומטריצות.

אבל כל זה נשען על יסודות שנולדו בכלל במאה ה-19, כאשר מתמטיקאים כמו ארתור קיילי וג’יימס סילבסטר ניסו לפתור בעיות בפיזיקה ולא בשפה. וקטורים התפתחו ככלי לייצוג כוחות ותנועות, כמו למשל מסלול של כוכב או מהירות של חלקיק, ומטריצות נולדו כהתנהגות אלגברית של שינויים במרחב: סיבוב של מערכת צירים, שיקוף של צורה, פתרון של עשרות משוואות סימולטניות. והיום? אותם כלים שנולדו כדי להבין כוחות, מסלולים ושדות אלקטרומגנטיים הם הכלים שמאפשרים למודל שפה להבין ניסוח, הקשר, כוונה ורעיון. האירוניה ברורה: המתמטיקה של הפיזיקה הפכה, כמעט במקרה, למתמטיקה של המשמעות.

חשבון דיפרנציאלי – איך מודל שפה לומד מטעויות

אם אלגברה ליניארית היא הדרך שבה מודל השפה חושב, חשבון דיפרנציאלי היא הדרך שבה הוא לומד. האתגר פשוט לכאורה: לאחר שהמודל מנחש את המילה הבאה, איך הוא יודע עד כמה הוא טעה? ובאיזו דרך ללכת כדי לדייק יותר בפעם הבאה? כאן נכנסת לפעולה פונקציית ה-Loss (או Cross-Entropy) – מדידה מספרית של הפער בין התחזית למציאות. אבל ידיעת הפער לבדה לא מספיקה; המודל חייב להבין מה הכיוון שבו הוא צריך “לזוז” בתוך מרחב המשקלים הענק כדי להפחית את הפער.

כדי לעשות את זה, המודל מחשב נגזרות: קצב השינוי של הטעות ביחס לכל פרמטר בנפרד. זוהי בדיוק השפה שנולדה במאה ה-17 עם ניוטון ולייבניץ, שניסו להבין איך דברים משתנים: שיפועים, קצב שינוי, גודל הכיוון. אלגוריתם Gradient Descent, שפותח הרבה יותר מאוחר כתוצאה מעבודות אופטימיזציה של המאות ה-19 וה-20, משתמש בנגזרות האלה ומשנה את משקלי המודל בכיוון ההפוך לשיפוע — צעד קטן בכל פעם, אבל מיליוני צעדים שעם הזמן מנמיכים את ההר ועוזרים למודל להגיע לניבוי טוב יותר. זה תהליך שמתרחש רק בזמן האימון: בזמן ההרצה, המשקלים כבר “קפואים”, ואין נגזרות — יש רק חישוב.

עוד אירוניה היסטורית. הכלי שמאפשר למודל שפה מודרני לצמצם את הטעות שלו צעד אחרי צעד מבוסס על שני רעיונות שנולדו בעולמות שונים לחלוטין: הנגזרת של ניוטון ולייבניץ נוצרה כדי להסביר מסלולי כוכבים ותנועות בשמיים, והאופטימיזציה של המאה ה-19, נועדה בכלל לפתור בעיות הנדסיות וכלכליות. הם לא חשבו על מודלים המתוקנים באמצעות Loss, אבל מה שנולד כדי להבין נפילה של תפוח הפך היום למנגנון שמסביר איך טעות “נופלת” במרחב משקלים. הנגזרת אומרת למודל איך השינוי נראה, וה-Gradient Descent אומר לו לאן לזוז כדי להשתפר – שני עולמות עתיקים שהתאחדו בתוך מערכת של ה-LLM.

סטטיסטיקה והסתברות – אמנות הניחוש המדויק

גם אחרי שמודל השפה יודע לייצג מילים כווקטורים וללמוד מטעויות באמצעות נגזרות, הוא עדיין נדרש להתמודד עם השאלה הבסיסית ביותר: מה תהיה המילה הבאה? מודל שפה לעולם לא “יודע” את התשובה. הוא מעריך אותה. כל צעד ביצירת משפט הוא פעולה הסתברותית, שבה המודל בונה בראשו התפלגות סיכויים לכל האפשרויות במילון. היכולת להעריך את הסיכויים האלה אינה קסם. היא מגיעה מהמשקלים שנצרבו בו במהלך האימון. בכל פעם שהמודל חזה מילה וטעה, הוא שינה את המשקלים שלו מעט, וכשחזה נכון — הוא קיבע אותם עוד יותר.

אחרי מיליארדי חזרות כאלה, המשקלים הפכו למעין מפת־על של דפוסי השפה: אילו מילים מופיעות זו ליד זו, אילו מילים משתלבות היטב בהקשרים מסוימים, ואילו כמעט אינן נפגשות. כך, כאשר המודל נדרש להעריך את ההמשך למשפט “המדען נכנס למעבדה ו…”, הוא מפעיל את המפה הזאת: המשקלים מטים את חישובי ההסתברות כך שמילים כמו “בדק” או “הדליק” יקבלו סיכוי גבוה, ומילים כמו “נרדם” יקבלו סיכוי זעיר. ההסתברות אינה נלקחת מהאוויר; היא נובעת ישירות מהמצב הפנימי של המודל — ממשקליו ומהיחסים שהם מתווים בתוך מרחב המשמעות.

מאחורי ההימור הזה עומדים רעיונות שמקורם מאות שנים לפני הטרנספורמרים. תומס בייס ופייר דה־לפלס תהו כיצד מחשבים סיכוי לאירוע בעזרת מידע חלקי; רונלד פישר וקרל פירסון הפכו את השפה הסטטיסטית לכלי מדעי שמודד שונות, קשרים והסקות. אותם רעיונות חלחלו לתוך מודלי השפה המודרניים: גם Cross-Entropy, שמודדת עד כמה המודל הופתע מבחירת האדם, וגם מנגנוני דגימה כמו Temperature ו–Top-k, ממשיכים לתפקד על פי העקרונות שהניחו אותם מתמטיקאים.

כך נוצר עוד ציר אירוני במחשבת הבינה: המתמטיקה שנולדה מתוך הרצון להבין הימורים, מטבעות וקוביות משמשת היום מודל שמנסה להבין מילים, הקשרים וכוונות. מהחדרים האפלים של סטטיסטיקאי המאה ה-18 ועד לשורות הקוד של מודלי שפה בני זמננו — החשיבה ההסתברותית ממשיכה לעשות את מה שהיא יודעת הכי טוב: לנחש באופן חכם.

תורת האינפורמציה – למדוד לא רק טעות, אלא גם הפתעה

כשמודל שפה מנסה לנחש את המילה הבאה, הוא לא רק “צודק או טועה”. ברגע שהוא רואה את התשובה האמיתית, הוא מודד עד כמה הופתע ממנה. אם המילה האמיתית הייתה אחת האפשרויות המרכזיות שנתן להן סיכוי גבוה, ההפתעה נמוכה; אם היא הייתה כמעט בלתי־אפשרית בעיניו, ההפתעה גבוהה. מידת ההפתעה הזאת היא לב ה–Cross Entropy: מדד המספר למודל לא רק אם טעה, אלא עד כמה המציאות הייתה רחוקה מהציפייה שלו, וממנו החישוב הדיפרנציאלי יודע איך לתקן את המשקלים.

המושג הזה מגיע מתורת האינפורמציה של קלוד שאנון, שנולדה בשנות הארבעים ב-Bell Labs מתוך ניסיון לפתור את בעיית העברת המסרים בקווי טלפון רועשים. שאנון ביקש למדוד כמה “מידע חדש” מגיע בכל מסר, וגילה שמסר מפתיע נושא הרבה מידע בעוד שמסר צפוי נושא מעט. אותו רעיון בדיוק עבר לעולם מודלי השפה: מילה מפתיעה מלמדת הרבה על מה שהמודל עדיין לא מבין, ומילה צפויה מלמדת מעט. זו הסיבה שקוראים לזה “תורת האינפורמציה”: היא עוסקת בכמה אי-ודאות ירדה מהמערכת כשהתשובה התגלתה – ולכן הפכה לבסיס למדידת למידה בכל מודל מודרני.

תורת האופטימיזציה – איך מודל שפה מוצא את דרכו בתוך הר המשקלים

גם אחרי שמודל השפה יודע למדוד הפתעה, להבין עד כמה טעה, ולחשב באמצעות נגזרות כיצד כל משקל משפיע על הטעות, נותרה הבעיה הגדולה באמת: כיצד מוצאים את הכיוון הנכון בתוך מרחב עצום של מיליארדי משקלים, מרחב שבו כל נקודה היא תצורה אפשרית של המודל? כאן נכנסת לפעולה תורת האופטימיזציה, אשר מספקת את העיקרון שמאפשר למודל להתקדם צעד אחר צעד לעבר גרסה מדויקת יותר של עצמו. האופטימיזציה אינה שואלת “למה טעיתי?” אלא “לאיזה כיוון כדאי לי לזוז כדי לטעות פחות?”. היא עושה זאת באמצעות חישוב מתמשך של שיפועים וצעדים קטנים שמניעים את המודל במורד הר ה־Loss.

העיקרון המרכזי הוא Gradient Descent. בכל פעם שהמודל מנבא מילה, מחשב את ההפתעה ומפיק ממנה את הטעות הכוללת, הוא משתמש בנגזרות כדי לראות כיצד שינוי זעיר בכל משקל ישפיע על הטעות. הצעד הבא – שינוי המשקל עצמו – הוא פעולה של אופטימיזציה. כך נוצר מסע איטי אך יציב בתוך מרחב עצום, מסע שבו כל צעד קטן נבחר כך שהוא מקטין את ההפתעה המצטברת. התהליך כולו מתרחש רק בזמן האימון; בזמן הרצה המודל כבר הגיע לנקודה מסוימת במרחב, והמשקלים קבועים.

הדבר היפה כאן הוא שהאופטימיזציה ב-LLMs אינה המצאה של עידן הבינה המלאכותית. העיקרון של ירידה במורד שיפוע הופיע כבר במאה ה-19 בניסיונות לפתור בעיות מינימום מקומיות באנליזה ובפיזיקה, ואחר־כך מצא לו שימוש בסטטיסטיקה, בכלכלה ובתורת הבקרה. אף אחד מהמתמטיקאים שפיתחו את הרעיונות האלה – ממשוואות אופטימיזציה של לגראנז’ ועד תנאי האופטימיות של קון–טאקר – לא דמיין שהם יהיו הבסיס לאימון מודלים בעלי 100 מיליארד משקלים.

מה שנולד ככלי למציאת “ערך מיטבי” בפונקציות מתמטיות הפך למנוע של למידה עמוקה. האופטימיזציה, שבתחילה הייתה טכניקה לפתרון בעיות הנדסיות, היא היום הכלי שמאפשר למודל שפה לנוע דרך טעויותיו, להתקרב אל האמת הסטטיסטית של השפה, ולבנות לעצמו מחדש את דרכי החשיבה שלו.

חוקרים "שיכפלו" את מודל החשיבה של דיפסיק ב-30 דולר בלבד

בתמונה למעלה: תהליך החשיבה של המודל. מתוך פוסט של החוקר הראשי ברשת Nitter

מאת יוחאי שויגר

חוקרים מאוניברסיטת ברקלי שבקליפורניה הצליחו "לשכפל" את אופן פעולתו של מודל החשיבה של DeepSeek הסינית, בעלות מזערית של 30 דולר בלבד. למעשה, החוקרים עשו שימוש בשיטת האימון הייחודית שבה פיתחו בדיפסיק את מודל החשיבה R1, והדגימו כיצד, באמצעות אותה שיטת אימון, ניתן לייצר מודלים קטנים שמצליחים לפתח "בעצמם" יכולות חשיבה.

החוקרים אימנו את המודל באמצעות משחק מתמטי הקרוי "הספירה לאחור" (Countdown Game), שבו המשתתפים מקבלים 4 מספרים, ועליהם  להגיע, באמצעות שילוב של פעולות מתמטיות, למספר מטרה כלשהו. החוקרים הציבו את המשימה הזו בפני מודל קטן יחסית של כ-3 מיליארד פרמטרים, ובדקו כיצד הוא מתמודד עם הבעיה. החוקרים השתמשו בשיטת האימון "למידה באמצעות חיזוקים" (Reinforcement Learning), שבה המודל מקבל תגמול שלילי במידה והוא טועה ותגמול חיובי במידה והוא צודק. זוהי השיטה שבה השתמשו בדיפסיק בשלב ה-post-training בפיתוח המודל R1.

היתרון בשיטה זו שניתן לבצע אותה באופן אוטומטי, עם התערבות אנושית מינימלית, ובמשאבי עיבוד מצומצמים יותר. עם זאת, ניתן לעשות זאת רק במשימות שבהן יש תשובות נכונות ולא נכונות, כמו בבעיות מתמטיות, ולא במשימות "יצירתיות" כמו כתיבת טקסט חופשי. בהדגמה שביצעו החוקרים מברקלי, בניסיונות הראשונים המודל הפיק ניחושים אקראיים, אך בהדרגה המודל פיתח, באופן עצמוני לחלוטין, טכניקות ואסטרטגיות של תיקון-עצמי ופתרון בעיות באמצעות ניסוי וטעייה – עד אשר הגיע לתשובה הנכונה. המחקר הראה שבאמצעות "למידה באמצעות חיזוקים" מודלי שפה יכולים לפתח באופן עצמאי יכולות "חשיבה".

קפיצת מדרגה ב-3-7 מיליארד פרמטרים

החוקרים אימנו את המודל באמצעות השכרת שירותי GPU בענן, תוך מספר שעות ובעלות של כ-30 דולר בלבד. בנוסף, החוקרים הציבו בפני המודל בעיות בכפל של מספרים, ועד מהרה המודל יישם בעצמו שיטות של פיצול הבעיה למספר כפולות יותר פשוטות, ממש בדומה לאופן שבו בני אדם מתמודדים עם בעיות כפל מורכבות. לדברי החוקרים, הניסוי המחיש את יכולתו של המודל לפתח טכניקות חשיבה המותאמות לאופי הבעיה. הניסוי בוצע במודלים בגדלים שונים. המודל הקטן, של כחצי מיליארד פרמטרים, לא הצליח לפתח טכניקות מיוחדות מלבד ניחוש. מודל שכלל 1.5 מיליארד פרמטרים התחיל לפתח טכניקות ראשוניות של בדיקה-עצמית, ואילו המודלים בגודל של 3-7 מיליארד פרמטרים הציגו קפיצת מדרגה משמעותית ביכולות החשיבה. לפי ההערכות, מודל החשיבה o1 של OpenAI כולל מאות מיליארדי פרמטרים.

המחקר ממחיש ביתר שאת את ההשלכות מרחיקות הלכת שעשויות להיות למודל R1 של דיפסיק על עולם הבינה המלאכותית, ובפרט על פיתוח מודלי חשיבה (reasoning). בדומה למודל של דיפסיק, הניסוי שביצעו החוקרים בברקלי ממחיש כי ניתן לייעל באופן משמעותי את פיתוח מודלי החשיבה, בעיקר בשלב ה-post-training, וזאת בעוד שעד עתה ההנחה היתה כי אימון מודלים כאלה מצריך משאבי דאטה ועיבוד עצומים, שעלותה נאמדת במאות מיליוני דולרים. דבר מעניין נוסף שעולה מהמחקר בברקלי הוא האפשרות לפתח מודלי חשיבה קטנים המותאמים לביצוע משימות ספציפיות. המחקר גם ממחיש את האופן שבו מודלים בקוד-פתוח, בדומה לזה של דיפסיק, מסייעים לקדם את החדשנות בתחום ומערערים את המונופול של חברות הענק. 

ServiceNow מפתחת LLM ל-IT ארגוני במעורבות מרכז המו"פ בישראל

בתמונה למעלה: משרדי ServiceNow בישראל. צילום: אוראל כהן

טכנולוגיית הבינה המלאכותית הגנרטיבית (Gen AI) חודרת כיום לעוד ועוד תחומים, מפיננסיים וסייבר ועד אוטומוטיב ומדיקל. חברת מחשוב הענן ServiceNow, בשיתוף פעולה עם אנבידיה (Nvidia), מפתחת בימים אלה כלים מבוססי Gen AI שמיועדים לחולל מהפכה באופן שבו מתנהלים תהליכים ארגוניים ושירות לקוחות. חלק מהמאמץ של החברה האמריקאית בתחום זה מתבצע גם במרכז הפיתוח שלה בישראל.

ServiceNow, שבסיסה הראשי בקליפורניה, היא אחת מחברות שירותי ה-IT הגדולות בעולם. הכנסותיה ב-2022 הסתכמו ב-7.25 מיליארד דולר והיא נסחרת ב-NYSE לפי שווי שוק של 140 מיליארד דולר. החברה מספקת פלטפורמת ענן שמסייעת לארגונים לנהל את תהליכי העבודה הארגוניים, ותהליכים עסקיים מול לקוחות, בצורה דיגיטלית ומאוחדת. בנוסף לניהול שירותים ותהליכים אירגוניים, ServiceNow מספקת מספר פתרונות ספציפיים לניהול חברות ואירגונים, וביניהן פתרון לניהול משימות ה-IT ומיפוי ובקרה של כל המערכות המחוברות לרשת הארגונית, כגון שרתים, מחשבים, מכשירים ניידים ואביזרים מקושרים. הפלטפורמה מסייעת לזהות ולאבחן אירועי IT המצריכים מענה מצד צוות ה-IT.

להערכת החברה, כ-80% מקרב חברות Fortune500 עושות שימוש בפלטפורמה של סרוויס נאו , וגם בקרב המגזר הארגוני בארץ יש לה לקוחות רבים. מרכז המו"פ של ServiceNow בישראל, הפועל מזה כעשור, נמצא בפתח תקוה ומעסיק מעל-200 איש. הוא מבוסס על ארבע רכישות חשובות שביצעה החברה בישראל. ביולי 2014 רכשה ServiceNow ב-100 מיליון דולר את חברת Neebula Systems הישראלית, שפיתחה טכנולוגיה שמסייעת לבצע מיפוי חכם לכל משאבי ה-IT של הארגון, ושיוכם לאפליקציות מרובות שכבות.

ב-2017 רכשה את חברת סקיי-ג'ירף (SkyGirafe), שעל בסיס הטכנולוגיה שלה השיקה ServiceNow את פלטפורמת המובייל שלה לארגונים ב-2019, מתוך מטרה לאפשר לעובדים לבצע משימות ארגוניות באמצעות הסמרטפון בממשק פשוט ונוח.  ב-2019 רכשה את AppSee, שפיתחה פלטפורמה המספקת אנליטיקה על דפוסי השימוש של המשתמשים בפלטפורמה של ServiceNow, וב-2020 רכשה את Loom Systems, שפיתחה פתרון מבוסס AI לאבחון ותיקון תקלות IT בארגון.

בתוך האקוסיסטם הטכנולוגי של ServiceNow, תחומי המיקוד של מרכז המו"פ הישראלי הם IT Operations Management (ITOM), פלטפורמת המובייל, ושיפור חוויית משתמש. בשיחה עם Techtime סיפר מנהל מרכז המו"פ של ServiceNow בישראל, אדר מרגלית, על הייחוד של הצוות המקומי. "מה שמייחד את הסייט הישראלי זה שיש רוח של סטארט-אפ. זה מתבטא במאמץ מתמיד להביא את החדשנות. בחברה-האם מעריכים זאת מאוד."

מרכז העצבים של כל ארגון

IT היא אחת המחלקות החשובות ביותר בכל ארגון. צוות ה-IT אחראי על התפקוד התקין והרציף של מערכות המידע והמחשוב, והיכולת שלו לאבחן ולטפל בבעיות במהירות היא קריטית לרציפות העסקית של הארגון, ודאי עם מדובר בארגון גדול שפועל באופן מבוזר באתרים שונים.

כאמור, אחד הנדבכים המרכזיים בפלטפורמה של ServiceNow הוא סט הכלים לניהול שירותי IT. הפלטפורמה מספקת מעין "מחלקת IT דיגיטלית". אדר: "הפלטפורמה שלנו מאפשרת לנהל את הפעילות של מחלקת ה-IT בצורה הרבה יותר יעילה, וזה תורם לתפקוד של הארגון כולו. היא מספקת לצוות ה-IT נראות לגבי כל היישומים שרצים בשרתים, לקבל התראות על בעיות ולדעת מהם יחסי הגומלין בין היישומים השונים. המטרה היא למנוע השבתת פעילות [downtime], ואף לחזות בעיות לפני שהן מתרחשות."

אדר מרגלית. קרדיט: יח"צ

לדברי אדר, זהו אחד ההיבטים המרכזיים שבו מתמקד מרכז המו"פ הישראלי. "בישראל אנחנו פיתחנו פתרונות שמספקים מיפוי של הנעשה בשרתי הארגון. מתוך ניתוח הדאטה ובאמצעות טכנולוגיות AI, ניתן לקצר את זמני המיפוי וגם לספק חיזויים תפעוליים. המטרה היא לאגד את ההתראות שמגיעות ממערכות שונות, לנתח אותן, ולספק תובנות שיסייעו לתת מענה לתקלה ולעיתים להתריע מראש על תקלה שהולכת ומתהווה, מה שמכונה Predictive AIOps. הלקוחות שלנו חווים ירידה של עשרות אחוזים בהשבתות ובהתראות קריטיות."

ה-LLM מגיע לעולם ה-IT

בחודש מאי האחרון הכריזו ServiceNow ואנבידיה על שיתוף פעולה, שמטרתו לרתום את יכולות הבינה המלאכותית הגנרטיבית לעולמות שירותי ה-IT, שירות הלקוחות וחוויית העובדים. המטרה היא לנצל את הדאטה הייחודי שאוספת הפלטפורמה של ServiceNow כדי לפתח כלי אוטומציה חכמים בתחום תהליכי העבודה הארגוניים.

ServiceNow מפתחת את המודלים הן באופן עצמאי, והן תוך הרחבת מודלים קיימים, ביניהן פלטפורמת Nemo של אנבידיה, המשמשת לפיתוח מודלים טקסטואליים – ועל בסיס פלטפורמת המחשוב של אנבידיה DGX.

בין היתר, ServiceNow רותמת מודלי LLM כדי לפתח כלים שיידעו לתקצר ולסכם אוטומטית אירועים, קריאות (tickets) ותכתובות, דבר שמאוד ייעל את תהליכי העבודה הארגוניים והן את השירות ללקוח. בנוסף, מפתחת החברה עוזרים-אישיים מבוססי AI שיסייעו להתמצא בפלטפורמה ולקבל מענה לשאילתות בשפה חופשית, ועוד כלי ליצירת קוד לפי פקודה (prompt) שיאפשרו לארגונים המשתמשים בפלטפורמה לפתח יישומים מותאמים אישית. במרכז הפיתוח הישראלי עובדים גם על מערכת שתיתן המלצות מבוססות GenAI לפתרון תקלות, ושיפורים נוספים. חלק מכלים אלו כבר הגיעו ללקוחות החברה בנובמבר, וכלים ושיפורים נוספים צפויים בחודשים הקרובים. 

אדר: "היתה החלטה אסטרטגית ב-ServiceNow לפתח LLM עצמאיים שלנו, על סמך הדאטה שלנו וייעודי לתחום שלנו. היתה הסטה גדולה של משאבים לטובת הנושא הזה. בצורה זו אנו יכולים לספק מודל בעל מומחיות גבוהה יותר בתחומי הידע הספציפיים שלנו, וגם להימנע מהחשש של לקוחות להוציא את המידע שלהם החוצה לשירותים דוגמת Open AI. אין ספק שה-Gen AI עבר לחזית המאמץ, וזה מתבטא בשיתוף הפעולה עם אנבידיה ובהשקעה הרבה של החברה בנושא. "