רעיונות מתמטיים בני מאות שנים מפעילים את מכונות ה-LLM

מאת: יוחאי שויגר

קל לחשוב שמודלי שפה גדולים הם קודם כול תופעה לשונית — מכונות שמבינות פסקאות, מזהות הקשר ובוחרות מילים כאילו היו בני אדם. אבל מאחורי המעטפת הזאת פועלת מכונה מתמטית אדירה, מורכבת הרבה יותר מכל תחביר או משמעות. מה שמניע את ה-LLM הוא לא אוצר מילים, אלא מערך עצום של עקרונות אלגבריים, דיפרנציאליים, סטטיסטיים ואינפורמטיביים שנבנו בהדרגה לאורך מאות שנים. לייבניץ וניוטון של המאה ה-17, קיילי וסילבסטר של המאה ה-19, ושאנון של המאה ה-20 – אף אחד מהם לא דמיין מודל המדבר עברית ומייצר רעיונות, אבל כל אחד מהם תרם אבן יסוד למנגנון שמאפשר היום למודלי השפה “להבין” אותנו.

אותם כלים שנולדו כדי לחשב מסלולי כוכבים, להבין כוחות פיזיקליים או להעביר מסר נקי בקו טלפון רועש, הם בדיוק הברגים והאומים שמחזיקים את מוח ה-LLM. מה שתוכנן כדי למדוד שינוי, תנועה, רעש ואי-ודאות, הפך – כמעט במקרה – לתשתית שעליה בנויים מודלי השפה המודרניים. הכתבה הזו פורשת את הסיפור מאחורי המתמטיקה: איך רעיונות בני מאות שנים הפכו לבסיס הרעיוני והחישובי של מכונות החשיבה הגדולות של ימינו.

וקטורים ומטריצות – הברגים והאומים של מוח ה-LLM

וקטורים ומטריצות הם פעולת החישוב הבסיסית ביותר שמודלי שפה יודעים לעשות. כל פעולה – מייצוג של מילה בתוך ההקשר, דרך הבנת משפט שלם, ועד הניחוש של המילה הבאה או תיקון המשקלים בזמן אימון – מסתכמת בסופו של דבר במכפלות שלהם. זו השפה החישובית שבה מודל שפה חושב.

הסיבה העמוקה לכך היא ששפה היא דבר רב-ממדי. מילה איננה רק צליל או שורה במילון; יש לה משמעות, תפקיד תחבירי, קשרים סמנטיים, משקל רגשי, דפוסי שימוש. עולם שלם שנפרש על פני מאות ואלפי ממדים חבויים. כדי לייצג דבר כזה בצורה מתמטית, אתה זקוק לכלי שמתאים לעבודות מרובות־ממדים. וקטור הוא הדרך המודרנית לייצג ישות רב-ממדית כזאת, למשל “חתול” או “לרקוד”, והמטריצה היא הפעולה שמסוגלת להזיז, לסובב, לעוות או למקד את הווקטור הזה בתוך המרחב. ממש כפי שפיזיקאים השתמשו בווקטורים כדי לייצג תנועה במרחב פיזי, מודל השפה משתמש בהם כדי לייצג תנועה במרחב המשמעות.

מתוך הבסיס הזה צמח הדבר ששינה את הכול: מנגנון ה-Attention. הרעיון נולד ב-2017 במאמר המפורסם Attention Is All You Need של צוות Google Brain, והפך לאבן היסוד של המודלים המודרניים. הוא זה שאיפשר למודל לא רק לייצג מילים, אלא גם “להבחין” אילו מילים קשורות זו לזו. כשמודל נתקל במשפט כמו “החתול ישב על השטיח כי הוא היה עייף”, המילה “הוא” לא מובנת מאליה. כדי להבין למה היא מתייחסת, המודל מפיק משלוש מטריצות שונות שלושה וקטורים חדשים: Query, Key ו-Value, ומחשב באמצעותם עד כמה כל מילה “שמה לב” לכל מילה אחרת. אם ה-Query של “הוא” קרוב ל-Key של “החתול”, המודל מבין שקיימת זיקה סמנטית ומשקיע את רוב תשומת הלב שם. מאחורי התופעה הלשונית הזאת פועלת פעולת אלגברה ליניארית יבשה לחלוטין: מכפלות של וקטורים ומטריצות.

אבל כל זה נשען על יסודות שנולדו בכלל במאה ה-19, כאשר מתמטיקאים כמו ארתור קיילי וג’יימס סילבסטר ניסו לפתור בעיות בפיזיקה ולא בשפה. וקטורים התפתחו ככלי לייצוג כוחות ותנועות, כמו למשל מסלול של כוכב או מהירות של חלקיק, ומטריצות נולדו כהתנהגות אלגברית של שינויים במרחב: סיבוב של מערכת צירים, שיקוף של צורה, פתרון של עשרות משוואות סימולטניות. והיום? אותם כלים שנולדו כדי להבין כוחות, מסלולים ושדות אלקטרומגנטיים הם הכלים שמאפשרים למודל שפה להבין ניסוח, הקשר, כוונה ורעיון. האירוניה ברורה: המתמטיקה של הפיזיקה הפכה, כמעט במקרה, למתמטיקה של המשמעות.

חשבון דיפרנציאלי – איך מודל שפה לומד מטעויות

אם אלגברה ליניארית היא הדרך שבה מודל השפה חושב, חשבון דיפרנציאלי היא הדרך שבה הוא לומד. האתגר פשוט לכאורה: לאחר שהמודל מנחש את המילה הבאה, איך הוא יודע עד כמה הוא טעה? ובאיזו דרך ללכת כדי לדייק יותר בפעם הבאה? כאן נכנסת לפעולה פונקציית ה-Loss (או Cross-Entropy) – מדידה מספרית של הפער בין התחזית למציאות. אבל ידיעת הפער לבדה לא מספיקה; המודל חייב להבין מה הכיוון שבו הוא צריך “לזוז” בתוך מרחב המשקלים הענק כדי להפחית את הפער.

כדי לעשות את זה, המודל מחשב נגזרות: קצב השינוי של הטעות ביחס לכל פרמטר בנפרד. זוהי בדיוק השפה שנולדה במאה ה-17 עם ניוטון ולייבניץ, שניסו להבין איך דברים משתנים: שיפועים, קצב שינוי, גודל הכיוון. אלגוריתם Gradient Descent, שפותח הרבה יותר מאוחר כתוצאה מעבודות אופטימיזציה של המאות ה-19 וה-20, משתמש בנגזרות האלה ומשנה את משקלי המודל בכיוון ההפוך לשיפוע — צעד קטן בכל פעם, אבל מיליוני צעדים שעם הזמן מנמיכים את ההר ועוזרים למודל להגיע לניבוי טוב יותר. זה תהליך שמתרחש רק בזמן האימון: בזמן ההרצה, המשקלים כבר “קפואים”, ואין נגזרות — יש רק חישוב.

עוד אירוניה היסטורית. הכלי שמאפשר למודל שפה מודרני לצמצם את הטעות שלו צעד אחרי צעד מבוסס על שני רעיונות שנולדו בעולמות שונים לחלוטין: הנגזרת של ניוטון ולייבניץ נוצרה כדי להסביר מסלולי כוכבים ותנועות בשמיים, והאופטימיזציה של המאה ה-19, נועדה בכלל לפתור בעיות הנדסיות וכלכליות. הם לא חשבו על מודלים המתוקנים באמצעות Loss, אבל מה שנולד כדי להבין נפילה של תפוח הפך היום למנגנון שמסביר איך טעות “נופלת” במרחב משקלים. הנגזרת אומרת למודל איך השינוי נראה, וה-Gradient Descent אומר לו לאן לזוז כדי להשתפר – שני עולמות עתיקים שהתאחדו בתוך מערכת של ה-LLM.

סטטיסטיקה והסתברות – אמנות הניחוש המדויק

גם אחרי שמודל השפה יודע לייצג מילים כווקטורים וללמוד מטעויות באמצעות נגזרות, הוא עדיין נדרש להתמודד עם השאלה הבסיסית ביותר: מה תהיה המילה הבאה? מודל שפה לעולם לא “יודע” את התשובה. הוא מעריך אותה. כל צעד ביצירת משפט הוא פעולה הסתברותית, שבה המודל בונה בראשו התפלגות סיכויים לכל האפשרויות במילון. היכולת להעריך את הסיכויים האלה אינה קסם. היא מגיעה מהמשקלים שנצרבו בו במהלך האימון. בכל פעם שהמודל חזה מילה וטעה, הוא שינה את המשקלים שלו מעט, וכשחזה נכון — הוא קיבע אותם עוד יותר.

אחרי מיליארדי חזרות כאלה, המשקלים הפכו למעין מפת־על של דפוסי השפה: אילו מילים מופיעות זו ליד זו, אילו מילים משתלבות היטב בהקשרים מסוימים, ואילו כמעט אינן נפגשות. כך, כאשר המודל נדרש להעריך את ההמשך למשפט “המדען נכנס למעבדה ו…”, הוא מפעיל את המפה הזאת: המשקלים מטים את חישובי ההסתברות כך שמילים כמו “בדק” או “הדליק” יקבלו סיכוי גבוה, ומילים כמו “נרדם” יקבלו סיכוי זעיר. ההסתברות אינה נלקחת מהאוויר; היא נובעת ישירות מהמצב הפנימי של המודל — ממשקליו ומהיחסים שהם מתווים בתוך מרחב המשמעות.

מאחורי ההימור הזה עומדים רעיונות שמקורם מאות שנים לפני הטרנספורמרים. תומס בייס ופייר דה־לפלס תהו כיצד מחשבים סיכוי לאירוע בעזרת מידע חלקי; רונלד פישר וקרל פירסון הפכו את השפה הסטטיסטית לכלי מדעי שמודד שונות, קשרים והסקות. אותם רעיונות חלחלו לתוך מודלי השפה המודרניים: גם Cross-Entropy, שמודדת עד כמה המודל הופתע מבחירת האדם, וגם מנגנוני דגימה כמו Temperature ו–Top-k, ממשיכים לתפקד על פי העקרונות שהניחו אותם מתמטיקאים.

כך נוצר עוד ציר אירוני במחשבת הבינה: המתמטיקה שנולדה מתוך הרצון להבין הימורים, מטבעות וקוביות משמשת היום מודל שמנסה להבין מילים, הקשרים וכוונות. מהחדרים האפלים של סטטיסטיקאי המאה ה-18 ועד לשורות הקוד של מודלי שפה בני זמננו — החשיבה ההסתברותית ממשיכה לעשות את מה שהיא יודעת הכי טוב: לנחש באופן חכם.

תורת האינפורמציה – למדוד לא רק טעות, אלא גם הפתעה

כשמודל שפה מנסה לנחש את המילה הבאה, הוא לא רק “צודק או טועה”. ברגע שהוא רואה את התשובה האמיתית, הוא מודד עד כמה הופתע ממנה. אם המילה האמיתית הייתה אחת האפשרויות המרכזיות שנתן להן סיכוי גבוה, ההפתעה נמוכה; אם היא הייתה כמעט בלתי־אפשרית בעיניו, ההפתעה גבוהה. מידת ההפתעה הזאת היא לב ה–Cross Entropy: מדד המספר למודל לא רק אם טעה, אלא עד כמה המציאות הייתה רחוקה מהציפייה שלו, וממנו החישוב הדיפרנציאלי יודע איך לתקן את המשקלים.

המושג הזה מגיע מתורת האינפורמציה של קלוד שאנון, שנולדה בשנות הארבעים ב-Bell Labs מתוך ניסיון לפתור את בעיית העברת המסרים בקווי טלפון רועשים. שאנון ביקש למדוד כמה “מידע חדש” מגיע בכל מסר, וגילה שמסר מפתיע נושא הרבה מידע בעוד שמסר צפוי נושא מעט. אותו רעיון בדיוק עבר לעולם מודלי השפה: מילה מפתיעה מלמדת הרבה על מה שהמודל עדיין לא מבין, ומילה צפויה מלמדת מעט. זו הסיבה שקוראים לזה “תורת האינפורמציה”: היא עוסקת בכמה אי-ודאות ירדה מהמערכת כשהתשובה התגלתה – ולכן הפכה לבסיס למדידת למידה בכל מודל מודרני.

תורת האופטימיזציה – איך מודל שפה מוצא את דרכו בתוך הר המשקלים

גם אחרי שמודל השפה יודע למדוד הפתעה, להבין עד כמה טעה, ולחשב באמצעות נגזרות כיצד כל משקל משפיע על הטעות, נותרה הבעיה הגדולה באמת: כיצד מוצאים את הכיוון הנכון בתוך מרחב עצום של מיליארדי משקלים, מרחב שבו כל נקודה היא תצורה אפשרית של המודל? כאן נכנסת לפעולה תורת האופטימיזציה, אשר מספקת את העיקרון שמאפשר למודל להתקדם צעד אחר צעד לעבר גרסה מדויקת יותר של עצמו. האופטימיזציה אינה שואלת “למה טעיתי?” אלא “לאיזה כיוון כדאי לי לזוז כדי לטעות פחות?”. היא עושה זאת באמצעות חישוב מתמשך של שיפועים וצעדים קטנים שמניעים את המודל במורד הר ה־Loss.

העיקרון המרכזי הוא Gradient Descent. בכל פעם שהמודל מנבא מילה, מחשב את ההפתעה ומפיק ממנה את הטעות הכוללת, הוא משתמש בנגזרות כדי לראות כיצד שינוי זעיר בכל משקל ישפיע על הטעות. הצעד הבא – שינוי המשקל עצמו – הוא פעולה של אופטימיזציה. כך נוצר מסע איטי אך יציב בתוך מרחב עצום, מסע שבו כל צעד קטן נבחר כך שהוא מקטין את ההפתעה המצטברת. התהליך כולו מתרחש רק בזמן האימון; בזמן הרצה המודל כבר הגיע לנקודה מסוימת במרחב, והמשקלים קבועים.

הדבר היפה כאן הוא שהאופטימיזציה ב-LLMs אינה המצאה של עידן הבינה המלאכותית. העיקרון של ירידה במורד שיפוע הופיע כבר במאה ה-19 בניסיונות לפתור בעיות מינימום מקומיות באנליזה ובפיזיקה, ואחר־כך מצא לו שימוש בסטטיסטיקה, בכלכלה ובתורת הבקרה. אף אחד מהמתמטיקאים שפיתחו את הרעיונות האלה – ממשוואות אופטימיזציה של לגראנז’ ועד תנאי האופטימיות של קון–טאקר – לא דמיין שהם יהיו הבסיס לאימון מודלים בעלי 100 מיליארד משקלים.

מה שנולד ככלי למציאת “ערך מיטבי” בפונקציות מתמטיות הפך למנוע של למידה עמוקה. האופטימיזציה, שבתחילה הייתה טכניקה לפתרון בעיות הנדסיות, היא היום הכלי שמאפשר למודל שפה לנוע דרך טעויותיו, להתקרב אל האמת הסטטיסטית של השפה, ולבנות לעצמו מחדש את דרכי החשיבה שלו.