שלבים בהתפתחות ה-ChatGPT

10 מאי, 2000

 

מהפכת ה-AI ככה רוקמת אור וגידים באקדמיה ובעולם הטכנולוגי כבר לא מעט שנים. ברמה התיאורטית, ישנם מודלים תיאורטיים של בינה מלאכותית עוד משנות החמישים, ניגע בזה. ברמה השיווקית, חברות משתמשות בבאז וורד הזה כבר יותר מעשור. אבל בסוף 2022 קרה את מה שרבים מכנים "ChatGPT Moment". מה זה הרגע הזה? זה הפעם הראשונה שבה אתה מדבר עם הצ'טבוט שלך ומבין שזהו, זה כאן, מהפכת ה-AI כאן. שאתה מדבר עם הצ'אט בוט בשפה טבעית, מגמגם, מדבר לא ברור, בולע מילים, מקשקש את עצמך לדעת – והוא מבין אותך מצוין! היכולת הזו לתקשר בשפה טבעית לחלוטין, קולית וטקסטואלית, עם מחשב, היא רגע שעד לפני מספר לא גדול של שנים נתפס לגמרי בלתי אפשרי, נחלת ספרי מדע בידיוני.

אז איך צ'אטבוט נולד? האמת, כמו בשיר, כמו תינוק. זו תהיה המטרה של ההרצאה שלי, להתחקות אחרי שלבי התפתחותה של ה-AI, מהרגע שבו היתה נוירון מלאכותי בודד במעבדה בשנות החמישים, ועד שהפך לצ'אט בוט מדבר עם מוח דיגיטלי של טריליוני פרמטרים. יותר מכול טכנולוגיה אחרת, אני חושב שחשוב שנבין איך AI התפתחה ואיך היא עובדת. כדי להשתמש באייפון, לדעתי פחות חשוב שנבין איך עובדת תקשורת סלולארית ומה זה טרנזיטור בשבב. אבל ה-AI, וזו תחזית מאוד קלה, צפויה לעצב את עולמנו בעשורים הקרובים מהקצה לקצה, בכל תחומי החיים שלנו. יכול להיות שה-AI תברא סוג חדש של אנושות, סוג חדש של אדם. ועל כן חשוב שנכיר אותה, כדי שנוכל להבין טוב יותר את הפוטנציאל שלה, את התועלות שבה, את הסכנות שבה. אני חושב, ואני מרגיש את זה כבר על עצמי, ה-AI תאתגר את עצם ההגדרה שלנו של מה זה להיות בן אדם, ומה מותר האדם מן המכונה. זה מסעיר, אבל זה גם מפחיד. כעיתנואי, ככותב, אני כבר שואל את עצמי, ממש מדי ביום, מהו הערך המוסף שלי בהשוואה לצ'אט. ולאור העובדה שזו טכנולוגיה שמתפתחת כל כך מהר, זוהי התמודדות קצת מפחידה, אני מודה.

אז כדי שנדע איפה להתחיל את המסע, אנחנו צריכים קודם כול להגדיר, לפחות ברמה בסיסית, מה זו "אינטלגנציה מלאכותית". אז קודם כול נשאל, מה זו אינטלגנציה. הגדרה אפשרית אחת לאינטלגנציה היא "היכולת ללמוד מתוך ניסיון". זוהי הדרך הכי בסיסית שבה המוח שלנו לומד דברים. כשאתם רוצים להסביר לילד קטן מה זה "חתול", אנחנו לא נכנסים איתו להגדרה הזאולוגית וביולגית של מה זה חתול. אף פעם לא שמעתם אבא מסביר לילד בן השנה שלו, "תקשיב יהלי, החתול הוא יונק טורף ממשפחת החתוליים". אנחנו פשוט מצביעים על חתול ואומרים לילד, "הנה חתול". בהערת אגב, באופן מוזר, כמעט תמיד הדוגמה שנותנים בהסברים על AI קשורות לחתולים.

אז כאמור, האבא מצביע לילד על חתול ובמוח של הילד מתחילים להידלק נוירונים, נוירונים שקושרים לשפה, לראייה, לשמיעה, לרגשות. וככל שהוא יפגוש יותר חתולים, יראה יותר חתולים, יבוא באינטראקציה עם חתולים, תתפתח לו במוח איזו רשת נוירונים עם התגית "חתול", והרשת הזו, עם כל הקונוטציה והמתחושות והרגשות ומידע החושי והידע המוקדם, תידלק בכל פעם כשהוא יפגוש חתול. ומספיק לילד הזה לראות חתול או שניים, כדי שהוא יוכל לזהות מעתה ועד יומו האחרון חתולים.

אז אם אינטיליגנציה היא היכולת ללמוד מהניסיון, אז אינטלגנציה מלאכותית היא מחשב, או תוכנת מחשב, שיודעים ללמוד מהניסיון, מדוגמאות, מדאטה, תוכנת מחשב שיודעת להתפתח, לרכוש מיומנות. אז איך זה שונה מאיך שתוכנות מחשב עובדות לפני ה-AI? אז בתוכנות מסורתיות, בכתיבת קוד מסורתית, המטרה של המתכנת היא לכתוב עבור המחשב סט מפרוט ככל הניתן של הוראות מה לעשות בכל מצב ומצב. "אם ככה – אז ככה". אם המשתמש לוחץ על המקש "ב", תציג "ב" על המסך. אם הוא לוחץ פעמיים עם העבר, תפעיל את תעלה את התוכנה. הנה, כשאנחנו אומרים למישהו שהוא "מתוכנת", אנחנו אומרים לו שהוא כמו רובוט, פועל לפי חוקים נוקשים בלי להבין את הסיטואציה.

אז הניסיון הראשון לפתח תוכנת מחשב, או מודל מתמטי, שיודעים ללמוד היתה בשנת 1956, על ידי פרנק רוזנבלט, חוקר במכון המחקר של חיל האוויר האמריקאי. רוזנבלט היה פסיכולוג קליני ומדען מוח, ותחומי ההתמחות הללו לא מקריים, זה ילווה אותנו לכל אורך התפתחות ה-AI. מרכיב משמעותי בפיתוח ה-AI היה ללמוד מהאופן והמנגנונים שבהם המוח האנושי, הביולוגי, פועל, ולנסות לפתח מבנה מלאכותי דומה, המתבסס על אלקטרוניקה ומתמטיקה.

המטרה של רוזנבלט היתה לפתח מעין מכשיר אלקטרוני שיהיה אפשר ללמד אותו איך לזהות אם יש בתמונה שמציגים לו עיגול או ריבוע. הוא קרא למכשיר הזה "פרספטרון", שזה שילוב של פרספציה, תפיסה, ונוירון. וכאמור, המטרה היתה לא להגדיר למכשיר איך מזהים ריבוע או עיגול (כי לפחות במקרה הזה ניתן להגדיר די בקלות את הצורות הגיאומטריות הללו), אלא להדגים תהליך של למידה ממוחשבת. הפרספטרון הזה חיקה את האופן שבו פועל נוירון במוח. לנוירון בודד במוח אין כל כך קיום נפרד, אבל לא משנה. נוירון מחובר לנוירונים אחרים דרך כל מיני קשרים והוא מקבל מהנוירונים שבסיבתו פולסים חשמלים. אם סך הפולסים החשמלים עובר סף מסוים – הוא נדלק ויורה פולס חשמלי קדימה. אם זה מתחת לסף, הוא נותר כבוי. אז ככה כשילה רואה חתול, ושומע חתול, ומתקרב לחתול, הרשת הזו של "חתוליות" במוח שלו נדלקת. ואם הוא רק חושב שהוא רואה חתול מרחוק, אבל עדיין לא יודע מה זה, הרשת לא נדלקת.

הפרספרטון עובד באופן דומה. הוא מורכב ממטריצה של חיישנים, כל חיישן קולט מה יש בפיסקל מולו – זה בינארי, שחור או לבן, 0 או 1. ישנה פונקציה מתמטית שמסכמת את הקלט מכל החיישנים. אם המספר עובר סף מסוים – הפרספטרון מכריז "זה עיגול". איפה נכנסת כאן למידה? המטרה של הפרספטרון היא להבין איזה פיקסלים בתמונה חשובים יותר ואיזה חשובים פחות בהכרעה האם מדובר בעיגול או לא. הפרספטרון מייחס לכל פיקסל "משקל" שונה. ככל שהמשקל של פיקסל גדול יותר, הקלט ממנו יוכפל במספר גבוה יותר. בתחילת תהליך המידה הפרספטרון מייחס לכל פיקסל משקל אקראי. בכל פעם שהפרספטרון מגיע למסקנה שגויה – כלומר, מציגים לו ריבוע והוא אומר עיגול, הוא מבצע התאמה במשקלים, לפי כל מיני נוסחאות מתמטיות. בכל פעם שהוא צודק, הוא שומר על המשקלים. ככה מציגים בפני הפרספטרון המון דוגמאות, הוא צודק, הוא טועה, ולאחר מספר מסוים של ניסיונות, הוא מגיע לאיזון מיטבי של המשקלים, כלומר הבנה אילו פיקסלים חשובים ואילו פחות. דוגמא של זיהוי בין נשים לגברים. חישבו על כך. לפיקסל במרכז התמונה יש חשיבות די מועטה, הוא שחור גם כשזה עיגול וגם כשזה ריבוע. אבל לפיקסלים בפריפריה של התמונה יש משקל חשוב יותר. רוזנבלט לא הכתיב לפרפסטרון את התובנה הזו מראש – הפרפסטרון למד את זה בעצמו מתוך ניסוי ותעיה. לאחר כמה מאות דוגמאות, שבו המודל עשה פיין טיוניג למודל שלו, התקבל מכשיר שיודע לזהות אם התמונה מולו היא עיגול או לא. זה הרגע שבו הבינה המלאכותית נולדה.

הניסוי הזה עשוי להישמע לנו היום מאוד פשוט, אבל בזמנו הוא היכה גלים. הכותרת בניו יורק טיימס היתה: "הצי האמריקאי חשף את הפרספטרון: מוח אלקטרוני שיכול לראות, לדבר, ללכך ולהתרבות." זו כמובן הגזמה פרועה. אבל הדרמה היתה במקומה, כי זה הרגע שבו נולדה הבינה המלאכותית. תוכנת מחשב שהצליחה ללמוד בעצמה דבר מה, גם אם מאוד פשוט. רוזנבלט פיתח AI שמורכב מנוירון אחד בודד. אי אפשר לעשות הרבה עם נוירון בודד, למנגנון של רוזנבלט לא היו ישומים משמעותיים. אבל הפרפסטרון מכיל את כל המרכיבים שעליו נשענת מהפכת ה-AI: חיקוי של מנגנון הלמידה של המוח, למידה מתוך דוגמאות, ניסוי ותעיה, עד להגעה למשקלים הנכונים. משקלים זה מושג מפתח עד היום. כשחברה משחררת את המודל שלה בקוד פתוח היא מפרסמת את "המשקלים", שזה בעצם המבנה של המודל, התוצר של תהליך הלמידה, הבלופרינט של המוח.

טוב, חזרנו לסוף שנות החמישים. מה קרה מאז? האמת, במשך חמישים שנה כמעט כלום. היה ברור שפרספטרונים כאלה יהיו מסוגלים לבצע רק משימות מאוד פשוטות. כל משימה זיהוי של אובייקט מורכב יותר, אובייקט בעולם האמיתי. תזכרו, הפרפסטרון מייצג נוירון אחד. במוח שלנו יש 85 מיליארד. ה-AI נותר תחום עניין איזוטרי באקדמיה, אך לא במגזר הטכנולוגי. למהפכת ה-AI חסרו שני מרכיבים מאוד חשובים, שבלעדיהם לא ניתן לפתח מערכות מתקדמות יותר של AI: דאטה (כלומר דוגמאות, חומר לימוד, תחשבו אנחנו לפני העידן הדיגיטלי, אין תמונות דיגיטליות – רק בשנות התשעים, וסמרטפונים זה עניין של 15 שנה, שזה בעצם הייצרן הגדול של מידע חזותי דיגיטלי) וכוחות מחשוב, ובשביל שני המרכיבים הללו אנחנו צריכים לקפוץ כמה עשרות שנים קדימה.

בואו נקפוץ קדימה לנקודת הציון הדרמטית הבאה במהפכת ה-AI. הפרספטרון ניסה ללמוד "לראות". התחום הזה, שבו אנחנו מנסים לפתח תוכנת מחשב שתדע לראות, נקרא "ראייה ממוחשבת" (computer vision). זהו למעשה תת-ענף מאוד מרכזי בכל תחום ה-AI, הוא מנסה לחקות, באופן ממוחשב, את האופן שבו העיניים והמוח האנושיים מעבדים ומפענחים מידע ויזאולי.

במשך שנים רבות, ראייה ממוחשבת נחשבה לאתגר מאוד מורכב, על סף הבלתי אפשרי. למה? ראשית, כי זהו בדיוק סוג המשימות שהתכנות הקלאסי נכשל בהם. כאמור, בתכנות קלאסי אנחנו צריכים להסביר למחשב מה לעשות בדיוק בכל סיטואציה. כלומר, כדי לאפשר למחשב לזהות תמונות של חתולים, אנחנו צריכים להסביר לו, במדויק, איך נראה חתול. האם ניתן להגדיר באופן גיאומטרי-צורני מה זה חתול? התשובה היא לא. חתול יכול להגיע בצורות שונות, צבעים שונים, גדלים שונים, ולהופיע בתמונות בהקשרים ויזואליים שונים, מאחור ומקדימה, מרחוק ומקרוב. בואו ניזכר באותו ילד שלומד מה זה חתול. האבא לא מסביר לו איך לזות חתול, אלא פשוט מראה לו, והילד יוצר בעצמו איזו תבנית מופשטת, ייצוג, בתוך המוח שמאפשר לו לזהות מעכשיו והלאה חתול, בכל הקשר, בכל סיטואציה.

מכאן, שהדרך היחידה שבה נוכל לפתח מחשב שיודע לסווג תמונות מורכבות היא אם נמצא שיטה שתאפשר למחשב ללמוד בעצמו לזהות חתול, מתוך דוגמאות, ממש כפי שהפרספטרון למד בעצמו איך להבדיל בין עיגול לריבוע. כאמור, תחום הראייה הממוחשבת נראה לנו כמעט מובן מאליו – אוטוטו יש לנו מכוניות שיודעות לנהוג בעצמן – אבל עד לפני עשור מדובר היה בבעיה רצינית.

ב-2012 חלה פריצת הדרך. יש באותן שנים תחרות שנקרא ImageNet. מה זה אימאג'נט ומה זו התחרות הזו? זהו מאגר תמונות שבנתה פרופ' מאוניברסיטת פיי פיי לי מסטנפורד, שבנתה מאגר של כמה מיליוני תמונות מתויגות. מה זה תמונה מתויגת? זו תמונה שמצורפת אליה תגית טקסט שמתארת מה יש בה. יש בתמונה "חתול סיאמי על העץ". זה מה שיהיה כתוב. הדבר הזה, שנקרא תמונה מתויגת, עומד להיות תוך כמה שנים ממש זהב בעולם אימון מודלי ה-AI, אבל בזמנו עדיין לא ידעו מה אפשר לעשות עם זה. בניית המאגר חייבה מאממץ רב. צוות שלם של סטודנטים השקיעו שעות ארוכות באיסוף תמונות ותיוגם. זוהי פעולה מאוד זיסיפית. פרופ' לי היתה בטוח שהמאגר הזה יסייע לקדם את תחום הראייה הממוחשבת, אבל בזמנו לא היה לכך הרבה ביקוש. אז הם ייסדו תחרות בשם ImageNet. התחרות הזו הזמינה מפתחים לפתח תוכנות מחשב שינסו לסווג כמה שיותר תמונות מהמאגר. התוכנות נמדדו לפי אחוזי ההצלחה שלהם בסיווג נכון של תמונות. זהו אתגר של ראייה ממוחשבת. בשנים הראשונות שיעורי ההצלחה לא היו גבוהים, או לפחות לא גבוהים מספיק כדי שיהיה אפשר לבסס על האלגוריתמים הללו ייושמים בשטח. תזכרו, אם תפתחו תוכנת מחשב שתדע לזהות חתולים ב-75 אחוז הצלחה, זה מאוד יפה – אבל אי אפשר לעשות עם זה הרבה. אם מכונית אוטונומית תדע לזהוות נכון מה קורה מולה רק ב-75 אחוז מהמקרים, היא תעשה תאונה כבר בנסיעה הראשונה.

אז ב-2012 מגיעים לתחרות אלכס קריזבסקי ואיליה סוצקבר, שלימים יייסד את OpenAI ביחד עם סם אלטמן. השניים מגישים לתחרות אלגוריתם בשם AlexNet. האלגוריתמים עד אז הציגו שיעור הצלחה של 70%-75% ושם נתקעו בתקרה. היה ברור שהם לא מתקדמים בכיוון הנכון. הם כללו הרבה הוראות נוקשות שניסו להסביר (להסגביר) לאלגוריתם – באופן פורמלי – איך לזהות קצוות וצורות וגוונים, הם היו איטיים, והם לא הליחו להשתלט על הרבה קטגוריות.

קרייזובסקי וזוצקבר הביאו משהו אחר. הם לקחו אלגוריתם שנקרא רשת נוירונים קונבולוציונית (בראשי תיבות CNN) כדי לאמן אותה לזהות תמונות. האלגוריתם הזה פותח עוד בשנות התשעים, אבל לא נעשה בו הרבה שימוש, מאחר שהוא הצריך יכולות עיבוד מאוד גבוהות. איך הוא עבוד? מעט כמו האופן שבו הקורטקס החזותי – מרכז הראייה – במוח שלנו מעבד ומפענח מידע חזותי. בעצם בין הרגע שבו המידע החזותי הגולמי נכנס דרך העיניים שלנו ועד לפענוח המופשט בתוך המוח של תמונת העולם יש כמה שלבים, שמתרחשים באזורים שונים של הקורטקס. בתילה ישנו זיהוי של המרכיבים היותר גולמיים של התמונה – קווים, זוויות, ניגודים. באזור מתקדם יותר מזהים תנועה, צבעים, אובייקטים.

ה-CNN מדמה את הארכיטקטורה הזו של הקורטקס. ה-CNN מחולקת ל-8 שכבות אשר מבצעות עיבוד הדרגתי של התמונה. השכבות הראשונות מזהות קצוות, זוויות, מרקמים. שכבות ביניים מזהות ריבועים, עיגולים, גוונים. שכבות עמוקות יותר מזהות אובייקטים מופשטים יותר בתמונה – חלון, גלגל, מכונית. כל השלכבות הללו יוצרות מודל היררכי של האלמנטים בתמונה. הפענוח הסופי מתבצע בשכבת הסיום – שמסכמת את הקלט מכל השכבות ותגיע למסקנה ההסתברותית הגבוהה ביותר.

זהו למעשה המבנה של רשת הנוירונים. אבל שוב, היא לא מגיע מוכנה מראש. כמו הפרספטרון, היא צריכה ללמוד מדוגמאות. זוכרים שבפרספרטון דיברנו על "נשקלים". אז גם כאן יש תהליך שבו הרשת מנתחת את האלמנטים השונים בתמונה ומנסה להגיע למסקנה. אם היא טועה, היא מתקנת את המשקלים. כך תמונה אחר תמונה של חתול, בהקשרים שונים, הרשת מעדנת את מערך המשקלים בין השכבות השונות כדי להגיע לאיזון הנכון שיאפשר לה לזהות נכונה מתי מופיע חתול בתמונה.

בואו רק נמחיש את ההבדל בין הפרספטרון ל-CNN. הפרספטרון כלל נוירון אחד. ה-CNN כוללת 8 שכבות שיכולות להגיל מאות אלפים וגם מאות מיליונים של נוירונים. AlexNet כללה 60 מיליון נוירונים.

כאן אנחנו נכנסים לאלמנט נוסף. במחשבים, הכול בסופו של דבר זה מספרים ומתמטיקה. הכול מומר למספרים, שעליהם מבצעים כל מיני פעולות מתמטיות מורכבות. לשם המחשה, עיבוד של תמונה אחת באמצעות אלקס-נט מצריך 720 מיליון פעולות חישוביות.

בטח שמעתם על חברת אנבידיה.

אנחנו כאן סוף סוף מגיעים לרגע שבו דאטה מתחיל לשחק תפקיד מכריע במהפכת ה-AI. זיכרו, מודל AI מוגבל לתובנות שהוא חילץ מהדאטה שבאמצעותו אימנו אותו. כדי ללמד אותו לזהות חתול, תצטרכו להזין אותו באינספור דוגמאות של חתול. אם למשל תזינו לרשת אך ורק חתולים לבנים, הרשת לא תדע לזהות חתול שחור. כאן נכנס למשוואה בעיה שתלווה את המודלים הללו בשנים שלאחר מכן – בעיית ההטיה.

דיברנו על כך שהפרספטרון היה תגלית מדעית חשובה, אך הוא לא הוליד יישומים מסחריים. לעומת זאת, אלקס-נט לא היתה רק הישג טכנולוגי ומתמטיקה, זה היה הרגע שבו ה-AI, או בפרט הראייה הממוחשבת, הפכה לתעשיית ענק. בעשור האחרון פותחו אינספור יישומים המבוססים על ראייה ממוחשבת, כלומר על היכוולת של מחשב לקלוט, לנתח ולהבין מה הוא רואה. מנגנון זיהוי הפנים באייפון מתבסס על הטכנולוגיה הזו. למשל בתחום הרפואה, יש כיום אלגוריתמים AI שמפענחים סריקות CT ורנטגן.

לפני שאני מגיע להולדת הצ'אט, אני רוצה לעבור בקצרה בעוד תחנה דרמטית אחת בהתפתחות ה-AI. אתם ודאי שמעתם על האירוע ההיסטורי שבו מחשב, בשם דיפ בלו של IBM, ניצח בשנת 1997 במשחק שחמט את אלוף העולם, גארי קספרוב. היה זה הפעם הראשונה שבה מחשב מנצח אדם במשחק היוקרתי הזה. אבל חשוב להדגיש שלא היה זה דוגמה לבינה מלאכותית. המחשב שניצח את קספרוב לא למד לשחק שחמט ולא הבין שחמט, אלא פשוט מחשב-על עם יכולות חישוב מאוד גבוהות, שהיה מצויד בהתוכנה של המחשב תוכננה על ידי שחקני שחמט ומדעני מחשב, שפיתחו משוואות מתמטיות שיסייעו למחשב להבין מהו המהלך הנכון ביותר בכל  רגע. בשל יכולות העיבוד הגבוהות, הוא היה יכול לחשב בכל תור מאות מיליוני מהלכים, וזה היה היתרון שלו על פני קספרוב. זה למעשה היה ניצחון של מחשב על המוח האנושי כמכונת חישוב, ולא כאינטליגנציה. המחשב פשוט סורק מספר רב של אפשרויות עד שהוא מוצא את האפשרות הנכונה. לא ככה פועל שחקן שחמט. גם לשחקן שחמט יש יכולות חישוב גבוהות מהממוצע, אבל לא מחשב את כל האפשרויות, כי יש לו אינטואיציה, יש לו ניסיון, הוא יודע לצמצם אפשרויות ולהתרכז באופשרויות היותר סבירות.

באותו אופן שוב פיתחו מחשב-על כדי לשחק שח, פיתחו מחשב-על כדי לשחק משחק נוסף: גו. זהו משחק שולחן סיני. אבל כל הניסיונות לפתח דיפ-בלו למשחק גו כשלו. למה? הלוח בגו מורכב מהרבה יותר משבצות, כלומר יש בכל רגע נתון הרבה יותר מהלכים פוטנציאליים. אם מנסים לחשב כמה מהלכים קדימה, מדובר כבר בחישובים של מספר אסטרונומי של אפשרויות. למעשה, בגו מספר האפשרויות הפוטנציאלי גדול ממספר האטומים בייקום. עד לאחר הניצחון על קספרוב, ניסו לשחזר את ההצלחה במשחק המלכים הסיני, אבל לא הצליחו להגיע לרמה של שחקן מקצועי.

עד שהגיע AlphaGo. אפלה-גו היתה תוכנה של חטיבת ה-AI של גוגל, דיפ-מיינד, שעשתה שימוש בלמדית-מכונה ורשתות נוירונים – כלומר באלגוריתמים ושיטות של בינה מלאכותית – כדי "ללמד" תוכנת מחשב לשחק גו. איך זה עבד? ממש כפי שאלקס-נט למדה לזהות חתול מתוך ניתוח של מיליוני דוגמאות של חתול, כך אשת הנוירונים למדה בשלב ראשון איך לשחק מתוך צפייה באלפי משחקים של שחקנים אנושיים. הלמידה הזו גם איפשרה לו להבין לא רק את חוקי המשחק, אלא את האסטרטגיות הנפוצות שבהו שחקנים אנושיים משתמים, ואילו אסטרטגיות באילו מצבים מגבירים את סיכויי הניצחון. למידה מתויגת.

אבל זה היה רק שלב הלמידה הראשון. שלב הלמידה הזה הקנה לאלפה-גו יכולות משחק ברמה של בני אדם. המטרה היתה להפוך אותו לשחקן גו על-אנושי. אז בשלב השני, התוכנה פשוט התחילה לשחק עם עצמה, אינספור משחקים. כאן נכנס מנגנון שגם כן עומד להיות מאוד חשוב באימון של מודלי AI: חיזוק באמצעות חיזוק. כשאנחנו עושים משהו הוא מצליח, אנחנו נעשה את אותה פעולה שוב בעתיד. ופעולה של א הצליחה לנו, אנחנו נשתדל להימנע ממנה. כך גם בשלב האימון הזה. במשחק מרכיב החיזוק הוא מאוד ברור: אתה מנצח. בכל פעם שהמחשב ביצע מהלך שסייע לו לנצח, זה חיזק את האסטרטגיה הזו, ולהיפך.

בניגוד לדיפ-בלו, שחישב את כל האפשרויות בכל פעם, אלפה-גו ידע להתמקד רק במהלכים המבטיחים ולנות למצות מהן את המהלך הנכון. ואלפא-גו באמת משחק כמו בן-אדם. כשצופים בו משחק, רואים שהוא מגלה יצירתיות ומקוריות ותעוזה כשל שחקן אנושי, וזאת מכיוון שהוא מבין את המשחק והוא מגבש אסטרטגיה – כלומר אלפא-גו הוא מודל ה-AI הראשון ש"חושב".

במרץ 2016 נערך משחק בין אלפא-גול ללי סדול, אחד משחקני הגו הגדולים בעולם. ואמנם, בסדרה של 5 משחקים, אלפא גו ניצח 4-1. זה היה רגע היסטורי. כולם העריכו שאין ל-AI סיכוי. "אני מרגיש חסר אונים" (אחרי המשחקון הראשון), "הוא שיחק ללא דופי, בלי אך טעות", "זה גרם לי לחשוב מחדש על כמה מהעקרונות שנראו לי מובנים מאליהם כבר עשרות שנים"

טוב, אז יש לנו בינה מלאכותית שרואה, יש לנו בינה מלאכותית שיודעת לשחק משחק מאוד מורכב כמו גו, יודעת לחשוב אסטרטגית, לתכנן קדימה. מה עוד חסר לנו? האמת, שחסר לנו המרכיב הכי חשוב אינטלגינציה: שפה. היכולת להבין שפה ולתקשר. דיברנו על ראייה ממוחשבת, אז התחום בבינה מלאכותית שקשור לעיבוד והבנה של שפה נקרא NLP". וזו בעיה מורכבת מאין כמותה. למה? זה קשור לאופן שבו שפה יוצרת משמעות. בניגוד למספרים, מילים הם רב-משמעיים והן יכולות לקבל משמעות שונה בתוך הקשרים שונים, ואת הדקויות הללו קשה לפרק. יש הרבה מקום לאי-בהירות ברמה התחבירית והסמנטית. רב-משמעות: המילה "שפה". "ראיתי את האיש עם הטלסקופ". "ביתר ירושלים כבשה גול והקהל השתגע". משמעות של משפט תלויה בהקשר, ביחסים דקים שבין מילים, בידע תרבותי-לשוני. "יוסי אכל את הפסטה ואז הנחי את המזלג". המזלג קשור לאכילה, מניחים את המזלג כשהאכילה מסתיימת. יש אירוניה, סלנג, סרקזם.

האתגר הראשי בתחום ה-NLP היתה תרגום משפה לשפה. זה היה מקרה המבחן הראשי. כדי לתרגם משפט משפה לשפה אתה צריך להבין במדויק את המשפט בשפת המקור, ולהרכיב משפט בשפת היעד שיבטא את אותה משמעות. הגישות הראשוניות לפיתרון הבעיה הזו היו באמצעים מסורתיים, כלומר ניסיון להסביר למחשב את כל החוקים הדקדוקיים. אבל בשפה יש יותר מדי יוצאי דופן, והדקדוק אינו המימד היחיד שקובע משמעות. תחשבו על זה אנחנו לומדים דקדוק רק בכיתה י', הרבה אחרי שאנחנו יודעים לדבר שוטף.

קפיצת המדרגה חלה עם עידן המידע, שבו אנחנו חיים. זוכרים שאמרתי שהמתכון לאימון מודל AI זה דאטה וחישוב. אז בעידן המידע יש לנו לפתע אינספור טקסטים דיגיטליים שמחשב יכול ללמוד ממנו: ויקיפדיה, פורמוים, ספרים דיגיטליים. אין סוף. עם השנים ניסו להכניס יותר ויותר אלגוריתמים של למדית מכונה. זה מה שעשתה גוגל טרנסלייט, שבזמנו היתה פריצת דרך פנומנלית. גוגל טרנסלייט עברה מתרגום מבוסס חוקים, כמו בבילון, לתרגום מבוסס סטטיסטיקה. מאות מיליוני משפטים מתורגמים – אבל במקום להבין כללים, היא למדה מהם הסתברויות, וכך למדה באופן סטטיסטי מה סביר שיהיה התרגום. היא לא הבינה, לא הקשר, לא תחביר, לא אירוניה, לא משמעות, אבל סיפקה תרגום סביר סטטיסטית.

בעשור האחרון ניסו לפתח יכולות AI בהבנת שפה, אבל האלגוריתמים שבהם השתמשו לא הצליחו לפצח את האתגר. הסוג העיקרי של אלגוריתם ששימש לצורך עיבוד שפה נקרא RNN. רשת נוירונים חזרתית. לסדר המילים במשפט יש חשיבות, ועל כן אנחנו צריכים לבצע את העיבוד מילה אחר מילה. יש הבדל גדול אם אנחנו אומרים: ואמנם RNN היתה מעבד את המשפט מילה אחר מילה, ובכל מילה. אבל כאמור, בשפה יש גם הקשר, שנובע מהמשפט כולו. אז הרשת עיבדה את המשפט באופן סדרתי מילה אחר מילה ובכל פעם גם ניסתה לזכור מה היה במשפט עד. המילה השלישית ניסתה לזכור מהיו שתי המילים הראשונות והמילה החמישית ניסתה לזכור את כל ארבעת המילים הקודמות. בכל מילה, הרשת ניסתה לעדכן את המשמעות על סמך המילים הקודמות. זה לא עבד. במשפטים ארוכים, המשמעות פשוט קרסה והרשת לא הצליחה לזכור את חלקיו הראשונים של הטקסט ולא הצליחה לבנות הקשר. כמו כן, המבנה הזה אינו מאפשר חישוב במקביל, ובגלל זה הן איטיות. "איילת אמרה לשירה שהיא צריכה לדבר עם המנהלת". לא יודעת לחשוב אחרוה מעבר לגבול מסוים.

אז כאמור, למרות ש-AI האיצה באותם שנים באופן מדהים את תחום הראייה הממוחשבת, בעיית ה-NLP נותרה בעינה. עד שהגיע המאמר "כל מה שצריך זה תשומת לב", שפורסם ב-2017 על ידי דאטה מיינד של גוגל. ובמאמר הזה הציגו החוקרים את מושג הטרנספורמר.

אמרנו שאחת הבעיות של ה-RNN זה עיבוד סדרתי. ה-T איפשרו בעת ובעונה אחת עיבוד מקבילי ועיבוד סדרתי. טרנספורמרים מחלקים את המשפט לאסימונים: מילים, הברות, סימני פיסוק. לכל אסימון יש מספר במילון גדול של כל הסימונים. ה-T קורא את המשפט בבת אחת, אבל כדי להבין את המיקום לכל מילה מתווסף מספר נוסף המציין את המיקום שלה במשפט. המימד החשוב ביותר אבל, וזה מופיע בשם של המאמר, הוא מנגנון ה-Self Attention. כל מסתכלת על כל יתר המילים האחרות במשפט ומנסה לכמת עד כמה היא רלוונטית להבנתה. נוצרים משקלים בתוך המשפט. לפי מפת הקשב, ה-T משקלל מחדש את משמעות המשפט.

המודל הראשון היה של תרגום והוא עלה על כל הקודמים. אבל פה מתבצעת קפיצת מדרגה נוספת. ה-AI שאנחנו מדברים עליו היום נקרא GenAI, כלומר בינה מלאכותית יוצרת. למעשה, היכולת של ה-T להבין את המשמעות של טקסט כדי לתרגמו, מאפשרת גם ליצור טקסט לפי פקודה. תרגום זה חיזוי. טקסט מקור-טקסט מטרה. אם המודל יכול לתרגם, הוא יכול להשלים – הבנה. הוא מפיק מילים מתוך הקשר, כך נולד הרעיון של GPT – הוא מקבל שאילתא, הוראה. כל מה שהמודל יודע לעשות זה ל.

 

 

אם יש לנו מודל שיכול לחזות בהסתברות גבוהה את המילה הבאה ברצף, אז הוא יכול לא רק לתרגם טקסט משפה לשפה, אלא גם ל

על בסיס T נבנו ברט (2018), שנועד לא לתרגם אלא להבין, להבין משמעות, ברמה הסמנטית, הרגשית, זיהוי הקשרים, מילים נפרדים.

תרגום קליטת טקסט (דיקודר) תרגום (אנקודר). GPT 1 – השלמות, סיכומים.

וקטור – מיקום – טרנספורמר (מפה של קשרים בין המילים)- תחזית (צריך לחזות את המילה הבאה) – אם טעה, משנים את המשקל – כך שוב ושוב על מיליארדי משפטים.

א

 

Share via Whatsapp

פורסם בקטגוריות: חדשות