אחד החידושים המשמעותיים שנוספו לגרסאות האחרונות של צ'אטבוטים כמו ChatGPT או Claude, הוא "זיכרון". כעת, הצ'אטבוט זוכר פרטים ביוגרפיים או העדפות של המשתמש, ואף מציין במפורש כשהוא מוסיף פריט כלשהו לזיכרון. מימד הזיכרון מוסיף לאינטימיות ולפרסונליזציה של התקשורת עם הצ'אטבוט, ואולם בפועל הם אינם "זוכרים" דבר באופן עמוק ומתמשך. הזיכרון שלהם בנוי לרוב ממנגנונים חיצוניים וטקטיים: הקשר רגעי כמו חלון השיחה הפעיל, שליפה ממסמכים תוך כדי שיחה (RAG) ולעיתים מאגר קטן של עובדות כלליות על המשתמש. אך זהו זיכרון שברירי, לא עקבי ובעיקר לא חלק מהמודל עצמו.
אין כיום תשתית פנימית שמאפשרת למודל לשמור מידע לאורך זמן, לעדכן את הבנתו על המשתמש והעולם, ולנהל את הזיכרון כמשאב: ליצור, למחוק, לתעדף. יתרה מזאת, לא קיימת הבחנה אמיתית בין סוגי זיכרון, לדוגמה בין מידע טקסטואלי, זיכרון רצף (KV cache) ועדכונים פרמטריים עמוקים (fine-tuning).
כך נוצרת מגבלה מבנית: המודלים אינם מסוגלים ללמוד לאורך זמן, להתפתח מהאינטראקציה עם המשתמש או לשמור על עקביות מתמשכת. מדובר בבעיה יסודית עבור מודלים שנועדו להיות בני שיח חכמים ומתמשכים.
זיכרון מובנה בתוך המודל
מאמר שפורסם באחרונה על ידי שורת חוקרים סינים מאוניברסיטאות שונות וממכוני מחקר עצמאיים מנסה לתת מענה לבעיית הזיכרון. שמו של המאמר הוא "MemOS: A Memory OS for AI System" והוא הועלה ל-arXiv, מאגר מדעי פתוח לפרסום מוקדם של מחקרים המיועדים לביקורת עמיתים.
בלב המאמר מוצג קונספט חדש של מערכת הפעלה לזיכרון: MemOS, המספקת גישה מערכתית לניהול זיכרון במודלים שפתיים, בדומה לאופן שבו מערכת הפעלה מנהלת זיכרון במחשב. במקום לנסות לטפל בזיכרון באמצעות פתרונות זמניים, MemOS בונה תשתית שלמה שמגדירה זיכרון כמרכיב עקרוני, מנוהל ובר שליטה.
MemOS איננה מודל בפני עצמה, אלא שכבת תשתית שמתלווה למודל שפה קיים כגון LLaMA, GPT או Claude. היא אינה מחליפה את המודל, אלא מוסיפה לו שכבת זיכרון מודולארית עם ממשקי API, תיאום הרשאות, תיעוד וניהול מעגל חיים לזיכרונות. במובן זה היא דומה למערכת הפעלה שמאפשרת ליישומים לרוץ על גבי חומרה – רק שכאן מדובר בזיכרונות שרצים על מודל שפה.
ללמוד מהזיכרון
הרכיב הבסיסי של המערכת הוא ה-MemCube. זוהי יחידת זיכרון הכוללת גם את התוכן (למשל משפט או עובדה), וגם מטא-מידע עשיר: מי אמר, מתי, באיזה הקשר, מה רמת האמינות, האם יש הרשאה לעדכן, ועוד. כל זיכרון עובר תהליך של ניהול, תזמון וחיים – אפשר לזכור, לשכוח, לעדכן או לקדם זיכרון באופן דינמי.
MemOS מחלקת את סוגי הזיכרון לשלושה אזורים ברורים: Plaintext הוא כל טקסט גולמי שמייצג עובדות, אירועים או מידע רך. Activation הוא הזיכרון הזמני המשמש במהלך שיחה, והוא מבוסס על KV-cache כמו במודלים הקיימים. המימד השלישי הוא Parameter, שמטרתו היא להטמיע עדכונים שמייצגים למידה עמוקה ומתמשכת.
שכבת הפרמטר, שהיא כאמור השכבה העמוקה ביותר, מתבססת על המנגנון LoRA (ראשי תיבות של Low-Rank Adaptation). זהו מנגנון ידוע, שמאפשר לעדכן את המודלים הגדולים במידע חדש מבלי שיהיה צורך לאמן אותם מחדש. בגישה החדשה, LoRA ממלאת תפקיד מפתח בשכבת הזיכרון הפרמטרי של MemOS. במקום לעדכן את כל הפרמטרים של המודל, LoRA מאפשרת להוסיף שכבות קלות ויעילות של התאמה, שמכילות את השינויים שהמודל "לומד" לאורך זמן.
כך, כאשר מידע מסוים חוזר שוב ושוב ונראה חשוב להקשר או למשתמש, MemOS יכולה לקדם אותו מזיכרון טקסטואלי לזיכרון פרמטרי – דרך LoRA – ולהטמיע אותו באופן שממש משנה את ההתנהגות של המודל. זה מאפשר למערכת לשלב למידה מתמשכת, מבלי לפגוע ביציבות או לדרוש משאבי אימון מלאים.
המנגנון כולל שכבת ממשק לניהול משתמשים והרשאות, שכבת פעולה לתזמון ובקרה, ושכבת תשתית לשמירת הנתונים עצמה. המערכת מסוגלת להעביר זיכרון בין מכשירים, בין מודלים שונים ואף בין סוגי זיכרון – למשל להפוך טקסט גולמי לעדכון פרמטרי, ולהפך.
סוכנים עם זיכרון
MemOS גם מתאימה מאוד לתרחישי אימון והדרכה. תהליך האימון יכול להיעזר בה לניהול גרסאות, תיעוד תהליך למידה ועדכון פרמטרים באופן מודולרי. היא מאפשרת לא רק לדעת מה נלמד, אלא גם איך, ממתי ומאיזה מקור – מה שהופך אותה לתשתית חיונית עבור fine-tuning מתמשך או מערכות למידה מבוססות הקשר.
באופן טבעי, המערכת מתאימה במיוחד גם לעולם של סוכני AI. סוכנים חכמים צריכים לשמר ידע לאורך זמן, להתאים את עצמם להקשרים משתנים, לנתח פעולות שביצעו וללמוד מהן. MemOS מספקת להם זיכרון מודולרי עם API, שמאפשר להם לנהל, לאחסן ולשחזר מידע – באופן דומה לזיכרון עבודה של אדם. כך, במקום לבנות סוכן שמתאפס בכל הפעלה, ניתן לבנות סוכן שמתפתח לאורך זמן, בדיוק כמו בן שיח אנושי.
באופן זה MemOS מאפשרת למודלים לעבור מזיכרון מדומה לזיכרון חי, נשלט ומתפתח – שבו המודל באמת לומד, משתפר ומתאים את עצמו לכל משתמש לאורך זמן. זהו שינוי מהותי בתשתית של אינטיליגנציה מלאכותית: מכזו שפועלת בהווה בלבד, לכזו שמסוגלת לצבור ניסיון.

