חברת לייטריקס (Lightricks) משיקה את LTX-2.3, גרסה חדשה למודל הבינה המלאכותית שלה ליצירת וידאו ואודיו. המודל כולל כ-20.9 מיליארד פרמטרים ומסוגל לייצר סרטונים באיכות הפקה של עד 4K — כאשר כל תהליך היצירה מתבצע באופן מקומי על כרטיסי GPU במחשב האישי, ללא צורך בתשתיות ענן.
משקולות המודל משוחררות בקוד פתוח וזמינות לשימוש חופשי, בעוד שחברות עם הכנסות שנתיות של מעל 10 מיליון דולר יידרשו לרישיון מסחרי. במקביל, החברה משיקה גם את LTX Desktop, אפליקציית יצירה ועריכת וידאו מקצועית המבוססת על מנוע ה-AI של LTX וזמינה גם היא בקוד פתוח.
לדברי החברה, המהלך משקף שינוי רחב יותר בתעשיית התוכנה היצירתית: מרכז הערך עובר מכלי התוכנה עצמם אל מנועי ה-AI שמפעילים אותם. במקום שתוכנות העריכה יהיו המוצר המרכזי, הן הופכות למעטפת סביב מודלים המספקים את יכולות היצירה, הסנכרון והשדרוג.
השקת LTX-2.3 מגיעה על רקע ההתפתחות המואצת בתחום יצירת הווידאו מבוסס AI. עד כה, רוב המערכות דרשו שימוש בתשתיות ענן יקרות, תשלום לפי שימוש ולעיתים גם העברת נכסי תוכן וקניין רוחני לשרתים של ספקים חיצוניים. עבור יוצרים עצמאיים מדובר היה לעיתים בחסם כלכלי, ועבור ארגונים – גם בסיכון מבחינת פרטיות ושליטה על נתונים.
היכולת להריץ את המודל באופן מקומי משנה את המצב הזה. LTX-2.3 פועל על חומרה שכבר קיימת אצל יוצרים ואולפנים רבים, ללא קריאות API וללא תשלום לפי שימוש. המשמעות עבור סטודיו שמפתח עשרות רעיונות ויזואליים בסשן עבודה אחד היא מעבר מעלות לכל יצירה לעלות שולית נמוכה מאוד — מה שמאפשר חופש יצירתי רחב יותר וניסוי מהיר של רעיונות.
במישור הארגוני, הפעלה מקומית של המודל מאפשרת להפחית חלק ניכר מעלויות תשתיות הענן ולצמצם תלות בספק יחיד. מאחר שמדובר במודל עם משקולות פתוחות, ניתן גם לבצע התאמה אישית ולכוון אותו לצרכים ארגוניים שונים. לפי החברה, עלות החישוב של LTX-2.3 עומדת על כ-10%–20% בלבד לעומת מודלים מתחרים, מה שהופך אותו מתאים גם לסביבות ייצור בקנה מידה גדול.
המודל כולל מספר שיפורים טכנולוגיים, בהם מנגנון חדש המשפר את הדיוק ביחס לפרומפטים טקסטואליים ו-VAE חדש המסייע לשמור על פרטים ויזואליים עדינים בתהליך היצירה. בנוסף נוספה תמיכה מובנית בפורמט וידאו אנכי ושופרו יכולות image-to-video. גם רכיב האודיו שודרג, והמודל מסוגל להפיק פס קול כחלק אינטגרלי מהווידאו.
הארכיטקטורה של LTX-2.3 היא מולטימודלית: המודל מטפל בטקסט, תמונה, אודיו ווידאו הן כקלט והן כפלט, במקום להסתמך על שילוב של מספר מערכות נפרדות.
משקולות המודל זמינות כבר כעת בפלטפורמת Hugging Face, ובהמשך צפוי לצאת גם כלי CLI שיאפשר למפתחים להריץ את המודל באופן מקומי ולבנות עליו יישומים נוספים. גם אפליקציית LTX Desktop מבוססת על אותו מנוע פתוח ומלווה במפת דרכים ציבורית לפיתוח עתידי בשיתוף הקהילה.
גרסת LTX-2 הקודמת זכתה לאימוץ מהיר בקהילת המפתחים והיוצרים: בתוך חודש מהשקתה היא הורדה יותר מ-3 מיליון פעמים מ-Hugging Face, וכיום מספר ההורדות מתקרב ל-5 מיליון.
לדברי החברה, אימון המודל הקודם דרש השקעה של כ-150 מיליון דולר בלבד וצוות פיתוח של כ-40 מהנדסים — נתונים נמוכים משמעותית מההשקעות שמבצעות חברות מודלים גדולות — אך הצליח להגיע לרמת ביצועים דומה.

