עידן ה-AI הזול נגמר, שלב השאלות הקשות הגיע.
ידענו שהשלב הזה יגיע. כל מי שעוסק בטכנולוגיות חדשות מכיר את גרף ה Hype Cycle של גרטנר. ולכן הם גם יודעים שלאחר שלב ההתלהבות מגיע שלב ההתפכחות. הלשב הזה הגיע בצורת מעבר משלב ההתלהבות מכלי חדש או דמו מרשים לשלב השאלות העסקיות: האם השימוש בבינה מלאכותית באמת מייצר החזר השקעה, או שהוא עדיין בשלב המגניב של "תראו כמה אנחנו מתקדמים וחדשניים".
לכך נוספה העובדה שבחודשים האחרונים עלויות השימוש ב AI קפצו בבת אחת, בניגוד לטכנולוגיות קודמות זה מרכיב שלא היה קיים ביישום טכנולוגיות עבר, בטח לא בקפיצה כל כך משמעותית כפי שהיא מתרחשת כיום.
אחת הסיבות המרכזיות לאימוץ המהיר של כלי AI הייתה תחושת הנגישות. מנוי חודשי של 20 או 30 דולר נשמע כמו הוצאה קטנה ביחס לשכר עובדים, יועצים או ספקים. אך מאחורי הקלעים נעשה שימוש במודל מוכר מעולמות ה SaaS וכלים דיגיטליים. בהתחלה המחיר נמוך והוא מושך הרבה משתמשים, לאחר שהמשתמשים מתרגלים לכלי והופכים תלויים בו, מגיע שלב עליית נמחיר.
בשבועות האחרונים אנחנו עדים לעליית מחירים ושינוי במודל העסקי של הספקים על סטרואידים, בחלק מהמקרים זו אותו מודל ישן של "לכידת הלקוח בפלטפורמה" במקרה הנוכחי זה פשוט פער עצום בין העלות שהמשתמש משלם לבין עלות ההפעלה שמודלים מתקדמים דורשים: כוח מחשוב משמעותי, תשתיות ענן, אנרגיה, תחזוקה, פיתוח ואופטימיזציה מתמשכת.
זה לא קרה ביום אחד, עידן ה-AI הזול נשחק בהדרגה. רוב המנויים נשארו באותה עלות, בעוד שמספר הפעולות, הבקשות, הקרדיטים או הטוקנים שהלקוחות דורשים גדלה דרמתית ככל שיותר לקוחות מצטרפים לפלטפורמות ויותר סוכנים פועלים בהם.
טוקנים, המטבע של מהפכת ה AI
כדי להבין את אתגר העלויות הצומחות של השימוש ב AI, צריך להבין את המטבע של עולם ה AI. מאחורי כל תשובה של מודל שפה, כל פעולה של סוכן AI וכל תובנה שמערכת מפיקה, נמצאים טוקנים. טוקנים הם יחידות מידע קטנות שהמודל מעבד כדי להבין את המשמעות של הטקסט שהוא רואה כדי לייצר תשובה, להמשיך שיחה או משימה. לטוקנים עלויות שונות בהתאם לספק או המודל, אבל ככל שהמודלים גדלים והופכים לחכמים יותר העלות של הטוקנים גדלה.
לכן בעולם הארגוני הם הופכים למשאב עסקי לכל דבר ועניין. מנהלים שמבינים זאת מתחילים לחשוב במונחים של כלכלת טוקנים. כלומר, איך ממקסמים את ההחזר על הטוקנים או ההוצאה על הטוקנים. לאור כך נדרש מערכת לניהול ובקרה אודות צריכת הטוקנים, המודלים בהם עושים שימוש, איך נעשה בהם שימוש, איך שומרים אותם לשימוש חוזר, ואיך מוודאים שהם מנוהלים בצורה מיטבית ובטוחה.
זו אינה רק שאלה של ביצועים טכנולוגיים. זו שאלה של יעילות, עסקית.
חטא על פשע, מיקסום צריכת הטוקנים - Tokenmaxxing
אחד האתגרים שטכנולוגיית ה AI הציבה בפני מנהלים היא מדיניות מדדית הערך. אחת הדרכים דרכם ארגונים בחרו למדוד את השימוש בכלי AI כמדד ליעילות הייתה כמות דריכת הטוקנים. זה לא הגיע בחלל ריק. המנכ"לים של ענקיות הטכנולוגיה, מיקרוסופט, נבידה, OpenAI, אנטרופיק ועוד דחפו לשימוש גובר בטוקנים.
זה אפילו זכה לכינוי Tokenmaxxing - תרבות/פרקטיקה שבה “להשתמש ביותר טוקנים, בעיקר על ידי מהנדסי פיתוח, נתפס כיתרון ברמת המהנדס/עובד וגם ברמת החברה. זה הגיע למצב בו ארגנים גמו Meta פרסמו leaderboard פנימי שדירג את צריכת הטוקנים ויצר תחרות בין המתכנתים/עובדים כמדד לפרודוקטיביות. זה הגיע למצב בו תקציבי טוקנים עצומים הפכו ל-“Badge of Honor” אצל מפתחים. בחלק מהסטארטאפים אפילו פרסמו מדיניות של הוצאות גבוהות או מינימום שימוש בטוקנים כדי להוכיח שהם עושים שימוש בטכנולוגיית ה AI.
בעולם בו התשלום היה קבוע זה היה נראה ברור ופשוט למדידה. כיום ברור שאין שום קשר בין שריפת הטוקנים ליעילות וערך שהטכנולוגיה יוצרת - כשמודדים את ה input ולא את ה output מתנתקים מהערך.
השינוי במודל התמחור
הראשונה להגיב הייתה אנטרופיק, ההצלחה המסחררת של קלוד קוד הייתה לחרב פיפיות, החברה פשוט לא יכלה לעמוד hu,r במימון עלות השימוש של משתמשים ששילמו 20 דולר. בשלב הראשון המודלים החזקים כמו Opus 4.6 - 4.7 הוסרו מהחשבונות הזולים, בהמשך זמני החשיבה או מאמץ החשיבה (זמן הסקה - Inference Time) של המודל צומצמו, אז הגיע תקציב השימוש (usage limits) שגרם לעבודה לעצרו בכל פעם ליממה, משתמשים בתוכניות הזולות נדחפו לשדרוג או לתשלום משתנה לפי צריכה, בחלק מהמקים העלויות זינקו מ 20 דולר בחודש ל 200 דולר ויותר.
המסר הכלכלי הפך ברור העלות של ה agents גבוהה מדי בשביל מנוי קבוע ולחברה לא הייתה ברירה אלא להפוך את מודל החיוב. בפועל העלות למשתמש יותר מהכפילה את עצמה מ־$6 לכ־$13 ביום פעיל, ועד $30 ל־90% מהמשתמשים.
מהר מאד הגיבו ב GitHub Copilot בצורה דומה, המודלים החזקים של OpenAI ו אנטרופיק מהחשבונות הביסיים, התשלום למודלים מתקדמים עבר מתשלום קבוע לתשלום לפי צריכה, וגם עליהם יש מכפלות חיוב, ותקציב הטוקנים היומי צומצם.
כלכלה חדשה ומתפתחת - כלכלת הטוקנים
הקיצה בצירכת הטוקנים והעלויות הארגוניות לא הותירו ברירה לארגונים. כמו בכל מרכיב ארוני שיש לו עלות משתנה גבוהה, גם סביב עולם הטוקנים מתפחת כלכלה חדשה שמגדירה את הדרך שבה ארגון מנהל את יחידות ההקשר שה-AI מייצר וצורך.
הנה כמה דוגמאות לניהול בעייתי של ההקשר והטוקנים:
המידע שנוצר (כלומר הטוקנים ששילמנו עליהם) משמש עובד בודד או צוות קטן ואז נעלם.
- עובדים שונים שואלים את אותן שאלות עיסקיות.
- כל בקשה חדשה נבנית כמעט מאפס.
- כל תהליך מייצר לעצמו הבנה מקומית של ההקשר העסקי.
- כל סוכן AI פועל על בסיס תמונת מצב שונה.
- בכל שאלה נעשה שימוש מאד רחב במידע ארגוני - שגורר צריכה גדולה של טוקנים.
התוצאה היא בזבוז חישובי, זמני תגובה ארוכים יותר, תשובות פחות עקביות ועלויות גבוהות יותר בצירכת טוקנים (כסף). כאשר AI פועל בקנה מידה ארגוני, הגישה הזאת אינה מחזיקה לאורך זמן. אם כל מחלקה, אפליקציה או סוכן צריכים לבנות מחדש את אותו הקשר שוב ושוב, -
הארגון משלם עלויות הולכות וגדלות על אותו ערך.
כלכלת טוקנים יעילה מבקשת להפוך את ההקשר (קונטקסט) והטוקנים שנוצרים לנכס מתמשך. לא משהו שנעלם בסוף כל סשן, אלא שכבת ידע תפעולית שניתן לשמור, לאתר, לשתף ולנהל. כפי שכתבתי בעבר זה מתחבר לקונטקסט הארגוני הכללי שרצוי לנהל כנכס ארגוני.
כלכלת הטוקנים משנה את כללי המשחק בארגון
ההבטחה העסקית של AI הייתה בנויה על שלושה יסודות: מהירות, יעילות ועלות נמוכה.
1. לגבי המהירות נראה שאין ויכוח - אכן קיבלנו כלים מהירים. כלי AI יוצרים טיוטות, מנתחים מידע, כותבים קוד או מציעים רעיונות בזמן קצר בהרבה מזה שנדרש לאדם.
2. לגבי היעילות התשובה כבר יותר מורכבת. כאשר מנהל בוחן כלי AI, קל לראות את התוצר הראשוני ולהתרשם. מאמר נכתב תוך דקה. מצגת נוצרת תוך כמה דקות. קוד מופיע על המסך כמעט מיד. אבל השאלה האמיתית היא לא כמה מהר התקבל התוצר, אלא מה האיכות שלו וכמה עבודה נדרשת כדי להפוך אותו למדויק, אמין ומוכן לפרסום או להטמעה.
כאן מתגלה הפער. AI מקצר תהליכים, אבל הוא לא תמיד מבטל את הצורך בבקרה אנושית. במקרים רבים הוא מעביר את העבודה משלב היצירה לשלב הבדיקה, העריכה, האימות והשיפור.
3. העלות, הולכת ותופחת. בניגוד לשימוש הפרטי, השימוש בכלי AI בארגון מורכב. סוכנים מנתחים מסמכים ארוכים, מסכמים פגישות, מייצרים דוחות, בונים קוד, מריצים תתי סוכנים אוטונומיים, מחברים מערכות, וומבצעים משימוש בכמה שלבים. כל פעולה כזו צורכת משאבים - טוקנים).
לכן השימוש העסקי האמיתי ב-AI לא דומה לשימוש מזדמן בצ’אט. הוא דומה יותר לתשתית תפעולית. וכמו כל תשתית, ככל שמחברים אליה יותר תהליכים, כך עלויות השימוש הולכות וגדלות. כאשר מודל התשלום משתנה מעלות חודשית קבוע לעלות לפי צריכה, והצריכה הולכת וגדלה בצורה לא אופטימלית - היחס בין העלות לערך הולך ומתרחק.
אסטרטגיית AI בעידן של מחיר לפי צריכה
ארגונים לא יכולים יותר לבנות תהליכים עסקיים קריטיים על בסיס הנחה שהמחירים הנוכחיים יישארו כפי שהם. אנחנו רואים את הניצנים הראשונים של השינוי לפחות לטווח הקצר (די ברור שבעתיד הרחוק ככל שעלות יצירת הטוקנים תרד, כך גם העלות פר טוקן). העלות הגדלה מכריחה את הארגון לבחון את הטוקנים כמשאב עסקי שיש לנהל אותו. יש לו עלות, יש לו מגבלות, יש לו סיכונים, ויש לו פוטנציאל גדול כאשר משתמשים בו נכון.
כדי לנהל את צריכת הטוקנים בצורה נכונה נדרש לשלב את הצעדים הבאים:
1. לפני הכל, חשוב לבחור את התהליכים העסקיים הנכונים. אסטרטגיית AI בריאה צריכה להתחיל ממיפוי משימות. אילו תהליכים באמת נהנים מבינה מלאכותית? אילו משימות חוזרות על עצמן? איפה יש צווארי בקבוק? איפה יש עלויות כוח אדם גבוהות? איפה איכות ההחלטה חשובה במיוחד?
2. חלוקת המשימות למודלים הנכונים לפי מורכבות המשימה חשוב לדעת לחלק את השימושים לפי רמות חשיבות והמורכבות של המשימה. משימות פשוטות יכולות לרוץ על מודלים זולים. משימות בינוניות יכולות לרוץ על מודלים בינוניים בשילוב בדיקה אנושית, ומשימות קריטיות דורשות מודלים איכותיים, בקרות ברורות, ולעיתים מעורבות מומחים.
3. הגדרת מדיניות ותקציב חשוב לקבוע מדיניות טוקנים ותקציב. צוותים צריכים להבין ששימוש ב-AI הוא משאב. בדיוק כפי שמנהלים כל משאב אחר בארגון כך גם צריך לנהל את צריכת הטוקנים ב AI.
4. חשיבות איכות הפרומפטים חזרה. בשנה האחרונה ככל שהמודלים הפכו לחכמים יותר והעלות שימוש נשארה קבועה קטנה החשיבות של "הנסת ההנחיות" כי מעבר לזמן של העובד לא הייתה באמת חשיבות למספר הניסיונות שהוא ביצע כדי להגיע לתשובה הרצויה. עכשיו כשהעלויות הם לפי צריכה, חזרה החשיבות של יצירת הפרומפט הנכון והמדוייק כדי להקטין את העלות פר תשובה / ביצוע משימה. עובד שיודע לנסח בקשות טובות, לעבוד בשלבים, לבדוק תוצרים ולהשתמש במודל הנכון למשימה הנכונה, יפיק יותר ערך בפחות עלות. לעומת זאת, שימוש לא נכון יוצר בזבוז, תסכול ותוצרים בינוניים.
.5 שימור הקונטקסט (הקשר) בין שיחות - זיכרון משתמשך טוקנים צריכים להישמר מעבר לסשן בודד. אם המערכת כבר עיבדה מסמך, הבינה תהליך, ניתחה לקוח או יצרה הקשר למשימה, אין סיבה שכל זה ייעלם מיד לאחר השימוש. שמירה של ההקשר שנוצר מאפשרת למערכת להתחיל קרוב יותר לתשובה בפעם הבאה. המשמעות היא עלות נמוכה יותר, פחות זמן המתנה, פחות חישוב חוזר והמשכיות בין האינטראקציות השונות.
6. שיתוף טוקנים בין מערכות וסוכנים ה AI ארגוני אינו מערכת אחת. הוא אוסף של אפליקציות, מודלים, סוכנים, מקורות נתונים ותהליכים. לכן, קונטקסט חייב להיות נייד. הוא צריך לעבור בין סוכן לסוכן, בין מערכת למערכת, ולעיתים גם בין ענן, דאטה סנטר ואזורים גיאוגרפיים. כאשר הקונטקסט נשאר תקוע בשרת מקומי או בזיכרון זמני, הארגון מאבד את הערך המצטבר של הידע שנוצר.
.7 שימוש חוזר בטוקנים ארגונים ממש מתקדמים מטמיעים במערכות שלהם Token Caching או עושים שימוש בשירות של זה שניתן על ידי הספקים. מדובר בטכנולוגיה המאפשרת למודלי שפה "לזכור" חלקים מקלט שכבר עובדו (כמו הנחיות מערכת או מסמכים ארוכים), ובכך להימנע מחישובם מחדש בכל בקשה. על ידי שמירת הניתוח הראשוני בזיכרון מהיר, המערכת מקצרת משמעותית את זמן התגובה (Latency) ומפחיתה את עלויות השימוש, שכן המשתמש אינו נדרש לשלם שוב על עיבוד מלא של טקסט שכבר נסרק. זה יעיל במיוחד בתהליכים שחוזרים על עצמם.
8. יישום שכבת זיכרון קונטקסטואלית השלב הבא ב-AI ארגוני הוא יצירת שכבת זיכרון קונטקסטואלית. זו שכבה שמאפשרת ללכוד קונטקסט מתוך ביצועי המודל, לשמור אותו, לתייג אותו במטא דאטה, לאנדקס אותו לחיפוש, לאכוף עליו הרשאות ולהפיץ אותו למודלים ולמשתמשים. במקום לראות כל בקשה כאירוע מבודד, שכבה כזו מאפשרת למערכת לפעול עם המשכיות. המודל לא מתחיל מדף ריק. הסוכן לא ממציא מחדש את ההבנה. הארגון לא משלם שוב ושוב על אותו חישוב טוקנים.
זוהי נקודת מפנה חשובה. אם בשנים האחרונות השיח התמקד בעיקר במודלים, פרומפטים ודאטה, השלב הבא יתמקד ביכולת לנהל את ההקשר שנוצר ביניהם. מי שינהל את הקונטקסט טוב יותר יוכל להפעיל AI בצורה מהירה, עקבית וחסכונית יותר.
9. שימוש במודלים מקומיים אחת המגמות החשובות היא מעבר חלקי למודלים מקומיים. במקום שכל פעולה תישלח לענן ותתומחר לפי צריכה, ארגונים ומשתמשים מתקדמים יוכלו להריץ מודלים על מחשבים, שרתים או מכשירים מקומיים/פנימיים. למודלים מקומיים יש יתרונות ברורים. הם יכולים להפחית תלות בספקי ענן, לשפר פרטיות, לאפשר עבודה ללא חיבור לרשת, ולצמצם עלויות שימוש. עם זאת, הם אינם פתרון קסם. מודלים מקומיים דורשים חומרה מתאימה, ידע טכני, תחזוקה, אבטחה, התאמה, ולעיתים גם פשרה באיכות לעומת המודלים המתקדמים ביותר בענן. הפתרון הנכון יהיה כנראה ארכיטקטורת AI משולבת.
10. שילוב מודלים מספקים שונים יש להימנע מתלות עמוקה מדי בספק יחיד, שוק ה-AI עדיין משתנה במהירות, מחירים, מגבלות, איכות, תנאי שימוש וזמינות משתנים בקצב מסחרר. ארגון חכם שומר על גמישות, בוחן חלופות, ומוודא שהידע והתהליכים אינם נעולים לחלוטין בתוך פלטפורמה אחת.
לסיכום
המציאות משתנה, הטכנולוגיה מתבגרת ואיתה ההתפכחות משלב הפיילוטים והמשחקים. עלויות השימוש ב AI הולכות וגדלות. אם זאת הגישה הנכונה היא לא לצמצם שימוש ב־AI, אלא לנהל אותו בחוכמה. מנהלים צריכים למדוד שימוש לפי הקשר עסקי. מי השתמש בטוקנים, לאיזה תהליך, באיזה מוצר, לאיזו מטרה ומה הייתה התוצאה.
במקום לשאול כמה טוקנים נצרכו, כדאי לשאול כיצד אותם טוקנים תרמו ליצירת ערך עסקי. האם זמן הפיתוח התקצר? האם איכות השירות השתפרה? האם צוות התמיכה פתר יותר פניות? האם נוצר ערך ללקוח? האם העלות מצדיקה את התוצאה? ארגונים מתקדמים יצטרכו לבנות תקציבי AI לפי צוותים ופרויקטים, לקבוע גבולות שימוש, לזהות חריגות ולחבר בין עלויות AI לבין מדדי ביצוע עסקיים.
החברות שיצליחו לא יהיו בהכרח אלה שרכשו הכי הרבה רישיונות AI או רצו אחרי כל כלי חדש. אלה יהיו החברות שבנו יכולת ארגונית אמיתית לדעת כיצד למקסם את הערך העסקי מהטוקנים שהם "שורפים".
עידן ה-AI הזול אולי נגמר, אבל עידן ה-AI הבוגר רק מתחיל. מי שינהל אותו כמו השקעה עסקית ולא כמו צעצוע טכנולוגי, יוכל להפוך את השינוי הזה ליתרון תחרותי אמיתי.