השבוע שהיה בבינה המלאכותית היוצרת

1. חברת OpenAI עושה זאת שוב עם מודל וידאו שמטלטל את שוק ה Gen-AI.

אם עדיין יש ספק למישהו מי היא מלכת הביצה, OpenAI מבהירה זאת שוב בכדי שלא יהיה צל של ספק, והיא עושה זאת באותו שבוע שגוגל "מנסים" להדהים את השוק עם מודל ה LLM הענק שלהם (אבל על כך – בידיעה השנייה של השבוע). בשבוע שעבר OpenAI הכריזו על Sora מודל וידאו חדש ומבוסס AI ששבר את כל הסטנדרטים של מודלי הוידאו שקיימים עד כה. המודל Sora מסוגל ליצור סרטונים באיכות גבוהה (Full HD) ובאורך של עד דקה תוך שמירה על עקביות הדמות והאלמנטים השונים בווידאו.

המודל מבוסס על ארכיטקטורת טרנספורמרים הדומה לזו המשמשת את דגמי השפה, ומשלב בין טכניקות יצירה של וידאו מתמונות וטקסט. על פי הדיווחים, נראה כי OpenAI משתמשת בנתונים סינתטיים לאימון, כלומר סצנות פוטוריאליסטיות שנוצרו על ידי מנוע משחקים, במקום או בנוסף לצילומים אמיתיים מה שמסייע לחברה להימנע או להפחית את בעיות זכויות היוצרים.

לדברי OpenAI המודל החדש הוא הרבה יותר ממודל יצירת וידאו והוא אבן דרך משמעותית בדרך להשגת בינה מלאכותית כללית AGIלאור היכולות של המודל להתמודד עם חיקוי הפיזיקה המורכבת של העולם האמיתי. בגלל הסכנה הגדולה של הפייק החברה עוצרת בשלב זה את השחרור של Sora לקהל הרחב, וזאת בכדי להתמודד עם הסכנות הפוטנציאליות של שחרור המודל. לדברי החברה הם עובדים עם צוותי נסיינים בכדי לוודא שהמודל משוחרר לציבור בצורה בטוחה.

לידיעה המקורית לחצו כאן
לסרטונים שנוצרו על ידי Sora לחצו כאן או כאן

2. גוגל מנסה להחזיר לעצמה את השליטה בניהול סדר היום בתחום ה GenAI עם Gemini 1.5.

לאחר שבשבוע החולף Bard הפך ל Gemini גוגל ממשיכה בהכרזות וחושפת את Gemini 1.5, העדכון המשמעותי ביותר שלה לסדרת מודלי ה LLM המחודשת. התכונה המרכזית של Gemini 1.5 היא אורך חלון טוקנים המרשים במיוחד.

Gemini 1.5 מציגה ארכיטקטורת Mixture-of-Experts (MoE) חדשה שהופכת אותו ליעיל יותר לאימון והפצה. דמיס הסאביס, מנכ"ל Google DeepMind, ציין כי Gemini 1.5 Pro, הדגם הראשון של הדור האחרון, מציע ביצועים השווים ל-Gemini 1.0 Ultra, אך דורש כוח מחשוב נמוך יותר. התכונה המשמעותית ביותר של Gemini 1.5 היא חלון ההקשר הארוך של עד מיליון טוקנים מה שמאפשר לה לטפל במערכי נתונים עצומים. לשם השוואה קלוד של אנטרופיק, השני ברשימה מציג חלון הקשר של 200,000 טוקנים.

לא זאת בלבד שחלון ההקשר עצום, לפי דיווח של משתמשים המודל מציג יכולת מרשימה לזהות מידע גם במרכז חלון המידע – אתגר שמודלים אחרים לא מצליחים להתמודד איתו וחווים איבוד מידע שזה לשם Lost In The Middle. המודל כרגע מונגש בעיקר למפתחים ולקוחות עסקיים שיכולים לקבל גישה מוקדמת למודל דרך AI Studio ו-Vertex AI. גוגל מציעה את המודל בחינם במהלך שלב הבדיקות, אך יש לצפות לזמני השהיה ארוכים יותר בשלב הבדיקות.

לידיעה המקורית לחצו כאן

3. חברת Stability AI משחררת שני מודלים חדשים ליצירת תמונות.

ככל שהזמן עובר התחרות בין מודלי יצירת התמונות השונים אינה איכות התמונה אלא היכולת של המודל להיצמד להנחיות (פרומפט) של המשתמש בצורה מדויקת. זו גם הקפיצה המשמעותית שהמודל החדש של Stability AI מבצע. מעבר לביצועים המשופרים של הגרסה החדשה של מודל יצירת התמונות בקוד פתוח Stable Diffusion 3, שמציג שיפור משמעותי באיכות היצירה הכוללת, המודל מציג דיוק רב בהרכבת התמונה על בסיס פרומפטים מורכבים הכוללים תאור של רכיבים רבים.

לדברי מנכ"ל Stability AI, אמד מוסטק, המודל מציג היצמדות גבוהה יותר לפרומפט, טובה יותר מזו של DALL-E 3 של OpenAI, שנחשב למודל הטוב ביותר בנושא זה. המודל Stable Diffusion 3 כולל בין 800 מיליון ל-8 מיליארד פרמטרים ומשלב מחקר חדש ביצירת תמונה, כולל ארכיטקטורת הדיפוזיה והתאמת זרימה.

המודל עדיין לא זמין לציבור הרחב, אך ישנה רשימת המתנה שניתן להירשם אליה. שלב התצוגה משמש לשיפור הביצועים והבטיחות לפני "השקה פתוחה," כך מציינים בחברת Stability AI.

מוקדם יותר החודש החברה שחררה מודל נוסף בשם Stable Cascade שאמור להציע איכות גבוהה יותר לצד גמישות, יעילות ויכולת כיול טובה יותר לסגנונות יצירה מסוימים. המודל החדש תומך ביצירה של וריאציות לתמונות, יצירת תמונה מתמונה, השלמה פנימית חיצונית של התמונה, וסופר-רזולוציה כפולה. עם המודל החדש משתמשים יכולים ליצור וריאציות של תמונה, ליצור תמונות חדשות מתוך תמונות קיימות, למלא חלקים של התמונה לרוחב או לאורך.

לפי Stability AI, Stable Cascade מתעלה על קודמיה ברוב ההשוואות בין דגמים מבחינת עקיבה אחרי הפרומפט ואיכות אסתטית. Playground v2, דגם קוד פתוח לשימוש מסחרי חופשי ששוחרר בדצמבר 2023, מקדים במעט מבחינת איכות אסתטית ונמצא מאחורה במעט מבחינת התאמה לפרומפט, לפי מדידות של Stability AI. תצוגת המחקר של Stable Cascade מיועדת לשימוש לא מסחרי בלבד. לא ברור מההכרזה אם ובאיזו צורה הדגם הסופי יהיה זמין כקוד פתוח.

לידיעה המקורית לחצו כאן

4. גוגל חוזרת למגרש הקוד הפתוח עם מודל חדש בשם Gemma.

גוגל (Google) הכריזה על השקת מודל חדש בקוד פתוח בשם Gemma (“ג’מה”) שמשמעותו “אבן יקרה”. המודל החדש זמין בגרסאות של 2 או 7 מיליארד פרמטרים והוא מיועד למפתחים. מודלי ה-Gemma החדשים אומנו בצורה דומה לזו של מודלי הGemini של החברה, אך על כמות נמוכה יותר של פרמטרים, כאשר הדגש הוא על המהירות ולא על רמת המורכבות מה שמאפשר להשתמש בהם למשימות פשוטות יותר.

כאמור המודלים שוחררו בקוד פתוח והם מיועדים לשימוש קל יותר בהשוואה למודלי ה-Gemini של גוגל, כאשר לפי מבחני הביצועים שהציגה החברה, מודל ה-Gamma 7B מציג ביצועים עדיפים על פני מודל ה-Llama 2 של מטא והמודלים של מיקרוסופט בגרסת ה-7B ו-2B פרמטרים.

טריס וורקנטין, מנהל מוצרים בגוגל דיפמיינד, הצהיר כי החברה תשחרר מערך מלא של בדיקות ביצועים ל Gamma, תוך שיתוף פעולה עם NVIDIA ו-Hugging Face. הוא גם הדגיש את המחויבות לבטיחות ואחריות בפיתוח של Gamma, כולל טכניקות אוטומטיות לסינון מידע אישי ונתונים רגישים מסטי האימון.

לידיעה המקורית לחצו כאן

5. בנק One Zero משיק פלטפורמת שירות מבוססת GenAI.

הבנק הדיגיטאלי הראשון One Zero Bank משיק את Ella 2.0, פלטפורמת שירות מבוססת GenAI שמסמנת את המעבר משלב פיילוט ניסיוני שהחל לפני מספר חודשים ליישום מלא. הבנק, שהוקם ברבעון השלישי של 2022 והוא הראשון שקיבל רישיון מלא בישראל לאחר למעלה מ-45 שנה, מתאר את המודל העסקי שלו כמונע באמצעות בינה מלאכותית ומשלב את היתרונות של בנקים מסורתיים וניאו-בנקים.

הצ'ט הבנקאי Ella 2.0מבוסס על מודלי שפה גדולים ומתקדם בהבנה ובתגובה לשאילתות ושאלות פתוחות של לקוחות במספר שפות, תוך מתן תגובות מיידיות והתאמה אישית של שירותים פיננסיים. מנכל הבנק ציין ש-Ella 2.0 מובילה את המהפכה העולמית מבינה מלאכותית גנרטיבית ניסיונית ליישום מעשי, עם יכולות החוצות גבולות שפה ומבטיחות תגובות מיידיות, מדויקות ומותאמות אישית.

תהליכי הלמידה והשיפור של Ella, בתמיכת בנקאים אנושיים, מבטיחים תגובות מקיפות ואמינות. אורי גושן, שותף מייסד ושותף-מנכ"ל של AI21, מוסיף ש-Ella מייצגת שינוי בתעשיית הבנקאות הדיגיטלית לקראת חווית לקוח טובה יותר, מהירה יותר, אמינה יותר ומותאמת אישית.

לידיעה המקורית לחצו כאן

6. סטארטאפ יצירת המוזיקה Suno AI משחרר את הגרסה השלישית למודל הלחנת השירים.

הסטארטאפ המוכר להלחנת שירים ומוזיקה Suno AI השיק השבוע גרסה חדשהV3 Alpha למנויי הPro וה-Premier המשלמים. מי שכבר מכיר את החברה יודע שמודל המוזיקה הנוכחי V2 כבר יוצר שירים מרשימים באיכות גבוהה על בסיס הטקסט שהוא מקבל, ולפי טענת החברה הגרסה החדשה V3 מבטיחה להתעלות מעבר לכך, עם איכות אודיו טובה יותר, ביטוי רגשי רחב יותר ויצירה מהירה יותר, תוך תמיכה בשפות וכלים נוספים.

המודל החדש מאפשר גם להמשיך שירים מכל נקודה ולא רק מסוף היצירה, ויכול ליצור צלילים יוצאי דופן. הגרסה החדשה יכולה ליצור שירים עד שתי דקות אך היא עדיין סובלת מהזיות, במיוחד עם פרומפטים קצרים, ולא פעם המודל סוטה מהמנגינה ולוקח חירויות יצירתיות מגוונות יותר מה שדורש פרומפטים שונים מאלו שנעשה בהם שימוש בV2 על מנת לקבל תוצאה אופטימלית.

משתמשים יכולים לעבור בין V2 ל-V3 Alpha במהלך שלב הבדיקות והם מקבלים 300 קרדיטים חינם לניסוי. כפי שהיה בעבר המודל זמין דרך דיסקורד ואתר האינטרנט של החברה.

לידיעה המקורית לחצו כאן

7. מחקר חדש מציג מודל בינה מלאכותית בקוד פתוח שאומן לסייע ספציפית בתחום הרפואה.

מחקר חדש בשם "BioMistral" מציע פרספקטיבה חדשה על איך בינה מלאכותית יכולה לשפר את המחקר הרפואי ויישום הפרקטי של המודלים בתחום. BioMistral הוא קפיצת מדרגה בהתאמה של מודלים לצרכים מיוחדים בתחום הרפואה, עם הכשרה מוקדמת על ספרות רפואית מקיפה.

הפרויקט BioMistral מביא גישה חדשה להטמעת בינה מלאכותית ברפואה, על ידי הצגת מודל פתוח אשר אומן על מונחים רפואיים. המחקר כולל גם פיתוח של מודלים קלי משקל וטכניקות מיזוג בין מודלים שונים, המאפשרים הפעלה של מודלים מתקדמים על מכשירים צרכניים.

המודל אומן בחלקו על בסיס מיסטרל והשפעותיו על תחום הרפואה רבות, משיפור מחקר רפואי ועד להעצמת תהליכי קבלת החלטות קליניות והכנת תוכניות טיפול אישיות למטופלים. BioMistral מייצג עידן חדש של בינה מלאכותית רפואית, שבו מודלים מתמחים יכולים לענות על צרכים מורכבים של מקצועות הרפואה והמטופלים.

לקישור למודל ב huggingface לחצו כאן
לקישור למחקר לחצו כאן

8. מהפכה בשבבי AI: כיצד Groq משנה את כללי המשחק במהירות הבזק.

בעוד אחרים מנסים להתקדם על ידי פיתוח מודלי AI טובים יותר, סטארט-אפ קטן ויחסית לא מוכר בשם Groq (לא לבלבל עם Grok של אילון מאסק) הפתיע את כולם עם פיתוח שבב AI שנראה שהוא פועל הרבה יותר מהר מכל שאר השבבים שקיימים כיום בשוק.

הסטאטאפ פיתח מעבד חדש בשם Groq שהיא בעצם "יחידת עיבוד שפה" (Language Processing Unit), שלדברי המפתחים מהירה יותר מיחידות עיבוד גרפיות (GPUs) המסורתיות שמניעות את רוב מודלי ה-AI הגדולים, כמו זה שמאחורי ChatGPT. לשם השוואה, Groq מייצר בערך 500 טוקנים לשנייה, בעוד ש-ChatGPT-3.5 מייצר בסביבות 40 טוקנים לשנייה.

המהלך עשוי לבשר על דור חדש של שבבים שיפותחו במיוחד לעומסי עבודה של AI אל מול ה-GPUs שמאחורי רוב מודלי ה-AI הגדולים של היום שנבנו במקור לטיפול בגרפיקה ממוחשבת ומשחקי וידאו. לצורך ההדגמה של השבב החדש החברה הקימה אתר אינטרנט בו אפשר לנהל צ'ט עם מודלים פתוחים כגון Llama של מטה ו Mixtral.

לאתר החברה לחצו כאן

9. סטארטאפ הקול ElevenLabs משיק הצצה למודל המוזיקה שלו.

למודל יצירת הוידאו של OpenAI יש מלכוד קטן (בינתיים), הסרטונים לא מגיעים עם אודיו. מודל הווידאו החדש של OpenAI מוגבל לווידאו בלבד - כלומר אין קול. הסטארטאפ ElevenLabs ניצל את ההזדמנות וההשקה של סרטוני הוידאו של OpenAI להציג את מודל יצירת הוידאו שלהם AI Sound Effects שיפיק סאונד לקטעי וידאו על בסיס הנחיות שהוא יקבל. ElevenLabs אמרו שהם יכריזו על תאריך השחרור הרשמי בקרוב, ושיתפו כמה דוגמאות של תכונות Sound Effects על גבי הסרטונים של OpenAI.

לידיעה המקורית לחצו כאן

10. חוזה בשווי מיליונים: כיצד Reddit מנצלת את הביקוש לנתוני אימון בכדי להגדיל את הכנסותיה.

חברת Reddit חתמה על חוזה בשווי 60 מיליון דולר לשנה עם גוגל, כדי להשתמש בתוכן שבפלטפורמה לאימון מודלי הבינה המלאכותית שלה.

פוסטים ב-Reddit מהווים מקור יקר ערך לחברות הבינה המלאכותית, מכיוון שהם כוללים דירוגים אנושיים באמצעות פונקציות ההצבעה וקישורים קונטקסטואליים נוספים. שני הגורמים הללו מקלים על בחירת נתוני אימון איכותיים למודלי בינה מלאכותית. זו רק דוגמא נוספת לכלכלה חדשה ומערכת היחסים שנבנית בין יצרניות ה AI לבין גופי התוכן והמוציאים לאור כדי לקבל נתונים לאימון המודלים. בתעשייה צופים שעלות הרישוי למודלי הבינה המלאכותית עתידיים לעלות בעקבות עלויות התוכן שגדלות לצורכי אימון המודלים.

לידיעה המקורית לחצו כאן

השבוע שהיה בבינה המלאכותית היוצרת 23/02/2024

מאמרים קשורים

נושאים מרכזיים