השבוע שהיה בבינה המלאכותית היוצרת

1. חברת Lightricks מציגה כלי חדש ליצירת סרטים.

חברת Lightricks, המפתחת אפליקציות פופולריות כמו Facetune ו-Videoleap, הכריזה השבוע על כלי חדש ליצירת סרטים בעזרת בינה מלאכותית בשם LTX Studio. הכלי נועד לסייע ליוצרים החל משלב הרעיון ועד ליצירת סרטון מלא באמצעות בינה מלאכותית.

הפרומו לכלי שעוד לא פתוח לציבור מציג סטודיו שמאפשר למשתמשים להקליד רעיון לעלילה לסרטון, המוצר החדש יוצר עבור המשתמשים תסריט וסטוריבורד עם דמויות והכל באמצעות הזנת הנחיות מתאימות. הסטוריבורד מציג סצנות שונות, מחולקות למספר צילומים. המשתמשים יכולים לשנות סצנות על ידי הזנת הנחיה, שינוי הסגנון (כמו אנימה או קולנועי), שינוי הגדרות המזג אוויר שינוי המיקום תאורה ועוד. לאחר מכן הכלי מייצר קטע וידאו קצר של מספר שניות של התמונה עם התאמות אישיות כמו זוויות מצלמה, קנה מידה של תנועה, אפקטים מיוחדים ודיאלוגים של דמויות.

לאחר שהמשתמשים מסיימים עם התאמת העלילה ועריכת הצילומים, הם יכולים להציג תצוגה מקדימה של הסרט וגם לייצא את הקובץ כדי לשתף עם אחרים לקבלת משוב. החברה מתכננת להנגיש את הכלי לכלל המשתמשים בחודש הבא, ובשלב זה לא מתכוונת לגבות תשלום עבורו.

לכתבה המקורית לחצו כאן

2. הסטארטאפ Ideogram משחרר גרסה רשמית ראשונה 1.0.

חברת הסטארטאפ Ideogram 1.0 מציגה גרסה חדשה ומשופרת מודל יצירת התמונות שלהם שאחד היתרונות המרכזיים שלו הוא היכולת לשלב טקסט ללא שגיאות בתמונות שהמודל יוצר. לפי הפרסום של החברה המודל החדש מציג יכולת יצירת טקסט אמינה שמפחיתה את שיעור השגיאות בטקסט כמעט לחצי בהשוואה ל-DALL-E 3 ואשר מתמודדת טוב יותר עם הנחיות הכוללות טקסט מ-Midjourney.

המודל החדש תומך ביצירת תמונות במגוון רחב של יחסי גודל וסגנונות, מפוטוריאליסטיים ועד אמנותיים יותר. התכונה החדשה "Magic Prompt" של Ideogram מאפשרת שכתוב אוטומטי של פרומפט קצר לתיאור תמונה מפורט, דומה לאינטגרציה של DALL-E עם ChatGPT של OpenAI. בניגוד ל-DALL-E 3, ניתן לבטל את השכתוב הזה ב-Ideogram.

Ideogram הכריזה גם על גיוס נוסף של 80 מיליון דולר בסבב מימון סדרה A בהובלת Andreessen Horowitz. בסבב השתתפו גם המשקיע הקיים Index Ventures ומשקיעים חדשים כמו Redpoint Ventures, Pear VC ו-SV Angel. מרטין קסאדו, שותף כללי ב-Andreessen Horowitz, יצטרף לדירקטוריון של Ideogram.

לידיעה המקורית לחצו כאן או כאן

3. הטכנולוגיה שמביאה תמונות לחיים באמצעות שירה ודיבור - EMO

חוקרים במכון לחקר הבינה המלאכותית של עליבאבא פיתחו מערכת בינה מלאכותית חדשה בשם "EMO", שמסוגלת להנפיש תמונת פורטרט יחידה וליצור סרטונים של אדם מדבר או שר באופן מרשים במיוחד.

המערכת, שתוארה במאמר מחקר שפורסם ב-arXiv, יכולה ליצור תנועות פנים זורמות וביטויים פנימיים המתאימים בקפידה לניואנסים של קטע שמע או קול מסוים. המערכת משתמשת בטכניקה ייחודית שהוכיחה יכולת נהדרת ליצירת תמונות סינתטיות ריאליסטיות. לעומת שיטות קודמות שהסתמכו על דגמי תלת-מימד של הפנים, EMO הופך באופן ישיר את גל השמע לפריימים של וידאו מתמונת סטילס אחת.

בנוסף לסרטונים של דיבוב ושיח, EMO יכולה גם להנפיש פורטרטים של שירה עם צורות פה וביטויי פנים אשר מותאמים לווקאל. המערכת תומכת ביצירת וידאו בכל משך זמן בהתבסס על אורך קטע השמע שהמודל מקבל .

לידיעה המקורית לחצו כאן
למחקר בו ניתן לצפות בדוגמאות של המודל לחצו כאן
לקוד המודל בGitHub לחצו כאן

4. חברת הוידאו Pika משלבת כוחות עםElevenLabs ליצירת ליפסינקינג.

בהמשך ישיר לידיעה הקודמת קרבות הווידאו של הבינה המלאכותית מתחממים עם הוספת יכולות ה Lip Sync ל-Pika בתמיכת של ElevenLabs. בעוד OpenAI ממשיכה להרשים עם דוגמאות חדשות ליצירת וידאו באיכות גבוהה באמצעות המודל Sora חברות יצירת הוידאו באמצעות בינה מלאכותית לא נחות: השבוע, המתחרה Pika הכריזה על שחרור תכונה חדשה למנויים המשלמים בשםLip Sync.

התכונה מאפשרת למשתמשים להוסיף דיאלוג מדובר לווידאו שלהם עם קולות שנוצרו באמצעות בינה מלאכותית בכלי של הסטארטאפ ElevenLabs, תוך הוספת אנימציה מתאימה להזזת הפה והבעות הפנים בהתאם לדיאלוג.

כפי שצוין התכונה החדשה מוגבלת כרגע ל-"גישה מוקדמת" למשתמשי Pika Pro (מנוי בעלות של 58 דולר לחודש, המחויב ל-12 חודשים מראש ב-696 דולר) או לחברים בתוכנית "שותפים" של Pika, הזמינה דרך קבוצת הדיסקורד שלה.

לידיעה המקורית לחצו כאן

5. מודל חדש מדיפמיינד משנה את כללי המשחק בעולם הגיימינג.

גוגל, או יותר נכון מעבדת ה AI של גוגל - דיפמיינד משנה את כללי המשחק בעולם הגיימינג ומציגה מודל בינה מלאכותית חדש המייצר משחקים בסגנון סופר מריו מהצגה של תמונות למודל.

המודל, בשם Genie, מסוגל לקחת תיאור קצר, סקיצה ידנית או תמונה ולהפוך אותם למשחק וידאו שניתן לשחק בו בסגנונות של משחקי פלטפורמה קלאסיים כמו סופר מריו ועוד. Genie הוכשר על 30,000 שעות וידאו של מאות משחקי פלטפורמה שנלקחו מהאינטרנט.

בניגוד לדוגמאות אחרות, Genie הוכשר רק על ידי צפייה בקטעי וידאו, ללא צורך בפעולות קלט נוספות. גרסאות עתידיות של Genie עשויות לרוץ מהר יותר, עם הגעה ל-30 פריימים לשנייה. חוקרי דיפמיינד מתעניינים לא רק ביצירת משחקים, אלא גם בלמידה חופשית בה בוטים מבוססי בינה מלאכותית "מושלכים" לסביבה וירטואלית ומתמודדים עם משימות שונות באמצעות ניסוי וטעייה.

לידיעה המקורית לחצו כאן

6. מיקרוסופט משיקה את Copilot למחלקות הפיננסיים.

מיקרוסופט משיקה את 'Copilot for Finance', עוזרת AI למקצועות הכספים, שנועדה לשנות את העבודה עם Excel. מטרת העוזר החדש היא לסייע לצוותי מחלקת הכספים להפוך ליעילים יותר על ידי אוטומציה של משימות ניהול וניתוח נתונים מייגעות ולסייע בחיפוש המידע הנכון במאגר הנתונים הפיננסיים שרק הולך וגדל.

הכלי - Copilot for Finance מבוסס על טכנולוגיית Copilot של מיקרוסופט ששוחררה בשנה שעברה ויכול למשוך נתונים ממערכות פיננסיות ולהציע הצעות ישירות בתוך אפליקציות מבוססות Microsoft 365 כמו Excel ו-Outlook. הוא מתמקד בשלושה תרחישים פיננסיים עיקריים - ביקורות, גביה וניתוח סטיות בנתונים.

זהו צעד אסטרטגי של מיקרוסופט להשגת יתרון על פני מתחרים, עם פוטנציאל לסייע למקצוענים בתחום הכספים בארגונים בכל הגדליםף לשפר את פעילותם ואף להפחית עלויות ניהול פיננסיות. עם זאת, מערכות המונעות על ידי בינה מלאכותית כמו Copilot מעלות גם סיכונים פוטנציאליים בנושאי פרטיות נתונים, אבטחה וציות. מיקרוסופט מציינת שננקטו צעדים משמעותיים להפחתת של חששות אלו.

לידיעה המקורית לחצו כאן

7. חדשנות צרפתית: Mistral מציגה מודל שפה רב-לשוני חדש וגדול מקודמיו.

חברת ה-AI הצרפתית Mistral השיקה את מודל השפה הגדול ביותר שלה עד כה, Mistral Large, עם חלון הקשר של 32000 טוקנים, ומייצבת את עצמה כמתחרה האירופית המשמעותית ביותר ל GPT-4 של OpenAI.

המודל החדש מתאים למשימות רב-לשוניות מורכבות, כולל הבנת טקסט, המרת טקסט ויצירת קוד. הוא מגיע לתוצאות טובות בבנצ'מרקים פופולריים והוא המודל השני הטוב ביותר הזמין באופן כללי דרך API (אחרי GPT-4) בבנצ'מרק ההבנה של שפה MMLU.

היתרון המשמעותי ביותר כרגע של Mistral היא ביכולת שלו לתת דגש להבדלים התרבותיים והמגוון הלשוני של מדינות אירופה אל מול המודלים האמריקאים (גוגל פייסבוק,OpenAI). המודל שולט באנגלית, צרפתית, ספרדית, גרמנית ואיטלקית ולפי Mistral, יש לו "הבנה מורכבת של דקדוק והקשר תרבותי".

החרון היחיד הוא כמובן בחלון ההקשר שכרגע נמוך משמעותית אל מול המתחרים שהציגו חלונות הקשר של 128000 עד מיליון טוקנים של ג'ימיני של גוגל. במקביל הכריזו השבוע ב Mistral על שותפות אסטרטגית עם מיקרוסופט ועל אפליקציית צ'אט חדשה. במסגרת השותפות, Mistral תקבל 16 מיליון דולר מהחברה בראשות סטיה נאדלה, וכל דגמיה הפתוחים והמסחריים, כולל הדגם הגדול החדש, יהיו זמינים ב-Azure AI Studio וב-Azure Machine Learning..

לידיעה המקורית לחצו כאן

8. מהפכה של ממש ביצירה ועיצוב תמונות מבוססות בינה מלאכותית יוצרת!

עריכת תמונות מבוססת בינה מלאכותית ופרומפטים עובדת התפתחות מהירה החודשים האחרונים. עם זאת, ביצוע בו-זמנית של מספר פעולות עריכה בתמונה בודדת, כגון החלפת רקע ושינויים ספציפיים במאפייני הנושא בתמונה, יצירה של מספר שכבות ועריכה באמצעות AI תוך שמירה על עקביות בין הנושא לרקע נותרה מאתגרת מאד. את כל זה ועוד פותר בחור בשם Lvmin Zhang (lllyasviel) שהוא במקרה גם המפתח של ControlNet.

LayerDiffusion היא שיטה חדשה ליצירה ועריכה של תמונות שמאפשרת הפרדה של חלקים שונים בתמונה לשכבות שונות על רקע שקוף. המודל ממנף את מודל הדיפוזיה המוכר ליצירה של תמונה מטקסט בקנה מידה גדול, אך הוא עושה שימוש באסטרטגיית אופטימיזציה מבוקרת בשכבות בשילוב אימון דיפוזיה בכדי להגיע לתוצאה הרצויה.

תוצאות הניסוי שנערכו עם המודל מדגימות את האפקטיביות של השיטה ביצירת תמונות קוהרנטיות ביותר המתאימות באופן הדוק לתיאור הטקסטואלי הנתון. התמונות הערוכות שומרות על דמיון גבוה לתכונות תמונת הקלט ועולות על הביצועים של שיטות עריכת תמונות מובילות כיום. LayerDiffusion פותחת אפשרויות חדשות לעריכת תמונות ניתנת לשליטה, וכפי שהוא עשה מהפכה עם ControlNet בשליטה על ההעמדה של דמויות ואלמנטים בתמונה אין ספק שהפיתוח החדש יעשה מהפכה שלמה ביכולת לעצב ולהרכיב תמונות בצורה עצמאית. זה הולך להיות Game Changer בכל ממשקי ה Workflow של Stable Diffusion.

לקישור למחקר לחצו כאן
לקוד ב GitHub לחצו כאן

9. דנוב - הפתרון החדשני של H2O AI ליישומי AI עצמאיים בסמארטפונים.

אני כבר מזמן אומר שהעתיד הוא במודלי שפה קטנים ויעילים, מודל חדש כזה הוצג השבוע על ידי חברת H2O AI אשר מציגה מודל שפה גדול (LLM) קטן במיוחד ליישומים ניידים.

המודל דנוב קטן הוא בהיקף של 1.8 מיליארד פרמטרים הוא נועד לפעול באופן מקומי על מכשירים ניידים בצורה מהירה וללא צורך בחיבור לענן. הוא משווה או מקדים מודלים בגודל דומה במשימות שפה טבעית ונחשב לחלופה חזקה למודלים של Microsoft ואחרים.

דנוב נבנה ואומן באמצעות טכניקות דומות לאלו של למה 2 של מטא ומיסטרל הצרפתי והוא מתוכנן לשימושים כגון הבנת קריאה, סיכום ותרגום. הוא מיג ביצועים ברמה גבוהה כאשר במבחן הבנת השפה הטבעית Hellaswag הוא הגיע לדיוק של 69.58%. חברת H2O משחררת את דנוב תחת רישיון Apache 2.0 לשימוש מסחרי ומתכננת להוציא כלים נוספים לעזרה ביישום המודל במכשירים ניידים. המודל זמין להורדה ב-Hugging Face וניתן לאמן אותו ליישומים ספציפיים.

לידיעה המקורית לחצו כאן

10. העתיד הוא כאן: רובוטים הומנואידיים מונעים בבינה של OpenAI.

חברת הרובוטיקה Figure חותמת על סבוב גיוס הון חדש של 675 מיליון דולר ומתכננת שיתוף פעולה עם OpenAI לשילוב מודלי השפה של החברה ברובוטים ההומנואידיים שלה. המטרה היא להאיץ את זמן העבודה בשוק על ידי שילוב מודלים המסוגלים לטפל בבעיות שפה טבעית ולהגיע למסקנות לוגיות.

רובוטים הומנואידיים של Figure זוכים לשילוב השקעות מחברות מובילות בתחום הAI כגון Microsoft, Nvidia, OpenAI ו-Jeff Bezos.

לידיעה המקורית לחצו כאן

השבוע שהיה בבינה המלאכותית היוצרת 29/02/2024

מאמרים קשורים

נושאים מרכזיים