השבוע שהיה בבינה המלאכותית היוצרת 32

1. הכוכב התורן שמשגע את הרשת – Udio כלי ליצירת שירים ומוזיקה.

הסטארט-אפ חדש, שהוקם על ידי עובדים שפרשו מ Google DeepMind משגע את הרשת עם יצירות המוזיקה שהמודל שהם פיתחו יודע לייצר. המודל החדש יודע ליצור מוזיקה בכל סגנון על סמך קלט טקסט, החל מגוספל ובלוז ועד פופ וראפ, כולל מילים ושירה. אחת התכונות הייחודיות של Udio היא היכולת להאריך קטעי מוזיקה ולהוסיף להם פתיח וסיום מה שהופך אותם לרצועות מוזיקה מלאות Udio
המודל מבוסס על יכולת הבנה של טקסט והפיכתו למוזיקה ושירים, ככל שמוזנים למודל יותר פרטים כגון מילים, צירופי צליל וסגנון, וטעם יצירתי כך התוצאות טובות יותר.
גרסת הבטא של Udio כרגע זמינה בחינם ומאפשרת לכל משתמש ליצור עד 1,200 שירים לחודש. (עדכון – בגלל העומס כרגע משתמשים חדשים נכנסים לרשימת המתנה). הסטארטאפ שממוקם בלונדון וניו יורק, נתמך על ידי אמנים מפורסמים כמו Will.i.am ו Common, ובין המשקיעים המובילים ניתן למצוא גם את Andreessen Horowitz (a16z).
האיכות של המודל של Udio מאיימת על ההגמוניה של Suno.ai ושוב מעלה שאלות לגבי השפעתם האפשרית של מודלי המוזיקה החדשים על תעשיית המוזיקה. בכל מקרה, המחוללים החדשים נראים מתקדמים מספיק כדי להתפתח מגימיק לכלי רציני ליצירת מוזיקה, אף על פי שאופיים אקראי ועשוי להוות חיסרון למי שמחפש מענה ספציפי.

קישור לאתר - לחצו כאן

2. פיצ'ר חדש בספוטיפיי מאפשר יצירה של רשימת השמעה פרסונאלית.

לאט לאט אנו רואים יותר ויותר חברות שממשות את חלום הפרסונליזציה שדיברנו עליו כך כך הרבה בשנים האחרונות באמצעות יישומי GenAI, דוגמא טריה מהתנור היא ההכרזה של ספוטיפיי על השקת שירות חדש מבוסס GenAI למשתמשי הפרימיום בבריטניה ואוסטרליה - יצירת פלייליסטים אישיים באמצעות פקודות והנחיות טקסטואליות.

הפי'צר החדש יאפשר למשתמשים לבנות על בסיס ספריית התוכן שלהם בספטיפיי רשימת השמעה באמצעות כתיבת הנחיה הכוללת טקסט המכיל מידע כגון ז'אנר, מצב רוח, אמן, עשור, או שילוב של כל המידע הנ"ל, כדי לעשות זאת יותר מעניין אפשר גם לשלב התייחסות למיקומים גאוגרפיים, פעילויות, דמויות קולנוע, צבעים, אימוג'י. ועוד

המערכת תיצור בהתאם להנחיה פלייליסט התואם למצב רוח או למיקום בו אתם נמצאים (למשל חדר כושר). לאחר יצירת הפלייליסט, תוכל להתאים אישית את הבחירה על ידי הוספה או מחיק של שירים, כמו כן תוכל להוסיף הערות לקבלת פלייליסט מותאם יותר, כמו "יותר פופ" או "פחות עליז"- כלומר לנהל את הפלייליסט שלכם באמצעות שיח.

בספוטיפיי מדגישים שהכלי עדיין בבטא ואינו מתאים להצעות שאינן קשורות למוזיקה, כגון אירועים עכשוויים או מותגים מסוימים. פקודות פוגעניות יחסמו. אין מידע מתי "הפלייליסט AI" יהיה זמין במדינות אחרות.

לידיעה המקורית לחצו כאן

3. לאמה 3 - הדור הבא של מודלי השפה הפתוחים של מטא.

מטא השיקה היום את לאמה 3, הדור העדכני של מודל השפה שלה בקוד פתוח. המודל מגיע בשני גדלים (בשלב זה) 8 ו-70 מיליארד פרמטרים, ולדבי מטה (כמובן) הם נחשבים לטובים ביותר בקטגוריה של מודלי הקוד הפתוח עם שיפורים משמעותיים בתחומים כמו הגיון, יצירת קוד ומעקב אחר הוראות.

לאמה 3 הוכשר על יותר מ-15 טריליון טוקנים ומכיל נתונים ממעל 30 שפות. הבדיקות שמטא הציגה מראות כי לאמה 3 בעל 70 מיליארד פרמטרים עולה על מודלים סגורים כמו ג'מיני 1.5 פרו של גוגל וקלוד 3 סונט של אנתרופיק במספר בדיקות, אך עדיין נותר מאחורי המודלים המובילים כמו קלוד 3 אופוס ו-GPT-4 טורבו של OpenAI.

מטה מדגישים שזו רק ההתחלה בקרוב, יהיו זמינים מודלים נוספים של לאמה 3 עם יכולות רחבות יותר של רב לשוניות וחלון הקשר ארוך יותר, לפי מטא המודלים הגדולים ביותר יכילו מעל 400 מיליארד פרמטרים.

לידיעה המקורית לחצו כאן

4. הצ'טבוט של OpenAI שוב תופס את המקום הראשון עם גרסה חדשה ומעודכנת.

לאחר שאיבדה לרגע את ההובלה במדדי האיכות של מודלי השפה, ChatGPT של OpenAI חוזרת לראש הטבלה עם גרסה משופרת של מודל השפה שלה GPT-4 Turbo, העדכון למודל עליו מבוסס הצ'ט המוביל הושק לאחרונה והוא זמין רק למנויים בתוכניות המסחריות של Plus, Team, Enterpriseוב API. המודל החדש תומך עכשיו בעד 64,000 טוקנים, בעוד שהגרסאות הקודמות תמכו רק ב-26,000 טוקנים.

בין השיפורים הבולטים ב GPT-4 Turbo נמנים יכולות מתקדמות בחישובים מתמטיים, כתיבה, הגיון לוגי ותכנות לצד יכולת הראייה של המודל לצד יכולת לקבל מידע מהתמונות בפורמט JSON.

השקת ה-GPT-4 Turbo חשובה במיוחד לאור התחרות הגוברת מצד חברות כמו Anthropic, Cohere ו-Google, שמזנבות באופן קבוע ב OpenAI.

לידיעה המקורית לחצו כאן

5. אדובי מרחיבה את היכולות של Premiere Pro עם אינטגרציה של מודלי AI ליצירת וידאו.

אדובי חושפת חבילה של כלי AI גנרטיביים שנועדו לשפר בצורה משמעותית את תחום יצירת הוידאו באמצעות תוכנת Adobe Premiere Pro . היכולות החדשות כוללות יכולת להרחבה של וידאו, הוספה או הסרה של אובייקטים ושילוב יכולות עריכה מהירות במטרה לשפר את חוויית ההעריכה האינטואיטיבית למקצוענים ולחובבים כאחד.

בנוסף Adobe הכריזה על שיתופי פעולה עם מודלי צד שלישי מחברות כמו OpenAI, Pika Labs וRunway .

לידיעה המקורית לחצו כאן
סרטון ההכרזה לחצו כאן

6. גוגל מרחיבה את הפריסה של Gemini 1.5 Pro עם יכולות חדשות וגישה מ 180 מדינות.

גוגל מרחיבה את זמינותו של המודל Gemini 1.5 Pro ל-180 מדינות נוספות, המודל שכבר זמין חודשיים דרך Google AI Studio זמין למדינות נוספות דרך API הציבורי. המודל זכה למגוון שיפורים מתקדמים כמו הבנת אודיו טבעי ומעקב טוב יותר אחר הוראות. בנוסף, Gemini 1.5 Pro תומך עכשיו גם במודלי אודיו ווידאו אשר מאפשרים ניתוח נתונים באמצעות שילוב מספר פורמטים של מידע ונתונים.

לקישור למחקר לחצו כאן

7. גרסה חדשה למודל של אילון מאסק 1.5V Grok – יכולת להבין את העולם הפיזי.

חברת ה AI של אילון מאסק X.ai חשפה אתמול גרסה חדשה למודל הבינה המלאכותית Grok-1.5V. כמו מודלים מתחרים אחרים גם Grok הפך למולטי מודל המסוגל לעבד טקסט ותמונות גם יחד.

מודל החדש, שהושק באותה שבוע עם מודל GPT-4-turbo-vision של OpenAI, מתהדר ביכולת להבין מגוון רחב של מידע ויזואלי כמו מסמכים, דיאגרמות ותצלומים.

המודל החדש Grok-1.5V מציג יכולות משפורות במגוון תחומים, ומוביל במיוחד בהבנה של העולם הפיזי דרך הבנצ'מרק החדש שלו - RealWorldQA, שמודד את היכולת של מודלי שפה לבין את המרחב של העולם האמיתי.

במקביל לשיח המתמשך על יכולתם של מודלים אוטורגרסיביים להבין ולהגיב באופן עצמאי, Grok-1.5V מציע תובנות חדשות על כוח ההשפעה של מודלי השפה על תחום הבינה המלאכותית. המודל החדש נועד לשפר את ההבנה של העולם הפיזי, תוך קידום התחום עם יכולות חדשות לעבד מידע מהעולם האמיתי.

לידיעה המקורית לחצו כאן

8. הרובוט האנושי של בוסטון דיינמיקס נולד מחדש.

חברת הרובוטיקה בוסטון דיינמיקס הפכה את טקטיקת ההפחדה שלה למוטיב מרכזי בהכרזות שלה. הפעם זהו הכרזה על התחיה המחודשת של אטלס - הרובוט האנושי אותו היצגה לראשונה לפני 11 שנה. והמודל החדש משופר והרבה יותר מפחיד.

עם מפרקים שמסתובבים סביב עצמם, גוף חשמלי - ופרצוף שנראה כאילו נלקח ישירות מהסדרה אבודים בחלל (נטפליקס). הגרסה החשמלית של הרובוט ההומנואידי פותחה בשיתוף פעולה עם הונדאי והיא מציעה טווח תנועה גדול יותר מקודמיו, עם שיפורים בתכנון שנועדו לאפשר עבודה יעילה בסביבה המותאמת לבני אדם. בנוסף, הרובוט מצויד בתוכנת Orbit לניהול ציי רובוטים, ומשלבת מודלי AI חדשים אשר יסייעו לו להתמודדות עם מצבים מורכבים. העדכון היה הכרחי לאור התחרות עם רובוטים הומנואידיים אחרים, כמו אופטימוס בוט של אלון מאסק

לידיעה המקורית לחצו כאן

לסרטון ההכרזה לחצו כאן

9. באיחור אופנתי אל מול התחרות מיקרוסופט מציגה את VASA-1מודל חדש ליצירת דמויות מדברות.

פרויקט חדש מבית מיקרוסופט, אתמול החברה פרסמה מודל ליצירת דיבוב ותנועות פנים בשם VASA-1, המודל החדש מאפשר יצירת פנים מדברות תוך שילוב של תמונה בודדת וקובץ אודיו אחד. המודל מצליח ליצר תנועות פה טבעיות, ביטויי פנים ותנועות ראש כמעט בזמן אמת, ומבטיח סינכרון מדויק של השפתיים עם האודיו.

המודל החדש VASA-1 מיצר תמונות של תנועות הפנים והראש, ואחר כך הופך אותם לוידאו תוך שימור המראה והדינמיקה של הפנים. המודל אומן על נתוני וידאו רבים ומציג איכות וידאו גבוהה במיוחד של עד 40 פריימים לשניה.

היישומים הפוטנציאליים של VASA-1 רבים וכוללים שיפור תקשורת דיגיטלית, תמיכה בלמידה מבוססת AI וסיוע בפעילויות תמיכה וטיפול. חוקרי מיקרוסופט רואים במודל החדש צעד חשוב לקראת יצירת אווטרים דיגיטליים מבוססי AI שיכולים לתקשר עם בני אדם בצורה טבעית ואינטואיטיבית.

לידיעה המקורית לחצו כאן

9. באיחור אופנתי אל מול התחרות מיקרוסופט מציגה את VASA-1מודל חדש ליצירת דמויות מדברות.

פרויקט חדש מבית מיקרוסופט, אתמול החברה פרסמה מודל ליצירת דיבוב ותנועות פנים בשם VASA-1, המודל החדש מאפשר יצירת פנים מדברות תוך שילוב של תמונה בודדת וקובץ אודיו אחד.

המודל מצליח ליצר תנועות פה טבעיות, ביטויי פנים ותנועות ראש כמעט בזמן אמת, ומבטיח סינכרון מדויק של השפתיים עם האודיו.

המודל החדש VASA-1 מיצר תמונות של תנועות הפנים והראש, ואחר כך הופך אותם לוידאו תוך שימור המראה והדינמיקה של הפנים. המודל אומן על נתוני וידאו רבים ומציג איכות וידאו גבוהה במיוחד של עד 40 פריימים לשניה.

לידיעה המקורית לחצו כאן

השבוע שהיה בבינה המלאכותית היוצרת 32 - 18/04/2024

מאמרים קשורים

נושאים מרכזיים