השבוע שהיה בבינה המלאכותית היוצרת 33

1. אפל משחררת סדרה חדשה של מודלים בטוחים בקוד פתוח.

בשקט יחסי אפל השיקה סדרה של מודלי שפה בקוד פתוח בשם OpenELM, לדברי אפל מטרתם להגדיל יעילות ודיוק תוך שימוש בפחות נתונים להכשרה. שמונת המודלים ב-OpenELM מגיעים בשתי גרסאות : ארבעה כ"מאומנים מראש" - בעצם גרסה גולמית, של המודלים (OpenELM-270M, OpenELM-450M, OpenELM-1_1B, OpenELM-3B) וארבעה שתוכננו לעקוב אחר הוראות בצורה טובה יותר והם אידיאליים לפיתוח עוזרי AI ו צ'אט בוטים (OpenELM-270M-Instruct, OpenELM-450M-Instruct, OpenELM-1_1B-Instruct, OpenELM-3B-Instruct)

המוקד של אפל במודלים אלו היא היכולת לשלב אותם במוצרי אפל כגון סירי ואפליקציות נוספות, תוך שמירה על פרטיות המשתמשים.

פרטים נוספים על אסטרטגיית ה-AI של אפל צפויים להתפרסם בכנס המפתחים שלהם.

קישור לידיעה המקורית - לחצו כאן
קישור למחקר - לחצו כאן

2. מיקרוסופט משחררת את הגרסה השלישית של המודל הקטן והחכם שלה – פאי 3.

אני חוזר על זה בכל ידיעה, העתיד נמצא במודלים הקטנים (SLM’s) ובמיקרוסופט מקשיבים 😊.

בשבוע החולף מיקרוסופט הכריזה על השקת מודל שפה חדש בסדרת Phi הפעם גרסה מספר שלוש. המודל בעל שלושה מיליארד פרמטרים, מספק יכולות חשיבה מתקדמות בעלות נמוכה. המודל פותח על ידי Microsoft Research ונועד לשימוש עסקי דרך פלטפורמת Azure AI מה שמוכיח שמיקרוסופט היא לא רק מפיצה של מודלים מבית OpenAI אלא עוסקת גם במחקר ופיתוח של מודלים עצמאית.

המודל Phi-3 פותח נבנה תוך שמירה על עקרונות AI אחראיים, כולל סינון נתונים מהטיות ותוכן פוגעני. השילוב של המודל בפלטפורמת Azure מאפשר לעסקים לנצל טכנולוגיה זו לשיפור אפליקציות ושירותים. היכולת להתאים אישית את המודל לתחומים ספציפיים מבטיחה ניצול מקסימלי של AI תוך שמירה על פרטיות ובטיחות נתונ המשתמשים והארגון.

ההשקה של Phi-3 נועדה לשמר את המעמד של מיקרוסופט אל מול מבול המודלים הפתוחים של גוגל, מטא, מיסטרל ועוד.

לידיעה המקורית לחצו כאן
קישור למחקר לחצו כאן

3. גרסה 3 של מודל יצירת התמונות של Stability AI שוחרר לפיתוח ויצירת תמונות.

הדור השלישי של מודל יצירת התמונות של Stable Diffusion זמין החל משבוע שעבר למפתחים דרך ממשק ה API של החברה. שתי הגרסאות החדשות Stable Diffusion 3 ו- Stable Diffusion 3 Turbo נאמנות יותר להנחיות של המשתמש ויוצרות טקסט (טיפוגרפיה) באיכות הרבה יותר טובה, לטענת המפתחים טובה יותר מזו של DALL-E 3 ו-Midjourney v6

הארכיטקטורה החדשה של Multimodal Diffusion Transformer (MMDiT) משתמשת בקבוצות נפרדות של משקלים לייצוגי תמונה ושפה, מה שמשפר את הבנת הטקסט ואת יכולות האיות בהשוואה לגרסאות קודמות של Stable Diffusion.

בנוסף, Stability AI הכריזה על פלטפורמה חדשה ליצירת תוכן בשם Stable Assistant Beta, שם יהיו זמינים Stable Diffusion 3 ודגמים נוספים. Stable Assistant Beta, מהווה צ'אטבוט ידידותי שיהיה זמין למנויים משלמים ויאפשר גישה למודלים של SDבאמצעות שיח.

לידיעה המקורית לחצו כאן

4. אדובי משחררת את Firefly 3 ואפשרויות חדשות בפוטושופ.

Adobe משיקה כלים חדשים של בינה מלאכותית גנרטיבית בתוכנת Photoshop, כולל כלי הנקרא "תמונת מקור או ייחוס", המאפשר למשתמשים להעלות תמונות ולהשתמש בהן כהשראה לעיצובים. הכלים החדשים, מופעלים על ידי המודל השלישי של Firefly מודל יצירת התמונות של Adobe, אשר זמינים כבר מהשבוע באפליקציית הבטא של Photoshop ויהיו זמינים לקהל הרחב "מאוחר יותר השנה".

בנוסף, אפשרויות נוספות כוללות יכולת ליצור רקע או לשנות רקע קיים בתמונה, כלי לשיפור וחידוד פרטים בתמונה וכלי שמאפשר ליצור בתמונה תוכן דומה לתוכן בתמונה או בתמונת ההשראה, כל אלו כמובן לצד היכולת ליצור תמונה מלאה מתיאור טקסטואלי.

המודל השלישי של Firefly, מציע איכות יצירת תמונה גבוהה יותר מקודמו, זמין גם בבטא פומבית וגלובלית מחוץ ל-Photoshop דרך אפליקציית האינטרנט של Firefly Adobe וכאמור גם למשתמשי Photoshop.

לידיעה המקורית לחצו כאן

5. עוד מבית אדובי – מחקר חדש ומודל לשיפור איכות וידאו.

חוקרים מ-אדובי ואוניברסיטת מרילנד פיתחו מודל חדש לשיפור רזולוציה של וידאו בשם VideoGigaGAN מודל זה יכול להמיר וידאו ברזולוציה נמוכה לרזולוציה גבוהה יותר, תוך הוספת פרטים ושמירה על עקביות בין הפריימים.

בניגוד לשיטות אחרות לשדרוג וידאו שלעיתים גורמות לתוצאות מטושטשות, VideoGigaGAN מבוסס על GigaGAN שיטה הידוע ביכולת השדרוג שלה לתמונות. החוקרים פתרו בעיות כמו הבזקים ועיוותים בין פריימים בשימוש בGigaGAN באמצעות הוספת חלקים חדשים למודל ששיפרו את העקביות ואת איכות הפריימים.

בדיקות הראו ש VideoGigaGAN מאזן בין עקביות לפרטים בצורה טובה יותר משיטות קודמות, ומייצר וידאו עם פרטים רבים יותר מהאופציות המובילות כיום. המודל מגדיל את רזולוציית הווידאו פי 8 על ידי הוספת פרטים רלוונטיים לסצנה.

קישור למחקר לחצו כאן

6. חברת האווטרים synthesia משיקה מודל חדש להצגת הבעות פנים – וזה מפחיד כפי שזה נשמע.

סינתזיה בתמיכת Nvidia השיקה את הדור הרביעי של האווטארים מבוססי הבינה המלאכותית שלה והפעם הוסיפו לדמויות יכולת להציג הבעות פנים. האווטארים החדשים של סינתזיה משתמשים בטכנולוגיה דיפיוזיה דומה לזו של שאר מודלי התמונות ובמודל החדש שלהם EXPRESS-1 הם גם מציגים רגשות אנושיים בכדי להראות מעורבות גבוהה יותר בתוכן.

כזכור הטכנולוגיה של סינתזיה עוצבה לעזור לעסקים לתקשר בצורה יעילה יותר, כאשר ניתן ליצור אווטאר אישי במהירות של מספר דקות. למרות ההתמקדות בשוק העסקי, סינתזיה מציעה תוכניות חינמיות ומאפשרת יצירת אווטארים אישיים שיכולים לשפר את תקשורת גם לעסקים קטנים.

לידיעה המקורית לחצו כאן

7. מידג'רני מוסיפים פקודה חדשה ליצירת תמונות בסגנון אחיד אך רנדומלי.

עדכון חדש במידג’ני חפקודה סטייל רפרנס, אפשרות ליצור 4 תמונות עיקביות מתוך מבחר סגנונות מוכרים ב במידג’ני – הסגנון הנבחר לכל 4 התמונות יהיה רנדומלי. המשמעות היא שהאלגוריתם של מידג’רני ייצר לכם באקראי סגנון אומנותי שישלים את ההנחיה שרשמתם. זו דרך נהדרת לחקור כיוונים אומנותיים חדשים.

את הפקודה מוסיפים בסוף הפרומפט בצורה הבאה : --sref random במקום ה Url שבדרך כלל ממנחה את הגדרת הסגנון.

בזמן יצירת התמונות האלגוריתם של מידג’רני מחליף את המיל random בערך מספרי שמייצג את הסגנון. הוא יופיע לכם מעל התמונות שנוצרו בהנחיה שנשלחה למודל, לדוגמא --sref 3445926833 מספר זה יכול לשמש אתכם ליצירת תמונות נוספות באותו סגנון.

8. אמזון משיקה כלי ליצירת מוזיקה בשם "מאסטרו".

אמזון מיוזיק מציגה כלי חדש ליצירת פלייליסטים בעזרת בינה מלאכותית, מאסטרו כעת בבטא למספר משתמשים בארה"ב מאפשר למשתמשים ליצור פלייליסטים באופן אינטואיטיבי ומהנה באמצעות הזנת רעיונות, אימוג'ים או פעילות אותה אתם מבצעים (נשמע לכם מוכר – חפשו את ההכרזה של ספוטיפיי בשבוע שעבר).

מאסטרו מציע מגוון רחב של אפשרויות ליצירת פלייליסטים, כולל פרומפטים כמו "😭 ואוכל 🍝" או "היפ הופ מתקופת מייספייס", ומאפשר למשתמשים לשמור, לשתף ולהחליף פלייליסטים עם חברים.

השירות מוצע כעת למנויי אמזון מיוזיק בכל הרמות, עם תוכניות להרחבת הגישה בעתיד. מנויי אמזון אנלימיטד יכולים להאזין מיד לפלייליסטים, בעוד חברי פריים ישמעו תצוגה מקדימה של 30 שניות.

לידיעה המקורית לחצו כאן

9. ערכת כלים חדשה למפתחים בסביבה הארגונית מבית Cohere.

את Cohere לא כל כך מזכירים בישראל, אבל הוא אחד הכלים והמודלים החזקים בזירה הארגונית. השבוע הם השיקו ערכת הכלים המיועדת למפתחים ונועדה לסייע להם בבניית אפליקציות מבוססות בינה מלאכותית במהירות רבה יותר.

ערכת הכלים היא מאגר קוד פתוח של אפליקציות מוכנות, הניתנות להפעלה בסביבות שונות ומשתלבות עם מודלים של Cohere כמו Command, Embed ו-Rerank בפלטפורמות כמו AWS, Azure ועוד.

האפליקציה הראשונה שכלולה בערכה היא עוזר ידע, המחובר לנתוני הארגון ומותאם אישית לצוותים שונים, מה שיכול לשפר משמעותית את הפרודוקטיביות על ידי גישה מהירה למידע, אוטומציה של משימות ושיתוף פעולה בין חברי הצוות.

ערכת הכלים מספקת קוד מקור עם רכיבים שניתן להשתמש בהם לבניית מערכות חיפוש מתקדמות ואינטגרציה עם מקורות נתונים חיצוניים. המפתחים יכולים להתאים אישית את האפליקציות, לבנות חדשות ולתרום למאגר או לשנות את המראה והתחושה שלהם בהתאם למותג ולחברה בה הם עובדים.

לידיעה המקורית לחצו כאן

10. האפליקציה שמתרגמת בכי תינוקות ומשנה את חווית ההורות.

חברת Ubenwa Health מקנדה פיתחה אפליקציה מבוססת בינה מלאכותית המסוגלת לתרגם בכי תינוקות ולסייע להורים להבין טוב יותר את צרכי ילדיהם. האפליקציה, בשם Nanni AI, מציעה תובנות יומיומיים בהורות ומאפשרת להורים לעקוב אחר שגרת התינוק, לשלוט בלוחות זמנים של האכלות והחתלות באמצעות פקודות קוליות.

Nanni AI, כבר "תרגמה" למעלה ממיליון תינוקות לאנגלית וצרפתית, הוכשרה באמצעות אלפי הקלטות של תינוקות בוכים והיא גם יכולה לזהות סימנים לבעיות רפואיות.

המטרה של החברה היא לשפר את בריאות התינוקות ולהנגיש את הטכנולוגיה להורים ורופאים רבים ככל שניתן, תוך שילוב פתרונות ברמה הקלינית באפליקציה. האפליקציה זמינה כעת במספר מוגבל של שפות ועברית היא לא אחת מהן.

לידיעה המקורית לחצו כאן

השבוע שהיה בבינה המלאכותית היוצרת 33 - 25/04/2024

מאמרים קשורים

נושאים מרכזיים