מודל Add-it החדש של אנבידיה מוסיף אובייקטים לתמונות בקלות
הצגת Add-it בכנס ICLR 2025
צוות חוקרים מ-NVIDIA, אוניברסיטת תל אביב ואוניברסיטת בר אילן הציג את Add-it, מחולל תמונות חדשני, במהלך כנס הבינה המלאכותית ICLR 2025 המתקיים בסינגפור. מודל זה מסוגל להוסיף מגוון רחב של פריטים לתמונות אמיתיות או כאלה שנוצרו על ידי בינה מלאכותית, ללא צורך באימון מיוחד או אופטימיזציה.
אתגר ההוספה של אובייקטים
בעוד שישנם מודלים רבים של AI ליצירת תמונות, הוספת אובייקטים מציבה אתגר משמעותי. אובייקטים כמו פריטי לבוש, לוגואים ובעלי חיים צריכים להשתלב באופן טבעי בתמונה הקיימת. Add-it מציע פתרון חדשני על בסיס מנגנון "קשב" (attention) שמבצע דיפוזיה של טקסט-לתמונה (text-to-image diffusion) מתוך שלושה מקורות: התמונה המקורית, פרומפט הטקסט והשינוי המתבצע, והתמונה הסופית.
יתרונות הגישה החדשה
החוקרים טוענים כי גישה זו מבטיחה עקביות ומיקום ריאליסטי של האובייקטים בתמונה. הם פיתחו "מדד יכולת ההוספה" (Additing Affordance Benchmark) כדי להעריך את סבירות המיקום של האובייקטים המתווספים. פרופסור גל צ'צ'יק, מנהל מרכז מחקרי הבינה המלאכותית של NVIDIA בישראל, הדגיש כי הוספת פריטים חדשים דורשת איזון בין שמירה על הסצנה המקורית לבין שילוב הפריטים החדשים במקומות מתאימים.
תוצאות מחקרי ההשוואה
בבדיקות שנערכו, נמצא כי בני אדם העדיפו את התוצאות שהתקבלו באמצעות Add-it על פני שיטות אחרות ב-80% מהמקרים. להרחבת ידע נוסף על Add-it, ניתן לבקר בעמוד הבית הרשמי וב-GitHub וכן לקרוא את עבודת המחקר המלאה ב-arXiv.
לסיכום, Add-it מהווה צעד משמעותי בתחום עריכת התמונות בעזרת בינה מלאכותית, ומכשיר את הדרך לשיפור חווית המשתמש בהוספת אובייקטים לתמונות בקלות וביעילות