פרס הקרן של Arc מציג מבחן חדש לאינטליגנציה מלאכותית

השקת מבחן ARC-AGI-2

קרן Arc Prize, ללא כוונת רווח שהוקמה על ידי החוקר הבולט בתחום הבינה המלאכותית פרנסואה שולט, הודיעה בבלוג שלה על השקת מבחן חדש ומאתגר שמטרתו למדוד את האינטליגנציה הכללית של מודלים AI מובילים. המבחן החדש, הנקרא ARC-AGI-2, עד כה הכשיל את רוב המודלים. מודלים המרכזים את "ההיגיון", כמו o1-pro של OpenAI ו-R1 של DeepSeek, מקבלים ציונים בין 1% ל-1.3% במבחן ARC-AGI-2 לפי לוח התוצאות של Arc Prize. מודלים חזקים שאינם נסמכים על היגיון, כגון GPT-4.5, Claude 3.7 Sonnet וג'מיני 2.0 פלאש, משיגים ציונים סביב 1%.

מבנה מבחן ARC-AGI-2

מבחני ARC-AGI מכילים בעיות דומות לפאזלים, שבהן על AI לזהות דפוסים חזותיים מקבוצת ריבועים בצבעים שונים וליצור את גריד התשובות הנכון. הבעיות תוכננו כדי לאלץ את ה-AI להסתגל לבעיות חדשות שהוא לא נתקל בהן בעבר. קרן Arc Prize אפשרה ליותר מ-400 אנשים לעבור את המבחן כדי לקבוע רף אנושי. בממוצע, קבוצות של אנשים הצליחו לענות נכון על 60% משאלות המבחן — תוצאה טובה בהרבה משאר המודלים.

שיפורים במבחן החדש

בשיחה ברשת החברתית X, שולט טוען כי ARC-AGI-2 הוא מדד טוב יותר לאינטליגנציה האמיתית של מודל AI מאשר המבחן הקודם, ARC-AGI-1. מבחני הקרן נועדו להעריך אם מערכת AI יכולה לרכוש מיומנויות חדשות ביעילות, מחוץ לנתונים שעליהם אומנה. שולט ציין כי בניגוד ל-ARC-AGI-1, המבחן החדש מונע ממודלים להסתמך על "כוח גולמי" – שימוש משמעותי בכוח מחשוב כדי למצוא פתרונות.

אתגרים נוספים במבחן

כחלק משיפוט תהליך ההערכה, ARC-AGI-2 מציגה מדד חדש: 효율יות. בנוסף, המבחן דורש ממודלים לפרש דפוסים על המקום ולא להסתמך על זיכרון. גрег קמרדט, מייסד שותף בקרן Arc Prize, טוען כי "אינטליגנציה אינה מוגדרת רק על ידי היכולת לפתור בעיות או להשיג ציונים גבוהים". ההגעה להצלחה במבחן חלה על השירותים לעלות של רכישת המיומנויות והשגת הפתרונות.