פרס הקרן של Arc מציג מבחן חדש לאינטליגנציה מלאכותית
השקת מבחן ARC-AGI-2
קרן Arc Prize, ללא כוונת רווח שהוקמה על ידי החוקר הבולט בתחום הבינה המלאכותית פרנסואה שולט, הודיעה בבלוג שלה על השקת מבחן חדש ומאתגר שמטרתו למדוד את האינטליגנציה הכללית של מודלים AI מובילים. המבחן החדש, הנקרא ARC-AGI-2, עד כה הכשיל את רוב המודלים. מודלים המרכזים את "ההיגיון", כמו o1-pro של OpenAI ו-R1 של DeepSeek, מקבלים ציונים בין 1% ל-1.3% במבחן ARC-AGI-2 לפי לוח התוצאות של Arc Prize. מודלים חזקים שאינם נסמכים על היגיון, כגון GPT-4.5, Claude 3.7 Sonnet וג'מיני 2.0 פלאש, משיגים ציונים סביב 1%.
מבנה מבחן ARC-AGI-2
מבחני ARC-AGI מכילים בעיות דומות לפאזלים, שבהן על AI לזהות דפוסים חזותיים מקבוצת ריבועים בצבעים שונים וליצור את גריד התשובות הנכון. הבעיות תוכננו כדי לאלץ את ה-AI להסתגל לבעיות חדשות שהוא לא נתקל בהן בעבר. קרן Arc Prize אפשרה ליותר מ-400 אנשים לעבור את המבחן כדי לקבוע רף אנושי. בממוצע, קבוצות של אנשים הצליחו לענות נכון על 60% משאלות המבחן — תוצאה טובה בהרבה משאר המודלים.
שיפורים במבחן החדש
בשיחה ברשת החברתית X, שולט טוען כי ARC-AGI-2 הוא מדד טוב יותר לאינטליגנציה האמיתית של מודל AI מאשר המבחן הקודם, ARC-AGI-1. מבחני הקרן נועדו להעריך אם מערכת AI יכולה לרכוש מיומנויות חדשות ביעילות, מחוץ לנתונים שעליהם אומנה. שולט ציין כי בניגוד ל-ARC-AGI-1, המבחן החדש מונע ממודלים להסתמך על "כוח גולמי" – שימוש משמעותי בכוח מחשוב כדי למצוא פתרונות.
אתגרים נוספים במבחן
כחלק משיפוט תהליך ההערכה, ARC-AGI-2 מציגה מדד חדש: 효율יות. בנוסף, המבחן דורש ממודלים לפרש דפוסים על המקום ולא להסתמך על זיכרון. גрег קמרדט, מייסד שותף בקרן Arc Prize, טוען כי "אינטליגנציה אינה מוגדרת רק על ידי היכולת לפתור בעיות או להשיג ציונים גבוהים". ההגעה להצלחה במבחן חלה על השירותים לעלות של רכישת המיומנויות והשגת הפתרונות.
הקרן מפרסמת תחרות חדשה
עם הגעת ARC-AGI-2, קרן Arc Prize הכריזה גם על תחרות חדשה לשנת 2025, מאתגרת מפתחים להשיג דיוק של 85% במבחן ARC-AGI-2 תוך הוצאה של 0.42 דולר לכל משימה.
סיכום
הגעת מבחן ARC-AGI-2 מעלה שיח משמעותי בתעשיית הטכנולוגיה על הצורך בבדיקות חדשות, לא משוחות, כדי למדוד את ההתפתחות של הבינה המלאכותית.
תגיות
#אינטליגנציה מלאכותית #AI #בינה מלאכותית #פרס קרן Arc #מבחן ARC-AGI-2 #חדשנות #טכנולוגיה #פרנסואה שולט #תחרות AI
כל עוד יש שקיפות ותהליכים עדכניים, המדד החדש יכול לסייע לנו לשפר את האינטליגנציה של המודלים בתחום AI.
אני מרגישה שהמדד החדש יכול להפתיע ולשנות את דרך השקיפות והערכת האינטליגנציה של המודלים המובילים בתחום AI.
זהו תהליך חשוב שיתרחש בתחום הAI
מדד חדש ישפיע בוודאות על עולם הAI!
הישג חשוב לעולם המודלים המובילים!
מעניין לראות כיצד זה ישפיע על תחום הAI
אינטרסנט, צפוי לראות שינויים בעניין AI
מעניין מאוד, תודה על הפוסט!