ה breakthrough של אינטל ומכון ויצמן: טכנולוגיה חדשה מזרזת את הביצועים של מודלים מבוססי בינה מלאכותית עד פי 2.8 without קוד מחדש או מגבלות יצרן

טכנולוגיה חדשה משפרת את ביצועי מודלים של בינה מלאכותית

אינטל ומכון ויצמן מעלים את רף היכולת של מודלים בגישה חדשנית

אינטל בשיתוף פעולה עם מכון ויצמן למדע, הציגו טכנולוגיה חדשה המאפשרת למפתחים להפעיל מודלים גדולים של בינה מלאכותית במהירות גבוהה משמעותית, ללא תלות ביצרן או בשפה הפנימית של המודלים. הפיתוח הוצג בכנס ICML ונמצא בשימוש בפלטפורמת Hugging Face.

אתגרי המודלים הקיימים

מודלים כמו GPT של OpenAI, Claude של אנתרופיק וג'מיני של גוגל, מצליחים להפיק טקסטים ותשובות מורכבות, אך פועלים באיטיות ודורשים כוח חישוב רב. כל מילת פלט מחייבת "סיבוב חישוב" נפרד, מה שמוביל לעיכובים משמעותיים בזמני התגובה.

מהי האצה ספקולטיבית?

הפתרון הקיים, הידוע כהאצה ספקולטיבית (Speculative Decoding), עושה שימוש במודל קטן ומהיר כדי לחזות כמה מילים בבת אחת, בעוד המודל הגדול מאשר או דוחה את הפלט הלאה. כך מתאפשר קיצור משמעותי בזמני החישוב.

דוגמה לתהליך

למשל, בהשגת התשובה על השאלה "בירתה של צרפת היא…":

  • ללא האצה ספקולטיבית: המודל הגדול מחשב כל מילה בנפרד.
  • עם האצה ספקולטיבית: מודל קטן מנחש את המילים ומשאיר את הבדיקה למודל הגדול כשלב אחד בלבד.

הצלחה מהותית ואזור שיפור

לראשונה, הפתרון מאפשר חיבור בין מודלים שונים, גם אם פותחו בארגונים ובארכיטקטורות שונות. החוקרים תוצאותיהם מצביעות על האצה של עד פי 2.8 בזמני ריצה, מבלי לפגוע בדיוק של הפלט, וכל זאת מבלי צורך לאמן מחדש את המודלים.

אלגוריתמים חדשניים

בזכות האלגוריתמים שפותחו: SLEM, TLI ו-SLRS, התאפשרה ההאצה המהותית. המימוש זמין בספריית Transformers של Hugging Face בשימוש פעיל בקרב הקהילה.

השפעות עתידיות על המפתחים

הטכנולוגיה החדשה מאפשרת למפתחים לבחור את המודל הקטן והמהיר ביותר יחד עם המודל הגדול והמדויק ביותר ולשלב ביניהם בצורה חופשית, תוך צמצום זמני חישוב ועלויות.

כבוד בכנס ICML

מאמרם של החוקרים הוכנס לקטגוריית ההצגות בע"פ בכנס, אימות להצלחות המרשימות שלהם בתחום.

ההישג, המהווה חידוש בתחום הבינה המלאכותית, מבטיח גמישות ויעילות גדולות יותר למפתחים, עם יישומים חכמים ומהירים יותר שעתידים להיפתח בעידן הדיגיטל החדש

Scroll to Top