רוצים להכשיר את העובדים שלכם? בואו נדבר
רוצים להטמיע AI בחברה שלכם? בואו נדבר
רוצים להטמיע AI בחברה שלכם? בואו נדבר
רוצים להישאר מעודכנים? הצטרפו לקבוצת הווצאפ שלנו
רוצים להכשיר את העובדים שלכם? בואו נדבר
רוצים להטמיע AI בחברה שלכם? בואו נדבר
רוצים להטמיע AI בחברה שלכם? בואו נדבר
רוצים להישאר מעודכנים? הצטרפו לקבוצת הווצאפ שלנו
רוצים להכשיר את העובדים שלכם? בואו נדבר
רוצים להטמיע AI בחברה שלכם? בואו נדבר
רוצים להטמיע AI בחברה שלכם? בואו נדבר
רוצים להישאר מעודכנים? הצטרפו לקבוצת הווצאפ שלנו
רוצים להכשיר את העובדים שלכם? בואו נדבר
רוצים להטמיע AI בחברה שלכם? בואו נדבר
רוצים להטמיע AI בחברה שלכם? בואו נדבר
רוצים להישאר מעודכנים? הצטרפו לקבוצת הווצאפ שלנו
רגע מוכר לכולם
בבוקר, כשאתם מנסים להחליט איזו קפסולת קפה לשים במכונה, אתם אולי טועמים שתיים-שלוש לגימות ואז בוחרים את זו שמרגישה הכי מתאימה ליום עמוס. שני הסוגים נראים דומים, אבל אחד מהם נותן לכם את ה"בוסט" המדויק שהייתם צריכים. ברגע הזה אתם, בלי לשים לב, מבצעים השוואה שיטתית בין אפשרויות דומות כדי להחליט מי מנצחת.
מהי תחרות בין מודלים?
תחרות בין מודלים, או Model Benchmarking, היא תהליך שבו שמים כמה מודלי בינה מלאכותית על אותו קו זינוק ומודדים מי מהם נותן את התוצאה הטובה ביותר באותם תנאים. זה קצת כמו מבחן סטנדרטי בבית ספר: כולם מקבלים את אותה עבודה, ונמדדים לפי אותם קריטריונים. התחרות נעשית עם נתונים זהים וציונים ברורים, כך שאפשר לדעת מי באמת חכם יותר למשימה הספציפית. המטרה היא לקבל תשובה אובייקטיבית, לא תחושת בטן.
כמו תחרות טעימות עיוורת
תחשבו על ערב של טעימות יין שבו מכסים את הבקבוקים, ואתם צריכים לדרג רק לפי הטעם והארומה. אף אחד לא מושפע מהתווית או מהמחיר, ורק אחרי שדירגתם מגלים איזה יין ניצח. כך בדיוק עושים לבנצ'מארק של מודלים: מסתירים מהם מידע מזהה, נותנים להם "לטעום" את אותן שאלות או משימות, ואז משווים את הציונים שהם קיבלו. ההתמקדות היא באיכות התשובה, לא בשם המותג. זה מאפשר בחירה נטולת הטיות, המבוססת על ביצועים בלבד.
למה זה חשוב לכם?
אם אתם משתמשים בכלים כמו GPT-4, Midjourney או כל צ'אטבוט אחר כדי לכתוב, לתרגם או לייצר תמונות, ההבדלים הקטנים בין מודלים יכולים לשנות את איכות התוצאה באופן דרמטי. מודל אחד יציע נוסח מדויק בעברית, בזמן שמודל אחר יפיק טקסט עשיר אך פחות מאורגן. בנוסף, חלק מהמודלים מהירים וזולים יותר, וחלק חזקים במיוחד בשפה או בסגנון מסוים. כשאתם יודעים איך להשוות, אתם מפסיקים לבחור רק לפי השם המוכר ומתחילים לבחור לפי התאמה אמיתית לצרכים שלכם.
תחרות מסודרת גם חושפת נקודות תורפה: אולי מודל מפורסם נופל דווקא בניסוח תקני, או שמודל חדש וזול מצטיין במטלות ספציפיות כמו כתיבת קוד. ברגע שהנתונים מונחים על השולחן, קל לנהל מו״מ על עלויות רישוי, לבחור את הכלי המתאים לפרויקט הבא או לשלב כמה מודלים יחד כדי לקבל את הטוב משני העולמות. בקיצור, Benchmarking חוסך זמן, כסף ותסכול.
איך תוכלו לעשות את זה בעצמכם?
בחרו משימה יומיומית שחשובה לכם, למשל ניסוח מייל מכירה או סיכום כתבה, והכינו קובץ עם 5-10 דוגמאות זהות שיישלחו לכל מודל. הגדירו מראש קריטריונים ברורים: דיוק, סגנון, אורך וזמן תגובה. הריצו את אותה משימה בכל כלי, העבירו את התוצאות בטבלה פשוטה ודרגו בלי לדעת מי כתב מה (הסתירו כותרות ומזהים). בסוף, חשפו את השמות וראו מי קיבל את הניקוד הגבוה. כך, בפחות משעה, יש לכם הוכחה חותכת איזה מודל מתאים ביותר לצרכים שלכם.
כשמדדי הבנצ'מארק פוגשים את שיחת הזום של הבוקר
אתם יושבים מול ChatGPT ומחכים שיכתוב לכם פתיח רענן למצגת, ומגלים שהגרסה שבה השתמשתם אתמול זרמה, אבל היום נדמה שהיא הולכת סחור-סחור. הנתונים מהבנצ'מארק כבר הזהירו שהמודל הזה מאבד דיוק כשמבקשים ממנו שפה צבעונית, אולם רק ברגע שבו אתם מתוסכלים מול המסך המספרים מקבלים משמעות אישית. אותם ציוני "דיוק סגנוני" או "עקביות הקשר" שראיתם בטבלאות הם למעשה אותות אזהרה קטנים על הבאג היומיומי שאתם חווים כעת. הידיעה הזאת הופכת את המעבר למודל חלופי, או אפילו לחזרה לגרסה קודמת, לאקט מחושב ולא להגרלה.
למה Claude זוכר הוראות וג׳נרטור תמונות דווקא מתבלבל?
בבנצ'מארק מדדו ל-Claude יתרון נאה ב"יכולת מעקב אחר הקשר ארוך", ולכן כשהוא מצטיין בשמירת הנחיות מורכבות אתם מרוויחים שעה בעריכת מאמרים. לעומת זאת, Midjourney מפגין ניקוד גבוה ב"יצירתיות חזותית" אך בינוני ב"צייתנות לטקסט". מכאן מגיעות הסיטואציות שבהן תבקשו בקפדנות "דמות עם כובע אדום" ותקבלו קסדה ורודה, פשוט כי במבחן הרשמי הכובע נעלם גם שם. ברגע שמבינים שההתנהגות הזאת צפויה ונמדדה מראש, החוויה עוברת ממסתורין מתסכל ל"אה, זה בדיוק מה שהגרף הראה".
הפער בין ציון מעבדה לשטח – ואיך לגשר עליו
ציוני הבנצ'מארק נמדדים לרוב על סט שאלות קצר ויציב, בעוד שבשיח אמיתי אתם משנים כיוון, מוסיפים קונטקסט ויוצקים רגש. לכן, גם מודל שקיבל דירוג גבוה על "דיוק תחבירי" עלול להיתקע כששולחים לו פסקה בעברית עם סלנג ואנגלית מעורבת. ההבנה הזאת מסבירה למה כדאי להוסיף לבדיקות הביתיות שלכם טקסטים שמדמים בדיוק את הכתיבה של הצוות, את אורך הפוסטים בפייסבוק ואת השאלות הלא־מסודרות מוואטסאפ. כשאתם רואים שהתוצאות בבנצ'מארק ובניסוי הפרטי חופפות, אתם יודעים שיש לכם התאמה "עוברת שטח". כשנוצר פער, הוא מאותת שהקריטריון הנכון לא נבחר, לאו דווקא שהמודל חלש.
להפוך מספרים לפעולה: שגרה קטנה שמחזירה שליטה
במקום להיתקע עם מודל יחיד ולקוות לטוב, אמצו כלל אצבע: בכל משימה חדשה הפעילו שני מודלים שמתחרים בקטגוריה הרלוונטית, גם אם אחד מהם מרגיש לכם "מספיק טוב". אחרי שצוברים כמה השוואות, המודל שמנצח ברצף מקבל מעמד ברירת מחדל, והשני נשמר כגיבוי כשמתגלים קצרים. שיטה זו חוסכת זמן התמזמזות עם פרומפטים מיותרים ומקצרת את הנתיב לתוצאה סופית. במקביל, פעם בחודש הריצו "יום מבחן" זריז: אותה משימה קצרה על כל גרסה חדשה שיצאה. כך אתם מעדכנים את המפה מבלי להשקיע שעות, ומבטיחים שהביצועים במעבדה עדיין מייצגים את הצרכים החיים שלכם. לאורך זמן, ההתמדה בשגרה הקצרה הזאת מתורגמת לשקט נפשי: אתם יודעים מתי להחליף סוס דוהר, ומתי פשוט להדק את האוכף.