בכל פעם שספק AI משפטי מנסה למכור לך מערכת, יש לו שקופית עם מספר. "94% דיוק". "99% accuracy". לפעמים אפילו "100% verified".
השאלה היא לא אם המספר נכון. השאלה היא: מה בדיוק נמדד? 100% מה? של מי? נגד איזה benchmark? מתי האחרון פעם בדקתם? מי בודק כל שבוע — אתם או חברה חיצונית?
ה-eval הוא איך כלי AI מוכיח את עצמו. רוב הכלים אין להם eval פתוח, ורבים מהמספרים שאתם רואים בpitch decks הם מומצאים או נבחרו cherry-picked. המדריך הזה מסביר איך לקרוא eval כשהוא קיים, ומה לדרוש כשהוא לא.
01. שלוש המטריקות שצריך לחפש
רוב ה-evals של AI משפטי מודדים מטריקות לא-נכונות. הם מודדים "ענה נכון" — שזה מטריקה גרועה כי 'ענה' זה לא מספיק. אתם רוצים שלוש מטריקות נפרדות:
| מטריקה | מה זה אומר | יעד |
|---|---|---|
| Hallucination rate | אחוז התשובות שמכילות ציטוט מומצא | 0% |
| Out-of-scope rejection | אחוז שאלות-פיתוי (לא משפטיות) שסורבו כראוי | ≥95% |
| Verbatim promote rate | אחוז שאלות שקיבלו ציטוט verbatim מאומת | משתנה — אבל ידוע |
Hallucination rate היא המטריקה הקריטית. אם היא מעל אפס — אתם בסיכון לסנקציה. תקופה. Out-of-scope rejection בודק שהכלי יודע מתי לא לענות. Verbatim promote rate זה אחוז ה"כן ביטחון מלא" — והוא לא צריך להיות גבוה. ככל שהוא גבוה יותר, יותר חשד.
02. המלכודת של "PASS rate גבוה"
מערכת שמדווחת על 100% PASS או 95% accuracy היא דגל-אדום. כי איזה מערכת אמיתית בעולם האמיתי, על קורפוס בעברית, על שאלות משפטיות פתוחות, יודעת להגיע ל-100% תשובות נכונות? אף אחת.
איך אז יש כאלה מספרים? שלוש דרכים:
- הכלי בעצם ממציא ומסמן את ההמצאה כ"PASS" — זו ההגדרה היחידה של "להצליח"
- השאלות נבחרו לטובת הכלי (cherry-picking) — רק שאלות בתחומים שבהם הוא חזק
- "PASS" מוגדר ברישול — כל תשובה שהיא לא error נחשבת PASS
Legal Eye, ברירת מחדל, מדווח על 34% verbatim promote rate. לא 99%. 34%. תוכלו לראות את כל 50 השאלות, אחת-אחת, עם cluster_score לכל אחת. ב-66% הנותרים, המערכת אומרת "אינני בטוח". זה מספר נמוך, וזה פיצ'ר.
🎯 כלל-אצבע:
כלי שמדווח על verbatim promote rate נמוך (אבל שונה מאפס) ו-hallucination rate=0 = מערכת זהירה ואחראית. כלי שמדווח על 100% PASS בלי לפרט מה זה אומר = חשד גבוה.
03. איך לקרוא confidence-score
Eval טוב מציג confidence-score לכל תשובה, לא רק verdict בינארי. ב-Legal Eye יש שני מספרים מרכזיים:
cluster_score
ערך בין 0 ל-2+. הסף ל-promote הוא 0.50, או 0.65 בbypass של coverage נמוכה. אם cluster_score של תשובה הוא 1.5+, המערכת אומרת "מצאתי תקדים חזק, אני מקדם אותו". אם הוא 0.20, המערכת אומרת "אינני בטוח, הנה הצעות חיפוש ידני".
coverage
אחוז (0-100%). מודד כמה fact mapping נמצא בין השאלה לתקדים. כש-coverage גבוה (40%+), זה אומר שהתקדים באמת מדבר על מה שהשאלה שאלה. כש-coverage נמוך (5%), התקדים אולי קיים אבל לא רלוונטי.
ב-/eval, תוכלו לראות לכל שאלה את שני המספרים, ולהבין מתי ה-PASS היה איתן ומתי הוא היה רחב.
04. השאלות לשאול כל ספק AI
לפני שאתם חותמים על מנוי שנתי לכל כלי AI משפטי — שאלו 5 שאלות:
חמש סופים. ה-bar גבוה כי הסיכון גבוה.
- איפה ה-eval הציבורי שלכם? אם התשובה היא "אנחנו לא מפרסמים" או "זה בפיתוח" — סוף. אל תקנו.
- מה ה-hallucination rate שלכם? אם התשובה היא "אנחנו לא מודדים" — סוף. אם זה מעל 0% — סוף.
- מה אחוז התשובות עם ציטוט verbatim? אם התשובה היא "100%" — סוף (זה לא אפשרי בלי שקרים).
- מה קורה כשהכלי לא בטוח? אם התשובה היא "הוא תמיד נותן תשובה" — סוף.
- איך תוכל לאמת כל ציטוט? אם אין קישור-מקור לכל ציטוט שיצא מהכלי — סוף.
05. דוגמה — קריאת ה-eval של Legal Eye בפועל
ה-eval שלנו רץ אוטומטית כל יום ראשון ב-03:00 UTC, מצלם 50 שאלות-בדיקה קנוניות (חוזים, נזיקין, עבודה, בריאות, וגם 5 שאלות-פיתוי כמו "מתכון לעוגת לימון"), ומפרסם ב-GitHub. הסיבוב האחרון:
| מטריקה | תוצאה | הערה |
|---|---|---|
| Hallucination rate | 0% | אף ציטוט לא הומצא |
| Out-of-scope rejection | 100% (5/5) | "מתכון לעוגה" → סורב כראוי |
| Verbatim promote rate | 34% (17/50) | 17 שאלות קיבלו verbatim ברמת ביטחון |
| FAIL count | 0 | אף תשובה מקודמת לא היתה off-topic |
| WEAK | 33 | 33 שאלות → "אינני בטוח, ולכן לא מקדם verbatim" |
איך לקרוא את זה? 0 הזיות, 0 FAIL — אם המערכת מקדמת ציטוט, הוא on-topic ומקור אמיתי. 33 WEAKs פירוש שהמערכת מודה שלא בטוחה ב-66% מהזמן — פיצ'ר, לא bug. שאלות עבודה (לדוגמה "פיצויי פיטורים ללא שימוע") מקבלות WEAK כי ה-shard של תחום העבודה קטן יחסית; המערכת לא ממציאה תקדים שלא קיים.
ה-Breakdown לפי דומיין מראה את הסיפור המלא:
| דומיין | PASS rate | גודל קורפוס |
|---|---|---|
| out-of-scope (פיתוי) | 5/5 (100%) | — |
| חוזים | 6/10 (60%) | 6,229 פסקי-דין |
| נזיקין | 2/8 (25%) | 4,545 |
| בריאות | 1/6 (17%) | — |
| עבודה | 0/9 (0%) | 2,948 ← הקטן ביותר |
קוראים זאת כך: ה-PASS rate מתואם 1:1 עם גודל ה-corpus לדומיין. עבודה (2,948 docs) → 0% PASS. חוזים (6,229 docs) → 60%. זה אומר לי, כעו"ד, שעל שאלות חוזיות אני יכול לסמוך על המערכת, אבל על שאלות עבודה אני צריך לעשות חיפוש ידני נוסף. ידע שמוסיף ערך, לא ערפול.
סיכום
ההבחנה הקריטית: 32% PASS עם 0 הזיות עדיף על 100% PASS בלי שקיפות. הראשון אומר לך מתי לסמוך ומתי לא — שזה מה שעו"ד אחראי צריך. השני מבטיח את הירח ומשאיר אותך לבד ביום-הדין.
בשבוע הבא יהיה לי post על האדריכלות שמאחורי verbatim-only — איך RAG עובד, ולמה "Retrieval ללא Generation" הוא ההבדל בין "מסוכן" ל"בטוח" בעולם המשפטי. עד אז — תרגישו חופשי לקרוא את ה-eval שלנו, להריץ אותו בעצמכם (ה-code פתוח), ולשאול שאלות ישירות באימייל.