בכל פעם שספק AI משפטי מנסה למכור לך מערכת, יש לו שקופית עם מספר. "94% דיוק". "99% accuracy". לפעמים אפילו "100% verified".

השאלה היא לא אם המספר נכון. השאלה היא: מה בדיוק נמדד? 100% מה? של מי? נגד איזה benchmark? מתי האחרון פעם בדקתם? מי בודק כל שבוע — אתם או חברה חיצונית?

ה-eval הוא איך כלי AI מוכיח את עצמו. רוב הכלים אין להם eval פתוח, ורבים מהמספרים שאתם רואים בpitch decks הם מומצאים או נבחרו cherry-picked. המדריך הזה מסביר איך לקרוא eval כשהוא קיים, ומה לדרוש כשהוא לא.

01. שלוש המטריקות שצריך לחפש

רוב ה-evals של AI משפטי מודדים מטריקות לא-נכונות. הם מודדים "ענה נכון" — שזה מטריקה גרועה כי 'ענה' זה לא מספיק. אתם רוצים שלוש מטריקות נפרדות:

מטריקה מה זה אומר יעד
Hallucination rate אחוז התשובות שמכילות ציטוט מומצא 0%
Out-of-scope rejection אחוז שאלות-פיתוי (לא משפטיות) שסורבו כראוי ≥95%
Verbatim promote rate אחוז שאלות שקיבלו ציטוט verbatim מאומת משתנה — אבל ידוע

Hallucination rate היא המטריקה הקריטית. אם היא מעל אפס — אתם בסיכון לסנקציה. תקופה. Out-of-scope rejection בודק שהכלי יודע מתי לא לענות. Verbatim promote rate זה אחוז ה"כן ביטחון מלא" — והוא לא צריך להיות גבוה. ככל שהוא גבוה יותר, יותר חשד.

02. המלכודת של "PASS rate גבוה"

מערכת שמדווחת על 100% PASS או 95% accuracy היא דגל-אדום. כי איזה מערכת אמיתית בעולם האמיתי, על קורפוס בעברית, על שאלות משפטיות פתוחות, יודעת להגיע ל-100% תשובות נכונות? אף אחת.

איך אז יש כאלה מספרים? שלוש דרכים:

  1. הכלי בעצם ממציא ומסמן את ההמצאה כ"PASS" — זו ההגדרה היחידה של "להצליח"
  2. השאלות נבחרו לטובת הכלי (cherry-picking) — רק שאלות בתחומים שבהם הוא חזק
  3. "PASS" מוגדר ברישול — כל תשובה שהיא לא error נחשבת PASS

Legal Eye, ברירת מחדל, מדווח על 34% verbatim promote rate. לא 99%. 34%. תוכלו לראות את כל 50 השאלות, אחת-אחת, עם cluster_score לכל אחת. ב-66% הנותרים, המערכת אומרת "אינני בטוח". זה מספר נמוך, וזה פיצ'ר.

🎯 כלל-אצבע:

כלי שמדווח על verbatim promote rate נמוך (אבל שונה מאפס) ו-hallucination rate=0 = מערכת זהירה ואחראית. כלי שמדווח על 100% PASS בלי לפרט מה זה אומר = חשד גבוה.

03. איך לקרוא confidence-score

Eval טוב מציג confidence-score לכל תשובה, לא רק verdict בינארי. ב-Legal Eye יש שני מספרים מרכזיים:

cluster_score

ערך בין 0 ל-2+. הסף ל-promote הוא 0.50, או 0.65 בbypass של coverage נמוכה. אם cluster_score של תשובה הוא 1.5+, המערכת אומרת "מצאתי תקדים חזק, אני מקדם אותו". אם הוא 0.20, המערכת אומרת "אינני בטוח, הנה הצעות חיפוש ידני".

coverage

אחוז (0-100%). מודד כמה fact mapping נמצא בין השאלה לתקדים. כש-coverage גבוה (40%+), זה אומר שהתקדים באמת מדבר על מה שהשאלה שאלה. כש-coverage נמוך (5%), התקדים אולי קיים אבל לא רלוונטי.

ב-/eval, תוכלו לראות לכל שאלה את שני המספרים, ולהבין מתי ה-PASS היה איתן ומתי הוא היה רחב.

04. השאלות לשאול כל ספק AI

לפני שאתם חותמים על מנוי שנתי לכל כלי AI משפטי — שאלו 5 שאלות:

  1. איפה ה-eval הציבורי שלכם? אם התשובה היא "אנחנו לא מפרסמים" או "זה בפיתוח" — סוף. אל תקנו.
  2. מה ה-hallucination rate שלכם? אם התשובה היא "אנחנו לא מודדים" — סוף. אם זה מעל 0% — סוף.
  3. מה אחוז התשובות עם ציטוט verbatim? אם התשובה היא "100%" — סוף (זה לא אפשרי בלי שקרים).
  4. מה קורה כשהכלי לא בטוח? אם התשובה היא "הוא תמיד נותן תשובה" — סוף.
  5. איך תוכל לאמת כל ציטוט? אם אין קישור-מקור לכל ציטוט שיצא מהכלי — סוף.
חמש סופים. ה-bar גבוה כי הסיכון גבוה.

05. דוגמה — קריאת ה-eval של Legal Eye בפועל

ה-eval שלנו רץ אוטומטית כל יום ראשון ב-03:00 UTC, מצלם 50 שאלות-בדיקה קנוניות (חוזים, נזיקין, עבודה, בריאות, וגם 5 שאלות-פיתוי כמו "מתכון לעוגת לימון"), ומפרסם ב-GitHub. הסיבוב האחרון:

מטריקה תוצאה הערה
Hallucination rate 0% אף ציטוט לא הומצא
Out-of-scope rejection 100% (5/5) "מתכון לעוגה" → סורב כראוי
Verbatim promote rate 34% (17/50) 17 שאלות קיבלו verbatim ברמת ביטחון
FAIL count 0 אף תשובה מקודמת לא היתה off-topic
WEAK 33 33 שאלות → "אינני בטוח, ולכן לא מקדם verbatim"

איך לקרוא את זה? 0 הזיות, 0 FAIL — אם המערכת מקדמת ציטוט, הוא on-topic ומקור אמיתי. 33 WEAKs פירוש שהמערכת מודה שלא בטוחה ב-66% מהזמן — פיצ'ר, לא bug. שאלות עבודה (לדוגמה "פיצויי פיטורים ללא שימוע") מקבלות WEAK כי ה-shard של תחום העבודה קטן יחסית; המערכת לא ממציאה תקדים שלא קיים.

ה-Breakdown לפי דומיין מראה את הסיפור המלא:

דומיין PASS rate גודל קורפוס
out-of-scope (פיתוי) 5/5 (100%)
חוזים 6/10 (60%) 6,229 פסקי-דין
נזיקין 2/8 (25%) 4,545
בריאות 1/6 (17%)
עבודה 0/9 (0%) 2,948 ← הקטן ביותר

קוראים זאת כך: ה-PASS rate מתואם 1:1 עם גודל ה-corpus לדומיין. עבודה (2,948 docs) → 0% PASS. חוזים (6,229 docs) → 60%. זה אומר לי, כעו"ד, שעל שאלות חוזיות אני יכול לסמוך על המערכת, אבל על שאלות עבודה אני צריך לעשות חיפוש ידני נוסף. ידע שמוסיף ערך, לא ערפול.

סיכום

ההבחנה הקריטית: 32% PASS עם 0 הזיות עדיף על 100% PASS בלי שקיפות. הראשון אומר לך מתי לסמוך ומתי לא — שזה מה שעו"ד אחראי צריך. השני מבטיח את הירח ומשאיר אותך לבד ביום-הדין.

בשבוע הבא יהיה לי post על האדריכלות שמאחורי verbatim-only — איך RAG עובד, ולמה "Retrieval ללא Generation" הוא ההבדל בין "מסוכן" ל"בטוח" בעולם המשפטי. עד אז — תרגישו חופשי לקרוא את ה-eval שלנו, להריץ אותו בעצמכם (ה-code פתוח), ולשאול שאלות ישירות באימייל.