איך לקרוא תוצאות eval של AI משפטי

בכל פעם שספק AI משפטי מנסה למכור לך מערכת, יש לו שקופית עם מספר. "94% דיוק". "99% accuracy". לפעמים אפילו "100% verified".

השאלה היא לא אם המספר נכון. השאלה היא: מה בדיוק נמדד? 100% מה? של מי? נגד איזה benchmark? מתי האחרון פעם בדקתם? מי בודק כל שבוע — אתם או חברה חיצונית?

ה-eval הוא איך כלי AI מוכיח את עצמו. רוב הכלים אין להם eval פתוח, ורבים מהמספרים שאתם רואים בpitch decks הם מומצאים או נבחרו cherry-picked. המדריך הזה מסביר איך לקרוא eval כשהוא קיים, ומה לדרוש כשהוא לא.

01. שלוש המטריקות שצריך לחפש

רוב ה-evals של AI משפטי מודדים מטריקות לא-נכונות. הם מודדים "ענה נכון" — שזה מטריקה גרועה כי 'ענה' זה לא מספיק. אתם רוצים שלוש מטריקות נפרדות:

מטריקה	מה זה אומר	יעד
Hallucination rate	אחוז התשובות שמכילות ציטוט מומצא	0%
Out-of-scope rejection	אחוז שאלות-פיתוי (לא משפטיות) שסורבו כראוי	≥95%
Verbatim promote rate	אחוז שאלות שקיבלו ציטוט verbatim מאומת	משתנה — אבל ידוע

Hallucination rate היא המטריקה הקריטית. אם היא מעל אפס — אתם בסיכון לסנקציה. תקופה. Out-of-scope rejection בודק שהכלי יודע מתי לא לענות. Verbatim promote rate זה אחוז ה"כן ביטחון מלא" — והוא לא צריך להיות גבוה. ככל שהוא גבוה יותר, יותר חשד.

02. המלכודת של "PASS rate גבוה"

מערכת שמדווחת על 100% PASS או 95% accuracy היא דגל-אדום. כי איזה מערכת אמיתית בעולם האמיתי, על קורפוס בעברית, על שאלות משפטיות פתוחות, יודעת להגיע ל-100% תשובות נכונות? אף אחת.

איך אז יש כאלה מספרים? שלוש דרכים:

הכלי בעצם ממציא ומסמן את ההמצאה כ"PASS" — זו ההגדרה היחידה של "להצליח"
השאלות נבחרו לטובת הכלי (cherry-picking) — רק שאלות בתחומים שבהם הוא חזק
"PASS" מוגדר ברישול — כל תשובה שהיא לא error נחשבת PASS

Legal Eye, ברירת מחדל, מדווח על 34% verbatim promote rate. לא 99%. 34%. תוכלו לראות את כל 50 השאלות, אחת-אחת, עם cluster_score לכל אחת. ב-66% הנותרים, המערכת אומרת "אינני בטוח". זה מספר נמוך, וזה פיצ'ר.

🎯 כלל-אצבע:

כלי שמדווח על verbatim promote rate נמוך (אבל שונה מאפס) ו-hallucination rate=0 = מערכת זהירה ואחראית. כלי שמדווח על 100% PASS בלי לפרט מה זה אומר = חשד גבוה.

03. איך לקרוא confidence-score

Eval טוב מציג confidence-score לכל תשובה, לא רק verdict בינארי. ב-Legal Eye יש שני מספרים מרכזיים:

`cluster_score`

ערך בין 0 ל-2+. הסף ל-promote הוא 0.50, או 0.65 בbypass של coverage נמוכה. אם cluster_score של תשובה הוא 1.5+, המערכת אומרת "מצאתי תקדים חזק, אני מקדם אותו". אם הוא 0.20, המערכת אומרת "אינני בטוח, הנה הצעות חיפוש ידני".

`coverage`

אחוז (0-100%). מודד כמה fact mapping נמצא בין השאלה לתקדים. כש-coverage גבוה (40%+), זה אומר שהתקדים באמת מדבר על מה שהשאלה שאלה. כש-coverage נמוך (5%), התקדים אולי קיים אבל לא רלוונטי.

ב-/eval, תוכלו לראות לכל שאלה את שני המספרים, ולהבין מתי ה-PASS היה איתן ומתי הוא היה רחב.

04. השאלות לשאול כל ספק AI

לפני שאתם חותמים על מנוי שנתי לכל כלי AI משפטי — שאלו 5 שאלות:

איפה ה-eval הציבורי שלכם? אם התשובה היא "אנחנו לא מפרסמים" או "זה בפיתוח" — סוף. אל תקנו.

מה ה-hallucination rate שלכם? אם התשובה היא "אנחנו לא מודדים" — סוף. אם זה מעל 0% — סוף.

מה אחוז התשובות עם ציטוט verbatim? אם התשובה היא "100%" — סוף (זה לא אפשרי בלי שקרים).

מה קורה כשהכלי לא בטוח? אם התשובה היא "הוא תמיד נותן תשובה" — סוף.

איך תוכל לאמת כל ציטוט? אם אין קישור-מקור לכל ציטוט שיצא מהכלי — סוף.

חמש סופים. ה-bar גבוה כי הסיכון גבוה.

05. דוגמה — קריאת ה-eval של Legal Eye בפועל

ה-eval שלנו רץ אוטומטית כל יום ראשון ב-03:00 UTC, מצלם 50 שאלות-בדיקה קנוניות (חוזים, נזיקין, עבודה, בריאות, וגם 5 שאלות-פיתוי כמו "מתכון לעוגת לימון"), ומפרסם ב-GitHub. הסיבוב האחרון:

מטריקה	תוצאה	הערה
Hallucination rate	0%	אף ציטוט לא הומצא
Out-of-scope rejection	100% (5/5)	"מתכון לעוגה" → סורב כראוי
Verbatim promote rate	34% (17/50)	17 שאלות קיבלו verbatim ברמת ביטחון
FAIL count	0	אף תשובה מקודמת לא היתה off-topic
WEAK	33	33 שאלות → "אינני בטוח, ולכן לא מקדם verbatim"

איך לקרוא את זה? 0 הזיות, 0 FAIL — אם המערכת מקדמת ציטוט, הוא on-topic ומקור אמיתי. 33 WEAKs פירוש שהמערכת מודה שלא בטוחה ב-66% מהזמן — פיצ'ר, לא bug. שאלות עבודה (לדוגמה "פיצויי פיטורים ללא שימוע") מקבלות WEAK כי ה-shard של תחום העבודה קטן יחסית; המערכת לא ממציאה תקדים שלא קיים.

ה-Breakdown לפי דומיין מראה את הסיפור המלא:

דומיין	PASS rate	גודל קורפוס
out-of-scope (פיתוי)	5/5 (100%)	—
חוזים	6/10 (60%)	6,229 פסקי-דין
נזיקין	2/8 (25%)	4,545
בריאות	1/6 (17%)	—
עבודה	0/9 (0%)	2,948 ← הקטן ביותר

קוראים זאת כך: ה-PASS rate מתואם 1:1 עם גודל ה-corpus לדומיין. עבודה (2,948 docs) → 0% PASS. חוזים (6,229 docs) → 60%. זה אומר לי, כעו"ד, שעל שאלות חוזיות אני יכול לסמוך על המערכת, אבל על שאלות עבודה אני צריך לעשות חיפוש ידני נוסף. ידע שמוסיף ערך, לא ערפול.

סיכום

ההבחנה הקריטית: 32% PASS עם 0 הזיות עדיף על 100% PASS בלי שקיפות. הראשון אומר לך מתי לסמוך ומתי לא — שזה מה שעו"ד אחראי צריך. השני מבטיח את הירח ומשאיר אותך לבד ביום-הדין.

בשבוע הבא יהיה לי post על האדריכלות שמאחורי verbatim-only — איך RAG עובד, ולמה "Retrieval ללא Generation" הוא ההבדל בין "מסוכן" ל"בטוח" בעולם המשפטי. עד אז — תרגישו חופשי לקרוא את ה-eval שלנו, להריץ אותו בעצמכם (ה-code פתוח), ולשאול שאלות ישירות באימייל.

איך לקרוא תוצאות eval של AI משפטי
— מדריך לעורכי-דין

01. שלוש המטריקות שצריך לחפש

02. המלכודת של "PASS rate גבוה"

🎯 כלל-אצבע:

03. איך לקרוא confidence-score

`cluster_score`

`coverage`

04. השאלות לשאול כל ספק AI

05. דוגמה — קריאת ה-eval של Legal Eye בפועל

סיכום

רוצים לבדוק את ה-eval בעצמכם?

01. שלוש המטריקות שצריך לחפש

02. המלכודת של "PASS rate גבוה"

🎯 כלל-אצבע:

03. איך לקרוא confidence-score

cluster_score

coverage

04. השאלות לשאול כל ספק AI

05. דוגמה — קריאת ה-eval של Legal Eye בפועל

סיכום

רוצים לבדוק את ה-eval בעצמכם?

קישורים שעלולים לעניין

`cluster_score`

`coverage`