RAG משפטי 101 — איך זה עובד מתחת למכסה

רוב עורכי-הדין מחזיקים בראש מודל פשוט: "AI = ChatGPT". אבל ChatGPT הוא רק ארכיטקטורה אחת מתוך כמה. ההבדל ביניהן לא טכני — הוא קיומי. אותה שאלה משפטית, מוזנת לשלוש מערכות שונות, יכולה לחזור כתשובה אמינה, כניחוש בטוח, או כתיק מומצא.

המאמר הזה מסביר את שלוש האדריכלויות העיקריות — pure LLM, standard RAG, ו- verbatim-only — בשפה פשוטה. בלי קוד, בלי מונחים מיותרים. כשתסיים, תדע מה לשאול ספק AI לפני שאתה חותם על מנוי.

01. שלוש האדריכלויות

🤖 קטגוריה 1

Pure LLM (Large Language Model)

דוגמאות: ChatGPT, Claude, Gemini, Llama

המודל אומן על מיליארדי טוקנים של טקסט (כולל פסקי-דין שראה במהלך אימון). כשהוא מקבל שאלה, הוא מייצר טקסט מילה-מילה, בהסתברות סטטיסטית. אין לו אינדקס של פסקי-דין אמיתיים. כל תשובה היא סינתזה חדשה, לפעמים סבירה ולפעמים פנטסטית.

⚠ הסיכון: כל ציטוט הוא יציר רגעי. ייתכן שהוא קיים. ייתכן שלא.

🔍 קטגוריה 2

Standard RAG (Retrieval-Augmented Generation)

דוגמאות: רוב ה-startups של "AI משפטי"

שיפור על Pure LLM. המערכת קודם מחפשת במאגר אמיתי (בדרך כלל מאגר פסיקה סגור), מוצאת תוצאות רלוונטיות, ואז מזינה אותן ל-LLM שמייצר את התשובה הסופית. הפלט הוא יצירה חדשה מבוססת על מקורות אמיתיים — אבל ה-LLM עדיין יכול לפרפרז, לסכם בצורה לא-מדויקת, או לערבב ציטוטים מתיקים שונים.

⚠ הסיכון: הציטוטים אמיתיים אבל ה-LLM יכול לעוות אותם בעיבוד.

✓ קטגוריה 3

Verbatim-only RAG

דוגמה: Legal Eye

הגישה הזהירה ביותר. המערכת מחפשת ומוצאת תקדים במאגר, ואז מציגה את הציטוט מילה-במילה מהמקור המקורי. אין שלב generation בכלל. אם המערכת לא מוצאת תקדים בטוח מספיק — היא שותקת במקום להמציא. אין סיכון להזיה כי אין מנגנון שיכול ליצור תוכן חדש.

✓ הסיכון: אפס — כי אין יצירה. רק חיפוש והצגה.

02. מה זה "retrieval" בעצם?

Retrieval = חיפוש. נשמע פשוט, אבל בעולם המשפטי יש 4-5 שיטות חיפוש שונות, וכל אחת תופסת תקדימים שונים. מערכת טובה מפעילה כמה במקביל ומשלבת תוצאות.

השיטות העיקריות:

BM25 (חיפוש לקסיקלי) — חיפוש מילים מדויק. אם תכתוב "פיצויי פיטורים", BM25 ימצא תיקים שמכילים בדיוק את המילים האלו. חזק על: שאלות מדויקות עם מונחים-מפתח. חלש על: שאלות מנוסחות שונה ממה שמופיע בפסיקה.
Embedding-based (חיפוש סמנטי) — מתרגם שאלה ל"וקטור" מספרי שמייצג את המשמעות, ומחפש תיקים שהוקטור שלהם קרוב. חזק על: שאלות בניסוחים יומיומיים. חלש על: ניואנסים משפטיים דקים שדורשים מילים מדויקות.
Gematria-based — שיטה ייחודית-ל-Legal Eye שמטפלת בכינויים גמטריים של חיקוקים ("סעיף יב", "סעיף יג"). פותרת בעיה ייחודית לקורפוס בעברית.
Graph-based — בונה גרף של ציטוטים בין פסקי-דין, ומחפש דרך הקשרים. אם פסק-דין X מצטט את Y שמצטט את Z — נמצא את כולם.
Hierarchical clustering — מקבץ פסקי-דין דומים לאשכולות (clusters) סביב "anchor case" מרכזי. כשמשתמש שואל, מוצא קודם את האשכול המתאים, ואז את ה-anchor בתוכו. דרך זו מוצאת תקדימים תכליתיים, לא רק מילוליים.

Legal Eye מפעיל את כל 5 השיטות במקביל ומשלב תוצאות. כל אחת תופסת זווית אחרת של "התקדים הרלוונטי". ב-/eval תוכל לראות לכל שאלה איזה רטריבר הביא את התקדים שעלה ל-anchor.

03. מה זה "generation" ולמה זה מסוכן?

Generation = ייצור טקסט. LLM עובד טוקן-אחר-טוקן — בכל צעד הוא מחשב את ההסתברות של מילה הבאה, בוחר את הסבירה ביותר, וממשיך. זה איך ChatGPT כותב פסקה שלמה תוך שניות.

הבעיה: בכל טוקן יש איזשהו אחוז של "wrong choice". בהקשר משפטי, "טוקן שגוי" יכול להיות:

מספר תיק שאינו קיים ("ע״א 1234/19" במקום "1247/19")
שם צד שגוי ("רוזנברג נ׳ דנציגר" במקום "כהן נ׳ לוי")
שנה שגויה ("1985" במקום "1991")
בית-משפט שגוי ("העליון" במקום "המחוזי")
ציטוט מומצא לחלוטין ("כפי שנקבע בפרשת..." — אבל הפרשה לא קיימת)

⚠ למה זה לא ניתן ל"תיקון פשוט":

הסיבה ש-ChatGPT ממציא היא לא bug. זה מנגנון מובנה של איך LLMs עובדים. הם בנויים לייצר טקסט סביר, לא טקסט אמיתי. כל "fix" שמיישמים (RLHF, constitutional AI, etc.) רק מוריד את הסיכוי — לא מעלים אותו לאפס. עבור משפט, "סיכוי נמוך" זה לא מספיק.

04. איך Legal Eye בנוי בפועל

הנה ה-pipeline המלא, צעד-אחר-צעד:

1. user query: "פרשנות תכליתית של חוזה לפי הלכת אפרופים" ↓ 2. 5 retrievers בbreak מקביל (BM25, embedding, gematria, hilbert, graph) ↓ 3. top-k candidates מכל retriever → איחוד והסרת כפילויות ↓ 4. clustering: קיבוץ ל-doctrine clusters עם anchor case ↓ 5. doctrine catalog match: בדיקה ב-29 הדוקטרינות המאומתות ↓ 6. score gates: cluster_score ≥ 0.50 AND coverage ≥ 15% (או 0.65 bypass) ↓ 7a. אם עובר → present verbatim quote מ-anchor + cite + Nevo link 7b. אם לא עובר → "אינני בטוח" + הצעות חיפוש ידני

תשים לב מה אין כאן: אין שלב 8 שבו LLM "מסכם" את התוצאות. אין שלב שבו המערכת "מסבירה במילים שלה". יש רק חיפוש → הצגה. זה אמנם מגביל את ה-UX (אתה לא מקבל תקציר חביב, אלא ציטוט מלא), אבל זה פיזית בלתי-אפשרי להזיה.

05. מה זה אומר לעורך-הדין בפועל

מנקודת מבט מקצועית, ההבדל בין שלוש האדריכלויות הוא:

אתה מקבל ציטוט אמיתי או אומר "לא יודע" — אף פעם לא ניחוש. זה ההבדל בין כלי שאתה יכול לסמוך עליו לעבודה מקצועית לבין כלי שאתה צריך לאמת אחריו כל שורה.
כל ציטוט ניתן לאימות בקליק ב-Nevo. אם המערכת מצביעה על ע״א 6328/97, אתה יכול לפתוח Nevo, להזין את המספר, ולראות את הטקסט המקורי. אם הציטוט לא תואם — תדע מיד.
אתה לא יכול להיות מסונקץ' על שימוש במערכת. בית-המשפט לא יקבל את ההגנה "AI הוא שאמר", אבל אם הציטוט אמיתי ואתה רק העברת אותו דרך הכלי כעוזר חיפוש — אתה במצב משפטי בטוח.
הclusterיש שהמערכת לא בטוחה הם feature, לא bug. כש-Legal Eye אומר "אינני בטוח" ב-66% מהשאלות, זה אומר שב-66% מהמקרים אתה לא צריך לבזבז זמן על תוצאה שלא תעמוד בבחינה. עברת ישר לחיפוש ידני.

🎯 שורה תחתונה לפעולה:

כשאתה בוחר כלי AI משפטי — שאל איזו קטגוריה הוא נופל. אם הוא verbatim-only (קטגוריה 3) — אתה בטוח. אם הוא RAG עם LLM (קטגוריה 2) — אתה צריך לאמת כל ציטוט. אם הוא pure LLM (קטגוריה 1) — אל תשתמש בו לעבודה משפטית. נקודה.

סיכום

Verbatim-only RAG הוא פחות מרשים מ-ChatGPT — הוא לא יכתוב לך טור עיתון, לא יסכם פסק-דין בלשון חופשית, ולא יענה על שאלות לא-משפטיות. הוא יודע לעשות דבר אחד: למצוא תקדים אמיתי ולהציג אותו verbatim. אם המקצוע שלך תלוי בכך שהציטוטים שלך אמיתיים — זו הקטגוריה היחידה הרלוונטית.

בעולם משפטי שמתחיל לראות סנקציות על AI fabricated citations (ארה"ב 2023-2025, ישראל 2025+), הבחירה בארכיטקטורה הנכונה היא לא פינוק. היא אחריות מקצועית.

ה-blog הבא יתעמק בנושא הספציפי של anchor cases — מה הם, איך הם מאומתים, ולמה הם הליבה של קטגוריה 3. עד אז — קרא את ה-eval שלנו, בדוק את הקטלוג, או פנה ישירות באימייל לכל שאלה.