Fabius · Ariel Shemesh

סקילים מתואמים

19/19

בדיקות מבנה (structural)

ספקי מודלים

צפייה בדמו חי ← GitHub שכבת החיתום: Provenance

מה זה

Fabius הוא super-skill יחיד ל-Claude Code, שמתקין את עצמו בפקודה אחת ומרכיב סוכן הנדסה אוטונומי מקצה לקצה. הוא לא כלי לתחום אחד - הוא עמדת עבודה אחת שרצה על פני חמישה-עשר סקילים מתואמים: קוד, עיצוב, בניית סוכנים, דיבאג, זיכרון מתמשך, שיווק, אבטחה הגנתית, משחקים, on-chain plus חתימה, אוטומציה, מחקר מדעי, הנדסת ML, שווקים ופיננסים, ומועצת מודלים.

השם מגיע מקווינטוס פביוס מקסימוס (Quintus Fabius Maximus), ומכאן גם העמדה: scout wide, strike narrow - לסרוק רחב, ואז להכות צר. פחות מלל, פחות קוד, פחות שינויים, פחות הנחות.

הבעיה

רוב עבודת ה-LLM היא RAG: כל שאלה מגלה מחדש את הידע מאפס, שום דבר לא מצטבר, וברירת המחדל של המודל נוטה לפזרנות - יותר טקסט, יותר קוד, יותר הנחות מובלעות ממה שהמשימה מצריכה.

רציתי הפוך: עמדה אחת ועקבית שיודעת לצמצם היקף לפני שהיא בונה, לנתב כל משימה למומחה הנכון בלי חפיפה בין הסקילים, ולעשות זאת על כל מודל - לא רק על מודל אחד.

מה בניתי

בניתי את Fabius כמערכת של חמישה-עשר סקילים, התקנה אחת. סקיל הראשי (fabius) הוא ה-router: הוא קורא את המשימה ומנתב לפי layer, machinery ו-model-tier. מתחתיו יושב fabius-parcus - ליבה רזה שתמיד פועלת, עם סולם YAGNI ושינויים כירורגיים.

כל שאר הסקילים הם מומחים בעלי בעלות יחידה על תחומם: disciplina להנדסת תהליך, decor לעיצוב ולוויזואליזציה של דאטה, cohors להנדסת סוכנים, archivum לזיכרון מתמשך, וכן catena (on-chain plus חתימה), praesidium (אבטחה הגנתית בלבד), scientia (מדע), doctrina (הנדסת ML), fortuna (שווקים) ו-concilium (מועצת מודלים). חוזה התיאום פשוט: בעלים אחד, אפס חפיפה.

איך זה עובד

השדרה היא ספריית references עמוקה עם depth לפי דרישה, אינדקס CORPUS.md יחיד מעל כל הספריות (המוח מחזיק את האינדקס וטוען רק את הפרוסה הרלוונטית), וגשר AGENTS.md שהופך את המערכת לתואמת מעבר לכלי בודד.

האינטגריטי נאכף בקוד: קובץ evals/structural.mjs מריץ תשע-עשרה בדיקות דטרמיניסטיות ללא מפתח - בעלות יחידה לכל סקיל, כל SKILL.md מתחת ל-12KB, כל ה-references נפתרים, וה-manifest מתאים לדיסק. החתימה הקריפטוגרפית (seal) מחשבת SHA-256 מעל כל חוזי הסקילים ל-Merkle root, מעוגן ב-Bitcoin דרך OTS - כך שאפשר לאמת את התוכן offline, לתמיד.

הבנצ'מרק

בניתי eval עיוור בשלוש זרועות: baseline מול הוראה גנרית של be concise (terse) מול העמדה המלאה של Fabius - כשהשופט אף פעם לא יודע איזו זרוע כתבה מה. המבחן האמיתי הוא לנצח את terse, לא רק את baseline.

על פני משפחות מודלים שונות, זרוע Fabius מנצחת את הריצה הפשוטה כמעט בכל משימה לא-טריוויאלית, עם פלט קצר בעשרות אחוזים. במבחן אובייקטיבי נטול-שופט (הרצת הקוד וניקוד מול צ'קליסט עובדתי) הרווח הגדול ביותר הופיע דווקא במודל הקטן, שם looks-right אינו is-right: SQL מפרמטר, webhook אידמפוטנטי, ואימות חשבון ב-Solana. המסקנה ההוגנת: זו לא מערכת שהופכת מודל לחכם יותר, אלא מערכת שליטה בהיקף - והיא בנויה נכון.

התוצאה

Fabius חי כיום בשלושה משטחים: landing ב-fabius-landing.vercel.app שהוא הפנים הציבוריות, ה-repo החתום קריפטוגרפית שהוא המוח (וגם ה-plugin שבו אני עצמי משתמש), וקונסולת synapse שבה הוא רץ בפועל מול חמישה ספקי מודלים.

השחרור הנוכחי הוא v1.1.0 - חמישה-עשר סקילים, התקנה אחת - עם בדיקות מבנה 19/19 ירוקות, whitepaper בן 41 עמודים המכיל הוכחות פורמליות מלאות, וכל מספר בבנצ'מרק ניתן לשחזור מקבצי ה-JSON המקוריים.

סוכן אוטונומיClaude Code pluginרב-מודליscope control