---
name: autoresearch-pattern-expert
description: >-
  Karpathy AutoResearch Pattern -- autonome Experiment-Loops die overnight 100
  Iterationen ohne menschliches Eingreifen durchfuehren. Universell anwendbar
  auf alles mit einer messbaren Zahl (Prompts, Listings, Workflows). Nutze
  diesen Skill wenn AutoResearch installiert oder genutzt wird, das autonome
  Experiment-Loop-Pattern auf eigene Aufgaben angewendet werden soll, oder
  Prompt-Optimierung per Agent automatisiert wird.
---

# AutoResearch Pattern (Karpathy) — Autonome Experiment-Loops

## Kernprinzip
Du schreibst ZIELE in `program.md`. Der Agent iteriert autonom.
~100 Experimente während du schläfst.

```
program.md  ←  Ziele, Constraints, Metriken (DU)
target.md   ←  Die Datei die optimiert wird (AGENT)
eval.py     ←  Misst eine Zahl (deterministisch)
results.tsv ←  Tracking (AGENT)

Loop: Modifiziere → Eval → Besser? commit : reset → Wiederholen
```

## Pahuuts Lauffähige Projekte

### eBay-Listing-Prompt-Optimierer (READY)
```
Pfad:     ~/projects/meck-pomm-elektronik/autoresearch-prompt-optimizer/
Baseline: 90.6/100
Target:   prompts/listing_prompt.md
Eval:     python eval.py (regelbasiert, 0 API-Kosten)
Phase 2:  python eval_advanced.py (Claude Haiku, ~$0.01/Run)
```

**Starten (Claude Code):**
```bash
cd ~/projects/meck-pomm-elektronik/autoresearch-prompt-optimizer
git init -b main && git add -A && git commit -m "baseline 90.6"
# Dann in Claude Code:
# "Lies program.md und starte. Branch: mar25. Lauf autonom."
```

### Templates für weitere Optimierer
| Template | Pfad | Metrik |
|----------|------|--------|
| Kaltakquise-Emails | templates/program_kaltakquise.md | Personalisierung + CTA |
| Kundenantworten | templates/program_kundenantwort.md | Vollständigkeit + Upsell |
| Social Media Posts | templates/program_social_media.md | Hook + Hashtags + CTA |

Jedes Template braucht: eigenes `eval_*.py` + `test_cases/*.json` + `prompts/*.md`

## Neuen Optimierer erstellen (Anleitung)

1. **Ziel definieren**: Was wird optimiert? Eine Datei, eine Zahl.
2. **program.md schreiben**: Scope, Regeln, Kriterien (Vorlage: `program.md`)
3. **eval.py schreiben**: Deterministisch! Kein LLM nötig für Phase 1.
4. **test_cases erstellen**: 3-10 repräsentative Fälle als JSON
5. **Target erstellen**: Die Datei die optimiert wird
6. **Git init + Baseline messen**: `git init && python eval.py`
7. **Agent starten**: "Lies program.md. Lauf autonom bis ich stoppe."

## Eval-Kriterien Design (Best Practices)
- **100 Punkte total**, aufgeteilt in 4-6 Kategorien
- **Deterministisch wo möglich** (Regex, Keyword-Matching, Länge, Struktur)
- **LLM-as-Judge nur für subjektives** (Überzeugungskraft, Kreativität)
- **Jede Kategorie separat scoren** → Agent sieht wo Potential ist

## Stack-Mapping
```
Karpathy AutoResearch    =  Ruflo Intelligence Loop + SONA
program.md               =  hooks/pre-task
Agent modifiziert target  =  Agent modifiziert Code
git commit/reset         =  SONA behält/verwirft Pattern
```

## Quelle
Von Andrej Karpathy (März 2026). Repo: github.com/karpathy/autoresearch
Tobi Lütke (Shopify): 53% schneller, 61% weniger Memory — eine Nacht.