--- name: 42-passage-analyzer description: > Passage-level content analyse voor AI/RAG readiness. Segmenteert pagina-content in passages (heading-boundary splitting), scoort elke passage op AI-extractability, en identificeert welke passages optimaal zijn voor citatie en welke herwerkt moeten. Optioneel AI-powered gap analyse per passage. Use when user says "passage analyse", "passage scoring", "chunk analyse", "RAG readiness", "AI extractability", "passage segmentatie", "content chunking". version: 1.0.0 tags: [seo, geo, passages, citability, rag, chunking, ai-readiness, content-analysis] allowed-tools: - Bash - Read - Write - Grep - Glob - WebFetch metadata: filePattern: - "**/*passage*" - "**/*chunk*" - "**/*citab*" bashPattern: - "passage" - "chunk" - "rag.ready" --- # Passage-Level Content Analyzer ## Purpose AI-zoekmachines citeren niet hele pagina's — ze citeren **passages**. Een passage van 134-167 woorden met een duidelijke claim, data, en zelfstandige context heeft de hoogste kans op citatie door ChatGPT, Perplexity en Google AI Overviews. Deze skill segmenteert pagina-content in passages en scoort elke passage individueel op AI-extractability. Waar `42:citability` op **pagina-niveau** scoort, werkt deze skill op **passage-niveau** — binnen een pagina. --- ## Commands ``` # Heuristic modus (geen API nodig) /42:passage-analyzer # Analyseer enkele pagina /42:passage-analyzer # Bulk analyse van SF text export /42:passage-analyzer --ai # Met AI gap-analyse per passage # Embedding modus (echte cosine similarity vs target queries) /42:passage-analyzer --embeddings --queries gsc.csv --provider gemini /42:passage-analyzer --embeddings --queries keywords.csv --provider gemini /42:passage-analyzer --embeddings --queries gsc.csv --provider gemini --sf-embeddings sf-emb.csv ``` ### Twee scoring-modi | Modus | Flag | Wat het meet | API nodig? | |-------|------|-------------|-----------| | **Heuristic** (default) | — | 6-dimensie score op basis van tekstpatronen (lengte, zelfstandigheid, data, structuur) | Nee | | **Embeddings** | `--embeddings` | Echte cosine similarity: passage-vector × query-vector | Ja (Gemini) | **Heuristic** is snel en gratis — goed voor structurele analyse ("is deze passage goed opgebouwd?"). **Embeddings** meet echte retrieval-kans — "voor welke queries zou een AI-zoekmachine deze passage citeren?" In embedding-modus worden **beide scores** berekend: de heuristic score EN de retrieval score. Samen geven ze het volledige beeld: een passage kan structureel perfect zijn (hoge heuristic) maar irrelevant voor je target queries (lage retrieval), of andersom. --- ## Input ### Optie 1: URL (live fetch) Pagina wordt opgehaald via WebFetch. Content wordt geëxtraheerd uit de HTML body (nav/header/footer/sidebar verwijderd). ### Optie 2: Screaming Frog Text Export (aanbevolen voor bulk) - `Bulk Export > Web > All Page Text` in SF - Produceert één .txt bestand per pagina - Schone body text, geen HTML parsing nodig ### Optie 3: SF Internal:HTML Export + Content - `Internal:HTML` CSV met URL, Title, H1, Meta Description - Gecombineerd met `All Page Text` voor body content --- ## Workflow ### Stap 1: Content Extractie **Uit HTML (live fetch):** 1. Verwijder: `