---
name: 通用-蒸馏作者文风
description: '用于蒸馏一位小说作者的文笔 DNA，产出可被下游写/审/改 Skill 消费的"作者风格模板"。适合把作者的多部作品的文笔特征提炼为可测量的风格约束（句长基线、段落节奏、感官偏好、对话标签偏好、比喻指纹、禁忌清单），并在目标项目根目录自动注册到 Agents.md。关键词：蒸馏作者文风、作者风格模板、文笔DNA、风格注入、文风复刻。'
argument-hint: '要蒸馏哪位作者的文风？默认需要指定作者名与至少一部作品作为取样来源；支持多作品混合蒸馏。'
---

# 通用-蒸馏作者文风

> 核心理念借鉴自 [女娲 · Skill造人术](https://github.com/alchaincyf/nuwa-skill)：不是复制作者的文本，而是**提炼作者的可测量文笔 DNA**——让写/审/改 Skill 能按这套 DNA 约束输出，而不是凭空模仿。

## 继续读取的 references

- `references/作者风格模板格式定义.md`（**必读** — 产出格式规格与模板完整结构）

## 核心区别

| | nuwa 人物 Skill | 作者风格模板 |
| --- | --- | --- |
| 蒸馏对象 | 真实人物的思维方式 | 小说作者的文笔特征 |
| 关注什么 | 心智模型、决策启发式、表达DNA | 句长分布、段落节奏、感官偏好、比喻指纹、禁忌模式 |
| 产出用途 | 思维顾问（角色扮演） | 文笔约束（写/审/改 Skill 消费） |
| 关键区分 | 捕捉 HOW they think | 捕捉 HOW they write |

> **形似 vs 神似**：统计句长、段落、感官占比是**形似层**——它们告诉你这个作者"写了什么"。但读者能一眼认出某段文字是哪个作者写的，不是因为句长分布一样，而是因为那些句子**背后站着同一种看待世界的方式**。蒸馏的终极目标不是让下游按百分比拼凑句子，而是让下游**内化作者的写作思维模型**——当面对一个新的场景，能自然做出和原作者一样的选择：哪里该快、哪里该留白、什么该写进身体、什么必须摁住不写。本 Skill 的形似层（§一至§十二）是证据，神似层（本节的写作思维模型）才是引擎。

---

## 写作思维模型——从形似到神似（强制）

nuwa-skill 的提取框架指出：**心智模型的识别需要三重验证——跨域复现、有生成力、有排他性**。完全适用于作者文笔 DNA 的蒸馏。形似层回答了"这个作者用了多少短句"，神似层必须回答——**"这个作者为什么在这个时刻选择短句而不是长句，这个选择背后是什么写作信念？"**

### 神似三问

蒸馏作者文风时，必须在 Phase 2（统计与提炼）完成后、Phase 2.5（提炼确认）之前，对每个核心维度追问以下三问：

| 问 | 含义 | 从形到神的翻译 |
| --- | --- | --- |
| **为什么是这个分布？** | 句长 50% 短/30% 中/20% 长，这个比例不是随机发生的——作者在什么情境下选短句？什么情境下允许自己写长句？ | 统计数字 → 写作决策逻辑 |
| **如果换一个场景，会怎么变？** | 当前样本以动作场景为主。如果作者要写一场葬礼、一次重逢、一段漫长的等待——句长分布会偏移吗？偏移方向是什么？ | 单场景统计 → 跨场景生成规则 |
| **什么是这个作者绝对不做的事？** | 不只是禁忌词——而是更深层的"写作羞耻"：绝不煽情、绝不解释人物动机、绝不让叙述者比人物聪明、绝不用天气替人物哭 | 禁忌列表 → 写作伦理边界 |

### 跨域复现验证（强制）

每个维度的核心发现，必须至少在**两种不同场景类型**中验证成立，才能被认定为该作者的"写作思维模型"而非"单场景习惯"：

| 场景类型 | 验证什么 |
| --- | --- |
| 动作/冲突场景 | 高压下的句长、段落、感官选择 |
| 对话场景 | 对话标签、打断密度、潜台词深度 |
| 叙述/过渡场景 | 叙述句长、信息密度、段落节奏 |
| 情绪/内心场景 | 感官通道、情绪表达方式、比喻领域 |
| 环境/氛围场景 | 空间构图、感官调用规律、时间处理 |

**验证规则**：若某特征只在一个场景类型中成立，降级为"场景特定习惯"，不得写入"写作思维模型"；若在两个及以上场景类型中成立，升级为"跨域复现的写作模型"。

### 生成力测试（强制）

蒸馏的黄金标准不是"留出章节能被模板解释"，而是——**给定一个训练样本中从未出现过的场景，仅凭模板约束，能否生成一段让熟悉该作者的读者认不出差异的文字？**

Phase 4 质量验证中新增"生成力测试"：

1. 从**该作家的另一部未参与蒸馏的作品**中取一段场景类型（如"告别"），或构造一个该作家常见但当前样本未覆盖的场景命题
2. 只参考本模板的写作思维模型层（不使用任何形似层统计数据），让下游生成一段 200–300 字的文字
3. 邀请熟悉该作家的读者做 A/B 盲测：生成的文字 vs 作家真迹，判断哪段是 AI 写的
4. 若盲测中生成文字被误判为真迹的概率 ≥ 50%，说明模板达到了神似层

### 矛盾张力记录（强制）

"矛盾是人格的核心特征，不是需要修复的 Bug"——nuwa 的这条原则直接适用于文风蒸馏。一个作家的文笔深度，往往藏在看似矛盾的写作习惯里：

- 短句为主，但在某个情绪点突然放出一句 40 字长句——为什么是这里？
- 感官描写克制，但每次写到食物就失控——为什么是食物？
- 从不直接写"他很难过"，但用三页写他反复擦同一块玻璃——这个"遮掩"本身就是文风核心

在模板中新增 **§十三 矛盾张力记录**，逐条写清：

| 矛盾对 | A 面 | B 面 | B 面触发条件 | 这对矛盾说明了什么 |
| --- | --- | --- | --- | --- |
| 句长 | 短句为主（70%+） | 偶尔出现 40+ 字长句 | 当角色试图对自己撒谎时 | 长句=自我欺骗的语言信号 |
| 情绪表达 | 躯体化为主（65%） | 特定角色直述情绪（"我怕"） | 当孩子角色出场时 | 儿童视角=作者卸下"克制"的例外域 |

### 从形到神的翻译模板

Phase 2 统计完成后，必须为每个维度输出一段"从形到神"的翻译：

```
[维度名]
- 形（统计事实）：[数字]
- 神（写作信念）：[这个数字背后，作者对"什么是好文字"的隐性判断]
- 生成规则（如何在新场景中重现）：[不是"短句占 50%"，而是"每当[X]发生时，切换到短句模式"]```

---

## 文风可移植性评估（新增 — 仿写场景强制）

当蒸馏目标为仿写服务时（用户明确说"我要仿写这个作者的文风"或"为仿写蒸馏"），完成 Phase 2 统计后，必须追加以下评估。

### 文风-题材绑定度判断

| 文笔维度 | 评估问题 | 判断标准 |
| --- | --- | --- |
| 句长基线 | 该句长分布是否与题材节奏要求高度绑定？（如都市文的短句快节奏 vs 古典仙侠的句长波动） | `题材绑定` / `作者独立` |
| 感官偏好 | 该感官偏好是否由作品的特定场景类型驱动？（如悬疑题材的听觉/触觉偏重 vs 言情题材的视觉/嗅觉偏重） | `题材绑定` / `作者独立` |
| 对话风格 | 该对话标签偏好是否因题材中的人物关系类型而产生？ | `题材绑定` / `作者独立` |
| 比喻指纹 | 比喻来源领域是否与作品的设定世界观高度绑定？ | `题材绑定` / `作者独立` |
| 情绪表达方式 | 该情绪表达方式是作者的写作信念（跨题材稳定），还是当前作品题材的情绪密度要求导致的？ | `作者信念` / `题材驱动` |
| 叙事距离 | 该叙事距离是作者的一贯选择（跨域复现可验证），还是当前作品的 POV 类型导致的？ | `作者习惯` / `POV驱动` |

### 文笔"内核"提取——作者看世界的方式

如 nuwa-skill 所述："不是此人原话的拼凑，而是框架的运行"。文笔的终极"内核"不是句长分布和比喻密度，而是**作者看待世界的基本方式**：

| 叙述者类型 | 特征 | 跨题材可移植性 |
| --- | --- | --- |
| **悲悯型叙述者** | 即使写反派内心也带着理解，世界是复杂的，无人真正邪恶 | 高 — 任何题材都可运行 |
| **冷峻型叙述者** | 只写行为，不写动机，信任读者自己判断 | 中 — 在强调情感共鸣的题材中需调整 |
| **吐槽型叙述者** | 叙述者本身就是一种"看世界的方式"——所有角色的愚蠢和世界的荒谬都被同一副眼镜过滤 | 高 — 但需控制密度以免破坏紧张场景 |
| **沉浸型叙述者** | 叙述者尽量隐身，让读者直接"成为"角色 | 高 — 通用性最强的类型 |

### 产出：仿写文风适配指南

在模板末尾追加 **§十四 仿写文风适配指南**：

```markdown
## 十四、仿写文风适配指南

> 本节仅当蒸馏目标为仿写时生成。纯文风蒸馏可跳过。

### 文笔-题材绑定度总表
| 维度 | 绑定度 | 跨题材可移植性 | 在新题材中需调整的方向 |
| --- | --- | --- | --- |
| 句长基线 | [题材绑定/作者独立] | [完全可移植/需幅度调整/需重设] | [说明] |
| ... | ... | ... | ... |

### 可移植文笔内核
[作者看待世界的方式] → [在新题材中如何运行]

### 文风移植风险预警
- [风险 1：如冷峻型叙述者在言情题材中可能让读者情感投入不足]
- [风险 2：如吐槽型叙述者在正剧悬疑中可能破坏紧张感]

### 建议配套蒸馏的蓝本/研究
[如果要成功移植此文风到新题材，建议同时蒸馏哪些类型的蓝本或研究作为补充]
```

---

## 蒸馏维度（9 大维度）

| 维度 | 提取内容 | 下游消费 Skill |
| --- | --- | --- |
| 句长基线 | 短/中/长句分布比、不同场景的句长交替模式、句长禁忌 | 创建小说正文、去AI味重写、正文润色、执行场景单元、审阅章节正文 |
| 段落节奏 | 单句独段/短段/中段/长段分布比、段落交替模式、段落节奏禁忌 | 同上 |
| 感官偏好 | 六种感官通道的分布比、感官调用规律、感官盲区 | 创建小说正文、正文润色、执行场景单元 |
| 对话风格配置 | 对话标签偏好、"说"派/动作标签派/无标签派占比、打断密度、潜台词深度、对话叙述比 | 创建小说正文、执行对话冲突、审阅章节正文 |
| 叙事距离 | 默认镜头距离、内心独白比例、自由间接引语频率、视角切换频率、上帝视角禁令 | 创建小说正文、执行场景单元 |
| 比喻指纹 | 比喻来源领域分布、比喻密度、比喻类型偏好、比喻禁忌领域 | 去AI味重写、正文润色、审阅章节正文 |
| 情绪表达方式 | 躯体化表达/动作外化/环境投射/直述情绪/留白分布比、情绪表达禁忌 | 去AI味重写、审阅章节正文 |
| 禁忌清单 | 句式禁忌、修辞禁忌、叙事禁忌、词汇禁忌（该作者绝不做的事） | 全部下游 Skill |
| 整体文风 | 一句话概括 | 全部下游 Skill |
| 信息密度指纹 | 每句新信息单元数、信息密度标准差、纯解释句占比、信息落针偏好（一句落还是多句落） | 去AI味重写、审阅章节正文、正文润色 |
| 声口差异化指纹 | 不同人物间的句长差异度、口头禅/句式指纹 Jaccard 距离、叙述者对不同人物的语言贴近度 | 执行对话冲突、创建小说正文、审阅章节正文 |
| 时间处理指纹 | 时间跳跃频率/幅度偏好、实时场景 vs 概括叙述比例、时间描写粒度偏好 | 创建小说正文、正文润色、执行场景单元 |
| 空间构图指纹 | 场景开局的空间锚定方式、空间描写深度粒度、场景内视线移动模式 | 创建小说正文、执行场景单元、正文润色 |
| **语气与语体指纹** | 语体混搭密度（现代词入侵古语/俚语/网络语）、幽默机制类型与密度、叙述者态度（中性/吐槽/俯视调侃/平视共情）、语体切换触发场景与"安全距离" | 去AI味重写、创建小说正文、执行对话冲突、审阅章节正文 |

---

## 执行流程

### Phase 0: 需求澄清

收到蒸馏请求后，确认：

1. **作者名**：确保理解正确
2. **取样范围**：
   - 指定作品列表（必填，至少 1 部）
   - 章节/字数范围（可选，默认取前 30 章或前 10 万字；用户可指定"全本"）
   - 是否多作品混合蒸馏（可选，默认单作品足以提取共性，多作品可提高指纹准确性）
3. **聚焦维度**（可选）：全部 9 维 vs 只聚焦某几个维度？
4. **本地语料**：用户是否手上有该作者的电子书/TXT/PDF？

用户说"蒸馏 XX 的文风"无更多信息 → 默认全 9 维 + 前 30 章取样 + 网络搜索获取。

### Phase 0.5: 创建自包含蒸馏档案包

正式采样前，必须先在目标小说项目根目录下创建或确认本轮蒸馏档案包：

```text
蒸馏产物/作者风格模板/[作者名]-作者风格档案/
   sources/                         # 用户提供或可公开读取的一手文本、访谈、创作谈
   references/research/              # 本轮维度化采样记录，必须落盘
      01-句长与段落节奏.md
      02-感官与叙事距离.md
      03-对话风格配置.md
      04-比喻与情绪表达.md
      05-禁忌清单与反模式.md
      06-外部评论与作者创作谈.md
      07-信息密度与声口差异化.md
      08-时间处理与空间构图.md
      09-语气与语体指纹.md
   synthesis/                        # 提炼过程、冲突处理、置信度说明
   validation/                       # 质量验证记录
```

硬要求：

- 最终主模板仍写入 `蒸馏产物/作者风格模板/[作者名]-作者风格模板.md`，便于 `Agents.md` 注册和下游读取。
- 采样、推断、冲突与验证材料必须存入档案包；不落档案的蒸馏视为不可审计，不得给高置信度。
- 用户提供的一手语料优先复制或登记到 `sources/`，并在模板中标明"用户提供一手素材"。
- 若公开样本不足，必须在本阶段提前提示，并降低模板置信度，不得后续补成看似完整的高分模板。

### Phase 1: 信息采集

#### 模式判断

| 模式 | 触发条件 | 策略 |
| --- | --- | --- |
| 纯网络搜索 | 用户未提供本地素材 | 通过网络搜索获取作品正文片段、书评、写作研究、作者访谈 |
| 本地语料优先 | 用户提供了电子书/TXT/PDF | 先读本地素材，网络搜索补充缺失维度 |
| 纯本地语料 | 用户明确说"只用我给的素材" | 只分析本地素材 |

#### 采集维度与搜索策略

按 9 个维度并行采集。不同维度的信息密度不同，采集优先级如下：

**第一优先级（必须采集，文本统计级）**：
- **句长基线**：从取样作品中随机选取 10+ 个段落进行句长统计。不同场景类型（动作/对话/叙述/高潮）各取 3-5 个样本段。
- **段落节奏**：从取样作品中随机选取 3-5 章进行段落类型统计。
- **对话风格配置**：从取样作品中随机选取 5-10 段对话进行标签类型统计和打断密度统计。

**第二优先级（尽量采集，文本分析级）**：
- **感官偏好**：从取样作品中随机选取 20+ 处感官描写，分类统计。
- **比喻指纹**：从取样作品中随机选取 20+ 处比喻（明喻+隐喻），按来源领域分类。
- **情绪表达方式**：从取样作品中随机选取 20+ 处情绪描写，按表达方式分类。

**第三优先级（补充采集，知识增补级）**：
- **叙事距离**：基于文本判断 + 书评/研究补充。
- **禁忌清单**：基于文本"从不出现"的句式/修辞/词汇 + 作者访谈（如有）。禁忌清单必须区分来源——"统计推断禁忌"（在取样 N 个段落中从未出现）vs "作者自觉禁忌"（作者在访谈中明确说过）；前者可靠性低于后者，必须显式标注来源类型。
- **语气与语体指纹**：从取样作品中统计现代口语词/网络语/俚语入侵古语的频次（每千字密度），按触发场景（内心独白/对话/叙述者旁白）分别计数。识别幽默机制类型——预期违背、自贬自嘲、反差萌、callback 重复笑点——各统计占比。判断叙述者态度是中性旁观还是带吐槽立场，统计旁白吐槽频次。
- **整体文风**：基于前 8 维综合提炼。
- **信息密度指纹**：每句新信息单元数、信息密度标准差、纯解释句占比、信息落针偏好。
- **声口差异化指纹**：人物间句长差异度、口头禅句式指纹 Jaccard 距离、叙述者对人物的语言贴近度。
- **时间处理指纹**：时间跳跃频率/幅度偏好、实时场景 vs 概括叙述比例。
- **空间构图指纹**：场景开局的空间锚定方式、空间描写粒度、视线移动模式。

#### 信息源

| 来源类型 | 揭示什么 | 优先级 |
| --- | --- | --- |
| 用户提供的电子书/TXT/PDF | 完整原文，最精准的统计基础 | 最高 |
| 作品公开正文（在线阅读平台） | 可获取的章节样本 | 高 |
| 书评/读后感/拆解分析 | 外部对该作者文风的定性判断 | 中 |
| 作者访谈/创作谈 | 作者对自己文风的自觉意识 | 中（如有） |
| 写作研究/网文分析 | 第三方对该作者的系统分析 | 低（参考但需验证） |

信息源黑名单：知乎、微信公众号、百度百科（沿用 nuwa-skill 的信息源策略）。

#### 信息不足时的处理

| 情况 | 处理 |
| --- | --- |
| 某维度公开信息很少 | 在模板中标注"信息不足，此维度为估算值" |
| 只有少量章节样本 | 降低统计置信度，标注"样本量偏小（N=X），分布可能不稳定" |
| 信息相互矛盾 | 保留矛盾在注释中，以一手文本统计为准 |

### Phase 1.5: 采样 Review 检查点

完成采集后，先暂停并输出一页采样质量摘要，供用户确认是否继续提炼。

| 维度 | 样本量 | 一手占比 | 关键发现 | 风险 |
| --- | --- | --- | --- | --- |
| 句长与段落 | [N] 段 / [N] 章 | [X]% | [最显著规律] | [样本不足/范围偏窄/无] |
| 对话风格 | [N] 段对话 | [X]% | [标签偏好/打断密度] | [无] |
| 感官与情绪 | [N] 处 | [X]% | [主感官/表达方式] | [无] |
| 比喻与禁忌 | [N] 处 | [X]% | [来源领域/禁忌来源分布] | [无] |
| 信息密度与声口 | [N] 段 / [N] 人物 | [X]% | [密度波动/人物声口差] | [无] |
| 时间与空间 | [N] 处时间跳转 / [N] 个场景 | [X]% | [时间粒度/空间锚定模式] | [无] |

用户确认采样质量 OK → 进入 Phase 2；若某维度样本不足，先补样本或在后续模板中明确降级为"低置信估算"。

### Phase 2: 统计与提炼

按 `references/作者风格模板格式定义.md` 的 16 个 section 逐项填充（形似层 §一至§十二）。填充完成后，追加神似层提炼：

1. **跨域复现验证**：将每个核心维度的发现，在至少两种不同场景类型（动作/对话/叙述/情绪/环境）中交叉验证。仅在一个场景成立的特征降级为"场景特定习惯"。
2. **从形到神的翻译**：为每个维度写一段翻译——"形（统计事实）→ 神（写作信念）→ 生成规则（如何在新场景重现）"。
3. **写作思维模型提炼**：从跨域复现通过的发现中，提炼 3-7 条"写作思维模型"——即在全新场景中也能指导写作决策的隐性规则。
4. **矛盾张力记录**：识别并记录"常态规律 vs 打破时刻"的矛盾对，写入 §十三 矛盾张力记录。矛盾不是误差，是文风深度的来源。

**统计原则**：
- 所有百分比、密度数据必须标注样本量（N=X）
- 定性判断必须有至少 2 处文本引用支撑
- "禁忌"类判断（该作者不做的事）需要明确写清判断依据（如"在取样 N 个段落中从未出现" / "作者在访谈中明确说过"）
- 不确定的维度标注"信息不足，此维度为估算值"

### Phase 2.5: 提炼确认检查点

提炼完成后，不立刻写最终模板，先输出提炼摘要：

- 核心文风指纹：3–5 条（必须是可执行约束，不是形容词）
- 可量化字段：列出已拿到数字支撑的字段数量
- 高风险估算字段：列出哪些字段样本不足或只来自二手判断
- 反模式 / 禁忌清单：列出最关键的 5–10 条
- 与写作研究模板可能冲突的维度：例如平台要求短句快节奏，但作者风格偏长句慢热
- **神似层摘要**：列出已提炼的写作思维模型（3-7 条）、跨域复现通过的维度数、已识别的矛盾张力对数、以及"从形到神"翻译的覆盖率

用户确认提炼方向 OK → 进入 Phase 3。若用户指出风格方向不对，回到 Phase 2 重新归因，不得硬写最终模板。

### Phase 3: 产出与注册

1. 按模板格式生成完整的作者风格模板 `.md` 文件
2. 写入目标项目根目录下的 `蒸馏产物/作者风格模板/[作者名]-作者风格模板.md`
3. 在目标项目根目录的 `Agents.md` 中追加注册条目（若 `Agents.md` 不存在则创建）
4. 若项目 `Agents.md` 中尚未指定 `主输出平台`，但本轮蒸馏时用户明确指定了适用平台（如"番茄""起点""知乎"），注册时必须加上"适用平台"字段；若用户未指定平台，标记为"默认"。
5. 注册条目格式：

```markdown
### 作者风格模板
- 名称：[作者名]
- 路径：蒸馏产物/作者风格模板/[作者名]-作者风格模板.md
- 蒸馏日期：YYYY-MM-DD
- 蒸馏范围：[作品列表]，[章节/字数范围]
- 适用平台：[番茄 / 起点 / 七猫 / ...] 或 默认
```

其中 `适用平台` 取值为：
- `默认`：未指定平台，所有平台通用
- 具体平台名（如 `番茄`、`起点`、`知乎`、`豆瓣` 等）：该模板专门为指定平台蒸馏

**平台注册逻辑**（强制执行）：

- 蒸馏时若不指定平台，写入 `- 适用平台：默认`
- 蒸馏时若指定平台，写入 `- 适用平台：[平台名]`
- 若目标项目 `Agents.md` 中已存在同平台同类型模板，询问用户是覆盖还是并存（并存时在名称后加"_平台名"后缀）
- 若目标项目 `Agents.md` 中不存在 `主输出平台` 字段，但本轮写入的平台明确且是第一次注册，建议用户指定主输出平台（可选，不强制）

6. 给用户提供蒸馏摘要：提取了哪些关键特征、9 个维度的置信度评估。

### Phase 4: 质量验证

最终模板写入前，必须做四项验证：

1. **留出样本回测**：用未参与统计的章节/段落做对照，检查模板能否解释其句长、段落、感官、对话与禁忌特征。
2. **迁移干跑**：取一段中性文本，按模板约束做一次小样改写，检查结果是否像"该作者的可执行风格约束"，而不是直接模仿具体句子。
3. **反抄袭检查**：确认模板只提取结构化约束，不复制原文表达、专属意象或可识别句子。
4. **生成力测试**（神似层验证，新增）：从该作家的**另一部未参与蒸馏的作品**中取一段场景类型（或构造一个当前样本未覆盖的新场景命题），仅凭写作思维模型层（不使用形似层统计数据），让下游生成一段 200–300 字文字。邀请熟悉该作家的读者做 A/B 盲测。若生成文字被误判为真迹的概率 ≥ 50%，模板达到神似层。

通过标准：

| 检查项 | 通过标准 | 不通过信号 |
| --- | --- | --- |
| 样本解释力 | 留出样本中的主要风格现象能被模板解释 | 模板像泛泛文风点评 |
| 字段可执行性 | 下游 Skill 能按字段直接调整句长、段落、感官、对话 | 字段是"高级""有质感"这类空词 |
| 诚实边界 | 明确标注样本量、来源、一手占比、估算字段 | 没有说明局限 |
| 反抄袭边界 | 无原文长句、无独特意象搬运 | 出现可识别原作句群或意象链 |
| 生成力 | 盲测误判率 ≥ 50% | 生成文字读起来像"遵守了规则"而非"长出了风格" |

验证结果必须写入档案包 `validation/`，并在最终模板中给出"置信度综合"。

### Phase 5: 双 Agent 精炼

验证通过后，默认启动两路独立精炼视角（可由主执行者模拟，也可由子 Agent 执行）：

- **Agent A：模板可执行性审阅**——检查字段是否足够具体、是否能被 `创建小说正文 / 去AI味重写 / 正文润色` 直接消费。
- **Agent B：风格边界审阅**——检查是否存在过度模仿、原文搬运、禁忌不足、样本偏差和平台适配冲突。

主执行者综合两份意见，只接受能提升"可执行性 / 可审计性 / 反抄袭边界"的改动；不为了堆内容扩写模板。

### 更新已有作者风格模板

当用户说"更新某作者文风模板"、"加入新作品样本"、"这个模板不准"时：

1. 先读取现有作者风格模板和其档案包，确认原始样本范围、调研日期与置信度。
2. 只对新增作品、新增章节或用户指出的不准维度做增量采样。
3. 对比新旧结论：
   - 新样本强化旧结论 → 补来源与样本量
   - 新样本推翻旧结论 → 标注"版本漂移"或"作品差异"
   - 新样本只在特定作品成立 → 写成"作品局部风格"，不得覆盖作者总风格
4. 更新模板中的蒸馏日期、样本范围、置信度和版本说明，不重写无关字段。

---

## 禁忌清单的来源区分（强制）

禁忌清单中的每条禁忌必须标注来源类型，不得混写：

| 来源类型 | 标注前缀 | 可靠性 | 下游处理 |
| --- | --- | --- | --- |
| 统计推断 | `[统计]` | 中—受样本范围限制 | 作为强约束参考，但允许在跨作品场景下被质疑 |
| 作者自述 | `[自述]` | 高—有作者自觉证据 | 作为硬门禁，不得违反 |
| 外部评论推断 | `[评论]` | 低—二手判断，需交叉验证 | 仅作为软建议，不得作为硬门禁 |

- 若同一条禁忌同时有统计推断和作者自述支撑，标注 `[统计+自述]`，可靠性最高。
- 在 Phase 1.5 采样 Review 中，必须单列"禁忌来源分布"：统计推断 N 条 / 作者自述 N 条 / 外部评论 N 条。

---

## 三模板冲突仲裁规则（新增）

当作者风格模板、作品蓝本模板、写作研究模板同时作用于同一字段且约束不同时，按以下优先级裁决：

| 冲突场景 | 优先顺序 | 裁决逻辑 |
| --- | --- | --- |
| 同一字段三模板均约束 | 作者风格 > 作品蓝本 > 写作研究 | 用户显式指定优先于结构参照，结构参照优先于平台默认 |
| 作者风格与写作研究冲突 | 作者风格优先 | 一手统计 > 二手研究结论；但平台硬门槛（如"起点前 300 字必须有冲突"）不得被作者"慢热"风格覆盖 |
| 作品蓝本与写作研究冲突 | 蓝本优先 | 验证过的结构规律 > 通用研究建议 |
| 平台硬门槛 vs 任何模板 | 平台硬门槛优先 | 若写作研究中的某条约束标注了"平台硬门槛"（如起点追读率底线），覆盖作者风格和蓝本的同字段约束 |

**硬规则**：
- 冲突裁决必须在蒸馏报告中显式记录，不得暗中取舍
- 若裁决导致作者风格模板的某条约束被覆盖，必须在该约束旁标注覆盖来源与理由
- 若裁决后仍无法确定，保留冲突供用户决策，不得强行调和

---

## 下游 Skill 消费说明

本 Skill 产出的作者风格模板由下游 Skill 通过项目根 `Agents.md` 自动发现并消费。详见各下游 Skill 中的"风格/蓝本模板自动发现规则"。

---

## 与其他 Skill 的边界

- 本 Skill 蒸馏**作者层面的文笔特征**（横跨该作者的多部作品）。
- `通用-蒸馏作品蓝本` 蒸馏**单部作品的叙事架构特征**（纵贯一部作品的结构 DNA）。
- `通用-设计人物传记` 设计**虚构人物**的心智模型和表达 DNA，与真实作者的文笔 DNA 是不同维度的产出。
- `通用-去AI味重写` 消费本 Skill 产出，在人声回补层实现风格注入。

---

## 风格DNA符合度审计（新增）

蒸馏的终极检验标准是：**用这套模板约束写出来的正文，和原作者本人的文风是否几乎一模一样，让读者看不出差异**。风格DNA符合度审计就是为此设计的后验机制——它不是"有没有用模板"，而是"像不像"。

### 审计时机

当且仅当以下条件同时满足时，启动风格DNA审计：

1. 当前项目已存在一份通过 Phase 4 质量验证的**作者风格模板**（即 `蒸馏产物/作者风格模板/[作者名]-作者风格模板.md`）
2. 下游 Skill（`通用-创建小说正文` / `通用-正文润色` / `通用-去AI味重写`）已产出一份**可供比对的成品正文**（≥ 3000 字的完整章节）
3. 用户明确要求"审计风格DNA""比对文风""看看像不像"或类似表述

### 审计方法论

风格DNA比对不是模糊的"读着像不像"，而是**逐维量化对照**——将产出正文的每个维度的实测值，与作者风格模板中对应维度的基线值做差异计算。

**比对的黄金标准**：取原作者本人一段**非取样章节**（即未参与蒸馏统计的留出章节），用同一套审计方法计算其与模板的差异值，作为"原作者自身波动基线"。产出正文的差异值越接近原作者自身波动基线，说明仿写越成功。

### 审计维度与计算方式

| 维度 | 数据来源（产出正文） | 对比基线（模板） | 差异计算方式 |
| --- | --- | --- | --- |
| 句长分布 | 随机抽取 10 个段落，统计短/中/长句占比 | 模板 §一 句长基线的短/中/长占比 | JS 散度（0–1，越小越像）；≤ 原作者自身 JS 散度 → 通过 |
| 段落节奏 | 随机抽取 3 章，统计单句独段/短段/中段/长段占比 | 模板 §二 段落节奏的对应占比 | 同上 |
| 感官偏好 | 抽取 20+ 处感官描写，统计六通道占比 | 模板 §三 感官偏好的占比 | 同上；额外检查是否触碰感官盲区 |
| 对话风格 | 抽取 5–10 段对话，统计标签类型/打断密度 | 模板 §四 对话风格配置 | JS 散度 + 打断密度差异 ≤ 模板标注值的 ±20% |
| 比喻指纹 | 抽取 20+ 处比喻，统计来源领域占比 + 密度 | 模板 §六 比喻指纹 | JS 散度 + 密度差异 ≤ ±30%；额外检查是否触碰比喻禁忌 |
| 情绪表达 | 抽取 20+ 处情绪描写，统计五种方式占比 | 模板 §七 情绪表达方式 | JS 散度；额外检查是否触碰情绪表达禁忌 |
| 信息密度 | 抽取 10 个段落，统计新信息单元均值/标准差/纯解释句占比 | 模板 §九 信息密度指纹 | 均值差异 ≤ ±20%；标准差比 ≥ 0.7（说明有峰谷） |
| 声口差异化 | 抽取各角色 10+ 句对话，计算句长差异度和 Jaccard 距离 | 模板 §十 声口差异化指纹 | 差异度 ≥ 模板基线 × 0.8；Jaccard 距离 ≥ 模板基线 × 0.7 |
| 语气与语体 | 抽取 20+ 处语体混搭/幽默/叙述者态度标记，统计密度与分布 | 模板 §十四之二 语气与语体指纹 | JS 散度；额外检查是否触碰语体混搭禁忌或幽默类型偏差 |
| 禁忌清单 | 全文扫描 | 模板 §八 禁忌清单 | 触发任一条 `[统计]` 或 `[自述]` 禁忌 → 该维度直接判为不通过 |

### 综合DNA符合度计算

```
综合符合度 = Σ(维度得分 × 维度权重) / Σ(维度权重)

维度得分：通过=100，未通过=0（禁忌维度）或 按 JS 散度线性映射到 0–100
维度权重：
- 句长分布：15%
- 段落节奏：10%
- 感官偏好：10%
- 对话风格：15%
- 比喻指纹：10%
- 情绪表达：10%
- 信息密度：15%
- 声口差异化：10%
- 语气与语体：5%
- 禁忌清单：5%（但触发硬禁忌时综合符合度封顶 69%，直接判 C/D 级）
```

### 符合度分级

| 综合符合度 | 等级 | 含义 | 是否放行 |
| --- | --- | --- | --- |
| ≥ 90% | S 级 | 超出原作者自身波动范围的上限，极高质量仿写 | ✅ 放行 |
| 80%–89% | A 级 | 接近原作者自身波动基线，读者难以分辨差异 | ✅ 放行 |
| 70%–79% | B 级 | 能看出是同一文风方向，但部分维度有可感知偏差 | ⚠️ 附带整改清单放行 |
| 60%–69% | C 级 | 多个维度明显偏离，读者能感知"不是同一个人写的" | ❌ 回炉，回到 `通用-去AI味重写` |
| < 60% | D 级 | 完全不像，仿写失效 | ❌ 回到蒸馏阶段，检查模板是否失准 |

### 审计报告格式（强制）

审计结果写入 `风格审计/作者风格/[作者名]/dna_audit_[审计对象]_YYYY-MM-DD.md`：

> 审计对象 命名规范：若审计对象为特定章节，使用 `ChX-章名`；若为批量章节，使用 `ChX-Y`；若为全书，使用 `全书`。

```markdown
# 风格DNA符合度审计报告

> 审计日期：YYYY-MM-DD
> 审计对象：[章节文件名]
> 参照模板：[作者名]-作者风格模板.md（蒸馏日期：YYYY-MM-DD）
> 原作者自身波动基线：取自留出章节 [章号范围]，JS 散度均值 [X]

## 逐维对照

| 维度 | 产出实测值 | 模板基线 | JS 散度 | 原作者基线 | 得分 | 是否通过 |
| --- | --- | --- | --- | --- | --- | --- |
| 句长分布 | 短45%/中35%/长20% | 短50%/中30%/长20% | 0.03 | 0.05 | 95 | ✅ |
| 段落节奏 | ... | ... | ... | ... | ... | ... |
| ... | ... | ... | ... | ... | ... | ... |

## 禁忌触发清单

| 禁忌条目 | 来源类型 | 触发位置（章节+段落） | 严重度 |
| --- | --- | --- | --- |

## 综合符合度

- 综合符合度：[X]%
- 等级：[S/A/B/C/D]
- 结论：[放行 / 附带整改放行 / 回炉]
- 最低维度：[列出得分最低的 2 个维度]
- 最小整改动作：[若 B 级或以下，列出优先修复的维度与具体动作]
```

### 审计后的闭环动作

- **S/A 级**：归档审计报告，无需回炉。
- **B 级**：将审计报告中的"未通过维度"转译为具体的章节修改任务，交付给 `通用-去AI味重写` 或 `通用-正文润色`，修改完成后**复跑审计**直至达到 A 级以上。复跑时只重测未通过维度，已通过维度保留原分数。
- **C/D 级**：不得进入正文后续流程。C 级回炉到 `通用-去AI味重写`（说明文风注入层执行失效）；D 级回到蒸馏阶段（说明模板本身可能失准，需要补充样本或调整归因）。

### 禁忌触发的特殊处理

- 触发 `[自述]` 禁忌：属于作者自觉禁区，无法容忍。综合符合度直接封顶 69%。
- 触发 `[统计]` 禁忌：说明产出文本出现了原作者从不使用的模式。将该维度得分直接扣至 0，但综合符合度不受全局封顶。
- 触发 `[评论]` 禁忌：仅作为提示写入报告，不扣分。

---

## 与其他 Skill 的边界

- 本 Skill 蒸馏**作者层面的文笔特征**（横跨该作者的多部作品）。
- `通用-蒸馏作品蓝本` 蒸馏**单部作品的叙事架构特征**（纵贯一部作品的结构 DNA）。
- `通用-设计人物传记` 设计**虚构人物**的心智模型和表达 DNA，与真实作者的文笔 DNA 是不同维度的产出。
- `通用-去AI味重写` 消费本 Skill 产出，在人声回补层实现风格注入。
- 风格DNA符合度审计结果可供 `通用-去AI味重写` 和 `通用-正文润色` 作为定向修改的输入。