---
name: news-pdf-integration
description: 优先从 news/source-daily.md（若存在）或 news/source.md 读取多篇文章，逐篇原创整理为 MD 输出到 files/source/，保留核心内容、规避侵权。当用户更新 source-daily.md/source.md、需要批量处理多篇来源文章、或将外部文章整理进项目时使用。
---

# 从 source(-daily).md 多篇文章到 files/source 整理流程

优先从 **`news/source-daily.md`**（若存在）读取**多篇**聚合文章；若仅有 `news/source.md`，则从 `source.md` 读取。在 **Plan 阶段** 明确识别每篇边界与数量，对**每一篇**进行**重新整理**，生成原创 MD 写入 **`files/source/`**，**只保留核心内容**，避免侵权。不直接复制原文。

---

## 一、数据源与输出约定

| 项目 | 约定 |
|------|------|
| **输入** | **优先**：`news/source-daily.md`；若不存在则使用 `news/source.md`（单文件内多篇文章聚合，可能来自公众号、转载等） |
| **输出** | 每篇文章对应一个 MD：`files/source/<主题简写>.md` |
| **原则** | 每篇**重新整理**、用自己的话归纳，**保留核心内容**即可，不逐段抄录 |

**侵权规避**：source.md 中内容可能涉及版权，因此**必须**对每一篇做原创化整理（提炼观点、术语、结论，改写表述），仅保留核心信息，不原文照搬。

---

## 二、Plan 阶段（必做）

在处理前必须先完成**规划**，避免漏篇或重复：

1. **读取** `news/source-daily.md`（若存在）或 `news/source.md` 全文。
2. **识别多篇文章边界**：
   - 文章通常以**主标题**或**明显分隔**（如空行+新标题、`END`、下一篇文章标题）为界。
   - 常见模式：首行或前几行为第一篇标题；后续出现与上文无关的新标题、或「END」+ 大量空行/列表/“留言”等，多为下一篇开始。
3. **列出每篇文章**：
   - 序号、**标题/主题**、**建议文件名**（英文或拼音，如 `pku-wanghe-2025-embodied-roundup.md`、`leju-showroom-strategy-2026.md`）。
4. **确认**：共 N 篇，输出到 `files/source/` 的 N 个 MD 与之一一对应。

只有在 Plan 中明确「篇数 + 每篇标题 + 输出文件名」后，再逐篇执行整理。

---

## 三、文章边界识别参考

- **第一篇**：多为文件开头到第一个「结尾标志」或下一篇文章标题之前。
- **下一篇**：新出现的独立标题（与上文无连贯关系）、或「END」/「写在最后」+ 空行/列表/“留言”之后的**新标题**。
- **噪音**：企业名单、公众号引导、留言、精选推荐等可视为分隔或文末噪音，不纳入正文；若某段明显是下一篇开头，则从该处切开。

不确定时，宁可先按「标题 + 语义连贯性」切出候选篇，在整理时再微调边界。

---

## 四、单篇整理与输出规范

对 **每一篇** 独立执行：

1. **从 source.md 中截取**该篇的完整正文（按 Plan 中划定的边界）。
2. **原创整理**：
   - 提炼：核心观点、关键术语、重要结论、数据/结果（若有）。
   - 用自己的话重写，分节归纳（可加小标题），**不逐段抄录**。
3. **写出 MD** 到 `files/source/<主题简写>.md`：
   - 必须包含：**标题**、**整理说明**（如「基于 [原文主题] 的整理，仅保留核心内容」）、**正文**（分节、列表均可）。
   - 可选：文末注明「—— 整理自 Xbotics 具身智能学习指南 | 供学习参考」。

### 单篇 MD 模板

```markdown
# [文章主题标题]

*基于原文的整理，仅保留核心内容，供学习参考。*

---

## 1. [小节名]
[原创归纳内容……]

## 2. [小节名]
[原创归纳内容……]

---

*—— 整理自 Xbotics 具身智能学习指南 | 供学习参考*
```

**文件名**：`files/source/` 下使用英文或拼音，如 `pku-wanghe-2025-roundup.md`、`leju-showroom-2026.md`、`xiaomi-vla-open-source.md`，避免中文与特殊字符。

### 图标与表情（必做）

- **`news/source-daily.md`（或 `news/source.md`）**：在编辑或生成日报/源文件时，在**主标题、本期重点、各篇标题、小节标题**（如「一句话记住」「为什么重要」「核心亮点」「配图建议」「资源」）及**要点列表**前使用适量图标与表情，使内容更生动、易扫读。可参考：📰 🎯 🤖 🧭 📐 🔄 💡 ❓ ✨ 🖼️ 🔗 📌 🏷️ 等，按主题选用。
- **`files/source/*.md` 整理稿**：写入每篇整理稿时，在**文章标题、小节标题**（如「背景与目标」「核心亮点」「实验结果与意义」）及**要点条目前**同样使用适量图标与表情，与 source-daily 风格一致，便于阅读。

---

## 五、检查（必做）

每篇整理并写出 MD 后，**必须**做以下两项检查；不合格则修正再继续。

### 5.1 内容一致性检查（总结与原文是否一致）

- **对照原文**：用 source.md 中该篇的原文段落，逐条核对整理稿是否覆盖了**核心信息**（主要观点、关键术语、重要结论、数据/结果）。
- **通过标准**：无**实质性遗漏**（如漏掉原文明确的核心论点、关键数字、方法名/论文名）；无**实质性偏差**（如把“A 优于 B”写成“B 优于 A”）；允许概括与改写，但语义不得与原文矛盾。
- **若不一致**：在整理稿中补全遗漏、修正偏差，必要时调整小节结构，使总结与原文核心一致。

### 5.2 放置位置检查（放的位置是否合适）

- **主输出位置**：所有整理稿的**主产出**一律放在 `files/source/<主题简写>.md`，无需再检查“是否该放 source”。
- **可选集成时的位置**：若做了「在 files/papers/、files/interviews/、files/foundations/ 写摘要或索引，并在 docs 中加链接」，则需检查：
  - **类型是否匹配**：论文/技术 → `files/papers/` 及 docs/5-sota、4-classical、1.3 等；访谈/产业 → `files/interviews/` 及 docs/8-people、9-landscape、1.3 产业视角；基础/教程 → `files/foundations/` 及 docs/3-foundations、2-roadmaps。
  - **链接是否到位**：摘要/索引中指向 `../source/xxx.md` 的链接正确；docs 内链接到的是最相关的小节，而非随便挂到某章末尾。
- **通过标准**：主产出均在 `files/source/`；若做了可选集成，则类型与目录对应正确、链接有效且挂到合适小节。
- **若不合适**：移动或重命名摘要/索引文件到正确目录，或调整 docs 中的链接目标到更贴切的小节。

**检查清单（可逐篇勾选）**：

- [ ] 内容一致性：核心信息无遗漏、无语义偏差
- [ ] 放置位置：主产出在 `files/source/`；若做了集成，类型与链接位置合适

---

## 六、实施步骤总览

| 步骤 | 说明 |
|------|------|
| **Step 0 Plan** | 优先读 `news/source-daily.md`（若存在，否则读 `news/source.md`）→ 识别多篇文章边界 → 列出每篇标题与 `files/source/<名>.md` |
| **Step 1 逐篇整理** | 对每篇：截取正文 → 原创归纳（保留核心）→ 写入 `files/source/<主题简写>.md` |
| **Step 2 检查** | 每篇：内容与原文一致性检查 + 放置位置检查；不合格则修正 |
| **Step 3 可选** | 若需接入项目文档：在 `files/papers/`、`files/interviews/`、`files/foundations/` 做摘要或索引，并在 docs 相应小节增加链接（见下节） |

---

## 七、可选：与 docs 的集成

整理结果以 **`files/source/*.md`** 为主产出。若需在项目知识库中引用：

- **论文/技术类**：可在 `files/papers/` 增加简短笔记或索引，链到 `../source/xxx.md`；在 docs/1-embodied-overview、5-sota、4-classical、2-roadmaps 相关小节末加「延伸」链接。
- **访谈/产业类**：可在 `files/interviews/` 做摘要，链到 `../source/xxx.md`；在 docs/8-people、9-landscape、1.3 产业视角加链接。
- **基础/教程类**：可在 `files/foundations/` 做索引，链到 `../source/xxx.md`；在 docs/3-foundations、2-roadmaps 加链接。

链接格式示例：`[主题](../source/主题简写.md)`（从 `files/papers/`、`files/interviews/`、`files/foundations/` 出发）。

---

## 八、集成位置速查

```
docs/
├── 1-embodied-overview/   # 术语、世界模型、产业视角
├── 2-roadmaps/            # 学习路线与延伸
├── 3-foundations/         # 基础与教程
├── 4-classical/  5-sota/  # 经典与 SOTA
├── 8-people/  9-landscape/ # 人物与公司
└── …
files/
├── source/                # 本流程主输出：每篇整理 MD
├── papers/  interviews/  foundations/  # 可选摘要与链接
└── …
```

---

## 九、若仍有 PDF 需求（可选保留）

若项目中**同时**存在需要从 **PDF** 提取并整理的内容（例如 `news/` 下个别 PDF）：

- 可继续使用现有 `news/extract_pdf.py`、`news/ocr_pdf.py` 提取文字；
- 提取后的文本建议**先汇总或粘贴到 `news/source.md` 的独立“文章块”中**，再按本流程统一「Plan → 逐篇整理 → 输出到 `files/source/`」；
- 或对单份 PDF 单独执行：提取/OCR → 原创整理 → 输出 `files/source/<主题>.md`。

本 skill 的**主流程**以 **`news/source.md` 多篇文章 → `files/source/*.md`** 为准；PDF 仅作为可选输入来源之一。
