zcbot/skills/patent/references/prior_art_search.md

# 现有技术检索

> 阶段二(检索)always read。**没检索就写交底书 = 高风险**(代理师 / 审查员一查就出问题)。

## 一、检索目的

1. **验证新颖性**:本发明的技术方案,在申请日前有没有公开过?
2. **找最接近现有技术**:写交底书 §02 背景技术 + §03 区别技术特征 的"靶子"
3. **避免重大撞车**:命中 = 提前调整方案 / 换创新点 / 放弃,避免代理费 + 申请费 + 时间打水漂

## 二、关键词构造

### 2.1 三层关键词

| 层 | 关键词类型 | 例子(以"基于 LLM 的长文档结构化抽取"为例) |
|---|---|---|
| 核心技术 | 本发明的关键技术 + 同义/近义 | "大语言模型" / "LLM" / "large language model" / "GPT" / "Transformer" |
| 应用对象 | 本发明处理的对象/场景 + 同义 | "长文档" / "长文本" / "long document" / "long context" |
| 技术效果 | 本发明的关键效果 + 同义 | "结构化抽取" / "信息抽取" / "structured extraction" / "information extraction" |

### 2.2 检索式组合

```
A ∩ B ∩ C       # 三层都命中 — 最相关
A ∩ B           # 核心 + 对象 — 相关
A ∩ C           # 核心 + 效果 — 相关
A ∩ (B | C)     # 核心 + (对象 | 效果) — 较宽
```

### 2.3 中英文都要搜

- 中文专利库 / 中文论文 → 中文关键词
- Google Patents / 英文论文 → **英文关键词**(国际同行用英文,命中率比中文高)
- **同一概念中英文混着搜 3-5 组**,降低漏检

### 2.4 限定符技巧(配合 `web_search` 用)

| 目的 | query 加 |
|---|---|
| 限定专利 | `site:patents.google.com` 或加 `专利 CN` |
| 限定中国专利 | `site:cnipa.gov.cn` 或 query 加 `公开号 CN` |
| 限定学术论文 | `site:arxiv.org` / `site:scholar.google.com` |
| 限定近期 | query 加 `2022..2026` 或英文 `after:2022` |
| 排除噪音 | query 加 `-广告 -培训` 等(注意有些引擎不支持) |

---

## 三、数据源优先级

| # | 数据源 | 用什么工具 | 何时用 |
|---|---|---|---|
| 1 | **中国专利公开** | `web_search` + `site:patents.google.com country:CN` 或 `site:cnipa.gov.cn` | **必查** — 同地区先发的优先权可能挡你的路 |
| 2 | **国际专利** | `web_search` + `site:patents.google.com` / `site:wipo.int` | **必查** — 国外同款方案也算现有技术 |
| 3 | **学术论文** | `research` skill (OpenAlex) / `documents` skill (材料库) / `web_search` + `site:arxiv.org` | **强烈推荐** — 论文公开早于专利,常是创造性杀手 |
| 4 | **行业产品/公开演示** | `web_search` 一般 query | 视情况 — 大厂博客 / 产品文档 / 会议演示 |
| 5 | **本地文献库** | `documents` skill (材料学科 7 个库) / `research` skill (paper_server) | 涉及材料 / 化学 / 工程领域时优先 |

> 注:CNIPA 官网爬虫本 skill **不实现**(反爬重 + 维护成本高)。如果用户要正式可作为 IDS 提交的检索证据,建议人工跑专利数据库(智慧芽 / Patentics / incoPat / 谷歌 Patents 自己手动检索)。本 skill 出的检索结论定位为"代理师写文件前的尽职检索 + 风险预警",不替代正式律所/代理所检索。

---

## 四、命中归档格式

每条命中按下表记录(写到 spec §4 检索结论):

```markdown
### [N] <一句话标题>

- **类型**: 专利 / 论文 / 产品 / 其它
- **标识**:
  - (专利) 公开号 CN12345678A / 申请人 XX公司 / 公开日 2023-01-01
  - (论文) DOI 10.xxxx/xxx / 作者 / 期刊 / 年
  - (产品) 厂商 / 产品名 / 公开日期 / 来源 URL
- **技术方案** (一段): 它做了什么、怎么做的、解决什么问题
- **与本发明的区别 (关键)**:
  - 相同点: A1 / A2 / ...
  - 不同点 (= 本发明的区别技术特征): B1 / B2 / ...
- **威胁等级**: 高危 (技术问题 + 关键手段都重合) / 中 (部分重合) / 低 (远缘)
```

**威胁等级判断**:
- **高危**:技术问题 + 关键技术手段都重合 → ⛔ **告知用户,建议改方案 / 换创新点 / 放弃**
- **中**:技术问题相同但手段不同,或手段相似但问题不同 → 作为 §02 背景技术 + §03 区别技术特征 的"靶子"
- **低**:远缘但相关 → 可不入背景技术,只在 spec §4 留备查

---

## 五、区别技术特征写法

写交底书 §03 "其中,..." 那段 + §07 权利要求建议时,**区别技术特征**是关键。

### 写法模板

> 与最接近现有技术 [N] 相比,本发明的区别在于:
> 1. **<区别 1>**:本发明 <如何做>,而 [N] <如何做>;该区别带来 <技术效果 X>。
> 2. **<区别 2>**:...

### 例子

> 与最接近现有技术 CN12345678A 相比,本发明的区别在于:
> 1. **分块策略不同**:本发明采用基于语义边界的动态分块(滑动窗口 + 句法解析),CN12345678A 采用固定 token 长度分块;本发明使语义完整性保持率从 67% 提升至 94%。
> 2. **抽取流程不同**:本发明引入两阶段抽取(粗筛 + 精排)并设计了交叉验证机制,CN12345678A 单次抽取;本发明使端到端准确率从 78% 提升至 91%。

### 雷区

- 区别只写"采用了不同的方法"—— 太模糊,要具体到设计点
- 区别没有量化效果支撑 —— 创造性论证薄弱
- 区别 4-5 条全部列出 —— 选 1-3 条核心的;太多反而稀释保护强度

---

## 六、检索强度分级(开发期默认)

| 强度 | 投入 | 适用 |
|---|---|---|
| **轻量**(默认)| 3-5 组检索式,每组前 10 条命中,2-4 高/中危归档 | 大多数发明的"尽职检索"够用,给代理师参考 |
| **中等** | 10+ 组检索式,前 20 条/组,跨中英文,5+ 高/中危归档 | 重要发明,准备申请 PCT / 国际布局 |
| **重度** | 跑正式专利库(智慧芽/Patentics)/ 委托检索机构 | 拟商业化 / 拟诉讼 / 拟无效他人 |

> 本 skill 默认按 **轻量** 跑,够给代理师起手参考。要重度检索建议线下专业渠道。

---

## 七、检索结论模板(供 spec §4 抄)

```markdown
## 4. 现有技术检索结论

**检索时间**: <YYYY-MM-DD>
**检索强度**: 轻量 / 中等
**检索式**:
- 检索 1: <关键词组合>
- 检索 2: <...>
- ...

**命中归档**:

### [1] <标题>
- 类型 / 标识 / 技术方案 / 区别 / 威胁等级 (见 §四 模板)

### [2] <标题>
- ...

**结论**:
- 高危: <列出 + 应对方案>
- 中危: <列出,作为 §02 背景技术对照>
- 低危 / 远缘: <列出或仅备查>
- 漏检风险: <例如 "未跑正式专利库,小规模公司在审专利可能漏检"; 让用户知情>
```

## 反模式

- 一组关键词搜完就交 —— 至少 3-5 组,中英文都跑
- 看了 title 就判威胁等级 —— 必须看技术方案描述(`web_fetch` 拉摘要)
- 编公开号 / DOI / 作者 —— 检不到就说"未检出近似"
- 把"用了相似技术"当高危 —— 高危看技术问题 + 关键手段是否都重合,只技术相似不算
- 没归档区别技术特征 —— 检索的核心价值在区别,光列命中不写区别等于白搜