zcbot/skills/patent/references/prior_art_search.md

6.9 KiB

现有技术检索

阶段二(检索)always read。没检索就写交底书 = 高风险(代理师 / 审查员一查就出问题)。

一、检索目的

  1. 验证新颖性:本发明的技术方案,在申请日前有没有公开过?
  2. 找最接近现有技术:写交底书 §02 背景技术 + §03 区别技术特征 的"靶子"
  3. 避免重大撞车:命中 = 提前调整方案 / 换创新点 / 放弃,避免代理费 + 申请费 + 时间打水漂

二、关键词构造

2.1 三层关键词

关键词类型 例子(以"基于 LLM 的长文档结构化抽取"为例)
核心技术 本发明的关键技术 + 同义/近义 "大语言模型" / "LLM" / "large language model" / "GPT" / "Transformer"
应用对象 本发明处理的对象/场景 + 同义 "长文档" / "长文本" / "long document" / "long context"
技术效果 本发明的关键效果 + 同义 "结构化抽取" / "信息抽取" / "structured extraction" / "information extraction"

2.2 检索式组合

A ∩ B ∩ C       # 三层都命中 — 最相关
A ∩ B           # 核心 + 对象 — 相关
A ∩ C           # 核心 + 效果 — 相关
A ∩ (B | C)     # 核心 + (对象 | 效果) — 较宽

2.3 中英文都要搜

  • 中文专利库 / 中文论文 → 中文关键词
  • Google Patents / 英文论文 → 英文关键词(国际同行用英文,命中率比中文高)
  • 同一概念中英文混着搜 3-5 组,降低漏检

2.4 限定符技巧(配合 web_search 用)

目的 query 加
限定专利 site:patents.google.com 或加 专利 CN
限定中国专利 site:cnipa.gov.cn 或 query 加 公开号 CN
限定学术论文 site:arxiv.org / site:scholar.google.com
限定近期 query 加 2022..2026 或英文 after:2022
排除噪音 query 加 -广告 -培训 等(注意有些引擎不支持)

三、数据源优先级

# 数据源 用什么工具 何时用
1 中国专利公开 web_search + site:patents.google.com country:CNsite:cnipa.gov.cn 必查 — 同地区先发的优先权可能挡你的路
2 国际专利 web_search + site:patents.google.com / site:wipo.int 必查 — 国外同款方案也算现有技术
3 学术论文 research skill (OpenAlex) / documents skill (材料库) / web_search + site:arxiv.org 强烈推荐 — 论文公开早于专利,常是创造性杀手
4 行业产品/公开演示 web_search 一般 query 视情况 — 大厂博客 / 产品文档 / 会议演示
5 本地文献库 documents skill (材料学科 7 个库) / research skill (paper_server) 涉及材料 / 化学 / 工程领域时优先

注:CNIPA 官网爬虫本 skill 不实现(反爬重 + 维护成本高)。如果用户要正式可作为 IDS 提交的检索证据,建议人工跑专利数据库(智慧芽 / Patentics / incoPat / 谷歌 Patents 自己手动检索)。本 skill 出的检索结论定位为"代理师写文件前的尽职检索 + 风险预警",不替代正式律所/代理所检索。


四、命中归档格式

每条命中按下表记录(写到 spec §4 检索结论):

### [N] <一句话标题>

- **类型**: 专利 / 论文 / 产品 / 其它
- **标识**:
  - (专利) 公开号 CN12345678A / 申请人 XX公司 / 公开日 2023-01-01
  - (论文) DOI 10.xxxx/xxx / 作者 / 期刊 / 年
  - (产品) 厂商 / 产品名 / 公开日期 / 来源 URL
- **技术方案** (一段): 它做了什么、怎么做的、解决什么问题
- **与本发明的区别 (关键)**:
  - 相同点: A1 / A2 / ...
  - 不同点 (= 本发明的区别技术特征): B1 / B2 / ...
- **威胁等级**: 高危 (技术问题 + 关键手段都重合) / 中 (部分重合) / 低 (远缘)

威胁等级判断:

  • 高危:技术问题 + 关键技术手段都重合 → 告知用户,建议改方案 / 换创新点 / 放弃
  • :技术问题相同但手段不同,或手段相似但问题不同 → 作为 §02 背景技术 + §03 区别技术特征 的"靶子"
  • :远缘但相关 → 可不入背景技术,只在 spec §4 留备查

五、区别技术特征写法

写交底书 §03 "其中,..." 那段 + §07 权利要求建议时,区别技术特征是关键。

写法模板

与最接近现有技术 [N] 相比,本发明的区别在于:

  1. <区别 1>:本发明 <如何做>,而 [N] <如何做>;该区别带来 <技术效果 X>。
  2. <区别 2>:...

例子

与最接近现有技术 CN12345678A 相比,本发明的区别在于:

  1. 分块策略不同:本发明采用基于语义边界的动态分块(滑动窗口 + 句法解析),CN12345678A 采用固定 token 长度分块;本发明使语义完整性保持率从 67% 提升至 94%。
  2. 抽取流程不同:本发明引入两阶段抽取(粗筛 + 精排)并设计了交叉验证机制,CN12345678A 单次抽取;本发明使端到端准确率从 78% 提升至 91%。

雷区

  • 区别只写"采用了不同的方法"—— 太模糊,要具体到设计点
  • 区别没有量化效果支撑 —— 创造性论证薄弱
  • 区别 4-5 条全部列出 —— 选 1-3 条核心的;太多反而稀释保护强度

六、检索强度分级(开发期默认)

强度 投入 适用
轻量(默认) 3-5 组检索式,每组前 10 条命中,2-4 高/中危归档 大多数发明的"尽职检索"够用,给代理师参考
中等 10+ 组检索式,前 20 条/组,跨中英文,5+ 高/中危归档 重要发明,准备申请 PCT / 国际布局
重度 跑正式专利库(智慧芽/Patentics)/ 委托检索机构 拟商业化 / 拟诉讼 / 拟无效他人

本 skill 默认按 轻量 跑,够给代理师起手参考。要重度检索建议线下专业渠道。


七、检索结论模板(供 spec §4 抄)

## 4. 现有技术检索结论

**检索时间**: <YYYY-MM-DD>
**检索强度**: 轻量 / 中等
**检索式**:
- 检索 1: <关键词组合>
- 检索 2: <...>
- ...

**命中归档**:

### [1] <标题>
- 类型 / 标识 / 技术方案 / 区别 / 威胁等级 (见 §四 模板)

### [2] <标题>
- ...

**结论**:
- 高危: <列出 + 应对方案>
- 中危: <列出,作为 §02 背景技术对照>
- 低危 / 远缘: <列出或仅备查>
- 漏检风险: <例如 "未跑正式专利库,小规模公司在审专利可能漏检"; 让用户知情>

反模式

  • 一组关键词搜完就交 —— 至少 3-5 组,中英文都跑
  • 看了 title 就判威胁等级 —— 必须看技术方案描述(web_fetch 拉摘要)
  • 编公开号 / DOI / 作者 —— 检不到就说"未检出近似"
  • 把"用了相似技术"当高危 —— 高危看技术问题 + 关键手段是否都重合,只技术相似不算
  • 没归档区别技术特征 —— 检索的核心价值在区别,光列命中不写区别等于白搜