# 现有技术检索 > 阶段二(检索)always read。**没检索就写交底书 = 高风险**(代理师 / 审查员一查就出问题)。 ## 一、检索目的 1. **验证新颖性**:本发明的技术方案,在申请日前有没有公开过? 2. **找最接近现有技术**:写交底书 §02 背景技术 + §03 区别技术特征 的"靶子" 3. **避免重大撞车**:命中 = 提前调整方案 / 换创新点 / 放弃,避免代理费 + 申请费 + 时间打水漂 ## 二、关键词构造 ### 2.1 三层关键词 | 层 | 关键词类型 | 例子(以"基于 LLM 的长文档结构化抽取"为例) | |---|---|---| | 核心技术 | 本发明的关键技术 + 同义/近义 | "大语言模型" / "LLM" / "large language model" / "GPT" / "Transformer" | | 应用对象 | 本发明处理的对象/场景 + 同义 | "长文档" / "长文本" / "long document" / "long context" | | 技术效果 | 本发明的关键效果 + 同义 | "结构化抽取" / "信息抽取" / "structured extraction" / "information extraction" | ### 2.2 检索式组合 ``` A ∩ B ∩ C # 三层都命中 — 最相关 A ∩ B # 核心 + 对象 — 相关 A ∩ C # 核心 + 效果 — 相关 A ∩ (B | C) # 核心 + (对象 | 效果) — 较宽 ``` ### 2.3 中英文都要搜 - 中文专利库 / 中文论文 → 中文关键词 - Google Patents / 英文论文 → **英文关键词**(国际同行用英文,命中率比中文高) - **同一概念中英文混着搜 3-5 组**,降低漏检 ### 2.4 限定符技巧(配合 `web_search` 用) | 目的 | query 加 | |---|---| | 限定专利 | `site:patents.google.com` 或加 `专利 CN` | | 限定中国专利 | `site:cnipa.gov.cn` 或 query 加 `公开号 CN` | | 限定学术论文 | `site:arxiv.org` / `site:scholar.google.com` | | 限定近期 | query 加 `2022..2026` 或英文 `after:2022` | | 排除噪音 | query 加 `-广告 -培训` 等(注意有些引擎不支持) | --- ## 三、数据源优先级 | # | 数据源 | 用什么工具 | 何时用 | |---|---|---|---| | 1 | **中国专利公开** | `web_search` + `site:patents.google.com country:CN` 或 `site:cnipa.gov.cn` | **必查** — 同地区先发的优先权可能挡你的路 | | 2 | **国际专利** | `web_search` + `site:patents.google.com` / `site:wipo.int` | **必查** — 国外同款方案也算现有技术 | | 3 | **学术论文** | `research` skill (OpenAlex) / `documents` skill (材料库) / `web_search` + `site:arxiv.org` | **强烈推荐** — 论文公开早于专利,常是创造性杀手 | | 4 | **行业产品/公开演示** | `web_search` 一般 query | 视情况 — 大厂博客 / 产品文档 / 会议演示 | | 5 | **本地文献库** | `documents` skill (材料学科 7 个库) / `research` skill (paper_server) | 涉及材料 / 化学 / 工程领域时优先 | > 注:CNIPA 官网爬虫本 skill **不实现**(反爬重 + 维护成本高)。如果用户要正式可作为 IDS 提交的检索证据,建议人工跑专利数据库(智慧芽 / Patentics / incoPat / 谷歌 Patents 自己手动检索)。本 skill 出的检索结论定位为"代理师写文件前的尽职检索 + 风险预警",不替代正式律所/代理所检索。 --- ## 四、命中归档格式 每条命中按下表记录(写到 spec §4 检索结论): ```markdown ### [N] <一句话标题> - **类型**: 专利 / 论文 / 产品 / 其它 - **标识**: - (专利) 公开号 CN12345678A / 申请人 XX公司 / 公开日 2023-01-01 - (论文) DOI 10.xxxx/xxx / 作者 / 期刊 / 年 - (产品) 厂商 / 产品名 / 公开日期 / 来源 URL - **技术方案** (一段): 它做了什么、怎么做的、解决什么问题 - **与本发明的区别 (关键)**: - 相同点: A1 / A2 / ... - 不同点 (= 本发明的区别技术特征): B1 / B2 / ... - **威胁等级**: 高危 (技术问题 + 关键手段都重合) / 中 (部分重合) / 低 (远缘) ``` **威胁等级判断**: - **高危**:技术问题 + 关键技术手段都重合 → ⛔ **告知用户,建议改方案 / 换创新点 / 放弃** - **中**:技术问题相同但手段不同,或手段相似但问题不同 → 作为 §02 背景技术 + §03 区别技术特征 的"靶子" - **低**:远缘但相关 → 可不入背景技术,只在 spec §4 留备查 --- ## 五、区别技术特征写法 写交底书 §03 "其中,..." 那段 + §07 权利要求建议时,**区别技术特征**是关键。 ### 写法模板 > 与最接近现有技术 [N] 相比,本发明的区别在于: > 1. **<区别 1>**:本发明 <如何做>,而 [N] <如何做>;该区别带来 <技术效果 X>。 > 2. **<区别 2>**:... ### 例子 > 与最接近现有技术 CN12345678A 相比,本发明的区别在于: > 1. **分块策略不同**:本发明采用基于语义边界的动态分块(滑动窗口 + 句法解析),CN12345678A 采用固定 token 长度分块;本发明使语义完整性保持率从 67% 提升至 94%。 > 2. **抽取流程不同**:本发明引入两阶段抽取(粗筛 + 精排)并设计了交叉验证机制,CN12345678A 单次抽取;本发明使端到端准确率从 78% 提升至 91%。 ### 雷区 - 区别只写"采用了不同的方法"—— 太模糊,要具体到设计点 - 区别没有量化效果支撑 —— 创造性论证薄弱 - 区别 4-5 条全部列出 —— 选 1-3 条核心的;太多反而稀释保护强度 --- ## 六、检索强度分级(开发期默认) | 强度 | 投入 | 适用 | |---|---|---| | **轻量**(默认)| 3-5 组检索式,每组前 10 条命中,2-4 高/中危归档 | 大多数发明的"尽职检索"够用,给代理师参考 | | **中等** | 10+ 组检索式,前 20 条/组,跨中英文,5+ 高/中危归档 | 重要发明,准备申请 PCT / 国际布局 | | **重度** | 跑正式专利库(智慧芽/Patentics)/ 委托检索机构 | 拟商业化 / 拟诉讼 / 拟无效他人 | > 本 skill 默认按 **轻量** 跑,够给代理师起手参考。要重度检索建议线下专业渠道。 --- ## 七、检索结论模板(供 spec §4 抄) ```markdown ## 4. 现有技术检索结论 **检索时间**: **检索强度**: 轻量 / 中等 **检索式**: - 检索 1: <关键词组合> - 检索 2: <...> - ... **命中归档**: ### [1] <标题> - 类型 / 标识 / 技术方案 / 区别 / 威胁等级 (见 §四 模板) ### [2] <标题> - ... **结论**: - 高危: <列出 + 应对方案> - 中危: <列出,作为 §02 背景技术对照> - 低危 / 远缘: <列出或仅备查> - 漏检风险: <例如 "未跑正式专利库,小规模公司在审专利可能漏检"; 让用户知情> ``` ## 反模式 - 一组关键词搜完就交 —— 至少 3-5 组,中英文都跑 - 看了 title 就判威胁等级 —— 必须看技术方案描述(`web_fetch` 拉摘要) - 编公开号 / DOI / 作者 —— 检不到就说"未检出近似" - 把"用了相似技术"当高危 —— 高危看技术问题 + 关键手段是否都重合,只技术相似不算 - 没归档区别技术特征 —— 检索的核心价值在区别,光列命中不写区别等于白搜