历史记录里除 Elsevier 1 页摘要预览页外, 还有把 HTML 错误页 / 截断垃圾当 PDF 存下的损坏文件, 同样被误标 has_fulltext_pdf=True。 - tasks.py: 新增 _inspect_pdf 分类器 (broken/preview/ok/unknown)。broken 仅在铁证 下判定(非 %PDF 魔数, 或装了 pypdf 且解析失败); 未装 pypdf 又判不出页数归 unknown, 绝不误删。 - fix_preview_pdf: 预览页文件仅 --delete-file 时删; 坏文件总是删(dry-run 除外), 坏文件打 fail_reason=pdf_broken; 无 XML 全文者一并回退 has_fulltext。 Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com> |
||
|---|---|---|
| .. | ||
| __init__.py | ||
| fix_preview_pdf.py | ||