paper_server/apps
caoqianming 2d6df68135 feat(resm): fix_preview_pdf 增加坏 PDF 识别与清理
历史记录里除 Elsevier 1 页摘要预览页外, 还有把 HTML 错误页 / 截断垃圾当 PDF
存下的损坏文件, 同样被误标 has_fulltext_pdf=True。

- tasks.py: 新增 _inspect_pdf 分类器 (broken/preview/ok/unknown)。broken 仅在铁证
  下判定(非 %PDF 魔数, 或装了 pypdf 且解析失败); 未装 pypdf 又判不出页数归 unknown,
  绝不误删。
- fix_preview_pdf: 预览页文件仅 --delete-file 时删; 坏文件总是删(dry-run 除外),
  坏文件打 fail_reason=pdf_broken; 无 XML 全文者一并回退 has_fulltext。

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-29 09:38:05 +08:00
..
auth1 feat: auth1 utils enm 修改阿里云发送短信引入方式 2026-01-13 16:38:03 +08:00
ops feat: base 完善获取修改单个缓存的接口 2026-01-28 12:53:56 +08:00
resm feat(resm): fix_preview_pdf 增加坏 PDF 识别与清理 2026-06-29 09:38:05 +08:00
system fix: 合并migration 2026-01-16 15:10:02 +08:00
utils fix: base complexquerymixin支持add_info_for_list 2026-01-16 14:07:51 +08:00
wf feat: base 修改workflow_cate的migrate引用 2026-01-14 13:39:00 +08:00
ws 初始化happy-drf分支 2023-10-07 14:11:26 +08:00
__init__.py 初始化happy-drf分支 2023-10-07 14:11:26 +08:00