Go to file
caoqianming e695e04de7 fix(resm): 识别 Elsevier 摘要预览 PDF, 避免误标全文
Elsevier Article API 对未授权/in-press 文章, application/pdf 端点会返回仅含
摘要的 1 页预览 PDF (魔数仍是 %PDF、体积也不小), 而全文 XML 可正常获取。旧逻辑
只校验魔数+体积, 误将预览页落库并置 has_fulltext_pdf=True。

- tasks.py: 新增 _pdf_page_count / _is_elsevier_preview_pdf (优先 pypdf, 退化
  字节扫描), _elsevier_fetch_pdf 与 save_pdf_from_elsevier 落库前排除 1 页预览页,
  打 fail_reason=elsevier_pdf_preview_only; 补抓队列 qs_pdf 排除该标记避免无限重试
- 新增管理命令 fix_preview_pdf: 扫描存量误标记录, 回退 has_fulltext_pdf;
  无 XML 全文者一并回退 has_fulltext, 让其重进下载链
- requirements.txt: 增加 pypdf>=4.0.0

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-29 08:54:07 +08:00
.claude feat:修改json 2026-03-26 14:07:34 +08:00
apps fix(resm): 识别 Elsevier 摘要预览 PDF, 避免误标全文 2026-06-29 08:54:07 +08:00
log 初始化happy-drf分支 2023-10-07 14:11:26 +08:00
media/default 初始化happy-drf分支 2023-10-07 14:11:26 +08:00
server feat: 添加paper list 接口 2026-01-26 10:41:11 +08:00
.gitignore feat: 添加忽略文件 2026-02-10 10:13:03 +08:00
CLAUDE.md feat: 修改pdf 验证cloudflare 2026-03-24 10:34:06 +08:00
after_click_no.html feat: 修改pdf 验证cloudflare 2026-03-24 10:34:06 +08:00
after_click_no.png feat: 修改pdf 验证cloudflare 2026-03-24 10:34:06 +08:00
db.json feat: base 更新readme 2026-01-14 13:39:19 +08:00
manage.py 初始化happy-drf分支 2023-10-07 14:11:26 +08:00
readme.md feat: base 更新readme 2026-01-14 13:39:19 +08:00
requirements.txt fix(resm): 识别 Elsevier 摘要预览 PDF, 避免误标全文 2026-06-29 08:54:07 +08:00
ruff.toml 初始化happy-drf分支 2023-10-07 14:11:26 +08:00
scihub_page.html feat: 修改pdf 验证cloudflare 2026-03-24 10:34:06 +08:00
scihub_screenshot.png feat: 修改pdf 验证cloudflare 2026-03-24 10:34:06 +08:00
test.png feat: 修改pdf 验证cloudflare 2026-03-24 10:34:06 +08:00
todo.html feat: 修改pdf 验证cloudflare 2026-03-24 10:34:06 +08:00

readme.md

如何运行

将 server 下的 conf_e.json 以及 conf_e.py移动到config文件夹下并重命名为 conf.json 和 conf.py。

根据自己的情况修改参数

进入虚拟环境后运行 python manage.py migrate

导入初始数据 python manage.py loaddata db.json

默认管理员账户密码为admin xtadmin123!

在项目目录下执行 python manage.py runserver 即可

运行后在 localhost:8000/api/swagger/下查看 api 文档