fix(resm): 识别 Elsevier 摘要预览 PDF, 避免误标全文

Elsevier Article API 对未授权/in-press 文章, application/pdf 端点会返回仅含摘要的 1 页预览 PDF (魔数仍是 %PDF、体积也不小), 而全文 XML 可正常获取。旧逻辑只校验魔数+体积, 误将预览页落库并置 has_fulltext_pdf=True。 - tasks.py: 新增 _pdf_page_count / _is_elsevier_preview_pdf (优先 pypdf, 退化字节扫描), _elsevier_fetch_pdf 与 save_pdf_from_elsevier 落库前排除 1 页预览页, 打 fail_reason=elsevier_pdf_preview_only; 补抓队列 qs_pdf 排除该标记避免无限重试 - 新增管理命令 fix_preview_pdf: 扫描存量误标记录, 回退 has_fulltext_pdf; 无 XML 全文者一并回退 has_fulltext, 让其重进下载链 - requirements.txt: 增加 pypdf>=4.0.0 Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-29 08:54:07 +08:00 · 2026-06-29 08:54:07 +08:00 · e695e04de7
parent 1e54070d6d
commit e695e04de7
5 changed files with 153 additions and 1 deletions
--- a/apps/resm/management/init.py
+++ b/apps/resm/management/init.py
--- a/apps/resm/management/commands/init.py
+++ b/apps/resm/management/commands/init.py
--- a/apps/resm/management/commands/fix_preview_pdf.py
+++ b/apps/resm/management/commands/fix_preview_pdf.py
@ -0,0 +1,106 @@
 """一次性修复: 把误标为全文 PDF 的 Elsevier "摘要预览页"(1 页)纠正回未下载状态。
 背景:
  Elsevier Article API 对未授权 / in-press 文章, application/pdf 端点会返回仅含
  摘要的 1 页预览 PDF(魔数仍是 %PDF、体积也不小), 而全文 XML 却能正常拿到。旧抓取
  逻辑只校验魔数 + 体积, 误将预览页落库并置 has_fulltext_pdf=True。
 本命令重新核对本地 PDF 的页数, 对 <= 1 页者:
  - has_fulltext_pdf 置回 False
  - 若该论文有 XML 全文(has_fulltext_xml=True), 保留 has_fulltext=True;
    否则(此前只有这张假预览页冒充全文)一并把 has_fulltext 回退为 False,
    让它能重新进入下载链路去找真正的全文。
  - 追加 fail_reason 'elsevier_pdf_preview_only' (供 Elsevier 补抓队列排除, 避免无限重试)
  - 可选: 删除本地预览 PDF 文件 (--delete-file)
 文件读取依赖本地存在 PDF (在跑抓取的服务器上执行)。建议先 --dry-run 看统计。
 用法:
  python manage.py fix_preview_pdf --dry-run
  python manage.py fix_preview_pdf --delete-file
 """
 import os
 from django.core.management.base import BaseCommand
 from apps.resm.models import Paper
 from apps.resm.tasks import _pdf_page_count
 class Command(BaseCommand):
    help = "纠正被误标为全文的 Elsevier 摘要预览 PDF(1 页)"
    def add_arguments(self, parser):
        parser.add_argument("--dry-run", action="store_true",
                            help="只统计, 不写库 / 不删文件")
        parser.add_argument("--limit", type=int, default=0,
                            help="最多处理多少条 (0=不限)")
        parser.add_argument("--delete-file", action="store_true",
                            help="同时删除本地预览 PDF 文件")
    def handle(self, *args, **opts):
        dry = opts["dry_run"]
        limit = opts["limit"]
        del_file = opts["delete_file"]
        qs = Paper.objects.filter(
            has_fulltext_pdf=True, doi__startswith="10.1016"
        ).order_by("id")
        total = qs.count()
        self.stdout.write(
            f"候选(has_fulltext_pdf=True 且 DOI 以 10.1016 开头): {total}")
        checked = fixed = only_pdf = missing = unreadable = 0
        for paper in qs.iterator():
            if limit and checked >= limit:
                break
            checked += 1
            path = paper.init_paper_path("pdf")
            if not os.path.exists(path):
                missing += 1
                continue
            try:
                with open(path, "rb") as f:
                    content = f.read()
            except OSError:
                unreadable += 1
                continue
            pages = _pdf_page_count(content)
            if pages is None:
                unreadable += 1
                continue
            if pages > 1:
                continue  # 真全文, 跳过
            fixed += 1
            only_pdf_case = not paper.has_fulltext_xml
            if only_pdf_case:
                only_pdf += 1
            self.stdout.write(
                f"[preview {pages}p]{' (only-pdf)' if only_pdf_case else ''} "
                f"{paper.doi}  {path}")
            if dry:
                continue
            paper.has_fulltext_pdf = False
            update_fields = ["has_fulltext_pdf", "update_time"]
            # 没有 XML 全文时, 之前的 has_fulltext 只是被这张假预览页置上的, 一并回退
            if not paper.has_fulltext_xml:
                paper.has_fulltext = False
                update_fields.insert(0, "has_fulltext")
            paper.save(update_fields=update_fields)
            if "elsevier_pdf_preview_only" not in (paper.fail_reason or ""):
                paper.save_fail_reason("elsevier_pdf_preview_only")
            if del_file:
                try:
                    os.remove(path)
                except OSError:
                    pass
        self.stdout.write(self.style.SUCCESS(
            f"检查={checked} 预览页修复={fixed} (其中无XML全文/一并回退has_fulltext={only_pdf}) "
            f"文件缺失={missing} 无法解析={unreadable}"
            + ("  (dry-run, 未写库)" if dry else "")
        ))
--- a/apps/resm/tasks.py
+++ b/apps/resm/tasks.py
@ -11,6 +11,7 @@ from lxml import etree
 from celery import current_app
 from datetime import datetime, timedelta
 import random
 import re
 from .d_oaurl import download_from_url_playwright
 import asyncio
 import sys
@ -599,6 +600,41 @@ def _elsevier_fetch_xml(req, paper):
    return True, has_fulltext, None
 def _pdf_page_count(content: bytes):
    """返回 PDF 页数; 无法确定时返回 None。
    优先用 pypdf 精确解析; 未安装或解析异常时退化为字节扫描
    (对未压缩对象树有效, Elsevier 的摘要预览页正属此类)。"""
    try:
        from io import BytesIO
        from pypdf import PdfReader
        return len(PdfReader(BytesIO(content), strict=False).pages)
    except ImportError:
        pass
    except Exception:
        return None
    try:
        counts = [int(m) for m in re.findall(rb"/Count\s+(\d+)", content)]
        if counts:
            return max(counts)
        n = len(re.findall(rb"/Type\s*/Page(?![sR])", content))
        if n:
            return n
    except Exception:
        pass
    return None
 def _is_elsevier_preview_pdf(content: bytes) -> bool:
    """判断 Elsevier 返回的 PDF 是否为"摘要预览页"。
    Elsevier Article API 对未授权 / in-press 文章, application/pdf 端点会返回
    仅含摘要的 1 页预览 PDF(魔数仍是 %PDF、体积也不小), 全文 XML 却可能正常。
    判据: 能确定页数且 <= 1 页。无法确定页数时返回 False(从宽, 不误杀真全文)。"""
    pages = _pdf_page_count(content)
    return pages is not None and pages <= 1
 def _elsevier_fetch_pdf(req, paper):
    """同一 DOI 取 PDF, 成功落库返回 True。"""
    try:
@ -617,6 +653,10 @@ def _elsevier_fetch_pdf(req, paper):
            res.headers.get("content-type", "").startswith("application/pdf")
        )
        if is_pdf and len(res.content) > 1024:  # 至少1KB
            # 排除"摘要预览页"(1 页): 否则会被误标 has_fulltext_pdf=True
            if _is_elsevier_preview_pdf(res.content):
                paper.save_fail_reason("elsevier_pdf_preview_only")
                return False
            paper.save_file_pdf(res.content, save_obj=True)
            return True
    return False
@ -645,7 +685,9 @@ def get_abstract_from_elsevier(number_of_task:int = 20, exclude_failed:bool=True
    # 存量补 PDF: 已有全文标记但还没下到 PDF
    qs_pdf = Paper.objects.filter(
        has_fulltext=True, has_fulltext_pdf=False, has_abstract=True
-    ).exclude(fetch_status="downloading").filter(doi__startswith="10.1016")
+    ).exclude(fetch_status="downloading"
    ).exclude(fail_reason__contains="elsevier_pdf_preview_only"
    ).filter(doi__startswith="10.1016")
    if not qs.exists() and not qs_pdf.exists():
        return "done"  # 不自重发, 交给 beat 轮询拉起
@ -880,6 +922,9 @@ def save_pdf_from_elsevier(paper:Paper):
    except requests.RequestException as e:
        return f"elsevier_request_error: {str(e)}"
    if res.status_code == 200:
        if _is_elsevier_preview_pdf(res.content):
            paper.save_fail_reason("elsevier_pdf_preview_only")
            return "elsevier_pdf_preview_only"
        paper.save_file_pdf(res.content, save_obj=True)
        return "success"
    else:
--- a/requirements.txt
+++ b/requirements.txt
@ -26,3 +26,4 @@ pillow>=10.0.0
 opencv-python>=4.8.0
 DrissionPage>=4.1.0
 curl-cffi>=0.7.0
 pypdf>=4.0.0