"""平台渲染层 · 共享叶子原语(docx 三 profile + 部分 pdf 复用)。 放**真正同源、与 profile 无关**的底层件:字体 OOXML 助手、化学式下标白名单、 内联/块级 markdown 正则、表格行切分、图片路径解析。三套 docx profile (manuscript=paper/proposal、brief)都 import 这里,**单一事实源**—— 改化学式白名单 / 字体规范只动这一处,不再三处各拷一份。 历史:原先 skills/{brief,paper,proposal}/scripts/render_docx.py 各自带一份 拷贝(_CHEM_RE 三份逐字相同、易漏改)。2026-06 抽到平台层 rendering/。 """ from __future__ import annotations import re from pathlib import Path from docx.oxml import OxmlElement from docx.oxml.ns import qn from docx.shared import Cm, Pt # ───────────────────────── 字体 OOXML 助手 ───────────────────────── def set_run_fonts(run, *, cn_font: str = "宋体", en_font: str = "Times New Roman") -> None: """同时设置 run 的中文 (eastAsia) 和西文 (ascii/hAnsi) 字体。""" rPr = run._element.get_or_add_rPr() rFonts = rPr.find(qn("w:rFonts")) if rFonts is None: rFonts = OxmlElement("w:rFonts") rPr.append(rFonts) rFonts.set(qn("w:eastAsia"), cn_font) rFonts.set(qn("w:ascii"), en_font) rFonts.set(qn("w:hAnsi"), en_font) def set_style_fonts(style, *, cn_font: str = "宋体", en_font: str = "Times New Roman") -> None: """直接给 style 写 rFonts, 基于该 style 的所有段落都继承字体。""" el = style.element rPr = el.find(qn("w:rPr")) if rPr is None: rPr = OxmlElement("w:rPr") el.insert(0, rPr) rFonts = rPr.find(qn("w:rFonts")) if rFonts is None: rFonts = OxmlElement("w:rFonts") rPr.append(rFonts) rFonts.set(qn("w:eastAsia"), cn_font) rFonts.set(qn("w:ascii"), en_font) rFonts.set(qn("w:hAnsi"), en_font) def set_subscript(run) -> None: rPr = run._element.get_or_add_rPr() va = OxmlElement("w:vertAlign") va.set(qn("w:val"), "subscript") rPr.append(va) # ───────────────────────── 内联 markdown 切分 ───────────────────────── # 顺序敏感:**bold** 必须先于 *italic* 匹配, 否则会被 italic 抢 INLINE_RE = re.compile( r"(?P\*\*(?P[^*\n]+?)\*\*)" r"|(?P(?[^*\n]+?)\*(?!\*))" r"|(?P`(?P[^`\n]+?)`)" ) def parse_inline(text: str) -> list[tuple[str, str]]: """切成 (style, segment) 列表; style ∈ plain/bold/italic/code。""" out: list[tuple[str, str]] = [] pos = 0 for m in INLINE_RE.finditer(text): if m.start() > pos: out.append(("plain", text[pos:m.start()])) if m.group("bold"): out.append(("bold", m.group("bold_t"))) elif m.group("italic"): out.append(("italic", m.group("italic_t"))) elif m.group("code"): out.append(("code", m.group("code_t"))) pos = m.end() if pos < len(text): out.append(("plain", text[pos:])) return out or [("plain", text)] # ── 化学式下标白名单(三 profile 共用同一份;单一事实源)── # 长的在前,\b 防误伤 LC3 / C595 / 2026;不收 Ca2+ 这类带电荷的(那是上标,白名单不收即天然避开) CHEM_RE = re.compile( r"Ca\(OH\)2|Mg\(OH\)2" r"|\b(?:Al2O3|Fe2O3|Fe3O4|Mn2O3|Cr2O3|P2O5|Na2SO4|K2SO4|CaSO4|CaCO3|MgCO3|" r"CaCl2|MgCl2|Na2O|K2O|SiO2|TiO2|ZrO2|SO4|SO3|SO2|CO3|CO2|NO3|NO2|PO4|" r"H2O|NH3|CH4|C4AF|C3S2|C2AS|C3S|C2S|C3A|O2|N2|H2)\b" ) # ───────────────────────── 块级行类型正则 ───────────────────────── HEADING_RE = re.compile(r"^(#{1,6})\s+(.+)$") TABLE_LINE_RE = re.compile(r"^\s*\|.*\|\s*$") BLOCKQUOTE_RE = re.compile(r"^\s*>\s?") HR_RE = re.compile(r"^\s*-{3,}\s*$|^\s*={3,}\s*$|^\s*_{3,}\s*$") FENCE_RE = re.compile(r"^\s*(`{3,}|~{3,})\s*(\S*)\s*$") IMAGE_LINE_RE = re.compile(r"^\s*!\[(?P[^\]]*)\]\((?P[^)\s]+)\)\s*$") def is_table_line(line: str) -> bool: return bool(TABLE_LINE_RE.match(line)) def is_heading(line: str) -> bool: return bool(HEADING_RE.match(line)) def is_blockquote(line: str) -> bool: return bool(BLOCKQUOTE_RE.match(line)) def is_hr(line: str) -> bool: return bool(HR_RE.match(line)) # ───────────────────────── 表格行切分 ───────────────────────── def split_md_row(line: str) -> list[str]: return [c.strip() for c in line.strip().strip("|").split("|")] def is_separator_row(cells: list[str]) -> bool: return all(re.match(r"^[-:\s]+$", c) for c in cells if c != "") # ───────────────────────── 图片 ───────────────────────── MAX_IMG_WIDTH = Cm(15) def resolve_image_path(src: str, base_dir: Path) -> Path | None: """图片相对路径以 base_dir (单个 .md 所在目录) 为锚。""" p = Path(src) if not p.is_absolute(): p = (base_dir / p).resolve() return p if p.is_file() else None