DESIGN §8.1 C 路落地 —— 主模型 DeepSeek V4 纯文本无视觉,挂 look_at_image 工具按需读图(OCR / 描述 / 读图表),模型自决何时调。 - 选型:设计时的 Seed 1.6 vision 已过时,改用 Doubao Seed 2.0 Lite (doubao-seed-2-0-lite-260428,全模态 SOTA 细粒度感知)。token 计费 输入 ¥0.6 / 输出 ¥3.6 /Mtok,一次读图 < ¥0.01 - 后端:tools/look_at_image.py(/chat/completions base64 单图+问题→文本解读); doubao.yaml 加 vision 段;usage.py 加 record_vision_usage(kind=vision, 按 token,无需 migration——kind 自由文本);agent_builder 注册 + media prompt 段 - 图片路径解析与 i2i 共用 tools/image_ref.py - 验证:scripts/smoke_look_at_image.py 真机 OCR 通过(实测 ¥0.0011) Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com> |
||
|---|---|---|
| .. | ||
| __init__.py | ||
| disk_quota.py | ||
| engine.py | ||
| models.py | ||
| usage.py | ||
| utils.py | ||