# 本地 / 内网部署模型档案 # 走 OpenAI 兼容协议(litellm provider 前缀 `openai/`,后段为实际 model 字段透传给 base_url)。 # 涉密任务时用户显式选 local.r1 / local.qwq 代替默认 deepseek_v4.flash;不走自动路由。 # 两个 variant 共用同一台推理服务器(api_base 同),api_key_env 也共用 LOCAL_LLM_API_KEY。 # thinking_mode=false:R1 / QwQ 是天生推理模型,默认就思考,不通过 reasoning_effort 等级控制 # (那是 OpenAI / DeepSeek V4 风格);设 true 会发 reasoning_effort 字段,本地 vLLM / sglang # 多半不认,报 400。 family: local variants: r1: display_name: DeepSeek-R1 (内网) model_id: openai/DeepSeek-R1 api_base: http://182.54.21.126:9000/v1 api_key_env: LOCAL_LLM_API_KEY max_context: 131072 reliable_context: 65536 max_output: 8192 parallel_tools: false tool_calling_quality: fair thinking_mode: false reasoning_effort_levels: [] default_reasoning_effort: "" code_quality: good enable_run_python: true max_iterations: 50 optimal_temperature: 0.6 prompt_caching: false extended_thinking: false qwen3: # 服务端是 router 代理,model 字段必须匹配它注册的 alias;此服务实际注册名是 # `Qwen/QwQ-32B`(部署者别名),后端跑的是 Qwen3-30B-A3B(响应 `model` 字段 echo 真名)。 # 改 alias 时只动 model_id;display_name / variant key 跟实际后端走(前端看到真名)。 display_name: Qwen3-30B-A3B (内网) model_id: openai/Qwen/QwQ-32B api_base: http://182.54.21.126:9000/v1 api_key_env: LOCAL_LLM_API_KEY max_context: 32768 reliable_context: 16384 max_output: 8192 parallel_tools: false tool_calling_quality: fair thinking_mode: false reasoning_effort_levels: [] default_reasoning_effort: "" code_quality: good enable_run_python: true max_iterations: 50 optimal_temperature: 0.6 prompt_caching: false extended_thinking: false