企业内部大模型网关 MVP

交付边界

私有化部署模式

API 调用测试

OpenAI 兼容

API Key 模型 Prompt

国内模型白名单

仅 CN 区域启用

国外模型白名单

默认禁止，安全中心允许后展示可用模型

第三方中转服务模型白名单

默认禁止，安全中心允许后展示通过第三方 Base URL 出口的模型

模型详情 / 新增

新增 Kimi、DeepSeek、Qwen 等国内模型版本

厂商基础表维护

厂商编码厂商名称区域属性默认 Base URL 推荐上游模型 Base URL 识别关键词

国外模型推荐模板开启国外模型策略后，可从这里自动填入推荐公开模型名和上游模型名；官方发布新模型时也可以手动填写。内部公开模型名* 员工和渠道使用的稳定内部名称。国内模型建议以 cn- 开头；国外模型建议以 global-厂商-模型名命名；创建后不可修改。厂商* 上游模型名* 供应商官方 API 文档或控制台显示的真实 model 名称。上下文最大输出 Tokens 输入价 units / 百万* 输出价 units / 百万* 缓存价 units / 百万最低扣费 units 工具调用模型档位启用状态说明

价格表

网关额度 / 百万 tokens

更新价格

模型计费配置

模型输入价 units / 百万输出价 units / 百万缓存价 units / 百万最低扣费 units

资源池与渠道关系

先建资源池，再把一个或多个渠道绑定到资源池

资源池

管理上游供应商账号或 coding plan 的总额度、预警阈值和自动摘除规则。

渠道

管理某一条真实调用出口，包括 Base URL、上游 Key、绑定模型、权重、限流和断路器。

绑定关系

一个资源池可以绑定多个渠道；一个渠道最多绑定一个资源池。渠道消耗会回写到所属资源池。

路由规则

员工只选择模型工作区；网关只在同一模型兼容身份下选择可用渠道，不会跨模型或跨版本自动切换。

现有资源池（供应商账号 / 套餐额度）

上游官方 coding plan / 账户额度 / 阈值切换

资源池详情 / 新增

资源池不直接承接请求，渠道绑定后才会产生消耗

当前资源池状态厂商名称所属企业 Plan 名称 Token 限额对应上游官方 plan 的 token 包量；没有 token 上限可留空。 Units 限额对应内部成本预算，1 网关额度 = 1,000,000 units；没有金额/预算上限可留空。请求限额对应上游官方 plan 的请求次数上限；没有请求数上限可留空。预警 % 切换 % 硬限制 %

现有渠道（调用出口）

Base URL、上游 Key、权重、限流、断路器和资源池绑定

渠道详情 / 新增

渠道才是真正请求出口；可绑定上方某个资源池

当前渠道状态厂商绑定模型 public_model_name 每条上游渠道只服务一个公开模型，fallback 只会在同模型渠道池内发生。名称所属企业绑定资源池 Base URL

当前上游 API Key（创建渠道时填写）用于创建新渠道，或在编辑渠道时立即替换当前 Key。已有渠道日常换 Key，建议使用下方“更换已有渠道的上游 Key”。权重优先级倍率 RPM 每分钟最大请求数。推荐参考值：600，需按上游套餐实际限制填写。 TPM 每分钟最大 Token 数。推荐参考值：600000，需按上游套餐实际限制填写。 TPD 每日最大 Token 数。用于控制单个渠道或单把上游 Key 的日消耗上限。最大并发数同一渠道同时处理中的最大请求数。推荐参考值：5，需按上游套餐实际限制填写。

更换已有渠道的上游 Key（轮换）

用于 Key 到期、泄露处置或套餐迁移，可立即替换或预约平滑切换

选择要换 Key 的渠道延迟生效秒数填 0 表示立即启用新 Key；大于 0 表示先保存为下一把 Key，到时间后自动切换。 Key 标识便于管理员识别，不会展示 Key 明文。轮换优先级数字越小越优先。多把备用 Key 同时可用时，优先级 1 会先于 10 使用。最大日消耗 Token 用于计算日 token 消耗占比；留空表示不按日 token 占比调度。剩余金额（元）没有最大日 token 配置时，系统优先选择剩余金额更高的 Key。套餐 / Key 到期时间用于到期告警和自动切换；到期 Key 不再作为新的候选 Key。新上游 API Key 这里不是创建新渠道，而是给已存在渠道换 Key。新 Key 会加密保存；提交后旧 Key 不会明文展示。延迟切换期间，旧 Key 继续承接请求。

使用建议：新建渠道时填上方“当前上游 API Key”；已有渠道后续更换供应商 Key 时用这里。有多把备用 Key 时先加入备用 Key 队列。系统自动选择规则：优先选择日 token 消耗占比低的 Key；占比相同随机选择；没有日 token 上限时，优先选择剩余金额高的 Key。

企业会员

余额与状态

编辑企业

企业名称* 企业名称必须唯一，不能和现有企业重复。会员等级* 用于标识服务档位；不直接等同于额度余额。状态* 初始网关额度* 仅创建企业时写入初始余额；后续调整请使用下方额度调整。企业联系人联系电话联系邮箱

调整企业调整额度

企业组织架构

选中企业后维护子公司、分公司、部门和子部门

所属企业默认跟随左侧选中的企业。公司本身是第 1 级，不在这里重复创建。上级组织选择“直属当前企业”表示创建第 2 级；选择某个组织则创建它的下级。类型类型用于展示和统计口径；真正层级由“上级组织”决定。名称预算网关额度用于审批额度时判断该组织可发放的总预算。月限额网关额度可选；用于限制该组织每月可审批发放的额度。

四级结构规则

支持二级、三级或四级，最多到四级

层级定义

第 1 级：企业 / 公司
第 2 级：子公司、分公司或直属一级部门
第 3 级：部门
第 4 级：子部门、小组或项目组

创建方式

选择“直属当前企业”：创建企业直属组织，成为第 2 级
选择第 2 级组织：创建它下面的第 3 级
选择第 3 级组织：创建它下面的第 4 级
第 4 级下面不能再创建下级

常见示例

某某科技有限公司 / 华东分公司 / AI 平台部 / 网关小组
某某科技有限公司 / 研发中心 / 平台部
某某科技有限公司 / 财务部

应用 / 智能体数据大屏

最近 7 天请求、成本、缓存节省和告警

巡检与告警

余额、异常 IP、失败率、超限和安全风险

应用 / 智能体列表

业务系统、Agent、RPA 等非员工调用主体

第 1 / 1 页

新建应用 / 智能体

创建后自动生成该应用唯一 API Key

企业* 所属组织应用名称* 应用编码* 类型* 环境业务负责人技术负责人状态生命周期当前模型工作区* 允许模型工作区* 每个模型会创建一个应用工作区。请求中 model 必须等于当前工作区，或不传 model 使用当前工作区。可用余额（网关额度）日限额（网关额度）留空表示不限制。月限额（网关额度）留空表示不限制。最大并发数留空表示不限制。 RPM 留空表示不限制。 TPM 留空表示不限制。 IP 白名单建议生产环境必须填写，只允许企业服务器、Agent 服务器或 RPA 主机访问。说明

应用级额度审批

应用额度申请、审批和余额补充

应用申请额度（网关额度）申请原因

应用级安全策略

覆盖企业默认策略，仅作用于当前选中应用

策略模式缓存策略强制脱敏强制人工复核允许图片输入

后台定时任务

应用巡检任务和最近执行记录

API Key

员工唯一调用凭证，列表中可暂停或恢复

第 1 / 1 页

Key 详情

查看拥有者、组织和额度限制

兑换码

明文只返回一次

生成 / 兑换

网关额度充值入口

数量面额网关额度最大使用次数

API Key 兑换码

筛选条件

按 Key、模型、渠道和时间过滤

Key 模型渠道资源池状态从到关键字

请求记录

已显示 0 条

余额流水

使用明细

按日期分组

Token 节省策略

第一阶段：缓存复用、相似命中、默认输出预算和统计口径

启用 Token 节省精确缓存相似缓存相似阈值越高越保守，建议 0.92-0.97。缓存范围缓存 TTL（秒）命中扣费比例 0 表示缓存命中不扣网关额度，0.1 表示收取原成本 10%。默认最大输出 Tokens 员工未指定 max_tokens 时生效。长会话摘要摘要触发 Tokens 保留最近轮数提示词压缩压缩模式压缩触发 Tokens 目标保留比例敏感内容缓存策略

节省机制说明

第一阶段已真正接入网关请求链路

精确缓存

完全相同的低温请求命中后不再请求上游模型，直接从网关缓存返回。

相似缓存

当前阶段使用轻量文本相似索引，后续可升级为 embedding + Redis Stack / Qdrant / Milvus。

输出预算

员工未传 max_tokens 时，网关按策略设置默认最大输出 Tokens，减少长回答浪费。

长会话摘要 / 提示词压缩

本阶段先配置和统计预留，后续接入本地摘要器或 LLMLingua 类压缩器。

按模型节省

缓存命中、节省网关额度和节省 Tokens

按部门节省

用于判断哪些部门最受益

公司按日期消耗

最近 30 天每日消耗网关额度

公司按模型消耗

按全公司成功请求聚合

0 消耗网关额度

部门消耗

额度、Tokens、申请中额度

员工消耗

员工调用与额度申请

模型成本

按国内模型聚合

按天趋势

额度申请

最近 20 条额度申请记录

员工管理

员工导入、手动维护和唯一 API Key

所属企业* 员工必须归属某个企业；建议先在“企业”页面建好组织架构。所属组织选择企业组织架构中的组织单元，用于成本归集和审批归属。账号（通常用11位手机号）* 姓名* 工号* 岗位* 初始密码* 额度控制方式* 员工不限制时不扣个人额度，也不展示日/月有效使用率；企业总额度仍会扣减。个人额度余额* 员工个人可用额度，模型调用会扣减这里的余额。标准申请限额* 员工单次常规申请上限，超出后需填写充分理由。日限额* 员工每日模型调用额度上限，会同步到该员工唯一 API Key。月度限额* 员工每月额度边界，用于申请与消费风险提示。

批量导入

按部门路径批量创建或更新员工账号

员工导入 CSV department_path 可自动创建组织路径；员工创建时会自动生成唯一 API Key。

支持中文表头：账号、姓名、工号、岗位、部门路径、额度控制方式、初始额度、标准申请限额、日限额、月度限额、密码；额度控制方式支持 inherit / approval / unlimited。账号建议使用员工 11 位手机号，作为唯一登录 ID。额度审核员属于系统操作账号，后续在权限管理中维护，不在员工管理中创建。

员工列表

点击编辑可载入到上方表单，停用员工会同步停用其唯一 API Key

安全审核工作台

待审核 0 条

审核状态风险等级关键词

企业 DLP 策略

请求出网前执行，响应返回前复检

模型出境策略

默认禁止国外模型和第三方中转服务；只有企业明确允许后，管理员才能创建、授权和调用。

是否允许国外模型是否允许第三方中转服务模型

禁止国外模型时会拦截 gpt、claude、gemini、grok 等模型；禁止第三方中转服务时会拦截 api.asxs.top、OneAPI/New API 等非官方 Base URL 渠道。允许后仍需管理员显式创建模型并配置渠道。

L2 动作 L3 动作 L4 动作图片请求动作图片缓存策略 L2 缓存范围 L3 缓存范围 L4 缓存范围

风险等级说明

默认策略可按企业合规要求调整

L1 低风险

正常业务问题，可按组织维度使用网关缓存。

L2 个人信息

手机号、邮箱、内网 IP 等，默认脱敏后放行，缓存范围降为部门。

L3 重要业务信息

身份证、银行卡、合同、报价、客户名单等，默认进入安全复核，不请求上游。

L4 绝密/凭证

API Key、Bearer Token、数据库连接串、源码密码等，默认直接阻断。

DLP 规则管理

识别员工请求和模型响应中的敏感内容

规则编号* 新增后作为稳定标识，不建议也不允许在编辑时修改。规则名称* 风险等级* 风险标签* 用于日志筛选、统计和匹配对应脱敏规则。正则表达式* 保存前会校验正则是否可用；规则启用后立即参与 DLP 检测。规则说明启用状态

脱敏规则管理

敏感字段请求上游或返回员工前的处理方式

风险标签* 必须与 DLP 规则里的风险标签一致；新增后不可修改。脱敏方式* 启用状态规则说明

接口文档

本地 MVP

Base URL

http://127.0.0.1:8787

认证

Authorization: Bearer tk_test_demo_1234567890abcdef

获取模型

GET /v1/models

聊天补全

{
  "model": "cn-deepseek-pro",
  "messages": [
    {"role": "user", "content": "请总结这段内容"}
  ],
  "stream": false
}

安全约束

模型必须存在于国内模型白名单。`gpt-*`、`claude-*`、`gemini-*`、`grok` 等国外模型请求会被拦截并写入日志。

企业内部大模型网关

管理员登录

交付边界

API 调用测试

最近流水

国内模型白名单

国外模型白名单

第三方中转服务模型白名单

模型详情 / 新增

资源池与渠道关系

现有资源池（供应商账号 / 套餐额度）

资源池详情 / 新增

现有渠道（调用出口）

渠道详情 / 新增

更换已有渠道的上游 Key（轮换）

企业会员

编辑企业

企业组织架构

四级结构规则

层级定义

创建方式

常见示例

应用 / 智能体数据大屏

巡检与告警

应用 / 智能体列表

新建应用 / 智能体

应用级额度审批

应用级安全策略

后台定时任务

API Key

Key 详情

兑换码

生成 / 兑换

筛选条件

请求记录

余额流水

筛选器

使用明细

Token 节省策略

节省机制说明

精确缓存

相似缓存

输出预算

长会话摘要 / 提示词压缩

按模型节省

按部门节省

最近节省记录

公司按日期消耗

公司按模型消耗

部门消耗

员工消耗

模型成本

按天趋势

额度申请

员工管理

批量导入

员工列表

安全审核工作台

企业 DLP 策略

模型出境策略

风险等级说明

L1 低风险

L2 个人信息

L3 重要业务信息

L4 绝密/凭证

最近安全事件

DLP 规则管理

脱敏规则管理

接口文档

Base URL

认证

获取模型

聊天补全

安全约束

个人信息

我的模型工作区

我的 API Key

新建对话

筛选器

按日期的消耗