
SMARTOKENX 平台
SmarTokenX 是面向中国市场的大模型推理调度层,提供从路由、缓存、批处理到合规审核的端到端能力。
系统架构
核心能力
基于实时采集的延迟、价格、负载与可用率指标,通过加权评分算法动态选择最优云厂商节点。支持地理位置就近调度、成本优先策略与故障自动剔除,节点故障 5 秒内完成流量切换,业务无感知。
采用 Embedding 向量相似度匹配技术,自动缓存高频 Prompt 的响应结果。系统命中率 >30%,重复请求实现毫秒级返回且零算力消耗。支持 TTL 淘汰、热度加权与多级缓存架构,有效降低下游 GPU 负载。
动态合并多路并发请求为单批次送入 GPU,通过自适应 batch size、填充对齐与优先级队列优化,GPU 利用率最高提升 4 倍,单 token 推理成本下降 35% 以上。
Input/Output 双向审核机制,深度集成阿里云内容安全、腾讯云天御等多厂商审核引擎。自动识别并拦截高风险内容,完整留存审计日志,满足等保 2.0 与网信办合规要求。
毫秒级 Token 消耗精确计量,支持多云供应商对账自动化。提供多账户体系、成本归因分析、预算阈值告警与增值税专用发票开具能力,企业财务流程一键打通。
覆盖请求入口到 GPU 推理出口的全链路分布式追踪,提供实时延迟分布、错误率趋势、成本归因分析与异常请求回放能力。集成 Prometheus + Grafana 看板,运维问题分钟级定位。
支持模型版本灰度发布、A/B 流量切分与金丝雀部署。新模型上线可按比例逐步放量,实时监控关键指标,异常时一键回滚至稳定版本,最大限度降低上线风险。
按租户、按 API Key、按模型、按时间段设置多维度限流策略。支持突发流量缓冲、优先级队列与预算封顶保护,防止下游 GPU 集群过载,确保核心业务的稳定性与预算可控。
提供 K8s Helm Chart 与信创环境一键交付方案,网关与缓存组件完全部署于客户内网。支持国产芯片适配、国密算法改造与物理隔离网络,满足政务、金融最高级别数据安全要求。
部署模式
开箱即用,按量付费。适合中小企业与开发者。
在客户 VPC 内独立部署网关,数据不离开客户云账号。
源码交付到客户内网,支持信创硬件与国密改造。