SmarTokenX v1.0 已上线 → 注册即领 100 万 tokens 免费额度 →

SMARTOKENX 平台

一个 API,
统一调度全国 GPU 推理。

SmarTokenX 是面向中国市场的大模型推理调度层,提供从路由、缓存、批处理到合规审核的端到端能力。

系统架构

轻资产、纯软件、可扩展。

客户应用
OpenAI SDK · LangChain · 自研后端
SmarTokenX Gateway
鉴权 · 限流 · 路由 · 计费
语义缓存
Redis Stack · 向量检索
批处理调度
队列合并 · 动态 batch
合规审核
内容安全 API · 日志留存
阿里云
GPU 推理端点
腾讯云
GPU 推理端点
华为云
GPU 推理端点
百度智能云
GPU 推理端点

核心能力

为企业级 AI 工作负载而生。

ROUTING

智能路由引擎

基于实时采集的延迟、价格、负载与可用率指标,通过加权评分算法动态选择最优云厂商节点。支持地理位置就近调度、成本优先策略与故障自动剔除,节点故障 5 秒内完成流量切换,业务无感知。

CACHE

语义缓存

采用 Embedding 向量相似度匹配技术,自动缓存高频 Prompt 的响应结果。系统命中率 >30%,重复请求实现毫秒级返回且零算力消耗。支持 TTL 淘汰、热度加权与多级缓存架构,有效降低下游 GPU 负载。

BATCHING

请求批处理

动态合并多路并发请求为单批次送入 GPU,通过自适应 batch size、填充对齐与优先级队列优化,GPU 利用率最高提升 4 倍,单 token 推理成本下降 35% 以上。

SAFETY

内容安全双审

Input/Output 双向审核机制,深度集成阿里云内容安全、腾讯云天御等多厂商审核引擎。自动识别并拦截高风险内容,完整留存审计日志,满足等保 2.0 与网信办合规要求。

BILLING

统一计量计费

毫秒级 Token 消耗精确计量,支持多云供应商对账自动化。提供多账户体系、成本归因分析、预算阈值告警与增值税专用发票开具能力,企业财务流程一键打通。

OBSERVABILITY

全链路可观测性

覆盖请求入口到 GPU 推理出口的全链路分布式追踪,提供实时延迟分布、错误率趋势、成本归因分析与异常请求回放能力。集成 Prometheus + Grafana 看板,运维问题分钟级定位。

RELEASE

灰度发布与回滚

支持模型版本灰度发布、A/B 流量切分与金丝雀部署。新模型上线可按比例逐步放量,实时监控关键指标,异常时一键回滚至稳定版本,最大限度降低上线风险。

QUOTA

多维限流与配额

按租户、按 API Key、按模型、按时间段设置多维度限流策略。支持突发流量缓冲、优先级队列与预算封顶保护,防止下游 GPU 集群过载,确保核心业务的稳定性与预算可控。

PRIVATE

私有化部署

提供 K8s Helm Chart 与信创环境一键交付方案,网关与缓存组件完全部署于客户内网。支持国产芯片适配、国密算法改造与物理隔离网络,满足政务、金融最高级别数据安全要求。

部署模式

从公有云到信创环境,全场景覆盖。

公有云 SaaS

开箱即用,按量付费。适合中小企业与开发者。

  • 免费额度
  • 5 分钟接入
  • 全托管运维

VPC 专属

在客户 VPC 内独立部署网关,数据不离开客户云账号。

  • 独立计费
  • 专属路由
  • VPN 互通

私有化授权

源码交付到客户内网,支持信创硬件与国密改造。

  • 源码授权
  • 信创适配
  • 驻场支持

看看模型市场支持哪些模型 →