模型与 Token 入门

本文介绍使用捷智算模型 API 时的基础概念:大模型能做什么Token 是什么与计费方式的关系

更具体的扣费规则见 计费方式说明;首次调用步骤见 快速开始

关于 知识库、RAG、Agent、MCP、Skill 等概念,见 AI 应用概念入门


大模型能帮您做什么

可以把接入的大模型理解为一个 会读文字、会写文字的智能助手(具体能力因模型而异):

常见用途举例
问答「这段报错是什么意思?」
写作与改写写邮件、润色文案、翻译
摘要把长文章压缩成几条要点
代码相关解释代码、生成示例(需自行核对正确性)

在捷智算,您通过 模型 API 或控制台 文本对话,把文字发给模型,模型再把生成的文字返回给您。当前开放 API 仅支持文本对话;图片、视频等若控制台有入口,以实际上线功能为准。


Token 是什么

一句话理解

Token 是模型处理文字时使用的 计费单位,用于统计每次调用的用量。您发送的内容与模型返回的内容均计入 Token;用量越大,套餐扣减或按量费用通常越高。

和「字数」一样吗

不完全一样,但可以先粗略对照理解:

文字类型粗略参考(因模型而异)
中文1 个汉字通常约 1 个 Token 左右
英文1 个英文单词通常约 1~2 个 Token
标点、空格、代码符号也会占 Token

因此:同样一段意思,用中英文、是否带格式,Token 数可能不同。平台以 实际统计结果 为准,在 调用统计 或接口返回的 usage 里查看最准确。

TIP

不必自己手算 Token。购买套餐或查看账单时,看控制台显示的 本次消耗 / 剩余额度 即可。

为什么不用「按次」或「按字」计费

模型每次处理的 输入长短、输出长短 差别很大:问一句「你好」和上传一整篇报告,成本完全不同。用 Token 统一衡量 「模型实际处理了多少内容」,对平台和用户都更公平,也是行业常见做法。


输入 Token 和输出 Token

一次完整对话,用量通常分成两部分:

名称包含什么说明
输入 Token您发送的内容您的问题、系统指令、以及您附带的历史对话
输出 Token模型生成的内容模型这次写给您的回复

合计 ≈ 输入 + 输出(若还有缓存命中等分项,按平台统计为准)。

举例

  • 您发送:「用三句话介绍云计算。」→ 计入 输入 Token
  • 模型回复三段话 → 计入 输出 Token
  • 本次总共消耗 = 两者之和(套餐从这里扣额度;按量则按单价折算成元)

部分模型对 输入、输出 单价不同(输出往往更贵),在 模型广场 → 查看价格 中会有分档说明。


上下文与「能记多长」

上下文(Context)是什么

模型在一次请求里能 同时看到 的文字范围,叫做 上下文,包括:

  • 您本次的问题
  • 您设置的角色说明(如「你是客服」)
  • 您主动传入的 历史对话(多轮聊天时)

上下文越长,占用的 输入 Token 越多。

上下文长度 / 1024k 等标签

模型广场,您可能看到 128k、1024k 等标签,表示该模型支持的 上下文规模 上限(越大,越能一次塞进更长的资料)。

注意说明
不是「免费字数」越长仍然消耗更多 Token,可能更贵、响应更慢
超长内容可能被截断或报错,建议长文档 分段提问
max_tokens 不同见下文

和捷智算计费的关系

平台有两种常见方式,扣的东西不一样

方式您先付什么每次调用扣什么
Token 套餐人民币购买 Token 额度按次调用扣减套餐内 Token
按量调用账户 充值余额(元)按 Token 用量折算金额后从余额扣除

两种方式的 Token 统计方式相同;套餐按 Token 扣减,按量按人民币扣费。详见 计费方式说明


控制台和文档里常见词

含义
接口模型名称调用 API 时 model 字段要填的名字,须与控制台一致
流式输出回复像打字一样一段段出现;计费仍按 Token,不是按「显示次数」
System 提示 / 系统指令用来规定模型角色、语气(如「用简洁中文回答」)
API 密钥(sk-)调用时的密码,不要泄露
调用统计查看每次用了多少 Token
剩余 Token套餐用户专用,表示套餐还能用多少

参数细节(如 temperaturemax_tokens)见 请求参数说明


max_tokens 是干什么的

在 API 或部分工具里可以设置 「这次最多生成多长」(常见参数名 max_tokens):

作用说明
控制回复长度避免一次生成过长、耗时过久
控制费用输出 Token 有上限,花费更可预期
不是「套餐总额」与账户里「剩余 Token」不是同一个概念

Anthropic 方式通常 必须 填写 max_tokens;OpenAI 方式建议按需设置。


怎样更省 Token(实用建议)

建议原因
问题尽量 具体、简洁减少无效输入
长文档 分段 提问或先摘要再细问避免一次塞进超长上下文
不需要的历史对话 不要反复带上多轮里历史也算输入 Token
设置合理的 最大生成长度避免模型写太长
固定规则写在 系统指令 里一次即可不必每轮重复大段说明
试模型用 文本对话 或短问题正式批量任务再开长输出

常见误解

误解实际情况
「Token = 一个字」仅作粗略参考,以平台统计为准
「问一次固定扣 1 次费」Token 用量 计费,问得越长、答得越长,消耗越多
「流式比非流式便宜」一般 相同,都看最终 Token
「套餐买了 100 万 Token 就能发 100 万字」Token 与字数 不能简单等同
「模型名随便写」必须填 接口模型名称,否则无法调用

接下来读什么

目标文档
知识库、RAG、Agent、MCP、SkillAI 应用概念入门
第一次调用快速开始
套餐与按量怎么扣费计费方式说明
报错、余额、密钥常见问题
开发接入API 调用指南
复制 MD