模型与 Token 入门
本文介绍使用捷智算模型 API 时的基础概念:大模型能做什么、Token 是什么、与计费方式的关系。
更具体的扣费规则见 计费方式说明;首次调用步骤见 快速开始。
关于 知识库、RAG、Agent、MCP、Skill 等概念,见 AI 应用概念入门。
大模型能帮您做什么
可以把接入的大模型理解为一个 会读文字、会写文字的智能助手(具体能力因模型而异):
| 常见用途 | 举例 |
|---|---|
| 问答 | 「这段报错是什么意思?」 |
| 写作与改写 | 写邮件、润色文案、翻译 |
| 摘要 | 把长文章压缩成几条要点 |
| 代码相关 | 解释代码、生成示例(需自行核对正确性) |
在捷智算,您通过 模型 API 或控制台 文本对话,把文字发给模型,模型再把生成的文字返回给您。当前开放 API 仅支持文本对话;图片、视频等若控制台有入口,以实际上线功能为准。
Token 是什么
一句话理解
Token 是模型处理文字时使用的 计费单位,用于统计每次调用的用量。您发送的内容与模型返回的内容均计入 Token;用量越大,套餐扣减或按量费用通常越高。
和「字数」一样吗
不完全一样,但可以先粗略对照理解:
| 文字类型 | 粗略参考(因模型而异) |
|---|---|
| 中文 | 1 个汉字通常约 1 个 Token 左右 |
| 英文 | 1 个英文单词通常约 1~2 个 Token |
| 标点、空格、代码符号 | 也会占 Token |
因此:同样一段意思,用中英文、是否带格式,Token 数可能不同。平台以 实际统计结果 为准,在 调用统计 或接口返回的 usage 里查看最准确。
TIP
不必自己手算 Token。购买套餐或查看账单时,看控制台显示的 本次消耗 / 剩余额度 即可。
为什么不用「按次」或「按字」计费
模型每次处理的 输入长短、输出长短 差别很大:问一句「你好」和上传一整篇报告,成本完全不同。用 Token 统一衡量 「模型实际处理了多少内容」,对平台和用户都更公平,也是行业常见做法。
输入 Token 和输出 Token
一次完整对话,用量通常分成两部分:
| 名称 | 包含什么 | 说明 |
|---|---|---|
| 输入 Token | 您发送的内容 | 您的问题、系统指令、以及您附带的历史对话 |
| 输出 Token | 模型生成的内容 | 模型这次写给您的回复 |
合计 ≈ 输入 + 输出(若还有缓存命中等分项,按平台统计为准)。
举例
- 您发送:「用三句话介绍云计算。」→ 计入 输入 Token
- 模型回复三段话 → 计入 输出 Token
- 本次总共消耗 = 两者之和(套餐从这里扣额度;按量则按单价折算成元)
部分模型对 输入、输出 单价不同(输出往往更贵),在 模型广场 → 查看价格 中会有分档说明。
上下文与「能记多长」
上下文(Context)是什么
模型在一次请求里能 同时看到 的文字范围,叫做 上下文,包括:
- 您本次的问题
- 您设置的角色说明(如「你是客服」)
- 您主动传入的 历史对话(多轮聊天时)
上下文越长,占用的 输入 Token 越多。
上下文长度 / 1024k 等标签
在 模型广场,您可能看到 128k、1024k 等标签,表示该模型支持的 上下文规模 上限(越大,越能一次塞进更长的资料)。
| 注意 | 说明 |
|---|---|
| 不是「免费字数」 | 越长仍然消耗更多 Token,可能更贵、响应更慢 |
| 超长内容 | 可能被截断或报错,建议长文档 分段提问 |
与 max_tokens 不同 | 见下文 |
和捷智算计费的关系
平台有两种常见方式,扣的东西不一样:
| 方式 | 您先付什么 | 每次调用扣什么 |
|---|---|---|
| Token 套餐 | 人民币购买 Token 额度 | 按次调用扣减套餐内 Token |
| 按量调用 | 账户 充值余额(元) | 按 Token 用量折算金额后从余额扣除 |
两种方式的 Token 统计方式相同;套餐按 Token 扣减,按量按人民币扣费。详见 计费方式说明。
控制台和文档里常见词
| 词 | 含义 |
|---|---|
| 接口模型名称 | 调用 API 时 model 字段要填的名字,须与控制台一致 |
| 流式输出 | 回复像打字一样一段段出现;计费仍按 Token,不是按「显示次数」 |
| System 提示 / 系统指令 | 用来规定模型角色、语气(如「用简洁中文回答」) |
| API 密钥(sk-) | 调用时的密码,不要泄露 |
| 调用统计 | 查看每次用了多少 Token |
| 剩余 Token | 套餐用户专用,表示套餐还能用多少 |
参数细节(如 temperature、max_tokens)见 请求参数说明。
max_tokens 是干什么的
在 API 或部分工具里可以设置 「这次最多生成多长」(常见参数名 max_tokens):
| 作用 | 说明 |
|---|---|
| 控制回复长度 | 避免一次生成过长、耗时过久 |
| 控制费用 | 输出 Token 有上限,花费更可预期 |
| 不是「套餐总额」 | 与账户里「剩余 Token」不是同一个概念 |
Anthropic 方式通常 必须 填写 max_tokens;OpenAI 方式建议按需设置。
怎样更省 Token(实用建议)
| 建议 | 原因 |
|---|---|
| 问题尽量 具体、简洁 | 减少无效输入 |
| 长文档 分段 提问或先摘要再细问 | 避免一次塞进超长上下文 |
| 不需要的历史对话 不要反复带上 | 多轮里历史也算输入 Token |
| 设置合理的 最大生成长度 | 避免模型写太长 |
| 固定规则写在 系统指令 里一次即可 | 不必每轮重复大段说明 |
| 试模型用 文本对话 或短问题 | 正式批量任务再开长输出 |
常见误解
| 误解 | 实际情况 |
|---|---|
| 「Token = 一个字」 | 仅作粗略参考,以平台统计为准 |
| 「问一次固定扣 1 次费」 | 按 Token 用量 计费,问得越长、答得越长,消耗越多 |
| 「流式比非流式便宜」 | 一般 相同,都看最终 Token |
| 「套餐买了 100 万 Token 就能发 100 万字」 | Token 与字数 不能简单等同 |
| 「模型名随便写」 | 必须填 接口模型名称,否则无法调用 |
接下来读什么
| 目标 | 文档 |
|---|---|
| 知识库、RAG、Agent、MCP、Skill | AI 应用概念入门 |
| 第一次调用 | 快速开始 |
| 套餐与按量怎么扣费 | 计费方式说明 |
| 报错、余额、密钥 | 常见问题 |
| 开发接入 | API 调用指南 |
