模型与 Token 入门

本文介绍使用捷智算模型 API 时的基础概念：大模型能做什么、Token 是什么、与计费方式的关系。

更具体的扣费规则见计费方式说明；首次调用步骤见快速开始。

关于 知识库、RAG、Agent、MCP、Skill 等概念，见 AI 应用概念入门。

大模型能帮您做什么

可以把接入的大模型理解为一个 会读文字、会写文字的智能助手（具体能力因模型而异）：

常见用途	举例
问答	「这段报错是什么意思？」
写作与改写	写邮件、润色文案、翻译
摘要	把长文章压缩成几条要点
代码相关	解释代码、生成示例（需自行核对正确性）

在捷智算，您通过 模型 API 或控制台 文本对话，把文字发给模型，模型再把生成的文字返回给您。当前开放 API 仅支持文本对话；图片、视频等若控制台有入口，以实际上线功能为准。

Token 是什么

一句话理解

Token 是模型处理文字时使用的 计费单位，用于统计每次调用的用量。您发送的内容与模型返回的内容均计入 Token；用量越大，套餐扣减或按量费用通常越高。

和「字数」一样吗

不完全一样，但可以先粗略对照理解：

文字类型	粗略参考（因模型而异）
中文	1 个汉字通常约 1 个 Token 左右
英文	1 个英文单词通常约 1～2 个 Token
标点、空格、代码符号	也会占 Token

因此：同样一段意思，用中英文、是否带格式，Token 数可能不同。平台以 实际统计结果 为准，在 调用统计 或接口返回的 usage 里查看最准确。

TIP

不必自己手算 Token。购买套餐或查看账单时，看控制台显示的 本次消耗 / 剩余额度 即可。

为什么不用「按次」或「按字」计费

模型每次处理的 输入长短、输出长短 差别很大：问一句「你好」和上传一整篇报告，成本完全不同。用 Token 统一衡量 「模型实际处理了多少内容」，对平台和用户都更公平，也是行业常见做法。

输入 Token 和输出 Token

一次完整对话，用量通常分成两部分：

名称	包含什么	说明
输入 Token	您发送的内容	您的问题、系统指令、以及您附带的历史对话
输出 Token	模型生成的内容	模型这次写给您的回复

合计 ≈ 输入 + 输出（若还有缓存命中等分项，按平台统计为准）。

举例

您发送：「用三句话介绍云计算。」→ 计入 输入 Token
模型回复三段话 → 计入 输出 Token
本次总共消耗 = 两者之和（套餐从这里扣额度；按量则按单价折算成元）

部分模型对 输入、输出 单价不同（输出往往更贵），在 模型广场 → 查看价格 中会有分档说明。

上下文与「能记多长」

上下文（Context）是什么

模型在一次请求里能 同时看到 的文字范围，叫做 上下文，包括：

您本次的问题
您设置的角色说明（如「你是客服」）
您主动传入的 历史对话（多轮聊天时）

上下文越长，占用的 输入 Token 越多。

上下文长度 / 1024k 等标签

在 模型广场，您可能看到 128k、1024k 等标签，表示该模型支持的 上下文规模 上限（越大，越能一次塞进更长的资料）。

注意	说明
不是「免费字数」	越长仍然消耗更多 Token，可能更贵、响应更慢
超长内容	可能被截断或报错，建议长文档分段提问
与 `max_tokens` 不同	见下文

和捷智算计费的关系

平台有两种常见方式，扣的东西不一样：

方式	您先付什么	每次调用扣什么
Token 套餐	人民币购买 Token 额度	按次调用扣减套餐内 Token
按量调用	账户充值余额（元）	按 Token 用量折算金额后从余额扣除

两种方式的 Token 统计方式相同；套餐按 Token 扣减，按量按人民币扣费。详见计费方式说明。

控制台和文档里常见词

词	含义
接口模型名称	调用 API 时 `model` 字段要填的名字，须与控制台一致
流式输出	回复像打字一样一段段出现；计费仍按 Token，不是按「显示次数」
System 提示 / 系统指令	用来规定模型角色、语气（如「用简洁中文回答」）
API 密钥（sk-）	调用时的密码，不要泄露
调用统计	查看每次用了多少 Token
剩余 Token	套餐用户专用，表示套餐还能用多少

参数细节（如 temperature、max_tokens）见请求参数说明。

`max_tokens` 是干什么的

在 API 或部分工具里可以设置 「这次最多生成多长」（常见参数名 max_tokens）：

作用	说明
控制回复长度	避免一次生成过长、耗时过久
控制费用	输出 Token 有上限，花费更可预期
不是「套餐总额」	与账户里「剩余 Token」不是同一个概念

Anthropic 方式通常必须填写 max_tokens；OpenAI 方式建议按需设置。

怎样更省 Token（实用建议）

建议	原因
问题尽量具体、简洁	减少无效输入
长文档分段提问或先摘要再细问	避免一次塞进超长上下文
不需要的历史对话不要反复带上	多轮里历史也算输入 Token
设置合理的最大生成长度	避免模型写太长
固定规则写在系统指令里一次即可	不必每轮重复大段说明
试模型用文本对话或短问题	正式批量任务再开长输出

常见误解

误解	实际情况
「Token = 一个字」	仅作粗略参考，以平台统计为准
「问一次固定扣 1 次费」	按 Token 用量计费，问得越长、答得越长，消耗越多
「流式比非流式便宜」	一般相同，都看最终 Token
「套餐买了 100 万 Token 就能发 100 万字」	Token 与字数不能简单等同
「模型名随便写」	必须填接口模型名称，否则无法调用

接下来读什么

目标	文档
知识库、RAG、Agent、MCP、Skill	AI 应用概念入门
第一次调用	快速开始
套餐与按量怎么扣费	计费方式说明
报错、余额、密钥	常见问题
开发接入	API 调用指南