别再问“Token”是什么了:一文读懂 AI 模型的幕后接口 (API)

在上期文章中,我们聊了互联网的“快递员” Cloudflare。今天,我们来聊聊最近两年最火的话题——AI

你可能用过 ChatGPT 的网页版,也用过国产的 DeepSeek 或者 Kimi。但你可能经常听到开发者们在讨论一些奇怪的词:

  • “你的 Key 还有余额吗?”
  • “这个模型 Token 太贵了!”
  • “把 Temperature 调低点就不胡说了。”

这些黑话到底是什么意思?今天我们不写代码,用**“去餐厅吃饭”**的逻辑,彻底搞懂 AI API 是怎么工作的。

💡 核心比喻
AI 模型 = 厨房里的米其林大厨(只负责做菜/生成内容)。
API = 拿着菜单的服务员(负责传话、计费、端菜)。
= 坐在位置上的顾客。

1. 什么是 API?(服务员的传话筒)

我们在网页上跟 ChatGPT 聊天时,其实并不是直接跟那个“大脑”对话。
我们在跟网页(菜单)交互,网页把我们的问题打包,交给 API(接口),API 跑去后台告诉 AI 模型:“嘿,那个顾客让你写首诗。”

为什么需要 API?
因为 AI 模型(大厨)被关在拥有几万张显卡的小黑屋(机房)里,他不能直接见客。
所有的软件(比如你的微信机器人、你的翻译插件、甚至你的 VS Code 编辑器),想用 AI 的能力,都必须通过 API 这个窗口来“递纸条”。

2. 什么是 API Key?(你的会员卡)

你想让服务员给你端菜,前提是你得有资格。
API Key 就是一串长得像乱码一样的字符(比如 sk-abcdefg12345...)。

  • 它相当于你的无限额度信用卡或者餐厅会员卡
  • 只要出示这个 Key,API 就知道:“哦,是周先生点的菜,记在他账上。”
  • 安全警告:千万不要把你的 API Key 发给别人!如果别人拿了你的卡去狂吃海喝(刷流量),最后扣的是你的钱

3. 什么是 Token?(按“口”收费)

在人类的餐厅里,我们按“盘”算钱。但在 AI 的餐厅里,是按**“吞吐量”**算钱的,单位就是 Token

很多小白以为 1 个 Token = 1 个字,其实不对。

  • 英文:1 个单词通常对应 1.3 个 Token 左右。
  • 中文:1 个汉字通常对应 1~2 个 Token(取决于模型的分词技术)。

计费逻辑是双向的:

  • Input (输入):你对 AI 说的话,要算钱。(你点了菜,服务员记下来要花时间)
  • Output (输出):AI 回复你的话,也要算钱。(大厨做菜要花成本)

所以,如果你把一本《红楼梦》粘贴进去让 AI 总结,虽然它只回了一句“这本书讲了大家族的兴衰”,但你依然要为粘贴进去的那几十万字买单!

4. 什么是 Context(上下文)?(服务员的记性)

你有没有发现,AI 是有“记忆”的?你说了第一句,再说第二句,它知道你在接着聊。
但这不是因为 AI 真的记住了你。

真相是:
API 每次发请求时,都会把你之前说过的话(历史记录),全部打包重新发给 AI 一遍。

  • 第 1 轮:你发“你好”。(AI 收到:你好)
  • 第 2 轮:你发“我是谁?”。(AI 收到:你好 + AI的回复 + 我是谁?)
  • 第 3 轮:你发“再见”。(AI 收到:你好 + AI的回复 + 我是谁 + AI的回复 + 再见)

Context Window (上下文窗口) 就是服务员脑容量的上限。
如果窗口大小是 8k tokens,当你聊到第 1 万个字时,为了塞进新内容,服务员就必须忘掉最开始的那 2000 个字。这就是为什么聊久了 AI 会“失忆”。

5. 什么是 Temperature(温度)?(大厨的疯狂程度)

这是调节 AI 性格最重要的参数,范围通常是 0 到 1(或者 0 到 2)。

  • Temperature = 0 (严谨模式)

    • 大厨完全按菜谱做菜,一丝不苟。
    • 问它“1+1等于几”,它每次都回“2”。
    • 适用场景:数学题、代码编写、资料提取。
  • Temperature = 1 (创意模式)

    • 大厨开始整活了,可能会加点辣椒,或者摆个盘。
    • 问它“讲个故事”,它每次讲的都不一样,脑洞大开。
    • 适用场景:写小说、头脑风暴、聊天解闷。
  • Temperature > 1.5 (发疯模式)

    • 大厨喝高了。
    • 它可能会胡言乱语,甚至自创语言。
    • 适用场景:看个乐子。

6. 总结

现在的 AI 应用(比如我们之前提到的“感觉式编程”),本质上就是在一个脚本里:

  1. 拿着你的 API Key(会员卡)。
  2. 把你的代码打包成 Tokens(食材)。
  3. 通过 API 扔给大厨(模型)。
  4. 调节 Temperature(火候)。
  5. 最后把大厨做好的菜(新代码)端给你。

搞懂了这些,下次看到报错说 Rate Limit Exceeded(达到速率限制)或者 Insufficient Quota(余额不足),你就知道是餐厅嫌你吃太快,或者你的会员卡没钱啦!


别再问“Token”是什么了:一文读懂 AI 模型的幕后接口 (API)
https://blog.zlirui.netlib.re/别再问“Token”是什么了:一文读懂 AI 模型的幕后接口 (API)/
作者
小瑞子吖
发布于
2025年11月29日
许可协议