别再问“Token”是什么了：一文读懂 AI 模型的幕后接口 (API)

在上期文章中，我们聊了互联网的“快递员” Cloudflare。今天，我们来聊聊最近两年最火的话题——AI。

你可能用过 ChatGPT 的网页版，也用过国产的 DeepSeek 或者 Kimi。但你可能经常听到开发者们在讨论一些奇怪的词：

这些黑话到底是什么意思？今天我们不写代码，用**“去餐厅吃饭”**的逻辑，彻底搞懂 AI API 是怎么工作的。

💡 核心比喻
AI 模型 = 厨房里的米其林大厨（只负责做菜/生成内容）。
API = 拿着菜单的服务员（负责传话、计费、端菜）。
你 = 坐在位置上的顾客。

1. 什么是 API？（服务员的传话筒）

我们在网页上跟 ChatGPT 聊天时，其实并不是直接跟那个“大脑”对话。
我们在跟网页（菜单）交互，网页把我们的问题打包，交给 API（接口），API 跑去后台告诉 AI 模型：“嘿，那个顾客让你写首诗。”

为什么需要 API？
因为 AI 模型（大厨）被关在拥有几万张显卡的小黑屋（机房）里，他不能直接见客。
所有的软件（比如你的微信机器人、你的翻译插件、甚至你的 VS Code 编辑器），想用 AI 的能力，都必须通过 API 这个窗口来“递纸条”。

你想让服务员给你端菜，前提是你得有资格。
API Key 就是一串长得像乱码一样的字符（比如 sk-abcdefg12345...）。

在人类的餐厅里，我们按“盘”算钱。但在 AI 的餐厅里，是按**“吞吐量”**算钱的，单位就是 Token。

很多小白以为 1 个 Token = 1 个字，其实不对。

计费逻辑是双向的：

所以，如果你把一本《红楼梦》粘贴进去让 AI 总结，虽然它只回了一句“这本书讲了大家族的兴衰”，但你依然要为粘贴进去的那几十万字买单！

你有没有发现，AI 是有“记忆”的？你说了第一句，再说第二句，它知道你在接着聊。
但这不是因为 AI 真的记住了你。

真相是：
API 每次发请求时，都会把你之前说过的话（历史记录），全部打包重新发给 AI 一遍。

Context Window (上下文窗口) 就是服务员脑容量的上限。
如果窗口大小是 8k tokens，当你聊到第 1 万个字时，为了塞进新内容，服务员就必须忘掉最开始的那 2000 个字。这就是为什么聊久了 AI 会“失忆”。

这是调节 AI 性格最重要的参数，范围通常是 0 到 1（或者 0 到 2）。

Temperature = 0 (严谨模式)：
- 大厨完全按菜谱做菜，一丝不苟。
- 问它“1+1等于几”，它每次都回“2”。
- 适用场景：数学题、代码编写、资料提取。
Temperature = 1 (创意模式)：
- 大厨开始整活了，可能会加点辣椒，或者摆个盘。
- 问它“讲个故事”，它每次讲的都不一样，脑洞大开。
- 适用场景：写小说、头脑风暴、聊天解闷。
Temperature > 1.5 (发疯模式)：
- 大厨喝高了。
- 它可能会胡言乱语，甚至自创语言。
- 适用场景：看个乐子。

现在的 AI 应用（比如我们之前提到的“感觉式编程”），本质上就是在一个脚本里：

搞懂了这些，下次看到报错说 Rate Limit Exceeded（达到速率限制）或者 Insufficient Quota（余额不足），你就知道是餐厅嫌你吃太快，或者你的会员卡没钱啦！

技术扫盲

#AI #DeepSeek #科普 #API #ChatGPT

别再问“Token”是什么了：一文读懂 AI 模型的幕后接口 (API)

https://teach.zhoulirui.ggff.net/别再问“Token”是什么了：一文读懂 AI 模型的幕后接口 (API)/

作者

小瑞子吖

发布于

2025年11月29日

许可协议