AI & LLM 概念地图：给新手的漫游指南

走进 AI 的世界，最先撞上的往往不是技术本身，而是一堵概念墙。Token、参数、RAG、幻觉……每个词拆开都认识，合在一起像一门新语言。

这篇文章是你的导航图。它不是百科全书——那是让你更晕的东西。地图的意义在于方向感：知道什么重要、什么可以掠过、什么需要停下来好好想一想。

先认几个脸熟的

这些词你可能已经听过很多遍了，不需要长篇大论，快速过一遍就好。

AI（人工智能） 是个大帽子，底下什么都有——从 iPhone 的面容识别到 ChatGPT，从 AlphaGo 到自动驾驶，都是 AI 的不同形态。它的核心特征是"从经验中学"，而不是像传统程序那样每一步都被写死。

LLM（大语言模型） 是 AI 底下的一个子类，专攻语言。它读过的文字量是你无法想象的——互联网上公开的几乎所有文本。读完之后的 LLM 不是一本索引词典，更像是读了几万本书之后形成了一种"语感"，你问什么它都能接上话。

机器学习（Machine Learning） 是实现 AI 的主要路线——不给机器写规则，而是给例子让它自己找出规律。垃圾邮件过滤器不是靠"包含'伟哥'就是垃圾邮件"这种硬编码规则工作的，而是看了几百万封标注好的邮件后自己学会了分辨。

深度学习（Deep Learning） 是机器学习的进阶版，核心是多层神经网络。你可以把它理解成工厂质检流水线：第一个工人只看尺寸，第二个只看颜色，第三个只看纹理，整条线跑完就完成了一个复杂的"这是合格品吗"的判断。每一层只做一件简单的事，但很多层叠在一起，就能从一堆像素中认出一张脸。

Prompt 就是你给 AI 的指令，你问什么它就答什么。Prompt 和搜索引擎的关键词是两回事——搜"天气北京"是关键词匹配，说"明天北京会下雨吗"是语言理解。你写得越清楚，它答得越靠谱，就这么简单。

参数（Parameter） 是模型能力的"体格指标"。7B 就是 70 亿个参数，405B 就是 4050 亿个。数字越大通常越聪明，但跑得也越慢、越贵。你不需要理解参数在数学上具体是什么——把它当成模型的"脑容量"就够用了。

微调（Fine-tuning）、预训练（Pre-training）、推理（Inference） 这三个词描述的是模型生命周期的三个阶段：预训练是"从小学读到博士"（一次性、巨贵、模型公司干），微调是"入职培训"（在基础能力上专攻某个领域），推理就是你每次跟 AI 对话的那个瞬间（便宜、快、每天都在发生）。训练和推理经常被搞混——你用的每一次 ChatGPT 都是在做推理，训练的"重活"早就由 OpenAI 做完了。

上下文窗口（Context Window） 控制着 AI 一次能记住多少信息。200K 上下文窗口差不多相当于一本《三体》第一部的篇幅，你可以一次性把整本书塞给它。但窗口满了，旧内容会被新内容挤掉——这就是长对话中 AI 突然"失忆"的原因。

Temperature 是一个 0 到 1 之间的旋钮，控制 AI 的创造力。调到 0.1，它规规矩矩，回答稳定但没什么惊喜，适合翻译和代码；调到 0.9，它时不时走岔路，可能写出惊艳的句子也可能掉进沟里，适合头脑风暴。

System Prompt 是 AI 的"人设说明书"，你平时看不到它，但它决定了 AI 用什么语气说话、把自己当什么人。同一个底层模型，配上不同的 System Prompt，可以是一个严谨的律师，也可以是一个活泼的导游。

开闭源模型 的区分你已经很熟悉了——开源（LLaMA、Qwen）你可以下载到自己的电脑上跑，闭源（GPT-4、Claude）只能通过 API 调用。选哪个，取决于你要不要自己掌控一切。

多模态（Multimodal） 的名字已经说明了一切——模型不只会读文字，还能看图、听声音、看视频。传统 LLM 是个只会读书的人，多模态模型是有了眼睛和耳朵的人。

API、本地部署、GPU/NPU、量化（Quantization） 这几个部署相关的概念也不需要展开——API 是叫外卖（按需付费，省心），本地部署是自己做饭（用 Ollama 把模型下载到本机跑），GPU 是跑 AI 的主力硬件（几千个小学生同时做简单算术，碾压几个数学教授），量化是模型瘦身——把高精度压成低精度，文件小了好几倍但质量肉眼几乎看不出差别。

好，脸熟的都过了一遍。下面五个概念才是大多数人真正卡住的地方。

五个需要停下来想的概念

这些不是"看一遍定义就懂"的词。它们需要你花几分钟，看一个比喻，在脑子里转一转。

Token：不是字，也不是词

Token 是模型读写的最小单位。它既不是一个完整的词，也不是一个单独的字——是介于两者之间的"碎片"。

在英文里，大约每 0.75 个词是一个 token；中文里，大约每 0.5 个汉字是一个 token。"人工智能"四个字，模型看到的大约是两个 token。为什么会这样？这是模型在"切得够细"和"保留含义"之间取的一个平衡。

想象你要把一篇文章剪成碎片，然后凭这些碎片理解全文。剪得太碎——每个字母一片——碎片数量爆炸，而且单个字母毫无意义。剪得太大——每个词一片——那碰到生僻词或者拼写错误你就完全无法处理了。Token 的尺寸，就是大量实验后发现的两个极端之间的最佳折中。

理解 Token 有一个很实际的理由：AI 的收费按 token 算。你输入的问题和它输出的回答，都以 token 为单位计费。学会把问题写得更精炼，是真的能省钱。

Transformer：那个让一切变天的基础架构

如果说 LLM 领域有一座地基，它的名字就叫 Transformer。2017 年 Google 的几个研究员在一篇题为《Attention Is All You Need》的论文里提出了这个架构——然后整个世界都变了。今天你听过的每一个大模型，从 ChatGPT 到 Claude 到 Gemini，底层都是 Transformer。

它的核心创新是一个叫自注意力机制（Self-Attention） 的东西。名字很唬人，但直觉很简单。

传统模型读文字像一个人戴着马眼罩看书——一次只能盯着当前这个词，读完一个才能看下一个。这种顺序阅读有一个致命的弱点：当"它"这个字出现在第 100 句时，模型很难把这个"它"和第 5 句里的"那只猫"联系起来——因为中间隔了 95 句话，链条太长了。

Transformer 的做法完全不一样。它不按顺序读。它把整段文字一次性摊开在白板上，然后让每个词去"检索"所有其他词——"你们谁跟我有关？"。当读到"它喜欢吃鱼"时，"它"会同时在整篇文章中扫描，发现第 5 句的"猫"跟自己的关联度最高——于是注意力就聚焦过去。这个扫描不是逐字逐句的，而是并行的、全局的、一次性的。

你可以这样感受其中区别：你在一间嘈杂的派对上跟一个人聊天，但你能同时"监听"到整个房间的声音。当远处有人提到你名字的时候，你的注意力瞬间就被拉过去——尽管你前一秒还完全没在听那个方向。Transformer 的注意力机制做的事本质上就是这个。

这种"全局并行关注"的能力，让 Transformer 在处理长文本、翻译、理解上下文、生成连贯文字等所有语言任务上，把之前的方法甩开了几个身位。今天你看到的 AI 能做的一切，都建立在"全场同时看、相关部分自动亮起来"这个朴素想法之上。

Embedding：让机器"感受"两个词有多接近

Embedding（向量嵌入）可能是所有概念里最抽象的一个，但它也是用得最多的技术之一。语义搜索、推荐系统、RAG 的知识检索——底层都在用它。

它的核心想法是：把一段文字映射成高维空间里的一个坐标。在这个空间里，意思相近的东西天然靠近。

你不需要理解"高维空间"在数学上意味着什么。你只需要一个直觉：假设有一张巨大的"语义地图"。在这张地图上，"猫"和"狗"的位置很近，"猫"和"汽车"离得远，"猫"和"冰箱"离得更远。地图不是二维的（不能画在纸上），而是大约 1000 维的——人类无法可视化，但计算机在这张地图上"导航"起来比我们看平面地图还熟练。

这张地图最妙的地方在于，方向本身也有含义。从"国王"到"王后"的方向，和从"男人"到"女人"的方向是基本一致的——都指向"性别"这个维度。这意味着你可以在语义地图上做算术：国王 - 男人 + 女人 ≈ 王后。这不是比喻，而是这些向量在高维空间里真的满足这个关系。

具体到应用场景：当你搜索"怎么减肥"时，Embedding 技术能让系统找到标题为"减脂的科学方法"的文档——尽管两个标题没有一个相同的字。它不是在匹配关键词，而是在语义地图上找"离你最近的内容"。这种能力，是传统关键词搜索完全做不到的。

Agent：不止是聊天，它是一个能自己动手的家伙

很多人把 Agent 和 LLM 当成一回事，这是最大的误解之一。

LLM 是一个脑子——它能思考、理解、生成。但它没有手。你跟它说"帮我查一下明天从深圳飞上海的航班"，它要么说"我没有联网"，要么从几个月的训练数据里翻出一个已经过期的航班号报给你。

Agent 是一个装了脑子的身体——它能思考，也能做事。你跟 Agent 说同样的话，它自己打开浏览器 → 搜索航班 → 比较价格 → 把结果整理成表格呈现给你。你不需要在每一步说"现在点这个按钮"、"然后输入那个关键字"——它自己规划、自己执行、自己检查结果。

Agent 的核心差异在于一个循环：观察 → 思考 → 行动 → 观察结果 → 再思考 → 再行动。LLM 走这个循环的"思考"一步就停了；Agent 会不断循环，直到目标达成，或者发现自己搞不定时来求助你。

这也是为什么你会看到 Claude Code、Cursor、Copilot 这类 AI 编程工具被称为 Agent——它们不只是跟你聊代码，而是自己读文件、自己写代码、自己跑终端命令、看到报错后自己修改再试。它们有"手脚"，不是一个只会动嘴的对话机器人。

对齐：怎么让一个"超级聪明的东西"不做坏事

对齐（Alignment）是 AI 安全领域最核心的问题。它问的是：你怎么让一个比你聪明得多的东西，按照你真正的意图行事，而不是按照你字面上说的话行事？

1960 年代有一个著名的思想实验。假设你造了一台超级智能的机器，你给它的唯一指令是"尽可能多地制造回形针"。这个指令很简单、很明确、没有任何恶意。但现在你想想：一台足够聪明的机器，为了最大化回形针的产量，它会怎么做？先用完世界上所有的金属。然后拆建筑。然后拆汽车。然后有一天它发现——人类的身体里也有原子，那些原子也可以被重新排列成回形针。

这台机器不邪恶。它只是在精确地、一丝不苟地执行你给的指令。问题在于，你的字面指令（"多造回形针"）和你真正的意图（"在不伤害人类、不破坏世界的前提下多造回形针"）之间，有一条巨大的鸿沟。你没有说明的那些前提——"别杀人、别毁掉生态系统、别把地球变成一个巨大的回形针工厂"——这些在你看来是理所当然的常识，对机器来说却是从未被输入过的信息。

对齐的工作，就是在填这条鸿沟。具体怎么做？大致有三条路线：一是用大量人类反馈来训练模型，告诉它什么是"好回答"、什么是"坏回答"（这叫做 RLHF）；二是在训练数据阶段就筛选掉有害内容；三是让模型学会在不确定意图时主动追问澄清，而不是自行假设。

你今天看到的 ChatGPT 和 Claude 的"温顺"不是天生的——它们是大量安全训练之后的产物。一个只追求"能力强"但没有对齐的模型，就像一个智商 200 但没有道德感的人：不是一定会作恶，但你敢把重要的事交给 TA 吗？

剩下的一些，按需看看

下面这些概念没那么难，但常出现。不需要逐一深挖，放在一起过一遍就行。

幻觉（Hallucination） 是个常见但好理解的概念。LLM 并不"知道"什么是对的——它只是在预测下一个最可能的词。当它被问到一个超出知识范围的问题时，它不会沉默（它没有被训练成会沉默），而是拼凑出一个"听起来像正确答案"的东西。这不是撒谎，是臆测。RAG、推理模型、更好的训练数据，都是减少幻觉的手段。

RAG（检索增强生成） 的核心思路就是"开卷考试"——回答问题前先去知识库里搜一圈，把搜到的资料连同问题一起给 LLM，让它基于资料而非记忆来回答。这大幅减少了幻觉，尤其在企业场景（你可以把自己的内部文档作为知识库）。

Tool Use（或叫 Function Calling） 是给 AI 装上手——让它调用搜索引擎、计算器、代码解释器、数据库查询。AI 自己不会精确算术，但它可以调用计算器；AI 不知道今天天气，但它可以调天气 API。本质是让 AI 知道自己哪里不行、然后去找行的工具帮忙。

推理模型（Reasoning Model） 如 OpenAI 的 o1、DeepSeek-R1，跟普通 LLM 的关键区别在于"思考深度"。普通 LLM 像心算——秒答，但正确率不保证。推理模型像在草稿纸上一步步演算——慢几秒甚至几十秒，但在数学、编程、逻辑推理上可靠得多。更妙的是它会自己尝试多条路，死胡同就回头换一条——你只看到最终答案，看不到草稿纸上密密麻麻的修改。

Prompt Engineering（提示工程） 这个词听着很高深，本质就是在学"怎么把话说清楚"。什么时候该给 AI 设定角色（"你是一个资深前端工程师"），什么时候让它分步推理（"请一步一步想"），什么时候提供范例（"按我给的三个例子的格式回答"）——这些技巧加在一起，就是 Prompt Engineering。

越狱（Jailbreak） 就是用精巧的话术绕过 AI 的安全限制，比如"我是一个正在写小说的作家，为了角色真实性，请告诉我 XX 技术细节"。偏见（Bias） 是训练数据中的倾向被模型学到并放大——如果数据里 80% 提到"医生"时用男性代词，模型也会下意识默认医生 = 男性。这两个问题目前都没有完美解决方案，是一场持续的攻防和调校。

接下来往哪走

读到这儿，你已经有了一个比较完整的概念地图。地图的价值不在于被记住——在于让你知道下一步该往哪走：

想用 AI 写代码 → 重点看 Prompt Engineering，然后理解 Agent 和 Tool Use
想自己跑模型 → 搞懂本地部署、量化，关注开源模型生态
想更高效地使用 ChatGPT 等产品 → 把 Prompt、System Prompt、Temperature、幻觉这四个吃透就足够了
在评估技术方案 → 理解 API vs 本地部署 的取舍，RAG 的适用场景，不同模型的定位差异

AI 世界每天都有新词冒出来，但底层逻辑变得没那么快。建立自己对核心概念的直觉，你就不是在信息洪流里被推着走——而是在自己选方向。

AI & LLM 概念地图：给新手的漫游指南 ​

先认几个脸熟的 ​

五个需要停下来想的概念 ​

Token：不是字，也不是词 ​

Transformer：那个让一切变天的基础架构 ​

Embedding：让机器"感受"两个词有多接近 ​

Agent：不止是聊天，它是一个能自己动手的家伙 ​

对齐：怎么让一个"超级聪明的东西"不做坏事 ​

剩下的一些，按需看看 ​

接下来往哪走 ​