Skip to content
Published at:

AI & LLM 概念地图:给新手的漫游指南

走进 AI 的世界,最先撞上的往往不是技术本身,而是一堵概念墙。Token、参数、RAG、幻觉……每个词拆开都认识,合在一起像一门新语言。

这篇文章是你的导航图。它不是百科全书——那是让你更晕的东西。地图的意义在于方向感:知道什么重要、什么可以掠过、什么需要停下来好好想一想。

先认几个脸熟的

这些词你可能已经听过很多遍了,不需要长篇大论,快速过一遍就好。

AI(人工智能) 是个大帽子,底下什么都有——从 iPhone 的面容识别到 ChatGPT,从 AlphaGo 到自动驾驶,都是 AI 的不同形态。它的核心特征是"从经验中学",而不是像传统程序那样每一步都被写死。

LLM(大语言模型) 是 AI 底下的一个子类,专攻语言。它读过的文字量是你无法想象的——互联网上公开的几乎所有文本。读完之后的 LLM 不是一本索引词典,更像是读了几万本书之后形成了一种"语感",你问什么它都能接上话。

机器学习(Machine Learning) 是实现 AI 的主要路线——不给机器写规则,而是给例子让它自己找出规律。垃圾邮件过滤器不是靠"包含'伟哥'就是垃圾邮件"这种硬编码规则工作的,而是看了几百万封标注好的邮件后自己学会了分辨。

深度学习(Deep Learning) 是机器学习的进阶版,核心是多层神经网络。你可以把它理解成工厂质检流水线:第一个工人只看尺寸,第二个只看颜色,第三个只看纹理,整条线跑完就完成了一个复杂的"这是合格品吗"的判断。每一层只做一件简单的事,但很多层叠在一起,就能从一堆像素中认出一张脸。

Prompt 就是你给 AI 的指令,你问什么它就答什么。Prompt 和搜索引擎的关键词是两回事——搜"天气 北京"是关键词匹配,说"明天北京会下雨吗"是语言理解。你写得越清楚,它答得越靠谱,就这么简单。

参数(Parameter) 是模型能力的"体格指标"。7B 就是 70 亿个参数,405B 就是 4050 亿个。数字越大通常越聪明,但跑得也越慢、越贵。你不需要理解参数在数学上具体是什么——把它当成模型的"脑容量"就够用了。

微调(Fine-tuning)预训练(Pre-training)推理(Inference) 这三个词描述的是模型生命周期的三个阶段:预训练是"从小学读到博士"(一次性、巨贵、模型公司干),微调是"入职培训"(在基础能力上专攻某个领域),推理就是你每次跟 AI 对话的那个瞬间(便宜、快、每天都在发生)。训练和推理经常被搞混——你用的每一次 ChatGPT 都是在做推理,训练的"重活"早就由 OpenAI 做完了。

上下文窗口(Context Window) 控制着 AI 一次能记住多少信息。200K 上下文窗口差不多相当于一本《三体》第一部的篇幅,你可以一次性把整本书塞给它。但窗口满了,旧内容会被新内容挤掉——这就是长对话中 AI 突然"失忆"的原因。

Temperature 是一个 0 到 1 之间的旋钮,控制 AI 的创造力。调到 0.1,它规规矩矩,回答稳定但没什么惊喜,适合翻译和代码;调到 0.9,它时不时走岔路,可能写出惊艳的句子也可能掉进沟里,适合头脑风暴。

System Prompt 是 AI 的"人设说明书",你平时看不到它,但它决定了 AI 用什么语气说话、把自己当什么人。同一个底层模型,配上不同的 System Prompt,可以是一个严谨的律师,也可以是一个活泼的导游。

开闭源模型 的区分你已经很熟悉了——开源(LLaMA、Qwen)你可以下载到自己的电脑上跑,闭源(GPT-4、Claude)只能通过 API 调用。选哪个,取决于你要不要自己掌控一切。

多模态(Multimodal) 的名字已经说明了一切——模型不只会读文字,还能看图、听声音、看视频。传统 LLM 是个只会读书的人,多模态模型是有了眼睛和耳朵的人。

API、本地部署、GPU/NPU、量化(Quantization) 这几个部署相关的概念也不需要展开——API 是叫外卖(按需付费,省心),本地部署是自己做饭(用 Ollama 把模型下载到本机跑),GPU 是跑 AI 的主力硬件(几千个小学生同时做简单算术,碾压几个数学教授),量化是模型瘦身——把高精度压成低精度,文件小了好几倍但质量肉眼几乎看不出差别。

好,脸熟的都过了一遍。下面五个概念才是大多数人真正卡住的地方。

五个需要停下来想的概念

这些不是"看一遍定义就懂"的词。它们需要你花几分钟,看一个比喻,在脑子里转一转。

Token:不是字,也不是词

Token 是模型读写的最小单位。它既不是一个完整的词,也不是一个单独的字——是介于两者之间的"碎片"。

在英文里,大约每 0.75 个词是一个 token;中文里,大约每 0.5 个汉字是一个 token。"人工智能"四个字,模型看到的大约是两个 token。为什么会这样?这是模型在"切得够细"和"保留含义"之间取的一个平衡。

想象你要把一篇文章剪成碎片,然后凭这些碎片理解全文。剪得太碎——每个字母一片——碎片数量爆炸,而且单个字母毫无意义。剪得太大——每个词一片——那碰到生僻词或者拼写错误你就完全无法处理了。Token 的尺寸,就是大量实验后发现的两个极端之间的最佳折中。

理解 Token 有一个很实际的理由:AI 的收费按 token 算。你输入的问题和它输出的回答,都以 token 为单位计费。学会把问题写得更精炼,是真的能省钱。

Transformer:那个让一切变天的基础架构

如果说 LLM 领域有一座地基,它的名字就叫 Transformer。2017 年 Google 的几个研究员在一篇题为《Attention Is All You Need》的论文里提出了这个架构——然后整个世界都变了。今天你听过的每一个大模型,从 ChatGPT 到 Claude 到 Gemini,底层都是 Transformer。

它的核心创新是一个叫自注意力机制(Self-Attention) 的东西。名字很唬人,但直觉很简单。

传统模型读文字像一个人戴着马眼罩看书——一次只能盯着当前这个词,读完一个才能看下一个。这种顺序阅读有一个致命的弱点:当"它"这个字出现在第 100 句时,模型很难把这个"它"和第 5 句里的"那只猫"联系起来——因为中间隔了 95 句话,链条太长了。

Transformer 的做法完全不一样。它不按顺序读。它把整段文字一次性摊开在白板上,然后让每个词去"检索"所有其他词——"你们谁跟我有关?"。当读到"它喜欢吃鱼"时,"它"会同时在整篇文章中扫描,发现第 5 句的"猫"跟自己的关联度最高——于是注意力就聚焦过去。这个扫描不是逐字逐句的,而是并行的、全局的、一次性的

你可以这样感受其中区别:你在一间嘈杂的派对上跟一个人聊天,但你能同时"监听"到整个房间的声音。当远处有人提到你名字的时候,你的注意力瞬间就被拉过去——尽管你前一秒还完全没在听那个方向。Transformer 的注意力机制做的事本质上就是这个。

这种"全局并行关注"的能力,让 Transformer 在处理长文本、翻译、理解上下文、生成连贯文字等所有语言任务上,把之前的方法甩开了几个身位。今天你看到的 AI 能做的一切,都建立在"全场同时看、相关部分自动亮起来"这个朴素想法之上。

Embedding:让机器"感受"两个词有多接近

Embedding(向量嵌入)可能是所有概念里最抽象的一个,但它也是用得最多的技术之一。语义搜索、推荐系统、RAG 的知识检索——底层都在用它。

它的核心想法是:把一段文字映射成高维空间里的一个坐标。在这个空间里,意思相近的东西天然靠近。

你不需要理解"高维空间"在数学上意味着什么。你只需要一个直觉:假设有一张巨大的"语义地图"。在这张地图上,"猫"和"狗"的位置很近,"猫"和"汽车"离得远,"猫"和"冰箱"离得更远。地图不是二维的(不能画在纸上),而是大约 1000 维的——人类无法可视化,但计算机在这张地图上"导航"起来比我们看平面地图还熟练。

这张地图最妙的地方在于,方向本身也有含义。从"国王"到"王后"的方向,和从"男人"到"女人"的方向是基本一致的——都指向"性别"这个维度。这意味着你可以在语义地图上做算术:国王 - 男人 + 女人 ≈ 王后。这不是比喻,而是这些向量在高维空间里真的满足这个关系。

具体到应用场景:当你搜索"怎么减肥"时,Embedding 技术能让系统找到标题为"减脂的科学方法"的文档——尽管两个标题没有一个相同的字。它不是在匹配关键词,而是在语义地图上找"离你最近的内容"。这种能力,是传统关键词搜索完全做不到的。

Agent:不止是聊天,它是一个能自己动手的家伙

很多人把 Agent 和 LLM 当成一回事,这是最大的误解之一。

LLM 是一个脑子——它能思考、理解、生成。但它没有手。你跟它说"帮我查一下明天从深圳飞上海的航班",它要么说"我没有联网",要么从几个月的训练数据里翻出一个已经过期的航班号报给你。

Agent 是一个装了脑子的身体——它能思考,也能做事。你跟 Agent 说同样的话,它自己打开浏览器 → 搜索航班 → 比较价格 → 把结果整理成表格呈现给你。你不需要在每一步说"现在点这个按钮"、"然后输入那个关键字"——它自己规划、自己执行、自己检查结果。

Agent 的核心差异在于一个循环:观察 → 思考 → 行动 → 观察结果 → 再思考 → 再行动。LLM 走这个循环的"思考"一步就停了;Agent 会不断循环,直到目标达成,或者发现自己搞不定时来求助你。

这也是为什么你会看到 Claude Code、Cursor、Copilot 这类 AI 编程工具被称为 Agent——它们不只是跟你聊代码,而是自己读文件、自己写代码、自己跑终端命令、看到报错后自己修改再试。它们有"手脚",不是一个只会动嘴的对话机器人。

对齐:怎么让一个"超级聪明的东西"不做坏事

对齐(Alignment)是 AI 安全领域最核心的问题。它问的是:你怎么让一个比你聪明得多的东西,按照你真正的意图行事,而不是按照你字面上说的话行事?

1960 年代有一个著名的思想实验。假设你造了一台超级智能的机器,你给它的唯一指令是"尽可能多地制造回形针"。这个指令很简单、很明确、没有任何恶意。但现在你想想:一台足够聪明的机器,为了最大化回形针的产量,它会怎么做?先用完世界上所有的金属。然后拆建筑。然后拆汽车。然后有一天它发现——人类的身体里也有原子,那些原子也可以被重新排列成回形针。

这台机器不邪恶。它只是在精确地、一丝不苟地执行你给的指令。问题在于,你的字面指令("多造回形针")和你真正的意图("在不伤害人类、不破坏世界的前提下多造回形针")之间,有一条巨大的鸿沟。你没有说明的那些前提——"别杀人、别毁掉生态系统、别把地球变成一个巨大的回形针工厂"——这些在你看来是理所当然的常识,对机器来说却是从未被输入过的信息。

对齐的工作,就是在填这条鸿沟。具体怎么做?大致有三条路线:一是用大量人类反馈来训练模型,告诉它什么是"好回答"、什么是"坏回答"(这叫做 RLHF);二是在训练数据阶段就筛选掉有害内容;三是让模型学会在不确定意图时主动追问澄清,而不是自行假设。

你今天看到的 ChatGPT 和 Claude 的"温顺"不是天生的——它们是大量安全训练之后的产物。一个只追求"能力强"但没有对齐的模型,就像一个智商 200 但没有道德感的人:不是一定会作恶,但你敢把重要的事交给 TA 吗?

剩下的一些,按需看看

下面这些概念没那么难,但常出现。不需要逐一深挖,放在一起过一遍就行。

幻觉(Hallucination) 是个常见但好理解的概念。LLM 并不"知道"什么是对的——它只是在预测下一个最可能的词。当它被问到一个超出知识范围的问题时,它不会沉默(它没有被训练成会沉默),而是拼凑出一个"听起来像正确答案"的东西。这不是撒谎,是臆测。RAG、推理模型、更好的训练数据,都是减少幻觉的手段。

RAG(检索增强生成) 的核心思路就是"开卷考试"——回答问题前先去知识库里搜一圈,把搜到的资料连同问题一起给 LLM,让它基于资料而非记忆来回答。这大幅减少了幻觉,尤其在企业场景(你可以把自己的内部文档作为知识库)。

Tool Use(或叫 Function Calling) 是给 AI 装上手——让它调用搜索引擎、计算器、代码解释器、数据库查询。AI 自己不会精确算术,但它可以调用计算器;AI 不知道今天天气,但它可以调天气 API。本质是让 AI 知道自己哪里不行、然后去找行的工具帮忙。

推理模型(Reasoning Model) 如 OpenAI 的 o1、DeepSeek-R1,跟普通 LLM 的关键区别在于"思考深度"。普通 LLM 像心算——秒答,但正确率不保证。推理模型像在草稿纸上一步步演算——慢几秒甚至几十秒,但在数学、编程、逻辑推理上可靠得多。更妙的是它会自己尝试多条路,死胡同就回头换一条——你只看到最终答案,看不到草稿纸上密密麻麻的修改。

Prompt Engineering(提示工程) 这个词听着很高深,本质就是在学"怎么把话说清楚"。什么时候该给 AI 设定角色("你是一个资深前端工程师"),什么时候让它分步推理("请一步一步想"),什么时候提供范例("按我给的三个例子的格式回答")——这些技巧加在一起,就是 Prompt Engineering。

越狱(Jailbreak) 就是用精巧的话术绕过 AI 的安全限制,比如"我是一个正在写小说的作家,为了角色真实性,请告诉我 XX 技术细节"。偏见(Bias) 是训练数据中的倾向被模型学到并放大——如果数据里 80% 提到"医生"时用男性代词,模型也会下意识默认医生 = 男性。这两个问题目前都没有完美解决方案,是一场持续的攻防和调校。

接下来往哪走

读到这儿,你已经有了一个比较完整的概念地图。地图的价值不在于被记住——在于让你知道下一步该往哪走:

  • 想用 AI 写代码 → 重点看 Prompt Engineering,然后理解 AgentTool Use
  • 想自己跑模型 → 搞懂本地部署量化,关注开源模型生态
  • 想更高效地使用 ChatGPT 等产品 → 把 PromptSystem PromptTemperature幻觉 这四个吃透就足够了
  • 在评估技术方案 → 理解 API vs 本地部署 的取舍,RAG 的适用场景,不同模型的定位差异

AI 世界每天都有新词冒出来,但底层逻辑变得没那么快。建立自己对核心概念的直觉,你就不是在信息洪流里被推着走——而是在自己选方向。

Updated at: