机器学习综述

2026-04-03

1. 引言

人工智能（Artificial Intelligence, AI）作为计算机科学皇冠上的明珠，正以前所未有的速度重塑人类社会。而在这场波澜壮阔的技术革命中，机器学习（Machine Learning, ML） 无疑是最核心的驱动引擎。传统基于规则的专家系统受限于人类先验知识的边界，而机器学习则通过让计算机从海量数据中自主”学习”规律，实现了从”授人以鱼”到”授人以渔”的范式跃迁。

从早期以支持向量机（SVM）为代表的统计学习方法，到以随机森林（Random Forest）、XGBoost 为首的集成学习霸主，再到如今席卷全球的深度神经网络（DNN）和基于大语言模型（LLM）的基础模型，机器学习的边界在算力与数据的双重加持下不断拓展。

本文旨在系统梳理机器学习研究进展，为学习和研究机器学习提供参考。

本文速览

适合读者：具备基础编程与数学（线性代数/概率论）知识、希望在一篇长文中鸟瞰机器学习全景的学生、工程师与研究者。

阅读地图：

章节	内容	预计耗时
§2 机器学习基本概述	定义、四大学习范式、核心要素、发展脉络、挑战、应用与工具生态	10 分钟
§3.1–§3.11 传统机器学习	线性/逻辑回归、决策树、随机森林、XGBoost、KNN、朴素贝叶斯、HMM、SVM、K-Means、PCA/t-SNE	20 分钟
§3.12–§3.15 深度学习基础	MLP、CNN、RNN/LSTM、Transformer	15 分钟
§3.16 预训练大模型范式	BERT vs GPT 两大路线与 RLHF/DPO 对齐	8 分钟
§3.17–§3.20 生成式模型	GAN、Autoencoder、VAE、Diffusion（含 DiT / Diffusion Policy / AR vs Diffusion）	15 分钟
§4 总结	算法适用边界与未来趋势	3 分钟

按需跳读建议：

只想了解 ML 是什么 → 读 §2 即可；
做结构化/表格数据建模 → 重点看 §3.2–§3.6（线性模型 + 树模型 + XGBoost）；
做计算机视觉 → 重点看 §3.12、§3.13（MLP、CNN）；
做自然语言与大模型 → 重点看 §3.15、§3.16（Transformer、BERT/GPT）；
做图像/视频生成 → 重点看 §3.17–§3.20（GAN、VAE、Diffusion、DiT）；
做机器人/具身智能 → 重点看 §2.2.3（强化学习）+ §3.20.2（Diffusion Policy）。

2. 机器学习基本概述

2.1 什么是机器学习？

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等。其核心思想是：让计算机通过算法解析数据、从中学习规律，并利用这些规律对真实世界中的未知事件做出预测和决策。相比于传统的硬编码规则，机器学习模型能够随着数据的增加而自动优化其性能。

2.2 学习范式与分类体系

根据训练数据是否带有标签以及模型与环境的交互方式，机器学习主要分为以下四大范式：

2.2.1 监督学习 (Supervised Learning)

监督学习是最成熟、应用最广的范式。其训练数据由输入特征 $\mathbf{x}$ 和对应的标签（Ground Truth）$y$ 组成。模型的目标是学习一个映射函数 $f: \mathbf{x} \rightarrow y$。

核心任务：分类（Classification，标签为离散类别）与回归（Regression，标签为连续数值）。
代表算法：线性回归、逻辑回归、SVM、决策树、多数深度神经网络。

2.2.2 无监督学习 (Unsupervised Learning)

无监督学习的数据没有标签，模型需要自主发掘数据内部的潜在结构、模式或分布。

核心任务：聚类（Clustering）、降维（Dimensionality Reduction）、异常检测（Anomaly Detection）。
代表算法：K-Means、PCA、自编码器（Autoencoder）、高斯混合模型（GMM）。

2.2.3 强化学习 (Reinforcement Learning)

强化学习侧重于智能体（Agent）如何在环境（Environment）中采取动作（Action），以最大化累积奖励（Reward）。它没有立即的标注数据，而是通过”试错”（Trial and Error）和”延迟奖励”来进行学习。

核心概念：状态（State）、动作（Action）、奖励（Reward）、策略（Policy）、价值函数（Value Function）。
代表算法：Q-Learning、DQN、PPO、SAC。

图：强化学习算法示意图

2.2.4 半监督与自监督学习 (Semi/Self-Supervised Learning)

半监督学习：利用少量有标签数据和大量无标签数据进行训练，降低标注成本。
自监督学习：一种特殊的无监督学习，通过数据本身自动构造伪标签（如预测句子中的下一个词，或图像的部分遮挡恢复），是目前预训练大语言模型（如 GPT）的核心范式。

2.3 核心要素与系统架构

一个完整的机器学习系统通常包含以下五个核心要素：

数据 (Data)：模型的燃料，决定了学习的上限。包括特征提取与预处理。
特征工程 (Feature Engineering)：将原始数据转化为模型可理解的特征向量，传统 ML 强依赖于此。
模型假设 (Hypothesis Space)：决定了模型能表达的函数集合（如线性组合、决策树边界或神经网络流形）。
目标函数 (Objective Function)：定义”好”与”坏”的度量标准，通常由损失函数（Loss Function）和正则化项（Regularization）组成。
优化算法 (Optimization Algorithm)：求解目标函数最小化（或最大化）参数的策略，如梯度下降（Gradient Descent）、Adam 等。

2.4 发展历程

机器学习的发展经历了从符号主义、统计学习到深度学习，再到如今大模型时代的演进过程：

graph LR
    A["符号主义/专家系统"] --> B["感知机与早期浅层网络"]
    B --> C["支持向量机 SVM"]
    C --> D["集成学习 Random Forest/GBDT"]
    D --> E["CNN/RNN 深度学习"]
    E --> F["AlphaGo 深度强化学习"]
    F --> G["Transformer架构"]
    G --> H["LLM与多模态基础模型"]

    subgraph era1 ["80-90年代 专家系统与早期网络"]
        A
        B
    end
    subgraph era2 ["90-10年代 统计学习黄金时代"]
        C
        D
    end
    subgraph era3 ["2010-2020年代 深度学习爆发"]
        E
        F
    end
    subgraph era4 ["2020年代至今 大模型时代"]
        G
        H
    end

2.5 主要挑战

尽管成果丰硕，机器学习在实际落地中仍面临诸多挑战：

过拟合与泛化 (Overfitting & Generalization)：模型在训练集上表现优异，但在未见过的测试集上表现糟糕。
数据维度灾难 (Curse of Dimensionality)：特征维度过高导致样本稀疏，计算复杂度呈指数级增长。
可解释性黑盒问题 (Interpretability)：尤其是深度学习模型，往往难以解释其决策的具体逻辑，阻碍了其在医疗、金融等高风险领域的应用。
计算资源瓶颈：大模型时代，训练和推理成本极高，对 GPU/TPU 集群提出了严苛要求。

2.6 关键技术方向与未来展望

机器学习在方法论和应用前沿上持续演进，以下是当前最具影响力的技术方向与未来趋势：

表示学习 (Representation Learning)：自动学习数据的有效特征表示，取代人工特征工程，是深度学习成功的关键。
迁移学习 (Transfer Learning)：将一个领域/任务学到的知识迁移到另一个相关领域/任务，极大缓解了数据稀缺问题。
元学习 (Meta-Learning)：也称”学会学习”，旨在让模型具备快速适应新任务的能力（如 Few-shot Learning）。
通用人工智能 (AGI)：跨越专用 AI 边界，具备全面认知、推理和执行能力的智能体。
可信与对齐 AI (Trustworthy & Aligned AI)：确保 AI 系统的目标与人类价值观一致，具备安全性、公平性和透明度。
AI for Science：利用机器学习解决物理、化学、生物（如 AlphaFold）等基础科学领域的复杂计算问题。

2.7 主流应用场景

机器学习目前已经深度渗透到数字世界与物理世界的方方面面：

2.7.1 计算机视觉 (CV)

核心任务：图像分类、目标检测（如 YOLO 系列）、语义分割、图像生成。
应用：人脸识别、医学影像分析、工业缺陷检测。

2.7.2 自然语言处理 (NLP)

核心任务：机器翻译、文本摘要、情感分析、对话系统。
应用：ChatGPT 等智能助手、智能客服、文档自动审核。

2.7.3 推荐系统与计算广告

互联网巨头的变现核心。通过协同过滤（Collaborative Filtering）、深度交叉网络等技术，挖掘用户历史行为与物品之间的匹配概率，实现精准推送。

2.7.4 机器人、自动驾驶与具身智能 (Embodied AI)

结合强化学习、视觉与大语言模型，让机器人在复杂的物理环境中实现感知、规划、导航与灵巧操作。这是当前 AI 从数字空间走向物理世界的最前沿阵地。

2.8 主流数据集、评测基准与框架

2.8.1 经典数据集与基准

数据集	领域	特点与历史意义
ImageNet	CV (分类)	包含千万级标注图像，其 2012 年的比赛直接引爆了深度学习革命。
COCO	CV (检测分割)	微软发布，具有丰富的多目标、多上下文的复杂场景标注。
MNIST	CV (入门)	手写数字识别集，被誉为机器学习领域的 “Hello World”。
GLUE	NLP	评估自然语言理解模型的综合基准，推动了 BERT 时代的发展。

2.8.2 主流工具与开源框架

Scikit-learn：Python 下的传统机器学习库，集成了几乎所有经典 ML 算法（SVM, RF, KNN等），API 设计极为优雅。
XGBoost / LightGBM：处理表格数据不可或缺的梯度提升树框架。
TensorFlow：Google 开源的深度学习框架，工业界部署生态完善。
PyTorch：Meta 开源的深度学习框架，凭借动态计算图和极佳的易用性，已成为目前学术界绝对的主流，并逐渐统治工业界大模型训练底座。
HuggingFace：大模型时代的开源基建，提供了海量的预训练模型权重与快捷的 transformers 库调用接口。

3. 经典算法与代表性模型

本章系统梳理从传统统计学习到现代深度学习的标志性算法。

3.1 核心算法分类概览

在深入探讨具体模型之前，下表梳理了机器学习中经典的算法分类及其代表性模型：

类别	代表性模型 / 技术	主要特点	应用场景
线性模型	线性回归、逻辑回归	简单易懂、计算量小、可解释性强	房价预测、点击率预估 (CTR)
集成学习	随机森林、XGBoost、LightGBM	鲁棒性强、处理表格数据效果极佳	金融风控、搜索排序
传统统计/概率	SVM、KNN、朴素贝叶斯、HMM	理论严谨、适合小样本任务	文本分类、语音识别、生物信息
聚类与降维	K-Means、PCA、t-SNE	无监督、发现数据潜在结构	用户画像、数据压缩、可视化
深度神经网络	CNN、RNN、LSTM、MLP	强大的非线性拟合与特征提取能力	图像识别、自然语言处理
大模型基石	Transformer、BERT、GPT	并行能力强、捕捉长距离依赖、涌现能力	聊天机器人、通用人工智能
生成式模型	GAN、VAE、Diffusion Models	学习数据分布、生成高质量新样本	AI 绘画、视频生成、分子设计

Part A · 传统机器学习（§3.2 – §3.11） —— 统计学习理论时代的黄金算法：假设明确、可解释性强，在中小规模结构化数据上至今仍是工业界主力。

3.2 线性回归与正则化

核心要点：一条直线/超平面拟合数据；L2 正则（Ridge）防过拟合、L1 正则（Lasso）自带特征选择。

线性回归 (Linear Regression) 是回归分析中最基础的模型，假设目标变量与特征之间存在线性关系。其目标函数通常是最小化均方误差（MSE）。

直觉理解：就像在散点图上画一条”最佳拟合线”——目标是找到那根让所有点到线的距离（误差）平方和最小的直线。正则化则相当于在”拟合好”的基础上再加一条约束：别让权重长得太大。

图：线性回归算法示意图

数学表达式：$y = \mathbf{w}^T \mathbf{x} + b$

其中 $\mathbf{w}$ 是各特征的权重向量（权重越大说明该特征越重要），$\mathbf{x}$ 是输入特征向量，$b$ 是偏置（截距）。整个公式就是”加权求和再加个基准”。
优化方法：可以通过最小二乘法直接求解闭式解（正规方程），也可以使用梯度下降法进行迭代优化。
正则化 (Regularization)：为了防止在特征维度较高时发生过拟合，常在损失函数中引入正则化惩罚项：
- Ridge 回归（L2 正则化）：增加 $\lambda |\mathbf{w}|_2^2$ 项，限制参数的平方和，使参数平滑，有效缓解多重共线性问题。
- Lasso 回归（L1 正则化）：增加 $\lambda |\mathbf{w}|_1$ 项，限制参数的绝对值和。L1 正则化的几何特性使其容易产生稀疏解（即将部分权重压缩为0），因此自带特征选择功能。

一句话记忆：线性回归找最佳拟合直线；L1 正则（Lasso）能把不重要特征的权重压为 0，自动做特征选择；L2 正则（Ridge）让权重保持小而平滑。

适合用	不适合用
特征与目标变量呈线性关系	特征与目标存在复杂非线性关系
需要可解释性强的模型	数据中有大量异常值
特征较少、样本充足	特征间存在强多重共线性（此时用 Ridge）

3.3 逻辑回归 (Logistic Regression)

核心要点：线性回归 + Sigmoid，把连续输出映射为 (0,1) 概率，用于二分类（如 CTR 预估、信用评分）。

虽然名为”回归”，但逻辑回归本质上是一个二分类算法。它在线性回归的基础上，引入了非线性的 Sigmoid 激活函数，将连续的线性输出映射到 $(0, 1)$ 区间，从而赋予其概率意义。

直觉理解：逻辑回归是在线性回归外面套了一个”挤压器”——把任意实数得分挤压到 0 到 1 之间，然后把这个值直接当作”属于正类的概率”。得分越高，概率越接近 1；得分越低，概率越接近 0。

图：逻辑回归算法示意图

核心函数：

\[P(y=1 \mid \mathbf{x}) = \sigma(\mathbf{w}^T \mathbf{x} + b) = \frac{1}{1 + e^{-(\mathbf{w}^T \mathbf{x} + b)}}\]

其中 $\mathbf{w}^T \mathbf{x} + b$ 是线性”原始得分”，$\sigma(\cdot)$ 是 Sigmoid 函数（那个”挤压器”）。得分为 0 时输出 0.5，得分越大越接近 1，越小越接近 0。

损失函数：交叉熵损失（Cross-Entropy Loss），通过最大似然估计推导而来。
特点：计算代价低，速度快，输出具有明确的概率解释，常用于金融风控中的信用评分卡、广告点击率（CTR）预估等基础场景。

一句话记忆：逻辑回归 = 线性模型 + Sigmoid 函数 → 二分类概率输出；简单快速，是工业界 CTR 预估和风控评分卡的基础模型。

适合用	不适合用
二分类任务、需要概率输出	特征之间存在强非线性关系
样本量大、追求训练和推理速度	图像、文本等非结构化数据

3.4 决策树 (Decision Tree)

核心要点：由一连串 if-then 规则递归划分数据，天然可解释；但单树方差大、易过拟合，需剪枝或集成。

决策树模仿人类基于规则判断的思维过程，通过树状结构对数据进行分类或回归。每个内部节点表示对某一特征的条件判断，分支代表判断结果，叶节点表示最终预测的类别或数值。

直觉理解：就像小时候玩的”猜人游戏”——”这个水果是红色的吗？→ 是 → 圆的吗？→ 是 → 苹果！”每个分叉点都问一个最能区分当前数据的问题，层层缩小范围，最终做出判断。

图：决策树结构示意图

分裂准则：
- ID3 算法：基于信息增益（Information Gain）选择特征，倾向于选择取值较多的特征。
- C4.5 算法：基于信息增益率（Gain Ratio）进行改进，克服了 ID3 的缺陷。
- CART 算法：分类树使用基尼指数（Gini Impurity），回归树使用平方误差。CART 是一棵二叉树，是许多集成树模型的基础。
优缺点：可解释性极强，不需要进行数据标准化，能处理缺失值；但极易产生过拟合，通常需要通过剪枝（Pruning）来控制树的复杂度。

一句话记忆：决策树 = 递归地问最优问题划分数据；可解释性极强，但单棵树容易过拟合，通常配合随机森林或 XGBoost 使用。

适合用	不适合用
需要模型可解释（金融审批、医疗决策）	数据量大时单树过拟合严重
存在类别型特征，无需标准化	追求最高精度（优先考虑集成方法）

3.5 随机森林 (Random Forest)

核心要点：Bagging 并行集成多棵独立决策树，投票/平均输出；降低方差、抗噪强、可评估特征重要性。

Bagging（Bootstrap Aggregating） 是一种并行的集成学习范式，核心思想是”三个臭皮匠，顶个诸葛亮”。随机森林是 Bagging 的代表作。

直觉理解：相当于组建一个”专家委员会”——每位专家（决策树）只看部分数据和部分特征，各自做出判断，最后投票决定。单个专家可能偏颇，但集体的平均意见往往更准确、更稳健。

图：随机森林算法示意图

核心机制：通过对训练样本进行有放回的随机采样（Bootstrap），构建多棵相互独立的决策树。同时，在每个节点分裂时，也只在随机子集的特征中选择最优划分特征。
结果输出：分类任务通过多棵树投票产生最终结果，回归任务则取平均值。
特点：极大地降低了单一决策树的方差（Variance），抗噪能力强，不容易过拟合，且能评估特征重要性。

一句话记忆：随机森林 = 多棵随机决策树集体投票；牺牲一点可解释性，换来极强的鲁棒性，是结构化数据的可靠基线。

适合用	不适合用
结构化/表格数据，不想调太多参数	超高维稀疏数据（如文本 TF-IDF）
数据有缺失值、存在噪声	追求极致精度（优先试 XGBoost）

3.6 梯度提升树

核心要点：Boosting 串行拟合前一棵树的残差/负梯度；XGBoost、LightGBM 是结构化表格数据的工业”卷王”。

Boosting 是一种串行的集成学习范式，核心思想是”不断纠错”。后续的模型重点关注前序模型预测错误的样本，将其加权累积。

直觉理解：就像学生做错题集——第一轮做完后，第二轮重点练上次做错的题，第三轮再练上次还错的……每一轮专注于弥补前一轮的弱点，最终形成一个各方面都强的模型。

图：梯度提升决策树 (GBDT) 示意图

GBDT (Gradient Boosting Decision Tree)：以 CART 回归树为基分类器，每次迭代通过拟合上一步模型的负梯度（在平方损失下即为残差）来不断逼近真实值。
XGBoost (eXtreme Gradient Boosting)：GBDT 的工程极致优化版。它不仅在目标函数中引入了二阶导数信息（泰勒展开）以加速收敛，还加入了 L1 和 L2 正则化项以控制模型复杂度。此外，支持缺失值自动处理和特征并行计算，曾在 Kaggle 竞赛中统治了表格数据的预测任务。
LightGBM：微软推出的更高效的 Boosting 框架。通过引入基于直方图（Histogram）的决策树算法、单边梯度采样（GOSS）和互斥特征捆绑（EFB），在保证精度的前提下大幅降低了内存消耗和计算时间。

一句话记忆：GBDT 串行纠错、逐步逼近真实值；XGBoost 是其工程极致版，LightGBM 是速度极致版，是 Kaggle 表格数据竞赛的历史统治者。

适合用	不适合用
结构化表格数据、追求精度	图像/文本等非结构化数据
数据含缺失值（XGBoost 自动处理）	训练样本极少，易过拟合

3.7 K近邻算法 (KNN)

核心要点：懒惰学习——不训练只记忆，预测时靠最近 K 个邻居投票/平均；简单直观但推理慢、对尺度敏感、受维度灾难影响。

KNN 是一种典型的”懒惰学习（Lazy Learning）”算法，它在训练阶段几乎不进行任何计算，仅保存训练数据。

直觉理解：就像在陌生城市问路——不靠任何地图（不需要训练），直接问你周围最近的 $K$ 个路人，取多数人的意见。完全依赖”物以类聚、人以群分”的朴素假设。

图：K近邻 (KNN) 算法示意图

预测机制：在预测时，计算测试样本与所有训练样本之间的距离（如欧氏距离、曼哈顿距离），寻找在特征空间中最近的 $K$ 个样本。
决策规则：分类任务采取多数表决（Majority Voting），回归任务取均值。可引入距离加权机制，距离越近权重越大。
缺点：预测时需要遍历所有数据，计算复杂度随数据量呈线性增长；对数据的尺度（Scale）敏感，使用前必须进行归一化处理；存在维度灾难问题。

一句话记忆：KNN 不训练只记忆，简单直观；代价是预测时要遍历所有样本（慢），且对特征尺度敏感（必须先归一化）。

适合用	不适合用
小数据集、快速原型验证	大数据集（预测速度随样本量线性下降）
数据分布不规则、非球形类别边界	高维数据（受维度灾难影响严重）

3.8 朴素贝叶斯与隐马尔可夫模型

核心要点：朴素贝叶斯假设特征条件独立，训练快、文本分类效果好；HMM 建模序列的”隐状态+观测”，曾是语音/标注主力，现已被 RNN/Transformer 替代。

朴素贝叶斯 (Naive Bayes)

朴素贝叶斯是基于贝叶斯定理的分类算法，做出了一个极强但非常高效的”朴素”假设——特征之间相互条件独立。

直觉理解：就像法官凭多条”独立线索”判案——假设每条线索互不影响，把各线索的支持度相乘，哪个结论得分最高就选哪个。这个独立性假设在现实中几乎不成立，但实践中往往够用。

图：朴素贝叶斯 (Naive Bayes) 分类器示意图

贝叶斯定理：给定样本特征 $\mathbf{x} = (x_1, x_2, \dots, x_n)$，后验概率为：

\[P(y \mid \mathbf{x}) = \frac{P(\mathbf{x} \mid y) \cdot P(y)}{P(\mathbf{x})}\]

公式解读：$P(y \mid \mathbf{x})$ 是”看到特征 $\mathbf{x}$ 后样本属于类别 $y$ 的概率”（后验）；$P(\mathbf{x} \mid y)$ 是”$y$ 类样本出现这组特征的可能性”（似然）；$P(y)$ 是该类别的先验概率。分母 $P(\mathbf{x})$ 对所有类别相同，分类时可忽略。

朴素假设：假设各特征在给定类别下条件独立，将联合概率分解为各特征概率的乘积：

\[P(\mathbf{x} \mid y) = \prod_{i=1}^n P(x_i \mid y)\]

分类决策：选择使后验概率最大的类别，即：

\[\hat{y} = \arg\max_y P(y) \prod_{i=1}^n P(x_i \mid y)\]

特点：尽管条件独立假设在现实中很少严格成立，但朴素贝叶斯在文本分类（垃圾邮件过滤、情感分析）中往往能取得惊人的效果，且训练速度极快，适合超大规模数据。

一句话记忆：朴素贝叶斯 = 特征独立假设 + 贝叶斯定理；对高维稀疏文本特征效果出奇好，训练速度极快。

适合用	不适合用
文本分类（垃圾邮件过滤、情感分析）	特征之间存在强相关性
样本极少时的快速基线	需要精确的概率校准

隐马尔可夫模型 (HMM)

HMM 是一种用于处理序列数据的概率图模型，包含一个不可见的隐藏状态序列和一个可见的观测序列。

直觉理解：就像医生通过观察症状（发烧、咳嗽，这是可见的”观测”）推断内部病因（病毒感染还是细菌感染，这是不可见的”隐状态”）。病因本身看不见，但可以从症状序列反推最可能的病因序列。

图：隐马尔可夫模型 (HMM) 状态转移示意图

两个核心假设：
- 马尔可夫假设：当前隐状态 $s_t$ 只依赖于前一个隐状态 $s_{t-1}$，即 $P(s_t \mid s_1, \dots, s_{t-1}) = P(s_t \mid s_{t-1})$。
- 观测独立假设：当前观测 $o_t$ 只依赖于当前隐状态 $s_t$，即 $P(o_t \mid s_1, \dots, s_t) = P(o_t \mid s_t)$。
三个基本问题：
1. 评估问题：给定模型参数，计算某观测序列的概率（前向-后向算法）。
2. 解码问题：给定观测序列，求最可能的隐状态序列（Viterbi 算法）。
3. 学习问题：从观测数据中估计模型参数（Baum-Welch / EM 算法）。
应用场景：早期语音识别、词性标注（POS tagging）、基因序列分析。现已大量被深度序列模型（RNN/Transformer）替代。

一句话记忆：HMM = “隐状态 → 观测”的序列概率模型；理论优雅，现已基本被 RNN/Transformer 取代，了解其三大问题（评估、解码、学习）即可。

3.9 支持向量机 (SVM)

核心要点：寻找最大间隔的分类超平面；核技巧把低维线性不可分问题映射到高维可分空间，深度学习前的分类王者。

在深度学习爆发之前，SVM（Support Vector Machines）被认为是机器学习中分类效果最好的算法之一。

直觉理解：想象两群点分布在平面上，SVM 要在中间画一条线，使两群点离这条线都尽可能远——就像在两军之间挖一条尽可能宽的”护城河”。只有边界上最靠近分界线的那几个点（支持向量）决定了这条线的位置，其他点都不影响结果。

图：支持向量机 (SVM) 分类面与间隔示意图

核心思想：试图在特征空间中找到一个超平面，使得不同类别的样本之间不仅被正确分开，而且几何间隔（Margin）最大化。这种”最大间隔”的追求赋予了 SVM 极强的泛化能力。
支持向量：决定分类边界的仅仅是距离超平面最近的那些样本点，称为”支持向量”。
核技巧 (Kernel Trick)：当数据在原始空间线性不可分时，SVM 通过核函数（如线性核、多项式核、高斯 RBF 核）巧妙地将低维特征隐式映射到高维（甚至是无限维）空间，使其变得线性可分，从而解决了非线性分类问题，且避免了高维计算的维度灾难。

一句话记忆：SVM 追求”最宽护城河”分类；核技巧让它能处理非线性问题；在小样本、高维数据（如基因、文本）场景中仍有竞争力。

适合用	不适合用
小样本、高维数据（文本、基因特征）	大数据集（训练复杂度约 $O(n^2)$–$O(n^3)$，极慢）
特征维度 » 样本数的场景	需要概率输出（SVM 本身不输出概率）

3.10 K-Means 聚类

核心要点：无监督聚类经典基线，交替更新”样本分配 → 质心位置”至收敛；需预设 K 值、仅擅长球形簇、对初值与异常值敏感。

最经典、应用最广泛的无监督聚类算法。

直觉理解：就像选 $K$ 个班长——先随机指定班长，全班同学各自靠近最近的班长；再把每个小组的中心重选为新班长……如此反复，直到班长位置稳定不动。

图：K-Means 聚类过程示意图

算法流程：
1. 随机初始化 $K$ 个聚类中心（Centroids）。
2. 遍历所有样本，将其分配给距离最近的聚类中心。
3. 根据分配好的簇，重新计算每个簇的质心（即所有样本的均值），更新聚类中心。
4. 重复步骤 2 和 3，直到聚类中心不再发生显著变化（收敛）或达到最大迭代次数。
优缺点：算法简单高效，时间复杂度为 $O(nKt)$；但对初始值的选择和异常值敏感，且必须预先指定 $K$ 值，只能发现球形簇，难以处理复杂流形分布的数据。

一句话记忆：K-Means 简单高效，是聚类入门首选；但需预设 $K$ 值，只擅长球形簇，对初始值敏感，可用 K-Means++ 改善初始化质量。

适合用	不适合用
数据分布接近球形、各簇大小相近	簇形状不规则（改用 DBSCAN）
快速获得聚类结果、用户画像分群	$K$ 值难以确定的场景

3.11 主成分分析 (PCA) 与 t-SNE

核心要点：PCA 做线性降维、保全局方差；t-SNE 做非线性降维、保局部流形结构，是 2D/3D 可视化首选。

主成分分析 (PCA)：一种经典的线性降维方法。核心思想是通过正交变换，将可能相关的原始高维特征投影到一个新的正交坐标系中，这些新的坐标轴（主成分）按照数据方差的大小排列。保留前几个方差最大的主成分，可以在损失最少信息的前提下实现降维、数据去相关性和压缩。

直觉理解：就像给一个三维物体拍照——选一个最能保留信息的”拍摄角度”，让投影后的 2D 图像信息量最大（方差最大）。PCA 自动找到这个最佳角度。

图：主成分分析 (PCA) 降维示意图

t-SNE (t-Distributed Stochastic Neighbor Embedding)：一种非线性降维算法，主要用于将高维数据映射到 2D 或 3D 空间进行可视化。它通过将数据点之间的欧氏距离转化为条件概率来表达相似度，并使用 t 分布缓解高维空间映射到低维时的”拥挤问题（Crowding Problem）”，能够非常出色地保持数据的局部流形结构和类内聚集特征。

直觉理解：就像把一团高维”橡皮泥”压扁到桌面上，尽量让原来靠近的点压平后仍然靠近、原来远离的点压平后仍然远离。PCA 保全局结构，t-SNE 保局部结构，两者互补。

图：t-SNE 降维可视化示意图

Part B · 深度学习基础（§3.12 – §3.15） —— 通过多层非线性堆叠 + 反向传播 + GPU 算力，端到端学习特征表示，是 CV/NLP/语音爆发的技术底座。

本章仅概述核心脉络；若想系统学习深度学习（激活函数、优化器、归一化、正则化、经典骨干网络、训练技巧等），推荐延伸阅读：《深度学习综述》。

3.12 多层感知机 (MLP) 与反向传播

核心要点：全连接层 + 非线性激活 + 反向传播；理论上可逼近任意连续函数（万能逼近定理），实践中增加深度比增加宽度更高效。

深度学习（Deep Learning, DL）通过多层非线性变换提取数据的高阶特征。多层感知机（Multilayer Perceptron, MLP）是最基础的前馈神经网络（Feedforward Neural Network），也是理解所有深度网络的起点。

直觉理解：就像一条流水线——原料（输入特征）经过多道加工工序（隐藏层），每道工序用激活函数引入”弯折”，让流水线能加工出任意复杂的形状（函数）。层越深，能表达的”加工逻辑”越复杂。

图：典型深度神经网络结构示意图

结构：由输入层、一个或多个隐藏层以及输出层组成，层与层之间全连接。每个神经元接收上一层输出的加权和，并经过非线性激活函数处理。单层的计算可表示为：

\[\mathbf{h} = \sigma(\mathbf{W}\mathbf{x} + \mathbf{b})\]

其中 $\mathbf{W}$ 是本层的权重矩阵（每个连接的强弱），$\mathbf{x}$ 是上一层的输出，$\mathbf{b}$ 是偏置向量，$\sigma$ 是非线性激活函数——没有它，多层线性变换等价于单层线性变换，网络失去深度的意义。

激活函数：引入非线性是深度网络的关键——没有激活函数，多层线性变换等价于单层。常见激活函数：
- Sigmoid：$\sigma(x) = \frac{1}{1+e^{-x}}$，输出 $(0,1)$，易梯度消失。
- Tanh：输出 $(-1,1)$，零中心化，但仍有梯度消失问题。
- ReLU：$\text{ReLU}(x) = \max(0, x)$，计算简单，缓解梯度消失，是当前最广泛使用的激活函数。存在”神经元死亡”问题（输出恒为0），变体 Leaky ReLU、GELU 等进一步改进。
万能逼近定理（Universal Approximation Theorem）：理论证明，只要隐藏层足够宽，单隐层 MLP 可以逼近任意连续函数。但实践中，增加深度（多隐层）比单纯增加宽度更高效，这也是”深度”学习的核心动机。
反向传播 (Backpropagation)：神经网络训练的基石。
1. 前向传播：输入数据逐层计算，得到预测输出和损失 $\mathcal{L}$。
2. 反向传播：基于微积分的链式法则，从输出层反向逐层计算损失对每个参数的梯度。例如对权重 $W_{ij}$ 的梯度：$\frac{\partial \mathcal{L}}{\partial W_{ij}} = \frac{\partial \mathcal{L}}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial h} \cdot \frac{\partial h}{\partial W_{ij}}$。
3. 参数更新：利用梯度下降算法更新参数，如 SGD：$\mathbf{W} \leftarrow \mathbf{W} - \eta \frac{\partial \mathcal{L}}{\partial \mathbf{W}}$。
常用优化器：
- SGD + Momentum：引入动量项加速收敛并跨越局部极小值。
- Adam：自适应学习率优化器，结合了 Momentum 和 RMSProp 的优点，是当前最常用的默认优化器。

一句话记忆：MLP = 多层全连接 + 反向传播；万能逼近定理保证理论能力，实践中加深比加宽更高效，是理解所有深度网络的基础。

适合用	不适合用
通用表格数据的深度学习入门	图像（用 CNN）、序列（用 RNN/Transformer）
特征工程完善后的分类/回归任务	数据量极少（参数量多，容易过拟合）

3.13 卷积神经网络 (CNN)

核心要点：局部感受野 + 权重共享 + 池化，为图像等网格数据而生；ResNet 残差连接让网络得以训练到上百层，是计算机视觉的基石。

CNN 是专门为处理网格状拓扑数据（如图像的 2D 像素网格）而设计的神经网络架构，是计算机视觉领域的基石。

直觉理解：CNN 的卷积核像一个滑动的”放大镜”，在图像上逐区域扫描——浅层识别边缘和颜色，中层识别纹理和形状，深层组合出”耳朵”“眼睛”等高级语义。层层抽象，最终认出”这是一只猫”。

图：LeNet-5 经典卷积神经网络架构

核心机制：
- 局部感受野与卷积核：利用小型滤波器（卷积核）在输入特征图上滑动，提取局部特征（如边缘、纹理），极大地减少了参数量。
- 权重共享：同一个卷积核遍历整张图像，使得模型具有平移等变性。
- 池化层 (Pooling)：如最大池化，用于下采样操作，降低特征图维度，增加平移不变性，扩大感受野。
经典架构：LeNet-5 (早期手写数字识别)、AlexNet (引爆深度学习)、VGG (堆叠小卷积核)、ResNet (引入残差连接解决深层网络退化问题，深度可达上百层)。

一句话记忆：CNN = 局部感受野 + 权重共享 → 参数少、平移不变；ResNet 残差连接解决了深层网络退化问题，是计算机视觉的基石架构。

适合用	不适合用
图像、视频等网格状数据	纯序列/文本数据（改用 Transformer）
需要平移不变性、提取局部特征	数据量极少（可用迁移学习缓解）

3.14 循环神经网络 (RNN & LSTM/GRU)

核心要点：隐状态赋予网络时间记忆；LSTM/GRU 用门控机制解决长距离依赖与梯度消失，是 Transformer 出现前的序列建模主力。

循环神经网络家族经历了 RNN → LSTM → GRU 的演进，每一代都在修复上一代的核心缺陷。

RNN — 基础循环结构

RNN 专门用于处理文本、语音、时间序列等变长序列数据。与普通神经网络不同，它在处理每个时间步时保留一个”隐状态”传递给下一步，赋予网络时间上的记忆。

直觉理解：就像一个边读边记的阅读者——每步都把”当前输入 + 上一步记忆”合并成新的记忆传给下一步。

图：RNN & LSTM/GRU 结构对比

隐状态机制：每个时间步的计算为 $h_t = \tanh(W_h h_{t-1} + W_x x_t + b)$，其中 $h_{t-1}$ 是上一步的隐状态，$x_t$ 是当前输入。
致命缺陷——梯度消失：时间维度上的反向传播（BPTT）需要将梯度连乘数百次，梯度指数级缩小（消失）或膨胀（爆炸），导致 RNN 几乎无法学习句子中相距较远词之间的依赖关系。

LSTM — 门控记忆

长短期记忆网络（Long Short-Term Memory）通过引入细胞状态（Cell State）和三个门控机制，从根本上解决了梯度消失问题。

直觉理解：LSTM 给记忆装了三个开关——遗忘门决定”哪些旧记忆可以删掉”，输入门决定”哪些新信息值得记住”，输出门决定”现在对外输出哪部分记忆”。细胞状态就像一条高速公路，信息可以几乎无损地流过很长的时间跨度。

遗忘门：$f_t = \sigma(W_f [h_{t-1}, x_t] + b_f)$，输出 0~1 决定旧细胞状态中哪些被保留（0 = 完全遗忘，1 = 完全保留）。
输入门：$i_t = \sigma(W_i [h_{t-1}, x_t] + b_i)$，决定哪些新信息写入；候选内容为 $\tilde{C}t = \tanh(W_C [h{t-1}, x_t] + b_C)$。
细胞状态更新：$C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$，旧记忆选择性遗忘后加入选择性新信息（$\odot$ 为逐元素乘）。
输出门：$o_t = \sigma(W_o [h_{t-1}, x_t] + b_o)$，最终输出 $h_t = o_t \odot \tanh(C_t)$，决定当前步对外输出什么。

GRU — 轻量化改进

门控循环单元（Gated Recurrent Unit，Cho et al. 2014）是对 LSTM 的简化：将三个门合并为两个，取消独立的细胞状态，参数量减少约 25%，训练更快，大多数任务上效果与 LSTM 相当。

直觉理解：GRU 把遗忘门和输入门合并成一个更新门（”该保留多少旧的、引入多少新的”），用重置门控制历史信息的影响程度。结构更简洁，推理更快。

重置门：$r_t = \sigma(W_r [h_{t-1}, x_t])$，控制上一步隐状态对候选状态的影响，接近 0 时相当于”重新开始”。
更新门：$z_t = \sigma(W_z [h_{t-1}, x_t])$，同时扮演遗忘门和输入门：$h_t = (1-z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$。
选型建议：序列较长、数据充足 → LSTM；追求训练速度或资源受限 → GRU；两者性能差异通常小于 1%，可优先试 GRU。

一句话记忆：RNN 有记忆但健忘（梯度消失）；LSTM 用三个门精细管理长期记忆；GRU 用两个门做同样的事，更快更轻。三者现已被 Transformer 大量取代，但在边缘设备和实时序列任务中仍有价值。

适合用	不适合用
短到中等长度序列（时间序列预测、语音帧）	超长序列（Transformer 并行处理更高效）
资源受限需要轻量实时推理（优先 GRU）	需要捕捉文本中的远距离上下文

3.15 Transformer 架构

核心要点：完全基于 Self-Attention，并行捕捉全局长距离依赖；是当前所有大模型（LLM、Diffusion、VLA）的底层基石架构。

Transformer（Vaswani et al., 2017, “Attention Is All You Need”）彻底抛弃了 RNN 和 CNN 的结构，完全基于注意力机制，是当前大模型时代的最底层基石架构。

直觉理解：Transformer 就像一个”全局会议室”——每个词都能直接与所有其他词对话（自注意力），不需要像 RNN 那样靠”传话”来传递信息。因此它能并行处理、高效捕捉任意距离的上下文依赖。

图：Transformer 模型架构（来源：Vaswani et al., 2017）

自注意力机制 (Self-Attention)

自注意力允许序列中每个元素都能”关注”到其他所有元素，计算出它们之间的关联权重，从而并行地捕捉全局长距离依赖。

输入序列通过三个线性变换分别生成 Query ($Q$)、Key ($K$)、Value ($V$) 矩阵。
注意力权重通过 $Q$ 和 $K$ 的点积计算，再经 Softmax 归一化后加权 $V$：

\[\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V\]

公式解读：$Q$ = “我在找什么”，$K$ = “我能提供什么关键词”，$V$ = “我的实际内容”。$Q \cdot K^T$ 计算每对 token 的相关性得分，除以 $\sqrt{d_k}$ 防止得分过大导致 Softmax 梯度消失，最终对 $V$ 加权求和，得到每个 token 融合了上下文信息的新表示。

多头注意力 (Multi-Head Attention)

将 $Q, K, V$ 拆分为 $h$ 个独立的”头”，每个头在不同的子空间中计算注意力，最后拼接：

\[\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O\]

不同的头可以同时关注不同层面的关系（语法关系、语义关系、位置关系等），大幅提升表达能力。

Transformer Block 结构

每个 Block 包含两个子层，每个子层都使用残差连接 + LayerNorm（保证训练稳定）：

多头自注意力层：捕捉 token 间的依赖关系。
前馈网络 (FFN)：两层线性变换夹一个激活函数，对每个位置独立做非线性变换：$\text{FFN}(x) = W_2 \cdot \text{ReLU}(W_1 x + b_1) + b_2$。

位置编码 (Positional Encoding)

Self-Attention 本身对输入顺序不敏感（打乱词序结果不变），因此必须显式注入位置信息。原始方案使用正弦/余弦函数编码绝对位置；后续发展出 RoPE（旋转位置编码，LLaMA 系列采用）、ALiBi 等相对位置编码方案。

Encoder-Decoder 架构

Encoder：$N$ 个 Block 堆叠，输入 token 可以双向互相关注，适合”理解”类任务（如机器翻译的源语言编码）。
Decoder：同样 $N$ 个 Block，但自注意力层加因果掩码（Causal Mask）——每个 token 只能看到它之前的内容（自回归生成）；并增加交叉注意力层，$Q$ 来自 Decoder，$K, V$ 来自 Encoder，实现对源语言的关注。

为什么 Transformer 能替代 RNN

RNN 必须按时间步串行处理（$O(n)$ 串行依赖），无法充分利用 GPU 并行；Self-Attention 一次并行计算所有 token 对的关系（训练复杂度 $O(n^2 d)$），在中等长度序列上训练效率远超 RNN，且不存在梯度消失问题。

一句话记忆：Transformer = 纯注意力机制，并行高效、全局依赖；是 LLM、图像生成（DiT）、机器人（VLA）等一切大模型的底层基石。

适合用	不适合用
长序列、需要全局上下文（NLP、多模态）	超长序列时显存消耗大（$O(n^2)$，需 Flash Attention 等优化）
数据量充足的大规模预训练场景	极小数据集（归纳偏置弱，不如 CNN 收敛快）

Part C · 预训练大模型范式（§3.16） —— Transformer × 海量无标签语料，”预训练 + 微调/Prompt” 的新范式彻底改变了 NLP，并催生大模型时代。

3.16 BERT 与 GPT 系列模型范式

核心要点：BERT 用双向 Encoder 擅长理解类任务（分类、抽取）；GPT 用自回归 Decoder 擅长生成，凭借 Scaling Laws 与 RLHF 成为 LLM 绝对主流。

基于 Transformer 架构，自然语言处理衍生出两大主流预训练范式，分别代表了”理解”和”生成”两条技术路线：

直觉理解：BERT 就像做填空题——把句子里随机抠掉几个词，让模型结合前后文猜出来，迫使它理解双向上下文。GPT 则像续写故事——给你前半段，一个词一个词接龙，模型规模越大，续写能力越惊人，甚至涌现出推理、代码等意料之外的能力。

BERT — 双向编码器范式

BERT（Bidirectional Encoder Representations from Transformers, Google 2018）采用 Transformer 的 Encoder 部分，核心创新在于双向上下文建模。

预训练任务：
- 掩码语言模型（MLM）：随机将输入中 15% 的 token 替换为 [MASK]，让模型结合双向上下文预测被遮挡的词。这使得每个 token 的表示都融合了左右两侧的语境信息，优于 GPT 的单向可见性。
- 下一句预测（NSP）：判断两个句子是否为上下文连续关系，帮助模型学习句间语义。
使用范式 ——”预训练 + 微调”：先在大规模无标注语料上预训练，然后在具体下游任务上用少量标注数据微调。BERT 在 GLUE、SQuAD 等基准上大幅刷新纪录，定义了 NLU 时代的标准范式。
局限：MLM 的 [MASK] 标记在推理时不存在，导致预训练与推理之间存在分布不匹配（Pretrain-Finetune Discrepancy）；且 Encoder 架构不擅长文本生成任务。
后续发展：RoBERTa（去掉 NSP、更大数据更长训练）、ALBERT（参数共享压缩）、DeBERTa（解耦注意力）等进一步优化。

GPT — 自回归解码器范式

GPT（Generative Pre-trained Transformer, OpenAI）采用 Transformer 的 Decoder 部分，通过自回归方式逐 token 生成文本。

预训练任务 — 下一 token 预测：给定前文 $x_1, x_2, \dots, x_{t-1}$，预测下一个 token $x_t$。训练目标是最大化序列的对数似然：

\[\mathcal{L} = \sum_{t=1}^{T} \log P(x_t \mid x_1, \dots, x_{t-1}; \theta)\]

通过因果掩码（Causal Mask）确保每个位置只能看到之前的 token，保证自回归约束。

Scaling Laws 与涌现能力：随着模型参数量、数据量和计算量的指数级扩大，GPT 系列展现出了明确的幂律缩放关系（Kaplan et al., 2020）。当模型规模跨过某些临界点后，出现了小模型上不存在的涌现能力（Emergent Abilities），如 In-context Learning、思维链推理（Chain-of-Thought）等。
演进路线：

模型	参数量	关键突破
GPT-1	1.17 亿	验证了”无监督预训练 + 有监督微调”的可行性
GPT-2	15 亿	展示零样本（Zero-shot）能力，文本生成质量引发社会关注
GPT-3	1750 亿	In-context Learning，少样本（Few-shot）能力惊艳，无需微调
GPT-4	未公开	多模态（文本+图像输入）、RLHF 对齐、更强的推理能力
o1/o3 系列	未公开	推理时计算扩展（Test-time Compute Scaling），深度思维链推理

对齐技术 — RLHF：GPT-3.5/4 引入了基于人类反馈的强化学习（Reinforcement Learning from Human Feedback）：先训练奖励模型（Reward Model）学习人类偏好，再用 PPO 算法优化语言模型，使输出更安全、有用、诚实。后续 DPO（Direct Preference Optimization）等方法进一步简化了对齐流程。

两大范式对比

配图说明：建议在此处配一张 BERT（双向 Encoder，可看全句）vs GPT（单向 Decoder，只看前文）的架构对比示意图，直观展示注意力方向的差异。

维度	BERT（Encoder）	GPT（Decoder）
注意力方向	双向（完整上下文）	单向（仅看前文）
预训练任务	掩码语言模型（填空）	下一 token 预测（续写）
擅长任务	理解类（分类、抽取、匹配）	生成类（对话、写作、推理）
使用范式	预训练 + 微调	预训练 + Prompting / In-context Learning
当前趋势	逐渐被 Decoder-only 架构统一	成为 LLM 的绝对主流架构

一句话记忆：BERT 擅长理解（分类/抽取/匹配），GPT 擅长生成（对话/创作/推理）；当前大模型主流是 Decoder-only 的 GPT 路线，RLHF/DPO 对齐让它更安全有用。

Part D · 生成式模型（§3.17 – §3.20） —— 从对抗博弈（GAN）到概率建模（VAE）再到去噪扩散（Diffusion），AI 从”理解数据”走向”创造数据”。

3.17 生成对抗网络 (GAN)

核心要点：生成器与判别器博弈对抗，G 造假、D 鉴伪；生成质量高但训练不稳定、易模式崩溃，逐渐被 Diffusion 取代。

GAN（Generative Adversarial Network）开创了生成式 AI 的新纪元，其灵感来源于博弈论中的零和博弈。

直觉理解：就像造假币者（生成器 G）和验钞员（判别器 D）的博弈——G 不断提升造假水平，D 不断提升鉴别能力。两者相互竞争、共同进化，直到 G 造出的”假币”真假难辨（判别器输出 0.5）。

图：生成对抗网络 (GAN) 架构示意图

架构：包含两个相互对抗的神经网络——生成器（Generator, G） 和 判别器（Discriminator, D）。
核心思想：生成器从随机噪声 $\mathbf{z} \sim p_z(z)$ 出发，试图生成逼真的假样本 $G(\mathbf{z})$；判别器则接收真实样本 $\mathbf{x}$ 和生成样本 $G(\mathbf{z})$，输出一个概率值 $D(\cdot) \in [0,1]$，表示”该样本为真”的置信度。两者在训练中不断博弈、共同进化。
目标函数（极小极大博弈）：

\[\min_G \max_D \; \mathbb{E}_{\mathbf{x} \sim p_{data}}[\log D(\mathbf{x})] + \mathbb{E}_{\mathbf{z} \sim p_z}[\log(1 - D(G(\mathbf{z})))]\]

公式解读：$\mathbb{E}[\log D(\mathbf{x})]$ 是 D 对真实样本的得分（越大越好）；$\mathbb{E}[\log(1-D(G(\mathbf{z})))]$ 是 D 对假样本的判断——D 希望这项大（假样本得低分），G 希望这项小（让假样本骗过 D）。当训练达到纳什均衡时，$D(\cdot) = 0.5$，即判别器完全无法区分真假，生成器已完美拟合真实数据分布。

训练流程：
1. 固定 G，训练 D 若干步：用真实样本（标签=1）和生成样本（标签=0）训练二分类器。
2. 固定 D，训练 G 一步：生成假样本送入 D，用 D 的反馈梯度更新 G，使生成样本更逼真。
3. 交替重复上述过程直到收敛。
常见问题与改进：
- 模式崩溃（Mode Collapse）：G 只学会生成少数几种样本，丢失了数据的多样性。
- 训练不稳定：G 和 D 的能力需要保持平衡，否则梯度消失或爆炸。
- 改进变体：WGAN（用 Wasserstein 距离替代 JS 散度，缓解训练不稳定）、StyleGAN（引入风格控制，生成高分辨率人脸）、CycleGAN（无配对数据的图像风格迁移）。
应用场景：图像生成、超分辨率重建（SRGAN）、图像修复（Inpainting）、风格迁移、数据增强。

一句话记忆：GAN = 生成器与判别器博弈对抗；生成质量高，但训练不稳定、易模式崩溃，已逐渐被 Diffusion 模型取代。

适合用	不适合用
图像风格迁移、超分辨率重建	需要训练稳定性和生成多样性
数据增强（扩充小数据集）	需要精确概率建模

3.18 自编码器 (Autoencoder)

核心要点：Encoder-Decoder 瓶颈结构学习压缩表示，可视作非线性 PCA；擅长去噪/降维/异常检测，但隐空间不规则，不适合直接生成新样本。

自编码器（Autoencoder, AE）是一种无监督学习的神经网络模型，核心目标是学习数据的压缩表示。

直觉理解：就像”压缩文件再解压”——把一张图片先压缩成几十个数字（编码），再从这几十个数字还原出图片（解码）。瓶颈结构迫使网络把最精华的信息塞进少数几个数字里，自动学会数据的本质特征。

图：自编码器 (AE) 架构示意图

架构：由编码器（Encoder） $f_\theta$ 和解码器（Decoder） $g_\phi$ 两部分组成。编码器将高维输入 $\mathbf{x} \in \mathbb{R}^n$ 压缩为低维潜在表示 $\mathbf{z} = f_\theta(\mathbf{x}) \in \mathbb{R}^d$（其中 $d \ll n$），然后解码器再将 $\mathbf{z}$ 映射回原始空间，生成重构 $\hat{\mathbf{x}} = g_\phi(\mathbf{z})$。
核心思想：通过”瓶颈”结构（低维隐层）迫使网络学习数据中最本质的特征，丢弃冗余信息。可以类比为一种非线性的 PCA。
损失函数：最小化重构误差，如均方误差：

\[\mathcal{L} = \|\mathbf{x} - \hat{\mathbf{x}}\|^2 = \|\mathbf{x} - g_\phi(f_\theta(\mathbf{x}))\|^2\]

公式解读：$\mathbf{x}$ 是原始输入，$\hat{\mathbf{x}}$ 是重构输出，损失就是”还原有多失真”。训练完成后，编码器 $f_\theta$ 提取到的隐向量 $\mathbf{z}$ 就是数据的压缩表示（$d \ll n$）。

主要变体：
- 去噪自编码器（Denoising AE, DAE）：输入人为加噪的 $\tilde{\mathbf{x}}$，训练模型恢复出干净的 $\mathbf{x}$，迫使网络学习更鲁棒的特征。
- 稀疏自编码器（Sparse AE）：在隐层上施加稀疏约束（如 KL 散度惩罚），使得只有少数神经元被激活，得到可解释性更强的特征。
- 收缩自编码器（Contractive AE）：在损失中加入编码器雅可比矩阵的 Frobenius 范数惩罚，使隐层表示对输入微小扰动不敏感。
局限性：AE 的潜在空间是不规则、不连续的——不同样本的编码可能在隐空间中分布散乱，无法对未见过的隐向量进行有意义的解码。因此 AE 擅长压缩和重构，但不适合直接用于生成新样本，这正是 VAE 要解决的问题。
应用场景：非线性降维与特征学习、图像去噪、异常检测（正常数据重构误差低，异常数据重构误差高）。

一句话记忆：AE = 编码器压缩 + 解码器重建；隐空间不规则，适合去噪/异常检测，不适合直接生成新样本（VAE 解决了这个问题）。

适合用	不适合用
数据降维、特征学习、图像去噪	需要生成全新样本（改用 VAE/Diffusion）
异常检测（重构误差作为异常分数）	隐空间可解释性和连续性要求高

3.19 变分自编码器 (VAE)

核心要点：AE + 概率建模，把每个样本编码成隐空间中的分布而非点；隐空间连续可插值，兼具压缩与生成能力，但生成图像偏模糊。

变分自编码器（Variational Autoencoder, VAE）在 AE 的基础上引入概率建模，使潜在空间具备良好的数学结构，从而既能压缩数据，又能生成新样本。

直觉理解：AE 把图片压缩成隐空间里的一个固定点；VAE 则把它压缩成一个”模糊区域”（概率分布）。生成时从这个区域随机采一个点解码——由于区域是连续的，采到的任意点都能解码出合理图片，隐空间还可以平滑插值（如从微笑人脸渐变到大笑人脸）。

图：变分自编码器 (VAE) 架构示意图

核心思想：AE 将输入编码为一个确定的隐向量点；而 VAE 将输入编码为隐空间中的一个概率分布（均值 $\boldsymbol{\mu}$ 和方差 $\boldsymbol{\sigma}^2$），再从该分布中采样得到隐向量 $\mathbf{z}$。这确保了隐空间是连续、平滑的——相邻的隐向量解码出语义上相近的样本。
编码器输出：不再直接输出 $\mathbf{z}$，而是输出分布参数 $\boldsymbol{\mu}$ 和 $\log \boldsymbol{\sigma}^2$；通过重参数化技巧（Reparameterization Trick） $\mathbf{z} = \boldsymbol{\mu} + \boldsymbol{\sigma} \odot \boldsymbol{\epsilon}$（$\boldsymbol{\epsilon} \sim \mathcal{N}(0, I)$）实现可微采样，使梯度能够反向传播。
损失函数（ELBO）：

\[\mathcal{L} = \underbrace{\|\mathbf{x} - \hat{\mathbf{x}}\|^2}_{\text{重构损失}} + \underbrace{D_{KL}\big(q_\theta(\mathbf{z} \mid \mathbf{x}) \,\|\, p(\mathbf{z})\big)}_{\text{KL 散度正则化}}\]

公式解读：两项损失缺一不可——重构损失确保解码输出”看得懂”（像原图）；KL 散度约束编码器输出的分布尽量接近标准正态 $\mathcal{N}(0, I)$，防止隐空间退化成离散孤立点，保证任意采样点都能被合理解码。两者的权衡让隐空间既有结构又能重建。

重构损失：确保解码输出与原始输入尽量接近。
KL 散度：约束编码器输出的分布 $q_\theta(\mathbf{z} \mid \mathbf{x})$ 尽量接近先验分布 $p(\mathbf{z}) = \mathcal{N}(0, I)$，防止隐空间退化为离散点集。
生成新样本：训练完成后，直接从标准正态分布 $\mathcal{N}(0, I)$ 采样 $\mathbf{z}$，送入解码器即可生成全新样本。由于隐空间的连续性，还可以通过在两个隐向量之间线性插值实现平滑的语义过渡（如人脸从微笑到大笑的渐变）。
与 AE 的关键区别：AE 的隐空间无结构约束，只能用于重构；VAE 通过概率约束获得了规则的隐空间，兼具压缩与生成能力，但生成图像通常偏模糊（因为重构损失倾向于均值化）。
应用场景：图像生成与插值、药物分子设计、异常检测、数据增强。

一句话记忆：VAE = 概率化的 AE；隐空间连续可插值，兼具压缩和生成能力，代价是生成图像偏模糊（重构损失倾向于均值化）。

适合用	不适合用
需要平滑可插值隐空间（分子/蛋白质设计）	追求极高生成质量（改用 Diffusion）
异常检测、数据增强	对生成图像清晰度要求高

3.20 扩散模型 (Diffusion Models)

核心要点：把”生成”转化为”多步去噪”；训练稳定、质量极高，Stable Diffusion / Sora / DALL-E 3 均基于此构建，已是当前图像/视频生成的 SOTA。

扩散模型（Diffusion Models）是近年来在图像和音频生成领域全面超越 GAN 的新一代生成模型（Stable Diffusion、Midjourney、DALL-E 系列均基于此构建）。其核心灵感来源于热力学中的扩散过程。

直觉理解：就像雕刻家的创作过程——不直接雕出成品，而是从一块大理石（纯噪声）开始，一刀一刀地精心雕刻（每步去噪），最终呈现出清晰的作品。每一刀都很小、很可控，整体过程稳定可靠。

图：扩散模型 (Diffusion Model) 前向与反向过程示意图

核心思想：将”生成”问题转化为”去噪”问题。模型不直接学习如何从噪声一步生成图像，而是学习如何一步一步地从纯噪声中恢复出清晰图像。
前向扩散过程（加噪，Fixed）：给定一张真实图像 $\mathbf{x}_0$，按照预定义的噪声调度 $\beta_1, \beta_2, \dots, \beta_T$，逐步叠加高斯噪声：

\[q(\mathbf{x}_t | \mathbf{x}_{t-1}) = \mathcal{N}(\mathbf{x}_t; \sqrt{1-\beta_t}\,\mathbf{x}_{t-1}, \beta_t \mathbf{I})\]

经过 $T$ 步（通常 $T=1000$）后，$\mathbf{x}_T$ 近似变为纯高斯噪声 $\mathcal{N}(0, \mathbf{I})$。利用累积参数 $\bar{\alpha}_t = \prod_{s=1}^t (1-\beta_s)$，可以直接从 $\mathbf{x}_0$ 一步跳到任意时间步：

\[\mathbf{x}_t = \sqrt{\bar{\alpha}_t}\,\mathbf{x}_0 + \sqrt{1-\bar{\alpha}_t}\,\boldsymbol{\epsilon}\]

反向去噪过程（生成，Learned）：训练一个噪声预测网络 $\boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t)$（通常基于 U-Net 架构），学习在每个时间步 $t$ 预测所添加的噪声 $\boldsymbol{\epsilon}$。损失函数极其简洁：

\[\mathcal{L} = \mathbb{E}_{t, \mathbf{x}_0, \boldsymbol{\epsilon}} \left[ \|\boldsymbol{\epsilon} - \boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t)\|^2 \right]\]

公式解读：$\boldsymbol{\epsilon}$ 是前向过程中实际添加的噪声，$\boldsymbol{\epsilon}_\theta(\mathbf{x}_t, t)$ 是网络在第 $t$ 步对这个噪声的预测——训练目标就是让两者的均方误差最小。训练完成后，生成时从纯噪声 $\mathbf{x}_T$ 出发，反复调用网络预测并去除噪声，逐步还原出清晰图像 $\mathbf{x}_0$。

条件生成与引导：
- Classifier-Free Guidance：同时训练有条件和无条件的去噪模型，推理时通过调节引导强度 $w$ 控制生成结果与条件（如文本提示）的吻合程度。这是 Stable Diffusion 等文生图模型的关键技术。
- 文本条件：将文本通过 CLIP 等编码器转为向量，注入 U-Net 的交叉注意力层，实现”文字描述→图像生成”。
与 GAN/VAE 的对比：

特性	GAN	VAE	Diffusion
训练稳定性	差（博弈不平衡）	好	好
生成质量	高（但易模式崩溃）	中（偏模糊）	极高
多样性	中	高	极高
生成速度	快（一次前向）	快	慢（需多步迭代）
可控性	弱	中	强（条件引导）

加速采样：原始扩散模型需要数百步迭代，速度较慢。DDIM（去马尔可夫化，跳步采样）、DPM-Solver（高阶 ODE 求解器）等方法可将采样步数降至 20-50 步，大幅提升推理效率。
应用场景：文本到图像生成（Stable Diffusion、DALL-E 3）、图像编辑与修复（Inpainting）、视频生成（Sora）、音频合成、3D 内容生成、蛋白质结构预测。

一句话记忆：Diffusion = 多步去噪生成；训练稳定、生成质量极高、多样性强，已全面超越 GAN，是当前图像/视频/音频生成的 SOTA 范式。

适合用	不适合用
高质量图像/视频/音频/分子生成	对生成速度要求极高（需多步采样，比 GAN 慢）
需要多样性、可控性和高保真度	简单场景（GAN 更快，开销更小）

进阶阅读：以下两节（§3.20.1 DiT、§3.20.2 Diffusion Policy）内容较深，适合已对扩散模型基础有所了解的读者延伸阅读，初学者可跳过。

3.20.1 架构演进：传统 U-Net Diffusion vs DiT (Diffusion Transformer)

扩散模型的骨干网络（Backbone）主要经历了从 U-Net 到 DiT (Diffusion Transformer) 的演进。两者使用同样的扩散训练范式（前向加噪 + 反向去噪），但在噪声预测网络 $\boldsymbol{\epsilon}_\theta$ 的架构设计上有本质差异。

传统 U-Net Diffusion（DDPM、Stable Diffusion 1.x/2.x 代表）：
- 结构：编码器-解码器对称的卷积 U 型网络，带跳跃连接（Skip Connection），在不同分辨率下提取多尺度特征。
- 条件注入：时间步 $t$ 通过正弦位置编码送入残差块；文本/类别条件通过 交叉注意力（Cross-Attention） 注入中间层。
- 优势：归纳偏置强（卷积的局部性与平移不变性），在中小数据规模下收敛快、参数效率高。
- 劣势：卷积感受野受限，难以建模全局长程依赖；扩展到超大规模时 scaling 效果弱于 Transformer。
DiT (Diffusion Transformer)（Peebles & Xie, 2023；Sora、Stable Diffusion 3、PixArt-α 代表）：
- 结构：完全抛弃 U-Net，采用 纯 Transformer 主干。将含噪潜变量（通常在 VAE 的 latent space 中）切分为 Patch Token 序列，经过若干 Transformer Block 后再重建为噪声预测图。
- 条件注入：通过 adaLN-Zero（自适应 LayerNorm，将时间步和类别条件映射为 LayerNorm 的 scale/shift/gate 参数）替代传统的残差条件注入，零初始化残差分支保证训练稳定。
- 优势：严格遵循 Transformer 的 Scaling Law——参数量和计算量越大，FID 越低；对视频、长序列、多模态条件的适应性远强于 U-Net。Sora、Stable Diffusion 3 的成功验证了 DiT 是通往大规模生成模型的主流路径。
- 劣势：缺乏卷积的归纳偏置，小数据下需要更多样本；计算成本随 Token 数平方增长。

对比总结：

维度	U-Net Diffusion	DiT (Diffusion Transformer)
主干	卷积 U-Net + 注意力	纯 Transformer (Patch Token)
归纳偏置	强（局部、多尺度）	弱（依赖数据）
条件注入	Cross-Attention + 残差	adaLN-Zero
可扩展性	中等	极强（Scaling Law）
代表作	DDPM、SD 1.5/2.1	Sora、SD3、PixArt-α、MovieGen

3.20.2 Diffusion Policy：扩散模型在机器人决策中的应用

Diffusion Policy（Chi et al., 2023）将扩散模型的强大分布建模能力迁移到 机器人模仿学习（Imitation Learning） 领域，成为当前 VLA (Vision-Language-Action) 和具身智能中的主流动作生成范式。

核心思想：把机器人的动作序列（Action Chunk，未来 $H$ 步的关节位姿或末端执行器轨迹）视作需要生成的”图像”，用扩散模型从高斯噪声中逐步去噪，生成以当前观测 $\mathbf{o}_t$ 为条件的动作序列 $\mathbf{a}_{t:t+H}$：

\[\boldsymbol{\epsilon}_\theta(\mathbf{a}^k_{t:t+H}, k, \mathbf{o}_t) \rightarrow \boldsymbol{\epsilon}\]

其中 $k$ 为扩散去噪步。

相较传统 BC（Behavior Cloning）的优势：
- 多模态动作分布：人类演示数据常存在”多种正确解法”（如绕过障碍可向左或向右），MSE 回归会平均成错误的中间路径；扩散模型天然支持多峰分布，能忠实建模多模态策略。
- 高维动作序列：一次性生成一个 Action Chunk（通常 8-16 步），而非逐步自回归，避免误差累积、提升时序一致性。
- 稳定训练：相比 GAN-based Policy，扩散训练目标（噪声 MSE）简单稳定；相比 EBM，避免了对比散度采样的高方差。
架构选择：早期 Diffusion Policy 采用 1D 卷积 U-Net（处理时间维度上的动作序列），近期趋势转向 Transformer 主干（如 RDT、π₀ 等 VLA 模型），以便与视觉-语言编码器深度融合。
代表工作：Diffusion Policy（CMU/TRI）、3D Diffusion Policy、RDT-1B（清华）、π₀（Physical Intelligence）、Octo 等；在真实机器人操作、双臂协作、灵巧手等任务上均显著超越 BC-RNN、BC-Transformer 等基线。

3.20.3 扩散架构 vs 自回归架构：两种生成范式的对比

在序列/内容生成领域，Diffusion（扩散） 和 Autoregressive（自回归，AR） 是两条主导性的技术路线。理解它们的差异对于选择合适的架构至关重要。

维度	Autoregressive (AR)	Diffusion
生成方式	逐 Token 串行生成：$p(x) = \prod_i p(x_i \mid x_{<i})$	并行迭代去噪：$\mathbf{x}_T \to \mathbf{x}_{T-1} \to \cdots \to \mathbf{x}_0$
并行度	训练并行（Teacher Forcing），推理串行	训练并行，推理步内并行（但需多步）
生成长度	变长、灵活（可逐步终止）	固定长度（需预先设定输出尺寸）
误差累积	存在（Exposure Bias）	无（每步基于全局噪声预测）
概率建模	精确似然（$\log p$ 可计算）	变分下界（ELBO），近似似然
多模态分布	依赖 temperature/top-k 采样	天然支持（噪声注入即多样性）
连续 vs 离散	擅长离散 Token（文本、代码）	擅长连续信号（图像、音频、动作）
Scaling Law	成熟（GPT 系列验证）	逐步成熟（DiT、Sora 验证）
代表模型	GPT、LLaMA、PaLM；VQ-VAE + AR（DALL-E 1）	Stable Diffusion、Sora、Diffusion Policy

文本生成：AR 几乎是唯一主流（LLM 全家桶）；但近期 Diffusion-LM、LLaDA 等尝试将扩散用于文本，展示了并行解码、可控编辑的潜力。
图像/视频生成：Diffusion 已成为主流；AR 路线（如 Parti、VAR）通过 Tokenizer + AR 也能取得竞争力，但推理延迟高。
机器人动作：Diffusion Policy 凭借多模态分布建模占优；AR-based VLA（如 OpenVLA）则在与 LLM 统一架构上更自然。
融合趋势：近期出现 MAR (Masked AR)、Transfusion（Zhou et al., 2024）等混合架构，在单一 Transformer 中统一 AR（文本）与 Diffusion（图像），是通往真正多模态基础模型的潜在路径。

直观理解：AR 像”逐字写作”，每一步都决定最终结果；Diffusion 像”雕刻”，先有一团大致的形状（噪声），再逐步精修到清晰。前者擅长有严格因果顺序的符号序列，后者擅长需要全局一致性的连续信号。

4. 总结

机器学习是一场关于数据与算法的演化史。从早期的专家规则，到严谨的统计概率模型，再到大力出奇迹的深度神经网络和基础大模型，其核心始终是寻找更优的表示和更高效的优化路径。

对于研究者和工程师而言，了解每一种算法的边界与假设至关重要：在海量非结构化数据（图、文、音）面前，深度学习与 Transformer 无可替代；但在中小规模的结构化表格数据中，XGBoost 等树模型依然具有极高的性价比和解释性。未来，随着算法、算力和数据的进一步交融，机器学习必将朝着通用性（AGI）和可信性稳步迈进。

参考资料

Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.). Springer.
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. https://www.deeplearningbook.org/
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press.
Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society, Series B, 58(1), 267–288.
Quinlan, J. R. (1986). Induction of Decision Trees. Machine Learning, 1(1), 81–106. (ID3)
Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann.
Breiman, L., Friedman, J., Olshen, R., & Stone, C. (1984). Classification and Regression Trees. Wadsworth. (CART)
Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5–32.
Friedman, J. H. (2001). Greedy Function Approximation: A Gradient Boosting Machine. The Annals of Statistics, 29(5), 1189–1232. (GBDT)
Chen, T., & Guestrin, C. (2016). XGBoost: A Scalable Tree Boosting System. KDD 2016. arXiv:1603.02754
Ke, G., et al. (2017). LightGBM: A Highly Efficient Gradient Boosting Decision Tree. NeurIPS 2017.
Cover, T., & Hart, P. (1967). Nearest Neighbor Pattern Classification. IEEE Transactions on Information Theory, 13(1), 21–27. (KNN)
Rabiner, L. R. (1989). A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proceedings of the IEEE, 77(2), 257–286.
Cortes, C., & Vapnik, V. (1995). Support-Vector Networks. Machine Learning, 20(3), 273–297.
MacQueen, J. (1967). Some Methods for Classification and Analysis of Multivariate Observations. Proc. 5th Berkeley Symp. on Math. Statist. and Prob. (K-Means)
Pearson, K. (1901). On Lines and Planes of Closest Fit to Systems of Points in Space. Philosophical Magazine, 2(11), 559–572. (PCA)
van der Maaten, L., & Hinton, G. (2008). Visualizing Data using t-SNE. Journal of Machine Learning Research, 9, 2579–2605.
Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning Representations by Back-Propagating Errors. Nature, 323(6088), 533–536.
Hornik, K., Stinchcombe, M., & White, H. (1989). Multilayer Feedforward Networks are Universal Approximators. Neural Networks, 2(5), 359–366.
Kingma, D. P., & Ba, J. (2015). Adam: A Method for Stochastic Optimization. ICLR 2015. arXiv:1412.6980
LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-Based Learning Applied to Document Recognition. Proceedings of the IEEE, 86(11), 2278–2324. (LeNet-5)
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. NeurIPS 2012. (AlexNet)
Simonyan, K., & Zisserman, A. (2015). Very Deep Convolutional Networks for Large-Scale Image Recognition. ICLR 2015. arXiv:1409.1556 (VGG)
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for Image Recognition. CVPR 2016. arXiv:1512.03385 (ResNet)
Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780.
Cho, K., et al. (2014). Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. EMNLP 2014. arXiv:1406.1078 (GRU)
Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS 2017. arXiv:1706.03762
Su, J., et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864 (RoPE)
Press, O., Smith, N. A., & Lewis, M. (2022). Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. ICLR 2022. (ALiBi)
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL 2019. arXiv:1810.04805
Liu, Y., et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv:1907.11692
Lan, Z., et al. (2020). ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. ICLR 2020.
He, P., et al. (2021). DeBERTa: Decoding-Enhanced BERT with Disentangled Attention. ICLR 2021.
Radford, A., et al. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI Tech Report. (GPT-1)
Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Tech Report. (GPT-2)
Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020. arXiv:2005.14165 (GPT-3)
OpenAI. (2023). GPT-4 Technical Report. arXiv:2303.08774
Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361
Wei, J., et al. (2022). Emergent Abilities of Large Language Models. TMLR 2022. arXiv:2206.07682
Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022. arXiv:2201.11903
Ouyang, L., et al. (2022). Training Language Models to Follow Instructions with Human Feedback. NeurIPS 2022. arXiv:2203.02155 (InstructGPT / RLHF)
Rafailov, R., et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023. arXiv:2305.18290 (DPO)
Goodfellow, I., et al. (2014). Generative Adversarial Nets. NeurIPS 2014. arXiv:1406.2661
Arjovsky, M., Chintala, S., & Bottou, L. (2017). Wasserstein GAN. ICML 2017. arXiv:1701.07875
Karras, T., Laine, S., & Aila, T. (2019). A Style-Based Generator Architecture for Generative Adversarial Networks. CVPR 2019. (StyleGAN)
Zhu, J. Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. ICCV 2017. (CycleGAN)
Vincent, P., et al. (2008). Extracting and Composing Robust Features with Denoising Autoencoders. ICML 2008.
Kingma, D. P., & Welling, M. (2014). Auto-Encoding Variational Bayes. ICLR 2014. arXiv:1312.6114 (VAE)
Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020. arXiv:2006.11239 (DDPM)
Song, J., Meng, C., & Ermon, S. (2021). Denoising Diffusion Implicit Models. ICLR 2021. arXiv:2010.02502 (DDIM)
Lu, C., et al. (2022). DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling. NeurIPS 2022.
Ho, J., & Salimans, T. (2022). Classifier-Free Diffusion Guidance. arXiv:2207.12598
Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022. arXiv:2112.10752 (Stable Diffusion)
Ramesh, A., et al. (2022). Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv:2204.06125 (DALL-E 2)
Peebles, W., & Xie, S. (2023). Scalable Diffusion Models with Transformers. ICCV 2023. arXiv:2212.09748 (DiT)
Brooks, T., et al. (2024). Video Generation Models as World Simulators. OpenAI Tech Report. (Sora)
Chen, J., et al. (2024). PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis. ICLR 2024.
Esser, P., et al. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis. ICML 2024. (Stable Diffusion 3)
Chi, C., et al. (2023). Diffusion Policy: Visuomotor Policy Learning via Action Diffusion. RSS 2023. arXiv:2303.04137
Ze, Y., et al. (2024). 3D Diffusion Policy. RSS 2024.
Liu, S., et al. (2024). RDT-1B: A Diffusion Foundation Model for Bimanual Manipulation. arXiv:2410.07864
Black, K., et al. (2024). π₀: A Vision-Language-Action Flow Model for General Robot Control. Physical Intelligence. arXiv:2410.24164
Octo Model Team. (2024). Octo: An Open-Source Generalist Robot Policy. RSS 2024.
Kim, M. J., et al. (2024). OpenVLA: An Open-Source Vision-Language-Action Model. arXiv:2406.09246
Tian, K., et al. (2024). Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction. NeurIPS 2024. (VAR)
Zhou, C., et al. (2024). Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model. arXiv:2408.11039
Nie, S., et al. (2025). Large Language Diffusion Models. arXiv:2502.09992 (LLaDA)
Deng, J., et al. (2009). ImageNet: A Large-Scale Hierarchical Image Database. CVPR 2009.
Lin, T. Y., et al. (2014). Microsoft COCO: Common Objects in Context. ECCV 2014.
Wang, A., et al. (2019). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. ICLR 2019.
Pedregosa, F., et al. (2011). Scikit-learn: Machine Learning in Python. JMLR, 12, 2825–2830.
Abadi, M., et al. (2016). TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems. arXiv:1603.04467
Paszke, A., et al. (2019). PyTorch: An Imperative Style, High-Performance Deep Learning Library. NeurIPS 2019.
Wolf, T., et al. (2020). Transformers: State-of-the-Art Natural Language Processing. EMNLP 2020 (System Demos). (HuggingFace)
Jumper, J., et al. (2021). Highly Accurate Protein Structure Prediction with AlphaFold. Nature, 596, 583–589.
Silver, D., et al. (2016). Mastering the Game of Go with Deep Neural Networks and Tree Search. Nature, 529, 484–489. (AlphaGo)
Mnih, V., et al. (2015). Human-Level Control through Deep Reinforcement Learning. Nature, 518, 529–533. (DQN)
Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347 (PPO)
Haarnoja, T., et al. (2018). Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor. ICML 2018. (SAC)

本文所有示意图均来自对应论文或公开教程/博客资源，版权归原作者所有，仅用于学术交流与学习整理。

📝 报告此页错误