AI 基础专栏
本专栏旨在深入浅出地讲解人工智能(特别是大语言模型)的基础知识。我们将从最基础的文本处理开始,逐步深入到复杂的神经网络架构。
专栏大纲
第一阶段:文本预处理 (Tokenization)
- BPE (Byte Pair Encoding): 现代 LLM 最常用的分词算法。
- WordPiece: BERT 等模型使用的分词方案。
- SentencePiece: 无需预分词的通用解决方案。
第二阶段:表征学习 (Representations)
- Word Embeddings: 从 Word2Vec 到 GloVe。
- Positional Encoding: 让模型理解序列顺序的关键。
第三阶段:Transformer 核心架构
- Self-Attention: 注意力机制的本质。
- Multi-Head Attention: 并行提取多维度特征。
- Layer Normalization & Residual Connections: 深度模型的稳定性基石。
第四阶段:大模型进阶
- Decoding Strategies: Greedy Search vs Beam Search vs Top-P/K。
- KV Cache: 推理加速的核心秘诀。
让我们从第一篇文章开始:Byte Pair Encoding (BPE)