C/C++11 内存模型：给普通人一条直路，也给专家一整柜开关

写多线程 C/C++ 代码时，真正让人不安的，往往不是 Bug 本身，而是：你很难说清楚，眼前这个结果到底是“语言保证的”，还是“刚好没出事”。你大概听说过数据竞争、顺序一致性、happens-before，也知道要用 std::atomic，但一旦代码跑到多核、打开优化选项，心里总会打鼓：现在看到的行为，标准到底保不保？

C/C++11 的共享内存模型，想解决的就是这个痛点：给你一份既不至于拖垮性能、又足够清晰的“合同”。多数人只希望像写单线程一样思考并发，不想被各种屏障和缓存细节淹没；少数人则需要写 lock-free 容器、无锁调度、极致低延迟系统，希望手里有一套可以精细调节的工具。

这套设计最后被折成了一个很有意思的形状：

对大多数“只想把程序写对”的人，语言承诺：只要你的程序里没有数据竞争，就可以把世界当成顺序一致（DRF-SC）的；对需要极致性能的专家，标准准备了一整柜 std::atomic / _Atomic 和 memory_order 开关，让你在不同位置按需放宽或收紧约束，用更多思考成本换取更多性能空间。

接下来，我们就沿着这张“直路 + 开关”的地图往下走：先看这份合同到底写了什么，再看它是怎样落到具体的原子操作和内存序上的。哪些“诡异结果”会被直接排除在外，哪些只有在你亲手拧开某个开关之后才有可能出现，我们会在后面的部分一节节拆开。

一、C/C++11 想解决的根本问题

谈到 C/C++11 的内存模型，首先要搞清楚语言到底想回答哪几件事。最重要的是两层含义：一层是语义层，也就是一段多线程程序在抽象世界里允许出现哪些执行结果、哪些结果又是绝对不允许的；另一层是实现层，在不违反这些抽象语义的前提下，编译器和硬件还能做多少优化，以及这些优化对程序员可见的行为意味着什么。

对 C/C++ 这类系统语言来说，这两个维度上的约束都比一般语言要苛刻得多。一方面，语言需要有很强的可移植性，不能要求每个程序员都去翻不同 CPU 的指令手册，记住每一条隐含规则；另一方面，它又必须给实现者足够的自由度，既不能一刀切地禁止乱序执行和缓存优化，又要在需要的时候让专家能够直接操纵这些细节。

为了在这两头之间找到平衡，C/C++11 采用了一个分层的方案。标准在最底层给出一个比较松弛的内存模型，给编译器和硬件留下足够多的优化空间；在这个基础上，再从“使用方式”的角度给程序员分出不同的档位：如果你老老实实写没有数据竞争的程序，就可以把世界当成顺序一致的；如果你需要更高性能，就可以直接触碰 atomics 库和各种内存序开关。

对于“守规矩”的程序，语言给出一个非常重要的承诺：只要程序中所有共享变量要么通过锁保护，要么通过原子和正确的同步模式访问，没有任何未定义的数据竞争，那么整个程序就会表现得好像是在顺序一致模型下执行一样。对绝大多数应用来说，这样的模型已经足够直观，也足够安全。

而对于那些必须“玩极限”的场景，比如 lock-free 容器、无锁队列或者并发垃圾回收器，C/C++11 则提供了一个更细致的控制面板，允许你自己决定在哪些地方放宽顺序约束、在哪些地方精确设定 happens-before 关系，用更多的思考和验证成本去换取那最后几毫秒甚至几微秒的性能。

二、什么是“数据竞争”？为什么会引出 catch-fire 语义？

先用一种尽量接近标准、但更容易理解的方式来描述什么叫“数据竞争（data race）”。可以把它想象成这样一种情况：有多个线程在同一段时间里访问同一个内存位置，其中至少有一个线程在对它进行写操作，而且这些访问既没有通过原子操作建立清晰的同步顺序，也没有通过锁等同步原语把它们排好队。只要这三件事同时成立，我们就说发生了一次数据竞争。

一旦发生这种情况，C/C++11 标准的态度非常干脆：这个程序的行为被视为未定义行为（Undefined Behavior，简称 UB）。所谓未定义，并不是“结果有点不可靠”这么简单，而是标准直接放弃了对一切后果的约束。

从实现者的角度看，这意味着编译器不再需要对任何具体结果负责，可以继续按照“程序永远没有数据竞争”的假设来进行各种激进优化；CPU 也完全可以按照自己的节奏进行重排和缓存处理，只要保证单线程语义正确即可。对程序员来说，这则意味着你在调试时看到的任何表现——无论是崩溃、卡死、打印出莫名其妙的日志，还是看上去“什么事也没发生”——都不能拿来质疑标准，因为从理论上讲，这些结果统统是被允许的。

也正因为如此，很多人会戏称这是 catch-fire 语义，好像程序一旦含有数据竞争，就有权在理论上做“任何事”，甚至包括凭空自燃。

为什么要这么“狠”？

很多人在听到这一条规则时，第一反应往往是怀疑标准是不是太狠了。直觉上的疑问大概是：能不能温和一点，比如只在有竞争的那几处把结果标为“不可靠”，其他地方照常保证？

从日常经验看，这样的期待似乎合情合理，但从实现者的角度看却非常棘手。优化器在做全程序分析时，通常都会假设“程序在所有路径上都没有数据竞争、也不会触发 UB”，只有在这个前提下，它才能放心地在各个基本块之间重排代码、合并表达式、消除冗余访问。

如果标准允许某些带竞争的执行仍然被视为“部分合法”，那么编译器每遇到一处涉及共享内存的代码，都必须小心翼翼地考虑“万一这里有数据竞争会怎样”。很多本来非常重要的优化就会因为“也许存在竞争”这一点而被迫让路，甚至不得不在大量内存访问周围插入隐性的屏障指令。对于 JIT 编译器和 CPU 来说，这不仅会显著增加实现复杂度，也会直接拖垮性能。

所以，标准最终选择了一个对实现非常友好、但对程序员颇为苛刻的结论：只要某次执行中在某个位置发生了数据竞争，这次执行整体就不可信。编译器可以理直气壮地假设“程序从来不会发生数据竞争”，并在这个前提下大胆优化，而不需要为任何特定的结果负责。

这也解释了为什么现实中的数据竞争几乎总是难以调试。你可能只是在某一行代码上看到了一次看似随机的崩溃，真正的根因却是另一段完全不相干的共享变量写入；这段写入在这次执行中甚至未必真的发生，但只要标准认为“有可能发生”，整个执行就已经被丢进了 UB 的黑盒子里。

三、DRF-SC：给“守规矩的程序员”一个顺序一致的世界

如果一不小心就掉进 catch-fire 地狱，普通开发者几乎无从下手。

为了解决这个问题，Adve、Boehm 等人在一系列工作中提出了一个关键设计目标，并最终被 C/C++11 所采纳，这就是著名的 DRF-SC 原则（Data-Race-Free ⇒ Sequential Consistency）。用一句话概括，它说的是：如果一个程序在 C/C++11 提供的松弛内存模型下是无数据竞争的（Data-Race-Free），那么这个程序的所有行为都等价于在顺序一致（SC）模型下执行时的行为。

换成更接地气的说法，就是：只要你保证所有共享数据要么用锁保护，要么通过原子并按正确的同步模式访问，不发生任何数据竞争，那么语言就承诺，你可以把整个程序想象成运行在一个“所有线程的访问按某种全局顺序依次排队”的 SC 世界里。

这条原则乍一看很学术，但带来的好处其实非常直接。

这样一来，DRF-SC 为不同角色都带来了直接的好处。对于需要推理程序行为的人来说，他们不必再面对各种硬件乱序和编译器重排的细枝末节，只要在顺序一致这一相对简单的语义下检查逻辑是否正确就够用。对于工具作者来说，很多静态或动态分析工具可以主要围绕“识别数据竞争”和“在 SC 语义下验证正确性”这两件事来设计，实现难度大大降低。对于标准本身，这种设计也让大部分复杂的松弛行为只影响少数专家，而不是强迫所有使用者都去理解完整模型。正式标准的演进中，中途曾对这一目标有过妥协，但最终版 C11/C++11 确实保证了这一点：

只要程序没有未注解的数据竞争，且没有滥用最底层接口，就可以视作在 SC 世界里执行。

这就是 C/C++11 给普通开发者的那条“直路”。

四、标准模型 vs 程序员脑中的“系统模型”

讲到这里，有一个现实与标准之间的张力值得单独说一下。在日常工程实践中，系统程序员的思考方式往往和标准文本有一些差别。很多人脑子里都有一个“默认系统模型”，通常是由某个 CPU 架构的内存一致性文档、某个编译器版本在真实项目中的表现，以及多年线上排错积累下来的经验共同拼出来的。在这样一个“私人模型”里，即使程序已经存在数据竞争，他们也会试着从寄存器缓存、store buffer、cache line 抖动等具体细节来解释已经发生的奇怪行为，并且通过反复实验摸索出“在当前编译器加当前 CPU 的组合下，某些写法大概是安全的”。换句话说：

现实世界里，大家确实在用“硬件模型 + 编译器经验”来调试有数据竞争的程序。

而从 C/C++11 标准的视角看，这些行为统统是不被承认的：“一旦你有数据竞争，我就不保证任何结果。”这种错位，正是并发 Bug 难以调试的重要原因之一：你看到的是真实机器的表现，但标准只对“无数据竞争”的那一部分行为负责。

这也进一步强调了 DRF-SC 的价值：

如果你不想被硬件和编译器的所有细节绑架，那最现实的办法就是尽量让自己的程序保持无数据竞争。

五、atomics 库：把“多线程抢着用”的内存单独圈出来

如果所有共享访问都禁止竞争，很多高性能结构根本写不出来。

为了解决“既要性能，又不想全盘放养”的矛盾，C/C++11 提供了一个专门的工具箱，也就是我们常说的 atomics 库：在 C++ 里是 std::atomic，在 C11 里则是 _Atomic 加上一系列 atomic_*_explicit 函数。

1. 原子对象：专门为“会被多个线程争用的变量”设计

以 C++ 为例：

std::atomic<int> x{0};

在 C11 中，可以写：

_Atomic int x = 0;

atomic_store_explicit(&x, 1, memory_order_release);
int v = atomic_load_explicit(&x, memory_order_acquire);

这些原子对象有几个关键性质。

首先，它们只能通过专门的原子操作来访问：在 C++ 里通常是成员函数或重载运算符，在 C11 里则是那一组 atomic_* 函数。

其次，标准为这些操作规定了清晰的并发语义，包括原子性、排序约束以及可见性，从而允许不同线程在这些对象上进行受控的竞争，而不会立刻掉进未定义行为。

与普通对象相比，原子对象被视为专门为并发访问设计的那一类内存位置。

普通对象默认只在单线程或正确同步之后使用，一旦在它们上面发生数据竞争，整个程序都会被视为 UB；原子对象则被允许在多个线程之间无锁共享，只要所有访问都通过原子接口进行，并且配合合适的内存序即可。

Adve 等人在设计这套模型时，非常强调一个观点：最好让程序员把那些可能被多个线程同时“动手”的内存位置显式标注出来。

换句话说，哪一块状态会被当作共享变量使用，哪一块永远只在单线程里读写，应该在代码层面清清楚楚。

这样做的好处是双向的。

一方面，对编译器来说，它在面对普通对象时就可以大胆地假设不存在跨线程冲突，从而放心地做激进优化；一旦遇到原子对象，就会严格遵守内存模型规则，在必要的地方插入屏障和约束。

另一方面，对程序员来说，可以更清晰地把“普通共享状态”（用锁防止竞争）和“高性能共享状态”（用原子加内存序精调）区分开来，也不至于因为一个不起眼的整型变量被多个线程随意读写，就让整个程序掉进 UB 的黑洞里。

2. 为何强调“显式标记可能竞争的对象”？

这些原子对象有几个关键性质。

首先，它们只能通过专门的原子操作来访问：在 C++ 里通常是成员函数或重载运算符，在 C11 里则是那一组 atomic_* 函数。

与普通对象相比，原子对象被视为专门为并发访问设计的那一类内存位置。

Adve 等人在设计这套模型时，非常强调一个观点：最好让程序员把那些可能被多个线程同时“动手”的内存位置显式标注出来。

换句话说，哪一块状态会被当作共享变量使用，哪一块永远只在单线程里读写，应该在代码层面清清楚楚。

这样做的好处是双向的。

六、六种 `memory_order`：从“最安全”到“最松弛”

atomics 库真正的“高配功能”，在于每一个原子操作都可以指定一个 memory_order 参数：

memory_order_seq_cst
memory_order_acq_rel
memory_order_acquire
memory_order_release
memory_order_consume
memory_order_relaxed

从使用者的角度看，可以把这几种内存序排成一条光谱：从上往下看，约束会越来越弱，允许的优化越来越多，潜在性能也就越好，但相应地，语义也会变得越来越难以推理。下面从直觉层面给出一个常用版“速记表”（略去各种角落细节）。

1. `memory_order_seq_cst`：

先看 memory_order_seq_cst。它的语义尽可能接近理想的顺序一致世界：所有使用这一内存序的原子操作，在效果上看起来就像排在同一条全局时间线里，每个线程内部看到的顺序也和源码中的原子操作顺序一致。

对于程序员来说，这种内存序提供了最直观的心理模型，也最容易推理诸如“只要我先写标志位，再写数据，另一个线程只要看到标志已经为 true，就一定能看到那次写入过的数据”之类的关系。

代价是，在某些硬件上，为了维持这种近似顺序一致的效果，编译器和 CPU 需要插入额外的屏障或者限制重排，所以在极端性能敏感的场景下，它可能略逊于更弱的内存序。

对于大多数并发程序员，一个相当安全的策略是：一开始全部使用 memory_order_seq_cst，让逻辑先在这种相对强的模型下跑通，只有在明确发现性能瓶颈出在内存序相关开销上时，再考虑逐步降低到更弱的选项。

2. `memory_order_release` / `memory_order_acquire` / `memory_order_acq_rel`

第二组常见的内存序是 memory_order_release、memory_order_acquire 和 memory_order_acq_rel。它们经常成对出现，用来描述“发布”和“获取”之间的因果关系。

可以粗略地把 release 看成是一种带有尾部屏障的写操作：它保证在这次写之前发生的普通读写，不会被重排到这次写之后，好像在写出这个值的同时，也把之前对相关共享数据的修改一并“发布”了出去。

acquire 则对应地像是一种带有头部屏障的读操作：它保证在这次读之后出现的普通读写，不会被重排到这次读之前。只要某个线程通过一次 load-acquire 观察到了另一个线程通过 store-release 写出的值，就可以假定自己也已经看到了对方在那次 release 写入之前对相关数据做过的修改。

acq_rel 主要用于那些既读又写的原子操作，例如 fetch_add 或一次成功的 compare_exchange，它既承担 acquire 的角色，又同时承担 release 的角色，在一次操作中建立起双向的同步关系。

一个非常典型的用法是“发布—订阅”场景。生产者线程先在普通内存里把数据准备好，再对某个原子标志执行一次 store(..., memory_order_release)；消费者线程则通过 load(..., memory_order_acquire) 去轮询或者等待这个标志变为真，一旦看到为真，就可以安全地读取那批普通数据，并且可以相信自己看到的是发布方在 release 写之前已经完成的修改。

这种模式的强度略弱于全局 seq_cst，但已经足以支撑大量常见并发场景。

3. `memory_order_consume`：理论很美，现实很尴尬

memory_order_consume 在设计之初，本来想扮演一个比 acquire 更轻量的角色，只对“数据相关”的访问建立顺序约束，从而进一步放宽可优化的空间。现实中却发现，实现它要比想象中难得多，编译器很难在优化阶段可靠地分析和保留所有的数据相关性，结果多数实现干脆把 consume 当成 acquire 来对待。

也因此，在当今的工程实践里，通常会把 consume 看成一个暂时不建议使用的选项。除非你非常清楚标准的细节和具体实现的行为，否则直接使用 acquire 通常会更省心。

4. `memory_order_relaxed`：

memory_order_relaxed 则站在光谱的另一端。它只保证原子操作本身的原子性，不再为前后的普通访问提供额外的排序约束，编译器和 CPU 在这种内存序下几乎可以任意重排这些普通访问，只要不打破单个线程内部的语义即可。

在某些场景下，这种极度宽松的语义反而非常有用，比如统计计数器、性能监控或者粗略的进度指示，只要你不依赖这些变量来建立精确的跨线程因果关系，relaxed 通常都能以最低的成本完成工作。

但如果在真正需要同步的地方滥用 relaxed，就等于主动打开了一大堆“奇怪执行顺序”的可能性，相应的 Bug 也会变得极其难以重现和调试。很多看似随机的并发故障，最后往往都能追溯到某个本该使用更强内存序却误用了 relaxed 的位置。

七、如何在日常 C/C++ 开发中与内存模型和平相处

讲完了抽象模型和工具箱，最后可以从工程实践的角度，总结几条与这套内存模型相处的方式。首先，一个很现实的首要目标就是：尽量写“无数据竞争”的程序。不要指望在某种硬件或某个编译器版本上，带着数据竞争也能“侥幸跑通”；一旦程序被判定为存在数据竞争，你就失去了使用标准来推理它行为的资格。

简单概括就是：先追求“无数据竞争”，能用锁就用锁，只有在锁真的不够用时再考虑原子和更弱的内存序。

其次，在能够接受锁开销的前提下，应当优先使用高层的并发抽象。对于 C++，这通常意味着用 std::thread 或 std::jthread 配合 std::mutex、std::lock_guard、std::unique_lock 和 std::condition_variable；对于 C11，则是线程库配合互斥锁和条件变量。把主要精力放在这些抽象上，可以让自己长期待在 DRF-SC 的安全区域里。

第三，把 atomics 当成一套精准但复杂的工具，而不是默认选项。只有在确实需要 lock-free、wait-free 或极低延迟的时候，才考虑引入 std::atomic 或 _Atomic。即便如此，也应该先统一使用 memory_order_seq_cst 把逻辑写清楚，再根据实测的性能瓶颈，谨慎地降级到 acquire/release 或少量 relaxed。

第四，要学会识别那些“隐形的共享状态”。静态变量、单例、全局缓存、对象池等，都很容易在无意中变成多线程共享的热点。如果对这些地方的访问缺乏清晰的同步约束，非常容易出现那种“偶尔才炸一次”的数据竞争，而且一旦发生，就会让整个程序掉进 UB 的黑洞。

最后，可以把 catch-fire 语义视作一条最后的警戒线，而不是一件可以依赖的调试工具。遇到奇怪的崩溃或不可重现的错误时，不要第一时间把矛头指向编译器或 CPU，而是先系统性地排查是否存在未加锁的共享变量读写、写过一次就不管的双重检查锁定、错误使用 relaxed 之类的典型坑。很多时候，真正的根源都藏在这些地方。

结语：一条直路，和一整柜开关

从“什么都不说”的早期 C/C++，到有完整内存模型的 C/C++11，语言设计者走过了一条漫长的路。

最终形成的这套设计，可以概括成两个互补的侧面。对于绝大多数程序员来说，更健康的姿势是尽量编写没有数据竞争的并发程序，把主要精力放在锁、条件变量以及线程安全容器这些抽象层面上，让自己长期待在 DRF-SC 带来的顺序一致世界里。

而对于那些确实需要极致性能的专家，标准则提供了一整套 std::atomic / _Atomic 和 memory_order_* 开关，让你可以根据目标架构和性能要求，精细调整执行顺序和可见性。代价是，你必须愿意为理解和验证这些行为付出额外的心智成本，在必要的时候甚至要亲自下到硬件和编译器的细节层面。

理解这套 C/C++11 模型，不是为了每天和 memory_order 打交道，而是为了知道自己目前站在这条光谱上的哪个位置，什么时候可以放心地“装傻”成顺序一致，什么时候又必须承认自己已经打开了专家模式。

C/C++11 内存模型：给普通人一条直路，也给专家一整柜开关

相关工作：这条“直路”是怎么被铺出来的？

一、C/C++11 想解决的根本问题

二、什么是“数据竞争”？为什么会引出 catch-fire 语义？

为什么要这么“狠”？

三、DRF-SC：给“守规矩的程序员”一个顺序一致的世界

四、标准模型 vs 程序员脑中的“系统模型”

五、atomics 库：把“多线程抢着用”的内存单独圈出来

1. 原子对象：专门为“会被多个线程争用的变量”设计

2. 为何强调“显式标记可能竞争的对象”？

六、六种 `memory_order`：从“最安全”到“最松弛”

1. `memory_order_seq_cst`：

2. `memory_order_release` / `memory_order_acquire` / `memory_order_acq_rel`

3. `memory_order_consume`：理论很美，现实很尴尬

4. `memory_order_relaxed`：

七、如何在日常 C/C++ 开发中与内存模型和平相处

结语：一条直路，和一整柜开关

本页目录

C/C++11 内存模型：给普通人一条直路，也给专家一整柜开关

相关工作：这条“直路”是怎么被铺出来的？

一、C/C++11 想解决的根本问题

二、什么是“数据竞争”？为什么会引出 catch-fire 语义？

为什么要这么“狠”？

三、DRF-SC：给“守规矩的程序员”一个顺序一致的世界

四、标准模型 vs 程序员脑中的“系统模型”

五、atomics 库：把“多线程抢着用”的内存单独圈出来

1. 原子对象：专门为“会被多个线程争用的变量”设计

2. 为何强调“显式标记可能竞争的对象”？

六、六种 memory_order：从“最安全”到“最松弛”

1. memory_order_seq_cst：

2. memory_order_release / memory_order_acquire / memory_order_acq_rel

3. memory_order_consume：理论很美，现实很尴尬

4. memory_order_relaxed：

七、如何在日常 C/C++ 开发中与内存模型和平相处

结语：一条直路，和一整柜开关

本页目录

六、六种 `memory_order`：从“最安全”到“最松弛”

1. `memory_order_seq_cst`：

2. `memory_order_release` / `memory_order_acquire` / `memory_order_acq_rel`

3. `memory_order_consume`：理论很美，现实很尴尬

4. `memory_order_relaxed`：