Docker构建CARLA仿真环境：UE4.26多阶段编译与GPU容器化实战

原创于 2026-06-14 14:11:24 发布 · 403 阅读

CC 4.0 BY-SA版权

文章标签：

1. 项目概述：为什么要在 Docker 里跑 UE 和 CARLA？

你是不是也经历过——下载 CARLA 官方二进制包，解压后双击 CarlaUE4.sh ，结果弹出一串红色报错：“libGL error: unable to load driver: swrast”、“X Error of failed request: BadValue”、“Failed to initialize OpenGL context”？或者更糟：在 Ubuntu 22.04 上编译 CARLA 源码， make launch 卡在 Building Unreal Engine 4.26... 三天三夜，磁盘爆满、内存 OOM、GCC 版本不兼容、Python 依赖冲突、NVIDIA 驱动版本和 CUDA Toolkit 对不上……最后放弃，转而用 Windows 虚拟机硬扛，帧率卡在 8 FPS，连一个红绿灯都渲染不全？

这就是我过去两年带三个自动驾驶仿真项目踩过的典型坑。CARLA 不是普通软件，它是 基于虚幻引擎 4.26（现主流仍为 4.26，5.x 尚未稳定接入）深度定制的高保真城市驾驶模拟器 ，其构建链路天然包含三层强耦合依赖：底层操作系统级图形驱动与 Vulkan/OpenGLES 支持、中层 Unreal Build Tool（UBT）与 Unreal Header Tool（UHT）的编译环境、上层 Python API 与 ROS/ROS2 桥接模块。任何一层错配，整个仿真链就断在启动前。

而 Docker 的价值，不是“换个容器跑得更快”，而是 把这三层依赖固化成可复现、可验证、可审计、可回滚的原子镜像单元 。我们团队现在所有仿真节点（包括传感器数据生成、交通流控制、AI 策略训练接口）全部运行在 carla-server:0.9.15-ue4.26-cuda11.8 这个镜像之上，CI 流水线每次 PR 合并自动触发镜像构建+端口健康检查+基础场景加载测试，失败率从 37% 降到 0.8%。更重要的是——它让“在没有 NVIDIA 显卡的 CI 服务器上编译 CARLA”成为可能：我们用 nvidia/cuda:11.8.0-devel-ubuntu20.04 基础镜像 + --no-opengl 编译参数 + headless 模式预生成 .so 插件，再挂载到有 GPU 的运行时容器中，彻底解耦构建与执行环境。

这个标题里的“中文文档”，不是简单翻译官网 Wiki，而是 把官方没写、社区不敢写、GitHub Issues 里散落各处的 217 个关键补丁点，按真实构建路径重新组织成可逐行执行的操作手册 。比如：

为什么必须用 gcc-9 而非系统默认 gcc-11 编译 UE4.26？因为 UBT 的 LinuxToolChain.cs 硬编码了 -std=gnu++14 ，而 gcc-11 默认启用了 -std=gnu++17 ，导致 CoreMinimal.h 中 FORCEINLINE 宏展开失败；
为什么 make launch 在容器里永远卡在 Cooking 阶段？因为 UE 的 Cooker 进程会尝试访问 /proc/sys/kernel/shmmax ，而 Docker 默认 shm-size=64M ，但 CARLA 地图 Cook 至少需要 2GB ；
为什么 python3 carla_client.py 报 Connection refused ？不是端口没开，而是容器内 localhost 解析到了 127.0.0.11 （Docker 内置 DNS），必须显式绑定 0.0.0.0 并用 --network=host 或自定义 bridge 网络。

接下来的内容，就是我把这三年在 7 个不同硬件平台（从 Jetson AGX Orin 到 AWS g5.xlarge）、4 种 Linux 发行版（Ubuntu 18.04/20.04/22.04 + CentOS 7）、3 类 NVIDIA 驱动（470/515/535）上反复验证过的完整构建链，掰开揉碎，一行命令、一个参数、一次失败日志，全部还原给你。不讲原理，只说操作；不画大饼，只给镜像哈希；不承诺“一键成功”，但保证你遇到的每个报错，都能在这里找到对应行号和修复补丁。

2. 整体架构设计与方案选型逻辑

2.1 为什么放弃官方二进制包，坚持源码构建？

CARLA 官网提供两种部署方式：预编译二进制包（ .tar.gz ）和源码构建（ git clone + make ）。初学者直觉选前者——解压即用，省事。但实际项目中，我们 100% 弃用二进制包，原因有三，且每一条都致命：

ABI 兼容性黑洞 ：官方二进制包使用 Ubuntu 18.04 + gcc-7.5 + CUDA 10.2 构建，而你的生产环境大概率是 Ubuntu 20.04+ 。当你的 Python 客户端调用 carla.Client.connect() 时，底层 libcarla.so 会动态链接 libstdc++.so.6 。Ubuntu 20.04 自带 libstdc++.so.6.0.28 ，但二进制包编译时链接的是 6.0.25 。运行时若系统未安装 libstdc++6=10.2.0-5ubuntu1~18.04 这个精确版本，就会报 undefined symbol: _ZTVNSt7__cxx1119basic_ostringstreamIcSt11char_traitsIcESaIcEEE ——这是 C++11 ABI 符号不匹配的典型错误，Google 三天都找不到解法，最终只能重装系统降级。
CUDA 版本锁死 ：二进制包硬编码 CUDA Runtime 10.2，而你的 A100 显卡驱动要求 CUDA 11.8+。强行 LD_PRELOAD=/usr/local/cuda-11.8/lib64/libcudart.so.11.8 会导致 UE 渲染线程崩溃，日志里只有一行 Signal 11 caught. ，无堆栈，无线索。
无法注入自定义模块 ：你要加一个激光雷达点云噪声模型？要在 carla/source/carla/rpc/ 下新增一个 NoiseParameters 结构体，并修改 LibCarla 的序列化逻辑。二进制包没有头文件，没有 .build 目录，你连 #include "carla/rpc/NoiseParameters.h" 都写不出来。

所以， 源码构建不是“高级玩法”，而是生产环境的强制准入门槛 。而 Docker，就是把这套高门槛构建流程封装成 docker build -t carla-dev:0.9.15 . 这一条命令的唯一解。

2.2 为什么选择分阶段多阶段构建（Multi-stage Build）？

看一眼 CARLA 源码根目录的 Makefile ，你会发现 make launch 实际执行的是：

launch:
	$(MAKE) CarlaServer
	./CarlaUE4.sh -opengl -quality-level=Low

而 CarlaServer 又依赖 make LibCarla 和 make CarlaUE4 。其中 CarlaUE4 是 UE4.26 编译产物，体积超 12GB； LibCarla 是 C++ Python 绑定库，约 180MB； CarlaUE4.sh 启动脚本本身只有 12KB。

如果我们用单阶段构建（FROM ubuntu:20.04 → RUN apt install → RUN git clone → RUN make launch），最终镜像会包含：

3.2GB 的 clang-10 工具链
4.7GB 的 UnrealEngine/Engine/Source 源码
12GB 的 UnrealEngine/Engine/Binaries/Linux 编译产物
2.1GB 的 Carla/Unreal/CarlaUE4/Binaries/Linux 游戏二进制
所有中间 .o .a .so 文件

总镜像大小 ≈ 28GB，推送一次要 2 小时，CI 节点磁盘直接爆。更严重的是——这些编译工具和源码对运行时完全无用，反而增加攻击面（CVE-2023-1234 漏洞就藏在 clang-10 的某个废弃 parser 模块里）。

因此我们采用 严格四阶段构建 ：

builder-base ：纯净 nvidia/cuda:11.8.0-devel-ubuntu20.04 ，只装 gcc-9 、 cmake-3.22 、 python3.8-dev ，不碰 UE 源码；
ue-builder ：从 builder-base 拉取， git clone https://github.com/EpicGames/UnrealEngine.git ，checkout 4.26.2-release ，打上 carla-patch-ue4.26.2.diff （修复 Vulkan 在 headless 模式下 vkCreateInstance 失败的问题）， ./Setup.sh && ./GenerateProjectFiles.sh && make -j$(nproc) ；
carla-builder ：从 ue-builder 拉取， git clone https://github.com/carla-simulator/carla.git ，checkout 0.9.15 ，打上 carla-patch-0.9.15.diff （关键补丁：禁用 libpng12 强依赖、修复 boost::filesystem::path 在容器内 getcwd() 返回空字符串的 bug）， make launch 生成 CarlaUE4 和 libcarla.so ；
runtime ： FROM nvidia/cuda:11.8.0-runtime-ubuntu20.04 ，仅 COPY 第三阶段生成的 CarlaUE4.sh 、 libcarla.so 、 PythonAPI ，以及预编译好的 *.pak 地图资源， RUN apt-get clean && rm -rf /var/lib/apt/lists/* 。

最终 runtime 镜像大小压到 2.3GB ，比官方二进制包（3.1GB）还小，且 100% 兼容你的生产环境 CUDA 驱动。

提示：不要试图用 --squash 或 docker export 来减小镜像——它们无法删除多层缓存中的历史文件，只是把所有层合并成一层，实际体积不变。只有 Multi-stage Build 才能真正剥离构建时依赖。

2.3 为什么坚持 Ubuntu 20.04 而非更新的 22.04？

CARLA 0.9.15 的 requirements.txt 明确指定 boost==1.71.0 ，而 Ubuntu 22.04 官方源只提供 libboost1.74-dev 。强行 apt install libboost1.71-dev 会触发 libboost-system1.71.0 与 libboost-filesystem1.71.0 的版本分裂（前者存在，后者不存在），导致 make LibCarla 在链接阶段报 undefined reference to 'boost::filesystem::detail::status' 。

有人提议用 conda 管理 boost，但 CARLA 的 CMakeLists.txt 硬编码了 find_package(Boost 1.71.0 REQUIRED COMPONENTS system filesystem) ，而 conda 的 boost 库名是 libboost_system.so.1.71.0 ，路径在 /opt/conda/lib/ ，CMake 默认只搜 /usr/lib/x86_64-linux-gnu/ 。你要么改 CMakeLists.txt（破坏上游），要么加 -DBOOST_ROOT=/opt/conda （但 UE4 的 CMake 配置又不认这个变量）。

Ubuntu 20.04 官方源完美提供 libboost1.71-dev 全套组件，且 gcc-9 、 cmake-3.16 、 python3.8 全部原生支持，无需 PPAs 或手动编译。我们实测过：在 20.04 上构建成功率 99.2%，在 22.04 上即使打满所有社区补丁，失败率仍达 34%（主要卡在 boost::asio::ip::tcp::resolver 的 IPv6 fallback 逻辑）。

所以， 技术选型不是追新，而是找那个“所有齿轮咬合最紧”的发行版 。20.04 就是 CARLA 0.9.15 的黄金搭档。

2.4 为什么不用 Podman 或 LXC？

Podman 声称“无守护进程”，但在 CARLA 场景下是伪命题。CARLA 启动时需创建 Xvfb 虚拟帧缓冲（用于 headless 渲染），而 Xvfb 依赖 libdrm 、 libgbm 、 libegl 等 GPU 相关库。Podman 默认不挂载 /dev/dri ，且 --device 参数在 rootless 模式下无效。你必须 podman machine start 创建一个 VM，再在里面跑容器——这已经不是容器化，而是嵌套虚拟化，性能损失 40% 以上。

LXC 更不可行：它共享宿主机内核，无法隔离 nvidia-uvm 模块版本。你的宿主机驱动是 515.65.01，而 CARLA 编译时链接的是 470.182.03 的 libcuda.so ，运行时直接 Segmentation fault 。

Docker 的 --gpus all 是目前唯一成熟、稳定、文档齐全的 GPU 容器化方案。NVIDIA Container Toolkit 已深度集成到 Docker Daemon， nvidia-smi 在容器内输出与宿主机完全一致， nvtop 可实时监控每个容器的 GPU 显存占用。我们线上集群 128 台 A10 服务器，全部跑 Docker + CARLA，零 GPU 隔离故障。

3. 核心细节解析与实操要点

3.1 基础镜像与驱动兼容性矩阵

CARLA 的 GPU 加速依赖三层驱动栈：

硬件层 ：NVIDIA GPU（Turing/Ampere 架构，如 T4/A10/A100）
内核模块层 ： nvidia.ko （驱动主体） + nvidia-uvm.ko （统一虚拟内存） + nvidia-drm.ko （Direct Rendering Manager）
用户态层 ： libcuda.so （CUDA Runtime） + libnvidia-ml.so （Management Library） + libglx.so （OpenGL X11 扩展）

这三层必须严格对齐。例如：

驱动版本	支持最高 CUDA	推荐 Ubuntu	CARLA 0.9.15 兼容性
470.182.03	11.4	18.04/20.04	✅ 官方测试通过
515.65.01	11.7	20.04/22.04	✅ 我们实测通过
535.54.03	12.2	22.04	❌ UE4.26 编译失败（ `nvcc` 报 `error: unknown attribute "nodiscard"` ）

因此， 构建镜像前第一件事，不是写 Dockerfile，而是查你的宿主机 nvidia-smi 输出 ：

$ nvidia-smi
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 515.65.01    Driver Version: 515.65.01    CUDA Version: 11.7     |
|-------------------------------+----------------------+----------------------+

如果 CUDA Version 是 11.7，则基础镜像必须选 nvidia/cuda:11.7.1-devel-ubuntu20.04 ；如果是 11.4，则选 11.4.4-devel-ubuntu20.04 。千万别用 nvidia/cuda:latest ——它今天指向 12.2，明天就变 12.3，你的 CI 流水线会突然全挂。

注意： devel 镜像含编译工具（gcc/cmake/nvcc）， runtime 镜像只含运行时库（libcudart.so）。构建阶段用 devel ，运行阶段用 runtime ，这是 Docker 最佳实践。

3.2 关键补丁文件详解：carla-patch-0.9.15.diff

CARLA 0.9.15 源码有 5 处必须修补，否则容器内必崩。这些补丁不是“锦上添花”，而是“救命稻草”。以下是逐行解析（补丁已上传至 GitHub Gist，文末附链接）：

补丁 1：禁用 libpng12 强依赖（ Carla/Util/CMakeLists.txt 第 42 行）

- find_package(PNG REQUIRED)
- include_directories(${PNG_INCLUDE_DIRS})
- target_link_libraries(carla ${PNG_LIBRARIES})
+ # find_package(PNG REQUIRED)  # 注释掉整段
+ # include_directories(${PNG_INCLUDE_DIRS})
+ # target_link_libraries(carla ${PNG_LIBRARIES})

原因：Ubuntu 20.04 默认只装 libpng16-dev ， libpng12-dev 已从官方源移除。CARLA 的 Carla/Util/ImageUtils.cpp 用的是 PNG 1.2 API（ png_init_io ），但 libpng16 兼容层在容器内初始化失败。解决方案是彻底禁用 PNG 依赖，CARLA 实际只用 PNG 读取 UI 图标，而图标在 Carla/Unreal/CarlaUE4/Content/UI/ 下是 .uasset 格式，根本不需要 PNG 解码。

补丁 2：修复 boost::filesystem::current_path() 返回空（ Carla/Source/Carla/Server/CarlaServer.cpp 第 127 行）

- boost::filesystem::current_path();
+ boost::filesystem::current_path("/tmp/carla-workdir");

原因：容器内 getcwd() 系统调用常返回空字符串（因 chroot 或 pivot_root ）， boost::filesystem::current_path() 依赖它。UE4 的 Cooker 进程会在此处崩溃。强制设为 /tmp/carla-workdir （需在 Dockerfile 中 RUN mkdir -p /tmp/carla-workdir ）。

补丁 3：Vulkan Instance 创建超时延长（ Carla/Source/Carla/Client/SceneCapture.cpp 第 89 行）

- vkCreateInstance(&createInfo, nullptr, &instance);
+ for (int i = 0; i < 5; ++i) {
+   VkResult res = vkCreateInstance(&createInfo, nullptr, &instance);
+   if (res == VK_SUCCESS) break;
+   std::this_thread::sleep_for(std::chrono::milliseconds(200));
+ }

原因：容器内 Vulkan ICD（Installable Client Driver）加载慢，首次 vkCreateInstance 常超时。UE4 默认不重试，直接退出。加个 5 次重试，成功率从 63% 提升到 99.8%。

补丁 4：禁用 OpenGL 后备路径（ Carla/Source/Carla/Server/CarlaServer.cpp 第 211 行）

- FString Args = TEXT("-opengl");
+ FString Args = TEXT("-opengl -nullrhi"); // 强制 Null RHI

原因： -opengl 参数在 headless 容器内会尝试初始化 Mesa GL，但 Mesa 依赖 libglx.so ，而 nvidia/cuda:11.8-devel 镜像不含此库。 -nullrhi 让 UE4 渲染管线跳过所有 GPU 初始化，只做 CPU 光栅化（够用，CARLA 传感器数据不依赖实时渲染）。

补丁 5：Python API 路径硬编码修复（ PythonAPI/carla/__init__.py 第 32 行）

- libcarla_path = os.path.join(os.path.dirname(__file__), '..', 'libcarla.so')
+ libcarla_path = '/opt/carla/PythonAPI/carla/libcarla.so'

原因： os.path.dirname(__file__) 在容器内返回 /tmp/pip-build-xxx/carla/ ，而 libcarla.so 实际在 /opt/carla/PythonAPI/carla/ 。相对路径失效，必须绝对路径。

实操心得：打补丁不要用 git apply ，要用 patch -p1 < carla-patch-0.9.15.diff 。 -p1 表示去掉补丁文件第一层路径（如 a/Carla/Source/... ），否则会报 can't find file to patch 。我们曾因少写 -p1 耗掉 4 小时排查。

3.3 Dockerfile 关键参数与陷阱

以下是我们生产环境使用的 Dockerfile 核心片段（已脱敏，保留所有关键参数）：

# builder-base 阶段
FROM nvidia/cuda:11.7.1-devel-ubuntu20.04 AS builder-base

# 必须用 gcc-9，不能用系统默认 gcc-10
RUN apt-get update && apt-get install -y \
    gcc-9 g++-9 \
    && update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-9 90 --slave /usr/bin/g++ g++ /usr/bin/g++-9

# 安装 cmake-3.22（Ubuntu 20.04 源只有 3.16）
RUN wget https://github.com/Kitware/CMake/releases/download/v3.22.2/cmake-3.22.2-linux-x86_64.tar.gz \
    && tar -xzf cmake-3.22.2-linux-x86_64.tar.gz \
    && mv cmake-3.22.2-linux-x86_64 /opt/cmake \
    && ln -sf /opt/cmake/bin/cmake /usr/local/bin/cmake

# ue-builder 阶段
FROM builder-base AS ue-builder
WORKDIR /home/ubuntu/UnrealEngine
# 克隆 UE4.26.2，注意必须用 --depth=1 减少网络传输
RUN git clone --depth=1 -b 4.26.2-release https://github.com/EpicGames/UnrealEngine.git .
# 打 UE 补丁（修复 headless Vulkan）
COPY ue-patch-4.26.2.diff /tmp/
RUN patch -p1 < /tmp/ue-patch-4.26.2.diff

# 关键：设置 UE 编译参数，禁用不需要的模块
ENV UE4_ENGINE_DIR="/home/ubuntu/UnrealEngine"
ENV UE4_BUILD_ARGS="-set:WithDDC=false -set:WithPrecompiled=false -set:WithTests=false"
# 编译时必须指定 -j$(nproc)，否则默认只用 1 核，编译时间翻 8 倍
RUN ./Setup.sh && ./GenerateProjectFiles.sh && make -j$(nproc)

# carla-builder 阶段
FROM ue-builder AS carla-builder
WORKDIR /home/ubuntu
RUN git clone --depth=1 -b 0.9.15 https://github.com/carla-simulator/carla.git
COPY carla-patch-0.9.15.diff /tmp/
# 注意：必须在 carla 目录下打补丁，否则路径不匹配
WORKDIR /home/ubuntu/carla
RUN patch -p1 < /tmp/carla-patch-0.9.15.diff

# 关键：设置 CARLA 编译参数，禁用 OpenGL，增大共享内存
ENV CARLA_BUILD_ARGS="-j$(nproc) -c -l -v"
# 这里必须用 --shm-size=2g，否则 Cooker 内存不足
# 但 Docker build 不支持 --shm-size，所以我们在 docker run 时传
RUN make launch

# runtime 阶段
FROM nvidia/cuda:11.7.1-runtime-ubuntu20.04
# 创建非 root 用户，符合安全最佳实践
RUN groupadd -g 1001 -r carla && useradd -r -u 1001 -g carla carla
USER carla
WORKDIR /opt/carla

# 只 COPY 运行时必需文件，不 COPY 任何源码或 .o 文件
COPY --from=carla-builder /home/ubuntu/carla/PythonAPI /opt/carla/PythonAPI
COPY --from=carla-builder /home/ubuntu/carla/Unreal/CarlaUE4/Binaries/Linux/CarlaUE4-Linux-Shipping /opt/carla/CarlaUE4
COPY --from=carla-builder /home/ubuntu/carla/Unreal/CarlaUE4/Content/Maps/ /opt/carla/Maps/

# 设置环境变量，让 Python 能找到 libcarla.so
ENV LD_LIBRARY_PATH="/opt/carla/PythonAPI/carla/"
ENV PYTHONPATH="/opt/carla/PythonAPI"

# 暴露 CARLA 默认端口
EXPOSE 2000 2001 2002

# 启动脚本，关键：必须用 exec 启动，否则信号无法传递给 UE 进程
COPY entrypoint.sh /opt/carla/entrypoint.sh
RUN chmod +x /opt/carla/entrypoint.sh
ENTRYPOINT ["/opt/carla/entrypoint.sh"]

entrypoint.sh 内容（必须用 exec！）：

#!/bin/bash
# 创建工作目录
mkdir -p /tmp/carla-workdir
# 启动 CarlaUE4，关键参数：-nullrhi -log -carla-server
exec /opt/carla/CarlaUE4 \
    -opengl \
    -nullrhi \
    -carla-server \
    -carla-port=2000 \
    -quality-level=Low \
    -fps=15 \
    -world-port=2001 \
    -benchmark \
    -log

注意事项：

exec 是生死线。不用 exec ， docker stop 发送 SIGTERM 时，bash 进程收到信号但不转发给 CarlaUE4，UE 进程变成僵尸， docker ps 里状态永远是 Up 2 hours ，实际已卡死。
-nullrhi 必须和 -opengl 共存。单独 -nullrhi 会报 RHI module not found ；单独 -opengl 会卡在 GL 初始化。两者组合才是容器内稳定模式。
-benchmark 参数强制 UE4 使用固定帧率（而非 vsync），避免容器内时间戳漂移导致传感器数据乱序。

3.4 构建与运行全流程实录

我们以一台 32 核/128GB 内存的 AWS c5.9xlarge（无 GPU）作为构建机，一台 g5.xlarge（A10 GPU）作为运行机，全程记录：

步骤 1：准备构建机（c5.9xlarge）

# 安装 Docker 24.0.5（必须 >= 20.10，否则 --gpus 不支持）
curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker ubuntu
# 安装 NVIDIA Container Toolkit（虽无 GPU，但需构建时链接 libcudart）
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
   && curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
   && curl -fsSL https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit

步骤 2：克隆并构建镜像（耗时约 52 分钟）

git clone https://github.com/your-org/carla-docker.git
cd carla-docker
# 下载所有补丁文件（已预置在 repo 中）
wget https://gist.githubusercontent.com/your-gist/ue-patch-4.26.2.diff
wget https://gist.githubusercontent.com/your-gist/carla-patch-0.9.15.diff

# 构建（注意：必须指定 --shm-size=2g，否则 Cooker 内存溢出）
docker build \
  --shm-size=2g \
  --build-arg CUDA_VERSION=11.7.1 \
  -t carla-dev:0.9.15-ue4.26-cuda11.7 \
  .

# 推送至私有 Registry
docker tag carla-dev:0.9.15-ue4.26-cuda11.7 your-registry/carla:0.9.15
docker push your-registry/carla:0.9.15

步骤 3：在运行机（g5.xlarge）拉取并启动

# 拉取镜像（约 2.3GB，耗时 3 分钟）
docker pull your-registry/carla:0.9.15

# 启动容器（关键参数详解）：
docker run -d \
  --name carla-server \
  --gpus all \  # 必须，否则无 GPU 加速
  --shm-size=2g \  # 必须，Cooker 需要大共享内存
  --network=host \  # 必须，CARLA Python API 默认连 localhost:2000
  --ulimit memlock=-1 \  # 解除内存锁定限制，否则 UE4 mmap 失败
  --ulimit stack=8388608 \  # 增大栈空间，UE4 线程栈默认 2MB 不够
  -e DISPLAY=:0 \  # 告诉 UE4 使用 X11，但实际走 EGL
  -v /tmp/.X11-unix:/tmp/.X11-unix \  # 挂载 X11 socket
  -v /dev/dri:/dev/dri \  # 挂载 GPU 设备
  your-registry/carla:0.9.15

# 验证启动成功（等待 90 秒，UE4 初始化较慢）
sleep 90
docker logs carla-server 2>&1 | tail -20
# 正常输出应含：LogCarla: Display: Server listening on 0.0.0.0:2000
#                LogCarla: Display: World listening on 0.0.0.0:2001

步骤 4：Python 客户端连接测试（ test_client.py ）

import carla
import time

client = carla.Client('localhost', 2000)
client.set_timeout(10.0)
world = client.get_world()
print(f"Connected to CARLA {world.get_map().name}")

# 加载 Town01 地图
world = client.load_world('Town01')
time.sleep(5)  # 等待地图加载

# 创建一辆车
blueprint_library = world.get_blueprint_library()
vehicle_bp = blueprint_library.filter('vehicle.*')[0]
spawn_point = world.get_map().get_spawn_points()[0]
vehicle = world.spawn_actor(vehicle_bp, spawn_point)

print(f"Spawned vehicle {vehicle.id}")
vehicle.destroy()
print("Test passed.")

运行 python3 test_client.py ，输出 Test passed. 即表示全链路打通。

实操心得：第一次运行 test_client.py 常卡在 client.get_world() ，不是网络问题，而是 UE4 的 Cooker 进程还在后台预加载地图纹理。此时 docker logs carla-server | grep "Cooking" 会看到 Cooking map Town01... 。耐心等 2 分钟，或提前在 entrypoint.sh 里加 -loadmap=Town01 参数预热。

4. 常见问题与排查技巧实录

4.1 典型问题速查表

现象	日志关键词	根本原因	解决方案
`libGL error: unable to load driver: swrast`	`swrast`	容器内未挂载 GPU 设备，fallback 到软件渲染	检查 `docker run --gpus all` 是否漏写； `nvidia-smi` 在容器内是否可见
`Signal 11 caught.`	`Signal 11`	CUDA Runtime 版本与驱动不匹配	`nvidia-smi` 查驱动版本 → 查 NVIDIA 驱动-CUDA 兼容表 → 换基础镜像
`undefined symbol: _ZN5boost10filesystem4pathC1ERKSs`	`undefined symbol` + `boost::filesystem::path`	boost 库版本不匹配，或 `libboost_filesystem.so` 未被 `LD_LIBRARY_PATH` 包含	在 `Dockerfile` 中 `RUN ldconfig -p \| grep boost` 确认库存在； `ENV LD_LIBRARY_PATH="/usr/lib/x86_64-linux-gnu"`
`Cooking map Town01...` 卡住 >10 分钟	`Cooking`	`/dev/shm` 大小不足（默认 64MB），Cooker 内存溢出	`docker run --shm-size=2g` ；或在 `entrypoint.sh` 中