【VMware+K3s极速部署指南】：20分钟完成轻量K8s集群搭建，告别臃肿EKS/AKS（附一键脚本）

原创于 2026-07-01 12:53:18 发布 · 70 阅读

本内容遵循CC 4.0 BY-SA版权协议

更多请点击： https://kaifayun.com

第一章：轻量K8s时代：为什么k3s+VMware是中小团队的最优解

在资源有限、运维人力紧缺的中小团队场景中，传统 Kubernetes 集群的复杂性常成为落地障碍。k3s 以 <50MB 二进制体积、单进程架构、无 etcd 依赖（默认使用 SQLite）等特性，大幅降低部署与维护门槛；而 VMware Workstation 或 vSphere 提供稳定、隔离、可复现的虚拟化环境，天然契合开发测试与边缘部署需求。

快速启动 k3s 虚拟机集群

在 VMware 中创建一台 Ubuntu 22.04 虚拟机后，执行以下命令一键安装 k3s 并启用本地存储与 Traefik：

# 安装 k3s 并禁用 traefik（便于后续自定义 ingress）
curl -sfL https://get.k3s.io | sh -s - --disable traefik

# 启用 kubectl 并配置权限
sudo cp /etc/rancher/k3s/k3s.yaml ~/.kube/config
sudo chown $(id -u):$(id -g) ~/.kube/config

该脚本自动拉取轻量版 k3s server，启动后可通过 kubectl get nodes 验证状态。相比 kubeadm，无需手动初始化证书、配置 CNI 插件或管理 etcd 集群。

核心优势对比

能力维度	k3s + VMware	标准 k8s + bare metal
内存占用	<512MB（单节点）	>2GB（最小推荐）
部署耗时	<90 秒（含 VM 启动）	>15 分钟（含组件编排）
网络模型	Flannel（host-gw 模式，默认启用）	需手动选型与调试（Calico/Cilium）

典型工作流支持

CI/CD 流水线中嵌入 k3s server --write-kubeconfig-mode 644 实现测试集群秒级启停
利用 VMware 快照功能保存集群快照，实现环境版本回滚与故障复现
通过 kubectl apply -f 直接部署 Helm Chart 或原生 YAML，无需额外工具链

第二章：环境准备与VMware基础配置

2.1 VMware Workstation/ESXi资源规划与最小化系统选型

资源分配黄金比例

虚拟化平台性能高度依赖CPU、内存与存储的协同。Workstation推荐按物理核心数的70%分配vCPU，内存预留至少2GB宿主机缓冲。

轻量级OS选型对比

系统	内存占用	适用场景
Alpine Linux 3.20	~65MB	容器化测试节点
Ubuntu Server 22.04 LTS	~380MB	通用开发环境

ESXi最小化部署配置

# 禁用非必要服务以降低内存占用
esxcli system module set --module=vmw_ahci --enabled=false
esxcli system module set --module=usbcore --enabled=false

该配置关闭AHCI控制器与USB子系统驱动，适用于无外设直通需求的纯计算节点，可释放约120MB内存。参数 --enabled=false确保模块在启动时不加载， vmw_ahci仅在SATA直通时必需。

2.2 Ubuntu Server 22.04 LTS虚拟机标准化部署（含网络桥接与静态IP实践）

网络桥接配置要点

在 VMware Workstation 或 VirtualBox 中启用桥接模式，使虚拟机直接接入物理局域网。需确保宿主机网卡处于活动状态，并在虚拟机设置中选择“桥接到：自动”或指定物理网卡。

静态IP配置（Netplan）

# /etc/netplan/00-installer-config.yaml
network:
  version: 2
  renderer: networkd
  ethernets:
    ens33:
      dhcp4: false
      addresses: [192.168.1.100/24]
      gateway4: 192.168.1.1
      nameservers:
        addresses: [8.8.8.8, 114.114.114.114]

该配置禁用 DHCP，为网卡 ens33 分配固定 IPv4 地址与子网掩码，指定默认网关和 DNS 服务器；执行 sudo netplan apply 生效。

关键参数对照表

参数	作用	示例值
addresses	静态IPv4地址及CIDR前缀	192.168.1.100/24
gateway4	IPv4默认路由出口	192.168.1.1

2.3 主机名、SSH密钥、防火墙与SELinux策略预调优

主机名与SSH密钥初始化

统一主机名并禁用密码登录是安全基线的起点。以下脚本批量配置主机名并部署免密SSH：

# 设置静态主机名并重启sshd
hostnamectl set-hostname node-01 --static
systemctl restart sshd

# 生成并分发密钥（仅首次执行）
ssh-keygen -t ed25519 -f /root/.ssh/id_ed25519 -N "" -C "auto-deploy"
ssh-copy-id -i /root/.ssh/id_ed25519.pub root@node-02

该流程确保节点间身份可信，`ed25519` 算法提供更高安全性，`-N ""` 表示无密码保护私钥（适用于受控自动化环境）。

防火墙与SELinux协同策略

需同步调整 `firewalld` 与 SELinux 上下文，避免端口放行但访问被拒绝：

服务	firewalld zone	SELinux type
SSH	public	ssh_port_t
HTTP	public	http_port_t

启用 firewalld 并开放关键端口：firewall-cmd --permanent --add-port=22/tcp && firewall-cmd --reload
验证 SELinux 端口上下文：semanage port -l | grep ssh

2.4 VMware Tools深度集成与性能增强配置（含CPU/Memory Hot Add启用）

VMware Tools核心服务启用

安装后需启用关键服务以激活图形加速、时间同步与剪贴板共享：

# 启用并启动VMware Tools守护进程
sudo systemctl enable vmtoolsd
sudo systemctl start vmtoolsd
# 验证状态
sudo vmware-toolbox-cmd -v

该命令输出版本号并确认服务运行状态； vmtoolsd 是核心守护进程，负责guest OS与hypervisor间指令中继。

CPU与内存热添加配置

需在vSphere客户端中预先启用硬件支持，并在Guest OS中激活：

关闭虚拟机 → 编辑设置 → CPU/内存 → 勾选“Enable hot add”
Linux中启用内核参数：echo 1 > /sys/devices/system/memory/auto_online_blocks

性能对比参考

配置项	默认值	启用Hot Add后
CPU在线扩容延迟	≥30s	<2s（需udev规则优化）
内存动态识别	需重启	秒级自动online

2.5 多节点克隆与快照管理：构建可复现的k3s测试拓扑

基于快照的集群克隆流程

通过 k3s 的 etcd 快照机制，可实现多节点一致状态克隆。首先在控制平面节点生成快照：

sudo k3s etcd snapshot save /var/lib/rancher/k3s/server/db/snapshots/test-topo-$(date +%s).db

该命令触发 etcd 原生快照，保存至指定路径； --name 参数可显式命名， /var/lib/rancher/k3s/server/db/ 是默认数据目录。

快照恢复与节点同步策略

将快照文件分发至目标节点
使用 k3s server --cluster-init --etcd-snapshot-file 启动新节点
所有克隆节点共享同一快照基线，确保拓扑一致性

快照生命周期管理

操作	命令示例	适用场景
列表快照	`k3s etcd snapshot list`	验证快照完整性
清理过期快照	`k3s etcd snapshot prune --keep 3`	防止磁盘溢出

第三章：k3s集群核心部署与高可用演进

3.1 单节点k3s快速启动与systemd服务固化（含kubectl自动配置）

一键安装与轻量启动

curl -sfL https://get.k3s.io | K3S_URL=https://localhost:6443 K3S_TOKEN=mytoken sh -s - server --disable traefik --write-kubeconfig-mode 644

该命令拉取并执行k3s安装脚本，`--disable traefik`跳过内置Ingress控制器以减少资源占用，`--write-kubeconfig-mode 644`确保生成的kubeconfig可被普通用户读取。

systemd服务固化

安装后k3s自动注册为systemd服务（k3s.service）
通过sudo systemctl enable k3s实现开机自启
kubeconfig路径固定为/etc/rancher/k3s/k3s.yaml

kubectl无缝集成

配置项	说明
KUBECONFIG	指向`/etc/rancher/k3s/k3s.yaml`
context	默认使用`default`上下文，无需额外切换

3.2 多节点Server-Agent模式部署：证书信任链与etcd替代方案解析

证书信任链构建要点

在多节点部署中，Server 与各 Agent 必须共享根 CA 并签发双向 TLS 证书。核心在于确保 `CN` 和 `SAN` 字段覆盖所有节点 IP 及 DNS 名称。

轻量级 etcd 替代方案对比

方案	一致性模型	嵌入式支持	适用场景
Boltdb（仅单节点）	无	✅	开发/测试
Raft KV（如 HashiCorp Raft）	强一致	✅	中小规模生产
SQLite + WAL + FUSE 同步	最终一致	✅	边缘集群

Agent 端证书校验逻辑示例

func verifyServerCert(cert *x509.Certificate, caPool *x509.CertPool) error {
    opts := x509.VerifyOptions{
        Roots:         caPool,
        CurrentTime:   time.Now(),
        DNSName:       "server.cluster.local", // 必须匹配 SAN
        KeyUsages:     []x509.ExtKeyUsage{x509.ExtKeyUsageServerAuth},
    }
    _, err := cert.Verify(opts)
    return err
}

该函数强制校验服务器证书是否由可信 CA 签发、是否在有效期内、是否包含指定 DNS 主机名及服务用途，防止中间人劫持。

3.3 基于Nginx Ingress Controller的L7流量调度实战（含TLS终止配置）

TLS终止工作流

客户端 → HTTPS请求 → Nginx Ingress（解密）→ HTTP后端服务

关键Ingress资源配置

apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  name: tls-ingress
  annotations:
    nginx.ingress.kubernetes.io/ssl-redirect: "true"
spec:
  tls:
  - hosts:
      - app.example.com
    secretName: app-tls-secret  # 引用k8s Secret中的证书
  rules:
  - host: app.example.com
    http:
      paths:
      - path: /
        pathType: Prefix
        backend:
          service:
            name: web-svc
            port:
              number: 80

该配置启用SNI识别与证书卸载：`secretName` 必须指向包含 `tls.crt` 和 `tls.key` 的Secret；`ssl-redirect: "true"` 强制HTTP→HTTPS跳转。

证书注入验证方式

检查Secret内容：kubectl get secret app-tls-secret -o yaml
确认Ingress状态：kubectl describe ingress tls-ingress

第四章：生产就绪增强与运维自动化

4.1 Helm 3集成与Traefik v2.9+应用网关一键部署

Helm 3无Tiller架构优势

Helm 3移除了服务端组件Tiller，采用客户端直连Kubernetes API，显著提升安全性和权限隔离能力。RBAC策略可精确控制Chart部署范围。

Traefik v2.9+关键特性

原生支持HTTPRoute、TLSRoute等Gateway API标准
动态配置热重载，无需重启Pod
内置Dashboard与Prometheus指标暴露

一键部署命令

# 添加官方Helm仓库并部署Traefik
helm repo add traefik https://helm.traefik.io/traefik
helm repo update
helm install traefik traefik/traefik \
  --version 24.2.0 \
  --namespace kube-system \
  --create-namespace \
  -f values.yaml

该命令指定v24.2.0（对应Traefik v2.9.16），启用命名空间自动创建，并通过 values.yaml注入自定义IngressRoute及TLS策略。

核心配置参数对照表

参数	默认值	说明
providers.kubernetesCRD	true	启用Kubernetes CRD动态发现
ports.websecure.tls	false	是否为443端口启用TLS终止

4.2 Longhorn本地存储类配置与PV/PVC动态供给验证

定义StorageClass触发动态供给

apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
  name: longhorn
provisioner: driver.longhorn.io
allowVolumeExpansion: true
parameters:
  numberOfReplicas: "3"        # 副本数，保障高可用
  staleReplicaTimeout: "28800" # 闲置副本超时（秒）

该配置启用Longhorn驱动的动态卷供给能力， numberOfReplicas决定数据冗余级别， staleReplicaTimeout防止异常节点残留副本影响调度。

验证PVC绑定状态

创建PVC并观察其Pending → Bound状态跃迁
检查对应PV是否自动创建且storageClassName匹配
确认Pod挂载后，ls /mnt/data可见持久化路径

关键字段对照表

字段	含义	典型值
reclaimPolicy	回收策略	Delete
volumeBindingMode	绑定时机	Immediate

4.3 Prometheus Operator监控栈部署（含k3s自定义指标采集）

Operator核心组件安装

kubectl apply -f https://raw.githubusercontent.com/prometheus-operator/kube-prometheus/main/manifests/setup/
kubectl apply -f https://raw.githubusercontent.com/prometheus-operator/kube-prometheus/main/manifests/

该命令依次部署CRD、ServiceAccount、RBAC及Prometheus Operator本身；注意需先确保k3s集群已启用`--disable=traefik`以避免端口冲突。

k3s自定义指标适配

启用k3s内置metrics-server：通过`--kube-apiserver-arg=enable-aggregation=true`启动参数开启聚合层
部署PrometheusRule资源，关联`k3s_custom_metrics`命名空间下的ServiceMonitor

关键配置对比

组件	k3s默认指标路径	Operator采集路径
node-exporter	`/metrics`	`/metrics?collect[]=cpu&collect[]=meminfo`
k3s-agent	`/v1/metrics`	`/metrics`（需ServiceMonitor重写path）

4.4 基于Ansible+Shell的一键脚本设计原理与安全加固实践

设计分层架构

采用“Ansible驱动层 + Shell执行层 + 安全策略层”三级解耦结构，确保配置声明性与操作原子性统一。

核心加固逻辑

#!/bin/bash
# 安全上下文校验：仅允许root且禁用交互式TTY
[ "$(id -u)" -ne 0 ] && { echo "ERROR: Root required"; exit 1; }
[ -t 0 ] && { echo "ERROR: Interactive TTY prohibited"; exit 1; }
# 临时目录隔离
TMP_DIR=$(mktemp -d -p /var/tmp ansible_XXXXXX)
chmod 700 "$TMP_DIR"

该脚本强制运行权限与环境约束，防止提权滥用；临时目录使用 mktemp生成唯一路径并设置严格权限（700），避免竞态写入。

加固项对照表

加固维度	Ansible实现	Shell补充
SSH密钥轮换	`authorized_key`模块	自动清理过期`~/.ssh/known_hosts`条目
日志审计增强	`lineinfile`配置`auditd`	校验`/etc/audit/rules.d/`文件完整性

第五章：附录：完整可执行脚本与故障排查速查表

一键部署监控脚本（Bash）

#!/bin/bash
# 检查 Prometheus Node Exporter 是否运行
if ! pgrep -x "node_exporter" > /dev/null; then
  echo "⚠️ node_exporter 未运行，尝试启动..."
  nohup /opt/prometheus/node_exporter --web.listen-address=":9100" &
  sleep 2
fi
# 验证端口监听状态
curl -sf http://localhost:9100/metrics > /dev/null || echo "❌ 端口 9100 不可达"

常见故障现象与定位步骤

指标采集中断 → 检查 target 状态页（/targets）中 scrape 状态是否为 DOWN
告警未触发 → 核实 Alertmanager 配置中 route 匹配器与 label 一致性
查询超时 → 执行 promtool check rules /etc/prometheus/alert.rules 验证规则语法

关键组件健康检查对照表

组件	检查命令	预期输出	异常响应
Prometheus	`curl -s http://localhost:9090/-/readyz`	`ok`	`unavailable` 或 HTTP 503
Grafana	`systemctl is-active grafana-server`	`active`	`inactive` 或 `failed`

网络连通性验证流程图

目标主机 → Node Exporter (9100) → Prometheus (9090) → Grafana (3000)

每跳执行：telnet $HOST $PORT 或 nc -zv $HOST $PORT

若失败，检查 iptables/firewalld 规则及 SELinux 上下文（ls -Z /usr/bin/node_exporter）