图像生成技术演进史：从 GAN 到 Diffusion 再到 Sora

最新推荐文章于 2026-03-03 00:10:52 发布

原创

最新推荐文章于 2026-03-03 00:10:52 发布 · 1.1k 阅读

收录于

当前文章被以下社区和专栏收录：

这篇文章带你坐上 AI 图像生成的时光机，穿越三代主流技术，从 GAN 的对抗艺术，到扩散模型的细腻光影，再到如今横空出世的视频生成模型 Sora，我们来一探图像生成背后的进化逻辑和技术魔法。

🌀 第一代：GAN——生成的艺术对抗者

2014 年，Ian Goodfellow 提出了 GAN（Generative Adversarial Network），像是搞了个“真假对抗赛”：一个 Generator 负责“编造”图像，一个 Discriminator 负责“抓谎”，两个神经网络互相掐架，一路把“假图”骗成“真图”。

原理图：

flowchart LR
    A[随机噪声 z] --> B[生成器 G]
    B --> C[生成图像]
    C --> D[判别器 D]
    D --> E[判断真假]
    E -->|真假反馈| B

代表模型：

DCGAN（2015）：最早生成清晰图像的 GAN。
StyleGAN（2018）：会“审美”的 GAN，能生成高度真实的人脸图像。
BigGAN（2018）：Google 出品，大参数量提升图像细节。

优点：

训练快、生成速度高。
风格可控（尤其 StyleGAN）。

缺点：

易崩、难调、mode collapse（生成内容缺乏多样性）是常态。
无法明确“逐步生成”的过程。

💨 第二代：扩散模型 Diffusion——逐步还原的艺术

扩散模型就像“

标签

#人工智能 #生成对抗网络 #深度学习

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

安东尼与AI

关注关注

23
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

从GAN到扩散模型-AIGC图像生成技术的发展与挑战【附代码实战】

一键难忘的博客

03-22

2722

AIGC图像生成模型是指利用人工智能技术，尤其是深度学习，通过训练模型从输入的文本、噪声或者其他数据生成视觉内容。此类模型可以生成具有高度逼真度的图像、插图、艺术作品等。图像生成技术的核心技术通常包括生成对抗网络（GAN）、变分自编码器（VAE）、扩散模型（Diffusion Models）等。

从VAE到DDPM：图解扩散模型如何革新图像生成（技术演进史视角）

star5的专栏

02-26

209

本文从技术演进史视角，系统梳理了从VAE、GAN到去噪扩散概率模型（DDPM）的发展脉络。DDPM通过前向加噪与反向去噪的数学框架，以牺牲采样速度为代价，完美解决了GAN的训练不稳定与VAE的图像模糊问题，实现了生成质量与训练稳定性的统一，成为当前图像生成领域的新范式。

参与评论您还未登录，请先登录后发表或查看评论

GAN十年演进

jzwspace的专栏

02-09

770

GAN十年演进：从模糊数字到实时交互（2014-2025） 生成对抗网络（GAN）历经三大技术纪元：2014-2017年的结构探索期，解决了训练不稳定问题；2018-2021年实现照片级生成，StyleGAN系列主导人脸生成；2025年进入融合扩散模型、内核级审计的新阶段。关键突破包括：分辨率从64x64提升至4K，生成速度达亚毫秒级，通过eBPF实现内容溯源，并与NeRF结合生成3D内容。GAN已从学术概念发展为具备安全管控能力的视觉生产基础设施，完成从"猫狗不分"到"重塑现

从GAN到Sora：生成式AI在图像与视频领域的技术演进全景

极客BIM工作室

11-29

1553

生成式人工智能（AIGC）正在重塑我们对“内容创作”的认知，而图像与视频生成技术的演进，堪称这场革命的核心战场。今天，我们就通过一张时间线图，带你穿越生成式AI在图像、视频领域的技术长河，从早期实验到Sora的里程碑突破，看懂每一步迭代的价值与意义。

【论文目录】2013-2024年AI图像生成技术30篇+经典论文—— 图像生成Diffusion模型演化进程——扩散or自回归？

进一寸有一寸的欢喜

01-20

2654

从2013-2024 图像生成，文生图经典论文目录

Sora学习（一）：Sora技术路径整体认知

Ford程的博客

03-02

1894

截止到2024年3月2日，Sora还未完全开放使用，只有内测，现有的中文互联网中所谓“带你玩转Sora”的AI付费课程都是纯纯割韭菜；Sora文生视频模型可谓是之前许多模型的集大成者，虽然没有公开太多技术细节，但我们可以学习到Sora背后所涉及的一系列模型架构和训练方法（如Transformor, Diffusion模型等）；要训练一个多模态大模型（LMM），海量训练数据 + 优秀模型架构 + 算力资源都缺一不可，其中算力限制对中国公司发展人工智能提出了挑战；

AIGC视频生成模型原理解析与实战：从Stable Diffusion到Sora的技术演进

2600_94960082的博客

01-24

754

基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说，这是个绝佳的练手项目。架构理解：掌握实时语音应用的完整技术链路（ASR→LLM→TTS）技能提升：学会申请、配置与调用火山引擎AI服务定制能力：通过代码修改自定义角色性格与音色，实现“从使用到创造”从0到1构建生产级别应用，脱离Demo，点击打开。

SORA 2.1 ——Stable diffusion技术解析+基于diffusion的视频生成技术介绍

HUSKY_zzh的博客

03-09

1777

AlGC （不是ACGN）即 Al-Generated Content，人工智能生产内容，是利用Al来自动生产内容的生产方式。AIGC技术可以基于用户的输入或自动生成内容，无需或仅需很少的人工干预。这种技术的发展极大地推动了内容创作的自动化和个性化，为各种行业和应用提供了新的可能性。文生图的发展历程特性 / 模型生成对抗网络（GAN）自回归模型扩散模型Transformers的扩散模型优点生成高质量、逼真图像生成过程可控，稳定能生成高质量图像；较强的理论基础。

紧随 Sora，Stable Diffusion 3 开启文生图技术新篇章

2301_80239908的博客

11-29

857

在人工智能领域，图像生成技术一直是研究的热点。随着深度学习技术的飞速发展，生成对抗网络（GANs）和变分自编码器（VAEs）等模型已经能够创造出令人惊叹的图像。然而，这些技术在处理复杂文本提示和多主题图像生成方面仍存在局限性。

51-28 Sora 文生视频背后的核心技术

AIgraphX

02-26

1674

本文沿着Transformer、ViT、CLIP、DALLE、DiT模型，介绍了Sora背后的核心技术，并延展性的介绍了视频理解、多模态大模型、论文复现和微调等内容。

Sora模型的原理和架构初探

qq_33240556的博客

02-24

557

这节课我们对AIGC的过去和现在进行了一个简短的综述，而Sora的推出，标志着继图像生成之后，视频生成模型正在进入一个新的发展阶段。从技术源流的角度来看，Sora和扩散模型和我们耳熟能详的Transformer两大突破性技术相关。它结合了扩散模型和Transformer技术，以高效处理多种视觉数据，并在视频生成领域实现了显著的创新。随着模型规模的持续扩大，视频生成模型有望成为“通用目的的物理世界模拟器”。这在Sora身上已初见端倪。Sora可以较好地保持生成视频的时空连贯性，使物体的运动轨迹符合常识；

DataWhale公开课笔记2：Diffusion Model和Transformer Diffusion

ove_z的博客

03-09

2145

datawhale学习笔记2

从Stable Diffusion到Sora：一文看懂生成式AI如何进化出‘时空想象力’

weixin_29229261的博客

02-21

269

本文深入剖析了生成式AI从Stable Diffusion到Sora的进化之路，揭示了其如何从静态图像生成跨越到动态视频创作，炼就‘时空想象力’。核心在于Diffusion Transformer架构与时空潜码片段等技术的结合，使AI能理解并生成连贯的时空序列，标志着大型视觉模型在理解与模拟物理世界方面迈出了关键一步。

AI视频技术Sora的全面解析

ms44的专栏

11-19

1028

最近AI圈内乃至整个科技圈最爆的新闻莫过于OpenAI的Sora了，感觉热度甚至远超之前ChatGPT发布时的热度。OpenAI也是放出了Sora的技术报告（有一定的信息量，也留下了大量的想象空间）。技术报告传送门： https://openai.com/research/video-generation-models-as-world-simulators无论是文生图还是文生视频，很多这方面的工作其实都可以看成是自编码器的进阶版本，让我们从自编码器开始入手。自编码器由编码器和解码器两个部分构成。

从Stable Diffusion到Sora：一文读懂文本生成视频的技术演进

weixin_29062613的博客

02-26

433

本文系统梳理了从Stable Diffusion到Sora的文本生成视频技术演进。核心在于Diffusion Transformer架构与时空潜在补丁等关键创新，它们将视频压缩为低维表示并统一处理时空信息，实现了从静态图像到连贯动态叙事的范式跃迁。文章深入探讨了其工程实现、提示工程技巧及当前面临的物理理解等挑战。

深度揭秘 Sora 关键技术：时空补丁如何变成OpenAI 的新“魔法”

richerg85的专栏

02-25

1160

它能够重建像《我的世界》这样的数字世界，它的训练集中可能还包括来自虚幻或 Unity 等系统的游戏玩法和模拟世界画面，以便捕捉所有角度和各种风格的视频内容。Sora 的原料（数据）和技术（模型架构）的灵活性使它能够制作各种高质量的视频，就像多才多艺的大厨的烹饪作品一样。在快速发展的生成式 AI 模型领域，OpenAI 的 Sora 已经成为了一座重要的里程碑，有望重塑我们对视频生成的理解和能力。现有的视频模型传统上是基于更严格的数据集、更短的长度和更窄的目标来训练的。一只猫叫醒熟睡的主人，要求吃早餐。

从Stable Diffusion到Sora：AI视频生成的演进与未来趋势