通过AI驱动合成数据集生成弥合智能城市网络安全数据鸿沟

原创于 2026-06-30 08:49:30 发布 · 64 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #web安全 #安全

大家读完觉得有帮助记得关注和点赞！！！

摘要——智能城市依赖于互联的赛博物理系统，这些系统集成了传感器、物联网设备、云平台以及AI驱动的服务和决策。虽然这些系统提升了城市服务，但由于其庞大的攻击面、异构数据流和不断演变的威胁向量，它们也引入了复杂的网络安全挑战。为智能城市开发和验证网络安全工具需要高质量的数据集，这些数据集能够准确代表真实的运行条件。然而，现实世界的数据集往往不完整、包含隐私敏感数据、难以获取，或缺乏足够的恶意活动来支持工具开发。本研究通过提出一个专为智能城市网络安全研究设计的基于AI的合成数据生成（SDG）框架来解决这一关键差距。该框架利用生成式人工智能模型生成高保真度的合成网络安全数据集，复制真实的设备行为、网络交互和网络攻击场景。合成数据集将根据协议标准符合性、与原始数据集的统计相似性以及在常见安全工具中的实用性进行评估。由此产生的合成数据生成框架和评估指标有望通过使研究人员能够更有效地建模威胁，并更全面地评估防御技术以更好地保护关键智能城市基础设施，从而推动智能城市网络安全的发展。

关键词——智能城市网络安全，工业物联网（IIoT），网络安全数据集，数据稀缺，合成数据生成，生成式AI

I. 引言

智能城市是一个快速增长的技术领域，其中信息与通信技术、边缘计算、AI/ML等学科相结合，以数字化和增强城市服务及社区安全。多种复杂技术的融合、部分服务的赛博物理性质，以及为实现智能城市服务而收集和处理的海量数据，共同创造了独特的网络安全和隐私挑战。

2024年美国智能城市技术的市场规模超过90亿美元[1]。然而，即使该领域快速增长，且围绕实现智能城市的技术融合的讨论日益增多，要准确界定智能城市的含义仍然困难。国际电联将智能城市定义为“一个创新城市，它利用信息与通信技术（ICT）和其他手段提高生活质量、城市运营和服务的效率及竞争力，同时确保满足当代和后代在经济、社会、环境及文化方面的需求”[2]。其他人则将智能城市定义为在城市传统基础设施中安装数字接口，或通过使用技术及其产生的数据来优化城市服务并为市民提供更好的生活质量，从而简化城市运营[3]。

虽然很难精确定义什么是智能城市，但很明显，智能城市依赖于技术、政府和人文层面的交汇，解决方案才能成功。在技术上，智能城市需要集成传感器、网络和数据分析以实现成功运营。这些进一步由电信基础设施、IT网络、现有城市基础设施系统以及自动化和建筑控制的复杂生态系统提供动力。[4]强调了以下作为智能城市使能技术的领域：网络和通信技术，如低功耗广域网（LPWAN）和蜂窝物联网（IoT）网络；赛博物理和IoT系统日益普及以改善城市服务的感知和驱动；云和边缘计算以处理大量数据和所需计算周期；开放数据政策以允许第三方分析城市，从而改进和创造新的城市服务；数据分析以提供可提高效率的洞察；最后是公民参与，因为没有公民的参与和利用改善的城市服务，智能城市就无法运作。

当将智能城市的驱动技术（所有技术本身都有网络安全问题）与交通、电力、水务、医疗和公共安全等基本城市服务相结合时，必然会出现复杂的网络安全问题需要解决。[5]提出了智能城市的四大网络安全挑战：复杂攻击、软件产品漏洞、脆弱性和立法问题。数据泄露、来自智能城市政府维护者或运营技术的供应商的内部威胁、拒绝服务攻击、开放数据滥用以及其他恶意攻击等形式的安全威胁可能拒绝、中断或降低基本城市服务。在智能城市方面不乏需要研究和缓解的网络威胁，但由于智能城市复杂的互联性质、处理的大量数据以及获取现实世界系统和数据的困难，进入该领域可能具有挑战性。

在初步研究中，进行了关于智能城市网络安全和隐私当前研究的调查，重点是探索智能城市技术的已知漏洞、检查智能城市的韧性、识别旨在确保智能城市网络安全的现有指南和框架，以及检查智能城市收集和处理的大量数据带来的数据隐私问题。这项研究的结论是，智能城市网络安全问题的当前研究状况可以被描述为研究质量较差，部分原因是缺乏可用的现实世界数据和测试工具。

还进行了进一步的初步研究，以检查现有智能城市数据集的当前状态。该领域的现有学术研究侧重于描述可用数据集及其中的数据可用类型。我们采用了一种新方法来量化数据集的特征，包括诸如规模、格式、数据类型、领域、更新频率等指标。虽然这对理解可用数据集及其潜在用途很有价值，但一个显著的发现是，大多数公开可用的智能城市数据集与网络安全研究中常用的数据集不同，后者通常包含针对特定安全事件或事件进行处理和整理的数据。相反，所检查的智能城市数据集在性质上更具运营性，涵盖广泛的城市指标，且通常完全由原始数据和测量值组成。使用这些数据进行有效的网络安全研究可能具有挑战性。

II. 问题陈述

基于上述发现，本研究要解决的问题是：网络安全研究人员既缺乏可用的现实世界数据，而且现有数据集也不包含网络安全数据集中通常存在的数据类型。智能城市技术的部署者和维护者由于希望保护其基础设施的安全和隐私，不太可能愿意共享现实世界的数据集。创建一种生成可自由共享的代表性数据的技术将使未来的研究人员能够推进智能城市网络安全领域的发展。

本研究旨在通过为智能城市生成合成数据来弥合智能城市网络安全数据集可用性的差距，以创建可供未来网络安全研究人员使用或用于测试智能城市安全工具的训练数据。为实现这一目标，还需要从根本上理解什么构成智能城市网络安全数据集，检查现有的合成数据生成方法，开发确定成功合成数据集生成的评估技术，并创建一种将已知恶意活动引入数据集的方法。

III. 研究问题

这些目标将通过以下研究问题来实现：

RQ1：智能城市网络安全数据集的哪些属性对未来的研究和工具开发最有意义？

初步研究任务是定义什么构成这样的数据集。什么样的数据类型、特征和其他特性应存在于这样的数据集中，以使其有意义的用途？

还需要开展工作来确定智能城市技术的最小特征，这些特征需要包含在合成数据中，以确保准确表示现实世界的数据集。

RQ2：生成式AI能否用于创建具有代表性的合成智能城市数据集？

这个研究问题还需要两条工作线。第一是探索现有的AI/ML技术以生成代表性数据，并评估每种技术在智能城市用例中的可行性。现有的合成数据生成（SDG）方法将用于创建样本合成智能城市网络安全数据集。

一旦生成合成数据集，还需要进行分析以确保它们准确代表现实世界的数据，并且对网络安全研究人员有意义。本研究将开发评估合成数据集的可靠性和准确性的方法。

RQ3：能否通过合成数据生成准确创建真实的攻击场景？

最后，在手中拥有已被确定为与真实数据相比具有代表性和准确性的已知合成数据集后，最后一个研究问题是能否将恶意行为和/或攻击场景引入SDG过程。这是必需的，因为没有已知的恶意数据，安全工具就无法被可靠地训练或信任。

IV. 相关工作

本节调查智能城市数据资源的当前状态以及SDG在解决可用性、真实性和安全相关性方面的持续差距中的新兴作用。它首先检查现有智能城市数据集的特征、局限性和挑战。然后，本节将过渡到SDG技术在智能城市网络中或与之相邻的技术和应用。将介绍评估合成数据的保真度、实用性和协议正确性的现有技术。本节最后讨论智能城市数据资源和SDG方法论的差距。

A. 智能城市网络安全数据集

处理智能城市数据的一个主要挑战是在管理其多样特征的同时确保数据质量。正如[6]所指出的，传感器数据通常以多种格式出现，需要能够处理大规模、异构输入的系统。收集数据本身也可能很困难，因为传感器通常资源受限，网络基础设施可能不足以将高容量数据传输到中央存储库。[7]进一步强调了诸如采样率和聚合级别的异构性等挑战——例如，实时交通数据与月度污染测量数据。

智能城市部署在关注点上也各不相同，使得难以概括模式或设计服务于多个城市的平台。不同传感器的数据格式差异很大（如音频、视频、文本、原始遥测），而智能城市应用的跨学科性质需要计算机科学、统计学、交通和城市规划等领域的专业知识。由于传感器的分布式性质和维护大规模、地理分散系统的复杂性，确保数据完整性、完整性和及时性仍然很困难。

1）现有数据集：本研究中的智能城市数据集分为两类：运营数据集和网络安全数据集。运营数据集捕获城市服务的测量数据——如能源使用、交通流量、环境条件、废物管理和公民参与——主要用于提高服务效率和城市规划。相比之下，网络安全数据集包含网络流量日志、入侵检测输出以及真实或模拟的攻击痕迹，支持针对智能城市基础设施的恶意活动的检测和分析。

有几篇现有论文记录了过去和现在的智能城市数据集。也许在这方面最广泛的方法是[7]，列出了14个智能城市，并在交通、应急与公共安全、能源、环境和社会感知领域提供了可用数据集。在手动审查这些现实世界数据集中的每一个后，现有格式似乎都只包含运营数据，而不是与网络安全研究相关的数据。

当专门查看网络安全数据集时，有几个实验室生成的选项可以作为起点。在过去几年中，为IoT和工业物联网（IIoT）研究创建数据集付出了大量努力。虽然这些并非直接针对智能城市应用，但这些数据集包含的设备、协议、技术和部署方法通常存在于运行智能城市服务的各个系统中。例如，Edge-IIoTSet [8]包含来自工业系统的IIoT设备和协议。这在定义智能城市网络安全数据集应包含的内容以及为智能城市的各个组件构建代表性流量方面可能很有用。此外，其中一些数据集还包括已知的恶意行为，这可能有助于在合成数据集中生成已知的恶意行为。表I总结了可用的实验室创建的IoT/IIoT网络安全数据集。

B. 合成数据生成

合成数据是“通过算法、生成模型或模拟人工生成的数据，模仿现实世界数据的特征和模式”，而不是由人类或现实世界系统直接创建[14]。在网络安全领域，合成数据提供了一种受控的方式来建模正常活动、模拟攻击和规模化测试防御工具，使其成为在高质量、带标签数据集不可用时推进入侵检测、异常检测和其他网络安全研究领域的日益增长的能力。合成数据的创建和使用使研究人员能够克服与稀缺、专有或隐私受限数据集相关的限制，所有这些都是在智能城市和IoT网络中尤为突出的挑战。

1）当前方法： [15]对SDG技术进行了系统文献综述，将其分为四个主要组别：基于GAN的、基于机器学习的、基于统计的和基于核的方法。类似地，[16]汇编了SDG方法的全面概述，特别强调统计技术。总的来说，这些工作为理解SDG中使用的主要方法提供了结构化的基础。

其中，生成对抗网络（GAN）已成为最突出的方法，利用生成器和判别器之间的对抗训练来产生逼真的合成数据。自2014年引入以来，GAN已演变为众多变体以解决训练稳定性、隐私和领域特异性等挑战。例子包括用于改进训练稳定性的WGAN、用于纳入差分隐私的DPGAN，以及使用卷积架构进行层次化特征学习的DCGAN。它们的灵活性和建模复杂高维数据分布的能力使GAN在各领域得到广泛采用。

相比之下，基于机器学习的技术依赖传统算法，如决策树、支持向量机和集成方法来学习模式并生成合成数据，通常优先考虑生成过程的解释性和控制性。统计方法，包括高斯混合模型、贝叶斯网络和Copula，通过从估计的概率分布中采样生成合成数据，保留均值、方差和相关性等关键统计属性，同时提供简单性和坚实的理论基础。最后，基于核的方法利用相似度函数（如核密度估计）来捕获非线性关系和局部数据结构，使生成的合成样本能够非常接近原始数据分布。虽然不如GAN或统计方法常用，但基于核的方法提供细粒度控制，在需要精细处理变异性和隐私的场景中特别有价值。这些SDG技术共同代表了多样化的方法论集合，每种方法根据应用领域和数据特征具有不同的优势和权衡。

2）SDG在网络安全中的当前应用：最近的研究表明，SDG在各领域解决网络安全挑战的应用日益增多。例如，[17]提出了一个GAN启发的框架，与快速梯度符号法（FGSM）集成，使用DNP3协议为分布式能源（DER）网络中的异常检测生成对抗性合成数据集。这种方法有效缓解了数据不平衡问题，并提高了监督学习模型中的分类性能，优于SMOTE和随机欠采样等传统技术。类似地，[18]探索了SDG以解决过程挖掘中的数据稀缺问题，评估了基于LSTM和GAN的模型。他们的发现突显了方法之间的权衡：LSTM提供更高保真度的数据再现，而GAN增强鲁棒性和变异性，展示了SDG在有限数据条件下提高机器学习性能的价值。

其他研究侧重于扩展SDG能力以处理复杂和异构的数据环境。[19]引入了一个用于生成混合类型数据集的模块化流水线，将用于结构化数据的基于GAN的模型与用于非结构化文本的隐私感知大语言模型（LLM）相结合，并通过命名实体识别（NER）增强以改善上下文保真度。这项工作强调了隐私保护SDG在现实应用中的重要性。此外，[20]的早期工作在智能家居环境中展示了SDG的统计方法，使用Apriori算法和马尔可夫链等技术来建模用户行为并生成逼真的服务交互数据。这些应用共同说明了SDG在网络安全中使用的广度，涵盖对抗性数据生成、隐私保护流水线和行为建模，同时突显了不同技术对领域特定挑战的适应性。

3）用于网络流量的合成数据生成：网络流量SDG的最新进展侧重于通过捕获时间动态、协议行为和网络实体之间的交互来提高真实感。[21]引入了SPATGAN，一个多智能体GAN框架，使用独立的生成器分别处理时序和数据包特征来建模双向客户端-服务器交互，从而更准确地表示请求-响应行为。类似地，IoTGemini [22]采用两阶段方法，结合设备级行为建模和数据包序列GAN，以同时保留每数据包属性和序列依赖关系。这些方法在分布相似性和下游任务性能（如入侵检测和异常检测）方面表现出显著改进，突显了建模网络流量结构和时间特征的重要性。

其他研究探索了用于合成流量生成的替代架构和领域特定适应。[23]提出了一个条件GAN框架，用于在非地面IoT环境中生成网络流数据，集成嵌入技术以捕获流属性和应用行为之间的关系。相比之下，[24]证明贝叶斯网络在保留协议语义、特征依赖性和整体数据真实性方面可以优于基于GAN的方法，强调了基于数据特征和用例进行模型选择的重要性。

最后，SDG已被扩展以支持网络安全特定目标，如异常检测和攻击生成。[25]开发了一个合成WiFi流量生成器，与可解释的异常检测流水线集成，实现了具有可控异常的隐私保护实验。同样，[26]引入了DGIDS，一个半合成框架，结合真实的良性流量和GAN生成的攻击数据，以产生高质量带标签数据集。他们的结果显示入侵检测性能显著提升，展示了将真实攻击场景纳入合成数据的价值。总的来说，这些方法突显了SDG向更真实、可扩展和应用驱动的网络安全研究网络流量生成的演变。

C. 评估合成数据

1）准确性与代表性：评估合成数据的准确性和代表性对于确保生成的数据集忠实反映原始数据的统计属性、关系和实际效用至关重要。这种评估通常检查合成数据在多大程度上保留了分布、相关性和任务特定性能，同时平衡隐私风险。表II总结了广泛使用的开源合成数据评估框架和工具，突出了它们的主要关注领域、评估维度、优势和局限性。

2）确定成功的基准：评估合成数据准确性的指标越来越关注生成样本是否保留了它们旨在替代的真实数据的统计结构、时间行为和关系模式。传统的度量如逐列相似度评分和相关性保留捕获了个别特征或分布的对齐程度，但通常忽略了在网络系统中重要的联合动态。为克服这一限制，[21]引入了Fr´echet流量距离（FTD），它在多维特征空间中比较真实和合成网络流量。通过将两个数据集建模为高斯分布并计算其统计属性之间的Fr´echet距离，FTD捕获了分布保真度和时间结构，使其特别适合网络模拟和异常检测等应用。

在此基础上，更全面的评估框架采用多维方法来评估合成数据质量。[32]提出了指标的组合——包括Fr´echet起始距离（FID）、Wasserstein距离、特征一致性、模式保留和精确率/召回率——以评估分布、结构和行为保真度。类似地，[33]提出了一个分层评估流水线，将保真度、效用和计算可行性分开。他们的方法首先使用统计比较指标验证结构完整性，然后通过入侵检测性能评估下游效用，确保高模型准确性不掩盖底层数据失真。总的来说，这些方法标志着向集成评估框架的转变，平衡了合成网络安全数据中的真实性、实际效用和可扩展性。

D. 差距

尽管在智能城市数据和SDG领域的研究日益增多，几个关键差距仍在限制智能城市网络安全的进展。首先，大多数公开可用的智能城市数据集是运营性的而非安全导向的，强调交通、能源或环境监测等领域，同时提供很少的带标签攻击数据、网络踪迹或系统级安全事件。同时，现有的网络安全数据集通常来自IoT或IIoT测试平台，未能捕捉真实智能城市环境的规模、异构性和互联性。这种脱节使得开发和验证反映真实智能城市条件的网络安全工具变得困难。

其次，尽管SDG技术如GAN、统计模型和基于机器学习的生成器已快速发展，它们在智能城市环境中的应用仍然有限且碎片化。当前方法往往侧重于孤立领域，如智能电网或企业网络，而非智能城市的多领域复杂性。因此，很少有框架能够生成集成多协议和多格式网络安全数据，同时保留真实设备行为、网络交互和跨领域依赖关系的合成数据。

最后，SDG领域缺乏评估输出的标准化基准。现有指标捕获分布相似性或基于任务的效用等方面，但往往忽视时间动态、协议符合性和攻击真实性。已有努力对单个数据集、算法或应用进行基准测试，但在确定合成数据集在已建立的评估因素上是否成功方面缺乏通用阈值，使得难以一致地比较方法或验证结果。

V. 方法论

本节介绍用于设计、开发和评估面向智能城市网络安全环境的SDG框架的研究方法论。鉴于智能城市基础设施日益复杂，以及收集真实、高质量网络安全数据集相关的挑战，本研究采用设计科学研究方法，指导能够生成统计有效和运营有用的合成数据集的工件的系统创建和验证。

A. 问题识别

第一阶段侧重于识别核心问题并在智能城市网络安全领域内确立其重要性。此阶段的第一轮迭代已经通过审查现有的网络安全数据集、分析其局限性，并强调智能城市环境对数据集可用性产生影响的独特挑战（如数据异构性、互联系统和隐私问题）而完成。结论是，缺乏现实和具有代表性的网络安全数据集限制了智能城市网络安全研究的开发、测试和验证，以及智能城市系统网络安全工具的开发与测试。同时还确定，现有的公开可用的智能城市数据集主要包含运营类型的数据而非网络安全数据。

B. 定义解决方案目标

总体目标是通过使用基于AI的框架生成代表性数据来弥合智能城市网络安全数据集可用性的差距。为实现这一点，需要设定额外要求，以确定智能城市网络安全数据集的基本属性，并概述基于AI的SDG框架的期望属性。具体目标包括识别最相关的数据类型和特征、确定智能城市组件的最小表征特征，以及为生成的数据集建立质量和有效性标准。此阶段将直接为工件的设计和开发提供信息。

C. 设计与开发

此阶段涉及设计和构建主要研究工件：一个能够为智能城市环境生成合成网络安全数据集的基于AI的框架。该框架集成了三个关键组件：数据模式定义模块（RQ1）、用于生成代表性数据的生成式AI模块（RQ2），以及用于注入真实恶意行为的恶意流量生成模块（RQ3）。设计将强调灵活性、可重复性以及适应各种智能城市领域的能力，确保工件能够为多种用例和研究需求生成数据。

D. 演示

在此阶段，开发的工件将被应用以展示其效用和相关性。SDG框架将用于创建反映真实世界模式和潜在攻击场景的样本智能城市网络安全数据集。然后，生成的数据集将用于测试现有的网络安全工具，如入侵检测或异常检测系统，展示工件如何支持研究和应用安全测试。演示将提供工件有效解决已识别问题的实际证据。

使用两个演示场景来验证工件。第一个场景涉及为RQ2生成良性的合成智能城市数据集，展示模型再现正常流量模式的能力。第二个场景通过生成嵌入恶意活动以模拟网络攻击条件的合成数据集来解决RQ3。这些演示评估框架生成支持异常检测研究和网络安全工具测试的上下文感知合成数据的能力。

E. 评估

评估阶段评估开发的工件及其输出的性能、可靠性和有效性。生成的数据集将根据与真实数据的统计相似性、模拟事件的多样性以及支持准确网络安全工具性能的能力进行评估。将使用定量评估方法，包括统计分析和与现有数据集或检测模型的基准比较。结果将确定工件是否满足研究目标并对该领域做出有意义的贡献。

VI. 提出的框架

研究工作侧重于构建一个基于AI的SDG框架，能够生成真实的智能城市网络安全数据集。该框架采用迭代、模块化的方法开发，以确保灵活性和持续改进。每个模块都被设计为独立组件，可以在不修改整个系统的情况下进行改进。该框架遵循DSR原则，确保工件在方法上严格且与实际网络安全挑战相关。框架的操作工作流包括三个主要阶段：输入阶段、AI合成阶段和输出阶段。图1说明了框架的高级架构，显示输入模式和收集的数据集如何被转换为验证后的合成输出。

图1：基于AI的合成数据集生成框架概览

A. 输入阶段

输入阶段接受数据集模式定义模型和收集的IIoT数据集。如果可用，这可以补充来自智能城市实验室的数据。模式确保结构一致性，而真实数据集提供上下文模式和分布以指导基于AI的合成。

要执行的第一个任务是通过文献综述来确定什么构成智能城市网络安全数据集。将审查现有文献和数据集，以确定此类数据集中应存在哪些数据类型和值、特征、协议和其他特性，以实现最有意义的用途。现有的广泛使用的“传统”网络安全数据集也将被审查其关键特征。这些信息将用于创建智能城市网络安全数据集模式（RQ1），可作为定义本研究及其他研究中智能城市网络安全数据集的蓝图。同时，将收集现有的IIoT数据集作为AI合成阶段的训练数据。

随着模式的发展和数据的收集，下一阶段是数据准备。这包括标注、清洗和特征提取，将原始数据包捕获或日志转换为适合训练的结构化格式。将准备两种类型的数据集：（1）仅包含正常智能城市运营流量的良性数据集，和（2）集成网络攻击场景（如扫描、欺骗或拒绝服务行为）的恶意数据集。恶意数据集用于通过生成包含攻击活动的合成数据来探索研究问题RQ3。

B. AI合成阶段

AI合成阶段是SDG框架的核心组件，负责将智能城市网络安全训练数据集转换为高保真度的合成数据。此阶段利用AI模型学习输入数据中存在的统计、结构和行为模式，随后生成遵守相同约束的新数据样本。目标是生成保留智能城市网络运营特征的合成数据集，包括设备行为、通信模式和网络攻击签名，同时保护敏感信息并确保数据集真实性。

1）模型选择：实现始于选择适合时间序列、事件驱动和异构智能城市数据的生成模型架构。候选模型包括GAN（数据包GAN、条件表格GAN（CTGAN）等）、变分自编码器（VAE）、基于Transformer的时间序列生成器和LLM。模型选择将使用基线数据集通过实验比较驱动，并由评估计划中定义的评估标准指导。

2）模式和约束集成：为确保领域有效性，AI模型纳入模式约束，包括字段类型（如IP地址、时间戳、传感器ID）、允许范围和协议特定规则。这些约束以两种方式应用：

训练前编码涉及将结构化字段归一化、嵌入或以其他方式转换为适合模型输入的表示，同时保持其语义完整性。
生成后约束执行确保合成输出被验证和调整以符合真实世界智能城市网络的运营规则。

这种双重方法确保生成的数据反映真实的系统行为，同时避免无效输出。

表 I 现有物联网/工业物联网网络安全数据集

数据集	年份	主要用途	生成方式	内容	关键特征
Edge-IIoTSet [8]	2022	为物联网和工业物联网应用中的入侵检测系统提供基准	基于包含多种物联网设备、工业物联网专用协议（如Modbus）及云边部署的七层测试床创建	7200万+条记录，格式为PCAP和流数据。包含14类攻击场景	结构设计支持集中式和联邦学习方法
WUSTL-IIoT-2021 [9]	2021	专为工业物联网网络安全研究设计	采集自华盛顿大学模拟真实工业控制系统的工业物联网测试床	约120万条记录，41个特征，捕获时长53小时	包含适用于工业环境的攻击，如拒绝服务、命令注入和侦察
X-IIoTID [10]	2022	面向工业物联网入侵检测的、与连接和设备无关的数据集	基于包含工业设备、边缘计算、移动设备和云服务的三层工业物联网系统创建	包含标准网络流量及MQTT、CoAP、WebSocket等工业物联网协议	采用近期攻击者战术、技术和程序模拟恶意行为。包含来自网络流量、系统与应用程序日志、主机指标及入侵检测系统日志的多视角数据
UNSW-NB15 [11]	2015	在逼真、带标签的网络流量上基准测试入侵检测、网络分析及机器学习模型	在测试环境中使用IXIA PerfectStorm工具生成，混合良性与攻击流量	PCAP文件及带标签的提取流特征	包含多类攻击及详细特征集
BoT-IoT [12]	2020	针对物联网攻击场景基准测试和训练网络安全系统	采集自运行智能设备的物联网测试床，覆盖正常与攻击场景	7200万+条记录。包含PCAP捕获数据、CSV格式的处理后流特征、攻击与良性流量标签	数据量大，攻击类型多样，标签清晰
TON_IoT [13]	2021	评估物联网/工业物联网背景下基于人工智能/机器学习的网络安全任务	采集自结合物联网、雾/边/云层、多操作系统环境及有组织攻击的专用网络靶场	网络流量、遥测日志、操作系统审计痕迹及带标签的处理后特征	数据源异构，攻击类别多样，提供训练/测试集划分及真实标签标注

3）合成数据生成： AI模型使用早期阶段生成的预处理良性和恶意数据集进行训练。训练完成后，模型将生成具有典型运营模式的合成样本数据集，如周期性传感器更新、执行器命令和标准网络流（RQ2）。对于RQ3，模型还将生成包含恶意数据的数据集，包含攻击场景如扫描、横向移动、欺骗和其他异常行为与良性系统活动混合。

C. 输出阶段

输出阶段处理和验证合成数据集，确保遵守输入模式、标注一致性以及与真实世界分布的统计相似性。数据集以适合入侵检测、异常检测和其他网络安全研究的标准格式导出。输出阶段充当看门人，执行严格检查以确认合成数据遵守模式要求、反映预期行为模式，并保持与底层真实世界智能城市数据集的统计保真度。

生成智能城市网络安全数据集的过程——无论是良性的还是包含恶意或网络攻击数据的（RQ3）——将遵循相同的工作流程。主要区别在于输入阶段。对于RQ2，框架将使用仅包含从智能城市测试平台收集的良性活动的训练数据来生成正常数据集。相反，对于RQ3，输入数据将包括在测试平台内受控攻击场景期间捕获的样本，使框架能够生成嵌入恶意活动的数据集。

框架将纳入来自验证指标的手动反馈机制，以迭代提高生成数据集的准确性和效用。基于AI合成阶段的模型性能和输出阶段的验证结果，将使用新模型和/或参数重新执行模型选择阶段以实现最优结果。

一旦完全验证，合成数据集将被标准化并以网络安全研究和机器学习流水线中常用的格式导出，如用于表格流数据的CSV、用于需要真实负载的数据包级数据的PCAP、用于IoT事件日志和多模态传感器流的JSON或NDJSON，以及用于需要高效I/O访问的大规模数据集的HDF5。除数据外，导出子系统还打包详细的元数据，包括模型和数据集版本、模式描述、评估指标、生成参数、时间戳和实验配置。这些溯源信息确保数据集保持完全可重现、可追溯，并符合科学数据管理的最佳实践。

VII. 评估计划

一旦创建了合成数据集，需要在多个维度上进行评估，以验证它们与真实数据集的相似性以及对网络安全工具和测试的实用性。评估策略集成了统计相似性测试、保真度和真实性分析以及基于任务的性能评估，以确定生成的数据集对入侵检测和相关网络安全应用的效用。

A. 模式符合性与结构验证

输出阶段的第一部分致力于确保所有合成记录符合原始数据集的模式。此过程涉及多个验证层：必需字段必须存在且类型正确，如时间戳、协议标识符、MAC/IP地址和传感器值；每个字段必须遵守定义的范围或分类集，包括协议号、传感器阈值和设备ID；检查格式是否符合标准，如IP和MAC地址结构、时间窗约束和协议特定规则；并验证跨字段一致性以确认协议组合和流方向指示符逻辑上对应于预期的设备角色。未通过这些模式检查的记录要么使用基于规则的启发式修复，要么被排除以保持最终数据集的质量。如果存在重大失败，将重新访问输入和/或AI合成阶段并更新参数。

B. 统计相似性

下一阶段是验证合成数据集与真实数据的统计相似性。合成数据将根据统计相似性、保真度和真实性进行验证。这将使用现有的开源工具如SDNist、SDMetrics、SynthEval和SynthRO进行。这些工具都不是专门为IoT或智能城市数据设计的，因此需要评估每个工具以确定为智能城市用例确定的最佳工具和指标。

表 II 开源合成数据评估工具对比

工具	主要侧重点	评估维度	优势	局限性
SDNist [27]	标准化合成数据评估	效用、隐私风险、统计相似性	认可度高；隐私风险指导性强；结构化且可复现	需手动编写文档；自动化程度有限
SDMetrics [28]	表格合成数据自动化质量评估	保真度、效用、相关性、分布相似性、隐私指标	高度自动化；指标库丰富；易于Python集成	最适用于表格数据；领域特定指标支持有限
SynthEval [29]	合成数据与真实数据质量对比	效用、隐私、分类性能、公平性	支持创建新指标	对序列或时间序列数据支持有限
SynthRO [30, 31]	基准测试指标可视化仪表盘	相似性、隐私、效用	模块化架构支持新增评估指标	专为医疗与隐私用例定制

C. 标注与注释一致性

对于支持入侵检测和网络攻击分析的数据集，保持标签完整性至关重要。在输出阶段，自动检查验证良性和恶意标签是否根据合成输入正确分配，攻击类型标签是否与预期类别（如DoS、欺骗或扫描）一致，以及多步攻击序列是否在连续数据包、流或事件中携带连贯的标签。这些保护措施防止可能损害训练流水线或降低IDS评估可靠性的错误标签记录。

D. 效用测试

如果合成数据通过之前的评估检查，下一阶段是通过尝试将数据集用于实际网络安全任务来确定数据的效用。对于RQ3，创建生成恶意数据的能力对于验证恶意数据是否成功生成至关重要。数据集将被输入开源安全工具如入侵检测系统，以确定数据生成是否成功。将利用ICS/SCADA特定安全工具，如爱达荷国家实验室（INL）的Malcolm网络分析工具[34]，因为它们对IIoT协议有专门支持。

E. 综合基准

这项研究的一个成果将是开发一个综合基准，将模式符合性和结构验证、统计相似性、标注与注释一致性以及效用测试整合为一个有意义的单一指标。该基准将用于评估框架是否生成代表性的合成数据。先前讨论的Fr´echet流量距离（FTD）、Fr´echet起始距离（FID）和Wasserstein距离技术将使用合成智能城市数据集进行评估，以确定它们对该领域的适用性。如果这些技术被证明不充分，将提出修改或新的基准测试方法来更准确地衡量合成智能城市数据的代表性。

VIII. 预期贡献

本研究预计将通过提供可重复的框架来创建高保真度的合成数据集，实现安全工具的严格测试、训练和评估，从而推动智能城市网络安全的发展。该框架将为开发和验证针对智能城市应用量身定制的入侵检测系统、异常检测模型和其他网络安全分析提供可扩展的基础。城市技术团队、供应商和IT人员也将受益于支持系统测试、事件响应演练和在安全受控环境中进行团队训练的合成数据集，最终提高关键智能城市服务的韧性。

该研究还有望为合成数据评估方法的持续发展做出贡献。尽管已经提出了若干评估合成数据质量的指标，包括专为网络流量数据集设计的技术，但对于这些指标的何种分数构成可接受或具有代表性，指导仍然有限。虽然这项工作不打算建立明确的基准或标准，但它将提供经验结果，为未来制定有意义的合成智能城市数据评估标准的努力提供信息。

此外，该框架将使用代表性的智能城市协议和应用子集进行验证，以展示其在建模智能城市环境动态和异构特征方面的有效性。虽然在本研究范围内评估每一项智能城市技术是不可行的，但所提出的方法论被设计为可适应额外的协议、设备和应用领域。通过在多个代表性数据源上展示该框架，本研究将为将合成数据生成技术扩展到其他具有类似复杂性和变异性的智能城市系统奠定基础。

最后，除了直接的技术影响外，该研究还有助于劳动力发展和跨部门合作。合成数据集可用于为学生、研究人员和实践者构建实践实验室和培训模块，帮助培养下一代网络安全专业人员应对智能城市系统的独特挑战。由于生成的数据集将完全是合成的且不含敏感信息，它们可以广泛共享而不会危及公民隐私或暴露关键基础设施细节，从而促进学术界、产业界和政府之间的更广泛合作。总的来说，这些贡献加强了智能城市的安全性、韧性和研究就绪性。

IX. 当前状态

本研究目前处于数据收集和探索性分析阶段，重点是识别和评估相关的IIoT网络安全数据集以作为SDG框架的训练数据。初步工作涉及执行探索性数据分析，以理解数据集结构、特征分布、协议表示以及恶意活动的存在。与此同时，正在开发一个实验室环境以支持数据生成和评估活动。这包括配置一个专用虚拟机以运行INL的Malcolm进行网络流量分析和效用测试。此外，正在努力将该环境与使用Slurm管理的GPU计算集群集成，以实现计算密集型SDG模型的实验。特别寻求关于数据集模式定义、生成式建模方法的选择，以及评估真实性和下游网络安全实用性的拟议标准的反馈。

X. 范围

本研究侧重于为智能城市网络安全研究设计、开发和评估一个AI驱动的SDG框架。该研究仅限于建模与智能城市基础设施相关的赛博物理数据，其中可能包括网络流量、IoT设备遥测、系统日志和模拟的对抗性活动。

研究检查合成数据是否能达到足够的结构、统计和行为保真度以支持网络安全工具的训练和评估。评估通过定量性能指标、统计相似性分析和对抗性场景测试进行。

该研究不试图复制运营中的智能城市环境。相反，它侧重于智能城市基础设施中常见的子系统和数据，如互联的IoT网络和相关网络安全事件日志。

研究的主要成果是经过验证的SDG框架和证明其对网络安全研究和测试目的实用性的评估结果。

XI. 局限性

若干局限性可能影响本研究的发现。首先，现有智能城市和网络安全数据集的可获得性和质量可能影响合成复制所需定义特征的识别。如果源数据集不完整或有偏差，合成数据可能继承这些局限性。其次，合成数据可能无法捕捉真实世界智能城市环境的全部复杂性。因此，在合成环境中观察到的工具性能可能无法完全推广到实时运营系统。第三，基于AI的生成模型可能引入意外的伪影、统计扭曲或过度简化，影响评估结果。检测和减轻此类扭曲可能无法完全实现。最后，计算和存储资源限制可能限制生成数据集的规模或复杂性，可能影响大规模基础设施模拟中的真实性。

XII. 未来工作

未来工作将侧重于针对智能城市网络安全环境定制SDG框架的实现和评估。基于探索性数据分析中获得的见解，下一阶段将涉及定义智能城市网络安全数据集最有意义的属性，包括相关特征、协议和攻击场景。随后，将实施和评估多种SDG技术以确定它们在捕捉智能城市系统复杂性方面的有效性。

同时，将努力将真实的攻击模拟集成到SDG过程中，以确保包含有意义的恶意行为以支持网络安全工具开发。此外，将建立一个全面的评估框架，纳入统计保真度、时间和行为真实性以及网络安全工具在入侵检测和异常检测等安全应用中的效用指标。

XIII. 结论

智能城市基础设施由于其规模、多样性以及对互联赛博物理系统的依赖，构成了重大的网络安全挑战。然而，保护这些环境的进展仍受到高质量、代表性数据集稀缺的限制。现有数据集要么在性质上是运营性的且缺乏安全相关性，要么来自孤立的IoT/IIoT环境，未能完全捕捉智能城市生态系统的复杂性。

本研究通过引入一个针对智能城市网络安全需求定制的AI驱动SDG框架来应对这些挑战。通过利用SDG技术创建真实、高保真度的数据集，这项工作旨在弥合数据稀缺与智能城市网络安全研究和工具开发需求之间的差距。除了生成合成数据外，本研究还强调纳入真实攻击场景和建立严格评估方法论的重要性，以确保生成的数据集对下游应用既可靠又有用。

本研究的贡献包括定义智能城市网络安全数据集的基本特征、在复杂多领域环境中应用和评估SDG技术，以及开发评估合成数据质量的综合策略。总的来说，这些努力为可重复的智能城市网络安全研究奠定了基础，并通过为研究人员和实践者提供真实、可共享的数据以理解新兴威胁，支持加强智能城市基础设施安全性和韧性的更广泛目标。