单病例试验设计效能比较

原创于 2025-10-12 14:39:01 发布 · 838 阅读

28 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#单病例试验 #随机对照试验 #检验效能 #样本量 #模拟研究

医疗保健

Article使用模拟研究比较汇总的单病例试验与平行和交叉随机对照试验

1. 引言

单病例试验设计在医疗保健研究人员和临床医生中越来越受欢迎。单病例试验 increasingly 被提议作为随机对照试验（RCTs）[1,2]的替代方案。单病例试验特别适用于评估注意力缺陷多动障碍（ADHD）、慢性疼痛以及许多其他慢性稳定疾病等慢性稳定疾病的治疗[3–9]。此类设计可应用于各种人群（从儿童到老年人[10–14]）、环境（发达国家和发展中国家[15,16]）、人口统计学特征（种族和民族[17]）以及适应症（例如，有针对性的努力减少过度用药[18]）。综上所述，单病例试验可能代表个性化医疗的下一步进展，因为它们易于与健康技术数据整合[19,20]。

单病例试验可以在显著提高患者护理质量的同时最大限度地降低医疗成本，因为它们能够确定针对个体患者的治疗有效性[21]。使用标准化方案汇总一系列单病例试验的效果已被证明可产生稳健效应估计，且所需个体数量少于随机对照试验[2,12]。对研究者进行方案培训，可使单病例试验在各个研究地点以相同方式实施，并使汇总结果更具可推广性。这些汇总的单病例试验还具有额外优势，即相较于随机对照试验，在更小的样本量下即可展示具有临床意义的结果[22]。由于获得与随机对照试验相同检验效能所需的参与者更少，因而能更快达到所需样本量，其成本相较于其他设计可能更低[10]。然而，其在医疗保健领域的应用和接受程度存在广泛差异。Kravitz 等人[23] 通过访谈临床医生以识别表现为单病例随机对照试验实施障碍的临床问题，主要报告的问题包括单病例随机对照试验的持续时间以及操作知识普遍缺乏。目前正开展工作以进一步探讨这些问题。

方法学家还提出了关于试验设计和分析技术的问题[12–14]。在单病例试验中，需要参与者在多个治疗期和对照期内对结果进行重复观察，以在个体层面提供足够的统计功效来检测真实治疗效应。重复观察的需求可能导致统计问题，但可通过严谨的统计分析加以解决。选择偏倚、检验效能、样本量、数据分析设计与方法是任何临床试验中的重要考虑因素。

1.1. 选择偏倚、检验效能与样本量

在进行汇总的单病例试验（即来自一系列单病例研究的数据汇总）时，一个问题是其结果的可推广性（外部有效性）。汇总的单病例试验中的选择偏倚可能源于未纳入足够数量且具有代表性的参与者样本。这一问题同样适用于随机对照试验。汇总的单病例试验的外部有效性和内部有效性可能受到三种主要形式的选择偏倚限制：由于样本量小导致的缺乏代表性、干预和对照阶段缺乏随机序列分配，以及缺乏分配隐藏[24]。为解决这些问题，可在可行的情况下采用区组随机化或反平衡，以及单盲、双盲或三盲法处理。其他提高科学严谨性的策略包括在治疗期间进行重复评估、采用适应性试验“终止规则”以便在出现阴性或阳性治疗效应时立即终止试验，以及应用适当的设计和分析方法，在不增加I类错误的前提下获得最高的检验效能和效应量[23,25]。在规划汇总的单病例试验（即来自一系列单病例研究的数据汇总）时，一个重要统计考虑是计算内部有效的检验效能和样本量。由于个体作为自身的对照，汇总的单病例试验所需的总体样本量通常小于传统RCT。必须同时考虑检测由治疗引起的个体层面和组间差异所需的检验效能。

1.2. 试验设计和遗留效应

当治疗周期的效果超出指定的洗脱期而影响后续周期时，单病例试验中就会出现残留效应。洗脱期是指预先设定的一段时间，在此期间接受治疗的个体不再接受相关治疗，以便让前一阶段治疗的效果得以消除。采用不同长度的时间块可能更有效地解决这一问题。未来的研究可以评估在一次“干预日”之后，从1到3之间的数字集合中随机选择若干个“对照日”的数量。与控制周期和治疗周期时间相等的传统方法不同，这种对时间块长度的随机化可能有助于应对治疗遗留效应带来的混杂影响。较强的残留效应可能导致治疗效果差异更为保守，这是由于II类错误膨胀所致[16]。在试验设计之前，应充分审查试点数据或相关文献，以确定遗留效应的可能持续时间，并为单病例研究周期的设计提供依据[26]。

1.3. 单病例试验中的数据分析

目前尚无公认的“金标准”方法用于分析单病例试验的数据。已有多种方法被提出，并通过模拟数据或试验数据进行了充分论证[26–28]。然而，缺失数据和自相关问题仍然存在。针对观察性和干预性研究设计，许多处理缺失数据的技术正在不断发展[11,16,17]。模拟研究可以引入数据缺失机制，但难以真实反映真实世界数据的情况。在分析N‐of‐1试验数据时，自相关带来了额外的复杂性。自相关意味着同一受试者在不同时间点收集的数据之间存在序列依赖性——例如，患者今天的压力水平可能与其昨天和明天的压力水平高度相关。因此，在分析单病例试验数据时，必须检验是否存在自相关，并在发现时予以处理。传统的差异检验方法（如t-检验）不适用于分析N‐of‐1试验数据，因为它们违反了统计独立性的关键假设。解决自相关的两种常用方法包括使用自回归模型或动态模型，将自相关作为分析过程的一部分进行建模[23,29]。此外，可在多层次或分层模型中引入随机效应参数以考虑自相关的影响。

本文的目的是将单病例试验与平行和交叉随机对照试验设计进行比较，并通过模拟研究评估每种试验设计的（1）效应量、（2）检验效能和（3）样本量。本研究的结果将提供在多种潜在试验条件下，单病例试验相较于传统试验设计的充分性和实用性的相关信息。

2. 方法

我们进行了一项模拟研究，以比较汇总的单病例试验、随机对照试验和交叉设计在不同样本量和效应量下的运行特征。我们考察了新疗法与安慰剂在3个周期内的拟议试验中的差异。这些周期被代表性地抽样，包括含有周期效应的比例、不含周期效应的比例，以及从一个有意缺乏普遍性的总体中不成比例地抽取的部分。一般而言，数据生成自：
Yick = µi + τ Zick + εick,
其中Zick是患者i在周期c= 1、2、3以及周期内“look”k= 1、2的治疗指示符。τ是感兴趣的治疗效应。我们假设μi ∼ N(μ, σµ)且{v28}服从均值为0、方差为 σε)的正态分布，并将 τ= 0.25视为中等效应。我们考察了4种不同的标准差结构。
- 情景1—弱异质性和中等误差：σμ = 0.1 和 σε= 0.5。
- 情景2—同质性和中等误差：σμ = 0 和 σε= 0.5。
- 情景3—强异质性和中等误差：σμ = 0.5 和 σε= 0.5。
- 情景4—强异质性和大误差：σμ = 0.5 和 σε= 1。

对于四种方差设置中的每一种以及5000次模拟中的每一次，我们根据上述模型生成了c= 3个单病例试验周期。第一个周期的观测值用于交叉试验。在该第一周期中的两个观测值（包括结果和治疗分配）中，以相等概率随机选择一个用于平行随机对照试验。这确保了三种试验使用相同的数据，从而实现公平比较。检验效能被计算为每次模拟中拒绝无治疗效果零假设[30]的次数比例。此计算使用 R统计软件3.5.2版（R统计计算基金会，奥地利维也纳）中的‘lmer’函数完成，并遵循先前提出的估计单病例试验研究中检验效能的方法[30]。

分别估计了以下两个模型：(1) 仅截距模型，以及 (2) 包含截距和治疗效应的模型，其中每个拟合模型均包含个体患者随机效应。然后利用这两个模型的偏差差异进行卡方检验，以在名义0.05 I类错误水平下检验无治疗效果假设。偏差计算包含了每个模型的随机效应计算。p 值小于 0.05 被认为具有统计学显著性。对于交叉设计，采用类似方法检验无效治疗效应假设，而对于随机对照试验，则使用标准线性回归模型来检验该假设。

3. 结果

在每个模拟设置中，针对最大样本量n= 10、20、30、40、50、100、150、200，在固定治疗效应τ= 0.25的情况下，计算了单病例试验、平行随机对照试验和交叉设计的检验效能。在找到使N‐of‐1设计的检验效能高于0.8的n值后，我们将该样本量固定，并将 τ= 0、0.05、0.10、…、1进行变化，以确定随着真实治疗效应增加，每种设计的表现情况。此处 τ= 0表示治疗相对于安慰剂无真实改善的情况，此时若零假设为真却被拒绝，则构成I类错误。

首先，我们考察了当所有患者均来自目标人群、真实治疗效应为τ = 0.25，且无洗脱期或遗留效应的情况下，单病例试验、平行随机对照试验和交叉试验在安慰剂与治疗比较中进行c = 3个周期的表现。图1显示了这3种设计在4种不同方差结构情景下检验效能随试验样本量的变化情况。

示意图0

在4种情景下，单病例试验要达到80%检验效能且主效应为τ= 0.25时，所需的样本量分别为30、30、30和100。对于情景1和情景2，平行随机对照试验在n= 150名患者时达到80%检验效能，交叉设计在n= 100名患者时达到80%检验效能。N‐of‐1设计在这两个样本量下的相应检验效能均为100%。在情景1中，当样本量为n= 30时，N‐of‐1设计的检验效能为92%，两种替代设计的相应检验效能为平行随机对照试验和交叉设计分别为32%和50%。在情景2中，当n= 30时，单病例试验设计的检验效能为92%，而平行随机对照试验和交叉设计分别为26%和52%。在情景3中，平行随机对照试验在所考虑的任何样本量下均未达到80%以上的检验效能，而交叉设计需要100例患者才能获得94%的检验效能，相比之下，当n= 50时，平行随机对照试验的检验效能为70%。在情景4中，随机患者效应方差和误差方差最大，无论是平行设计还是交叉设计均未能达到80%以上的检验效能，在样本量为n = 200时，其经验功效值分别为34%和70%。对于该样本量，单病例试验设计的检验效能为99%。

图2显示了在每种情景下固定样本量且无洗脱期效应时代表性样本的检验效能效应 τ。每种情景中使用的样本量对应于N‐of‐1设计达到至少80%检验效能所需的最小样本量。当效应量为 τ= 0时，N‐of‐1设计的经验I类错误概率在4种情景下分别为0.05、0.05、0.05、0.05。随机对照试验的I类错误概率在4种情景下分别为0.05、0.06、0.04、0.05。交叉设计的经验I类错误概率在4种情景下分别为0.07、0.07、0.06、0.05。N‐of‐1设计的经验I类错误概率最接近预期的名义I类错误概率。根据设计，τ= 0.25使得N‐of‐1设计和所考虑的样本量的检验效能均超过80%。对于平行随机对照试验，τ= 0.60、0.50、0.80、0.65，而对于交叉设计，τ= 0.40、0.40、0.40、0.45是在4种方差情景下实现至少80%检验效能所需的值。

示意图1
示意图2

N‐of‐1设计为达到至少80%检验效能所需的样本量在中等残留效应量0.1的情况下分别增加至 n= 40、40、40、150。在这些样本量下，交叉设计的检验效能为45%、45%、43%和43%，尽管其运行特征未因残留效应而改变，但仍高于平行随机对照试验。当遗留效应为0.05时，N‐of‐1设计需要样本量n=30、30、30、150才能达到80%检验效能；当遗留效应为0.15时，所需样本量为n=50、50、100、200。对于n= 200和大遗留效应0.15的情况，N‐of‐1设计实现了恰好80%的检验效能。在N‐of‐1设计针对小和大遗留效应达到80%检验效能所需的相同样本量下，交叉设计的检验效能分别为45%、45%、42%、48%以及45%、46%、63%、44%，对应四种情景。当存在真实治疗效应时，只要残留效应大小不超过治疗效应，N‐of‐1试验设计检测出差异的检验效能高于传统的平行随机对照试验和交叉设计。当遗留效应非常大（0.15）时，平行随机对照试验与交叉设计的检验效能曲线相交，表明当样本量足够大时，平行随机对照试验的表现优于交叉设计。这可能是因为交叉设计仅在治疗后给予安慰剂时才出现遗留效应，从而降低了检测到治疗效应的可能性。

接下来，我们考察了在N‐of‐1设计中，针对小、中、大残留效应大小（分别为0.05、0.10和0.15）达到80%检验效能所需各样本量下，不同τ的运行特征。这还使我们能够考察当治疗效应相对于残留效应变化时的设计效能。首先，应注意的是，I类错误的经验概率在N‐of‐1设计和交叉设计中均有所升高，相比于平行随机对照试验。单病例试验设计在中等效应量0.1的情况下，经验性I类错误概率分别为15%、15%、14%、14%，而交叉设计的经验性I类错误概率分别为11%、12%、11%和9%。对于小遗留效应0.05，单病例试验和交叉设计的I类错误概率控制得更好，分别为8%、7%、6%、7%和7%、7%、6%、6%。对于大遗留效应0.15（超过真实治疗效应大小的一半），在所考虑的4种情景下，单病例试验设计的I类错误分别为25%、26%、27%、23%，交叉设计则分别为17%、17%、16%、15%。这些膨胀完全由遗留效应引起，可在图4中4个图表左侧向上弯曲的尾部看出。

此外，我们拟合了一个通过引入额外的二元固定效应（表示患者在前一个治疗周期是否接受过治疗）来调整遗留效应的单病例试验模型。在控制遗留效应后，不同 τ值下的I类错误及其对应的检验效能几乎相同。这些结果表明，应特别注意控制遗留效应，尤其是避免I类错误。然而，当 τ> 0时，对于任何效应量，单病例试验设计的检验效能更高，而交叉设计在每种情景下只要效应量达到 τ= 0.40即可实现至少80%检验效能。通常，在可能存在遗留效应的时间段的数据不会用于分析。

示意图3

最后，我们考察了当存在非理想情况时，单病例试验可能面临的问题程度——目标人群的代表性样本（即选择偏倚）。我们已经证明了如果从目标人群中抽取样本，单病例试验可获得理想结果，与平行随机对照试验或交叉设计相比，用更少的患者即可达到更高的检验效能，并保持I类错误水平在无残留效应时的约束条件。

考虑一项针对25至50岁的成年人的单病例试验，该试验旨在比较新疗法与安慰剂对心理健康改善的效果。我们的总体中可能包含相对于目标人群具有异常高或低基线风险的个体。如果我们从这一亚群体中抽样，则关于目标人群的统计结论可能是错误的。

为了检验在选择偏倚下的表现，我们使用上述描述的4种误差方差结构进行了以下模拟实验。以概率p，我们从目标人群中抽取患者进行单病例试验，该人群无治疗优势（τ= 0）。以概率 1−p，我们从具有 τ= 0.25治疗效应的亚群体中抽取患者。

示意图4

当p=1时，每种情景下三种设计的I类错误概率均为期望的0.05。但当p→0时，I类错误的经验概率增加，尤其是对于N‐of‐1设计。当 p= 0.7，表示我们平均错误地从子总体中抽取了九名患者，平行随机对照试验、交叉设计和单病例试验设计的I类错误在四种情景下分别为(7%, 6%, 6%, 6%)、(11%, 11%, 9%, 7%)、(19%, 19%, 17%, 9%)。当p=0.5时，表示我们平均错误地从亚群体中抽取了15例患者，此时平行随机对照试验、交叉设计和单病例试验设计的I类错误在4种情景下分别为(9%, 10%, 7%, 6%)、(18%, 19%, 17%, 9%)、(37%, 39%, 40%, 13%)。这表明必须特别注意确保样本能够代表目标人群，尤其是对于交叉设计和特别是单病例试验设计。来自同一患者的更多观测数据加剧了由非代表性抽样引起的误差。

接下来，我们以类似的方式考察了检验效能，当目标人群的真实治疗效应为τ= 0.25，而某些亚群体的患者具有真实治疗效应τ= 0 （即该治疗对这一亚群体无效）时的情况。我们考察了在不同条件下的检验效能 p 以及图6中固定的样本量30。

示意图5

我们发现，在所有四种情景下，随着p的增加，检验效能显著提升。为了将单病例试验的结果推广到目标人群，患者必须能够代表目标人群。如果p=0.8，意味着约有六名患者来自非代表性人群，此时单病例设计在四种情景下的检验效能分别为(81%、81%、80%、30%)，而平行随机对照试验和交叉设计的检验效能分别为(18%、17%、12%、8%)和(37%、36%、34%、14%)。这表明非代表性抽样来自一个并非目标的亚群体时，与平行随机对照试验和交叉设计相比，对N‐of‐1设计的I类错误概率影响远大于检验效能。在实际中，我们永远无法确定试验中纳入的患者是否代表我们的治疗人群。尽管N‐of‐1设计通过利用每位患者在两种不同治疗下的多次观察，相较于平行随机对照试验和交叉设计更放大了这一问题，但N‐of‐1设计也允许对患者水平随机效应进行更准确的估计，这可能在未来的 方法学改进 中用于更好地判断哪些患者与目标人群具有代表性。

例如，为了说明这一点，我们从情景一模拟了1000次试验，其中n= 100和p=0.5，即约50%纳入试验的患者无治疗效果，而另外50%患者的治疗效应为0.25。在每次模拟中，我们使用N‐of‐1设计和交叉设计分别计算了代表性患者与非代表性患者的平均随机效应。由于平行随机对照试验每位患者仅有一个观测值，因此无法估计患者水平随机效应。图7显示了交叉设计和N‐of‐1设计下非代表性患者与代表性患者之间平均随机效应差异的密度分布。我们可以看到，N‐of‐1设计正确识别出非代表性组的个体随机效应高于我们的目标人群，这由密度的偏移所表明。这些结果在n= 30情况下类似，但不那么显著。

示意图6

4. 讨论

N‐of‐1试验设计为推进个性化医疗和医疗保健同时最小化成本和资源提供了严格的方法，前提是治疗方案针对慢性稳定疾病进行伦理设计，并设有充分的洗脱期。我们开展了一项模拟研究，以考察 N‐of‐1设计与平行随机对照试验和交叉设计的运行特征。我们的结果与先前的理论结果高度一致，即随着实施周期数的增加，为达到特定检验效能所需的模拟样本量在单病例试验中低于平行随机对照试验[31]。我们通过模拟验证了该理论结果，并表明N‐of‐1设计的运行特征优于交叉设计。我们还考察了遗留效应和样本代表性对这三种试验设计运行特征的影响。遗留效应可能导致交叉设计尤其是 N‐of‐1设计的I类错误概率升高；但当存在治疗效应时，无论遗留效应大小如何，N‐of‐1设计的检验效能均优于交叉设计和平行随机对照试验设计。当试验样本不能完全代表目标人群时，这三种试验设计均可能对目标人群中的治疗效应得出错误结论，但由于每个患者观测次数更多，N‐of‐1设计得出错误结论的频率更高。然而，由于每个患者在不同治疗周期下获得了多次观测数据，N‐of‐1设计提供了识别目标人群中异质性患者的机会，提示有必要进一步开发和应用贝叶斯聚类方法[12,23,26,32]。除了扩展用于量化残留效应（即缓慢与长期）的分析方法外，单病例试验还具有独特优势：它们通常可以在数据汇总或元分析之前通过初始阶段提供自己的“试点数据”。对于预期残留效应了解较少的研究人员，可以在开展完整试验之前收集试点数据。

我们已经证明，与平行随机对照试验和交叉设计相比，单病例试验在较小的样本量下具有更高的检验效能。类似研究[31,33]也证实了这一发现。单病例试验应被视为为后续研究（例如概念验证）提供依据的高等级证据，或传统随机对照试验设计。我们认为，单病例试验提供了传统设计所不具备的益处。

我们承认存在若干局限性。首先，测试所有可能设计变体的完整范围将超出本文的范畴。某些设计是任意设定的，在真实试验条件下不太可能出现，例如方差极高或极低，或样本量为几十或几百的情况。然而，考虑这些结构是必要的，因为它们能够展示在样本量从平均水平增加或减少时对每种试验设计的相对影响。因此，本研究强调尽可能广泛而高效地覆盖这一范围。实际上，并非所有单病例试验中存在的统计学挑战都能以同等严谨性进行评估——选择偏倚无法像检验效能、样本量甚至残留效应那样进行全面或精确的建模。有必要开展后续研究，进一步对选择偏倚与其他问题进行分层建模和形式化分析。

5. 结论

单病例试验在确定个体和群体层面的治疗效果方面已被证明是有效的。与传统RCT和交叉设计相比，使用更少的患者即可实现足够的检验效能来测试干预措施。其运行特征优于传统RCT和交叉设计。单病例试验显示出显著改善临床决策的巨大潜力。医生可以继续对疗效明显的个体进行治疗，而对产生有害或无效反应的患者则停止治疗。此类试验设计可能为传统研究方法提供重要的补充。我们的研究结果进一步证明，单病例试验能够产生严格的、基于证据的结果，以支持个性化医疗。