替代统计方法可以改善临床试验

摘要 康奈尔大学研究人员磨练和推广的另一种统计方法可以使临床试验更加可靠和可信,同时有助于解决科学界所谓的“再现性危机”。在本月《国家科

康奈尔大学研究人员磨练和推广的另一种统计方法可以使临床试验更加可靠和可信,同时有助于解决科学界所谓的“再现性危机”。

在本月《国家科学院院刊》发表的一篇新文章中,康奈尔大学的研究人员进一步提出了“脆弱性指数”,这是一种在医学界获得关注的方法。作为P值的补充,P值是一种应用于科学的概率度量。自20世纪20年代以来,有时甚至连好结果的证据都被轻率地引用。

“临床医生认为,他们执行的程序和协议是通过合理的临床试验获得的。任何不足都会让外科医生紧张,这是正确的,”Charles A. Alexander的统计科学教授兼论文的合著者Martin Wells说。“我们发现,这些显示有希望的结果并发表在顶级期刊上的后续试验中,有许多是脆弱的。这是这项研究带来的令人不安的惊喜。”

这篇由康奈尔大学的统计学家、威尔康奈尔医学院和多伦多大学的医生撰写的论文提出了一种新的统计工具包,该工具包使用脆弱性指数作为替代方法,帮助研究人员更好地确定他们的试验结果实际上是可靠的,还是只是偶然的产物。

“当你告诉世界应该或不应该使用某种治疗方法时,你希望决定是基于可靠的结果,而不是基于一两个患者的结果可能会以这种或那种方式摇摆的结果,”论文的共同作者,21岁的本杰明贝尔博士说,他目前是罗切斯特大学的博士后研究员。"这样的结果可以被认为是脆弱的."

检验其有效性的随机临床试验对于外科手术和医学治疗是必不可少的。为了解释实验结果的统计意义,几十年来,研究人员求助于一个经常被误解的衡量标准,即P值,来确定结果是有价值的还是只是偶然发生的。

然而,在过去的15年中,当它被单独使用并且没有支持方法时,对P值的可靠性的怀疑越来越多,特别是因为过去的测试结果最初被认为是强的,并且在随后的测试中不能被复制。在2014年使用脆弱性指数的一项研究中,研究人员分析了400项随机临床试验,发现四分之一具有“统计显著性”P值的试验实际上具有令人惊讶的低脆弱性得分,表明结果不是很可靠。

“人们可以理解为什么科学会出现复制危机。研究人员发现了很好的结果,但它们是站不住脚的,”威尔斯说。“这些都是研究前沿问题的严肃的大规模实验,研究成果发表在顶级期刊上。然而,一些大规模试验的脆性指数较低,这就对结果的可靠性提出了质疑。”

康奈尔大学的学者通过他们的最新研究提供了一个解决方案,即通过磨练脆弱性指数来调查有多少患者的结果可能影响试验的成败。脆弱性指数越低,结果就越脆弱和不可靠。例如,一项有1000名参与者的试验基于少数患者的结果在统计上是显著或不显著的,其脆弱性指数极低。

自20世纪90年代出现以来,脆弱性指数一直因其僵化而受到批评。——它仅适用于两个研究组(治疗组和对照组)的数据,以及二元、事件或非事件结果。这项最新研究提供了一个更灵活的脆弱性指数,可以应用于任何类型的结果和任何数量的解释变量。

该团队的方法还使跨科学领域的研究人员能够根据特定结果的可能性来计算脆弱性指数。

“是-不是,统计意义的传统框架过于简单化,但我们正在研究的问题不是,”威尔康奈尔医学院威廉福利的杰出医学教授、论文的合著者玛丽查尔森博士说。“对于每种临床情况,你面对的是不同的背景。这种方法使我们能够测试假设,并考虑更窄结果的影响。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢。