logistic回归样本量多少合适?

数据小兵
数据小兵
数据小兵
64
文章
0
评论
2020-04-1709:05:00 评论 2,497 1160字
摘要

样本量的估计可能是临床最头疼的一件事了,其实很多的临床研究事前是从来不考虑样本量的,至少我接触的临床研究大都如此。

他们大都是想到就开始做,但是事后他们会寻求研究中样本量的依据,尤其是在投文章被审稿人提问之后。

可能很少有人想到研究之前还要考虑一下样本够不够的问题。其实这也难怪,临床有临床的特点,很多情况下是很难符合统计学要求的,尤其一些动物试验,可能真的做不了很多。这种情况下确实是很为难的。

logistic回归样本量多少合适?

本篇文章仅是从统计学角度说明logistic回归所需的样本量的大致估计,不涉及临床特殊问题。

其实不仅logistic回归,所有的研究一般都需要对样本量事前有一个估计,这样做的目的是为了尽可能地得出阳性结果。

比如,你事前没有估计,假设你做了20例,发现是阴性结果。如果事前估计的话,可能会提示你需要30例或25例可能会得出阳性结果,那这时候你会不会后悔没有事前估计?

当然,你可以补实验,但是不管从哪方面角度来讲,补做的实验跟一开始做得实验可能各种条件已经变化,如果你在杂志中说你的实验是补做的,那估计发表的可能性就不大了。

一般来说,简单的研究,比如组间比较,包括两组和多组比较,都有比较成熟的公式计算一下你到底需要多少例数。这些在多数的统计学教材和流行病学教材中都有提及。

而对于较为复杂的研究,比如多重线性回归、logistic回归之类的,涉及多个因素。这种方法理论上也是有计算公式的,但是目前来讲,似乎尚无大家公认有效的公式,而且这些公式大都计算繁琐,因此,现实中很少有人对logistic回归等这样的分析方法采用计算的方法来估计样本量。而更多地是采用经验法。

其实关于logistic回归的样本量在部分著作中也有提及,一般来讲,比较有把握的说法是:每个结局至少需要10例样品。

这里说得是每个结局。例如,观察胃癌的危险因素,那就是说,胃癌是结局,不是你的总的例数,而是胃癌的例数就需要这么多,那总的例数当然更多。

比如我有7个研究因素,那我就至少需要70例,如果你是1:1的研究,那总共就需要140例。如果1:2甚至更高的,那就需要的更多了。

而且,样本量的大小也不能光看这一个,如果你的研究因素中出现多重共线性等问题,那可能需要更多的样本,如果你的因变量不是二分类,而是多分类,可能也需要更大的样本来保证你的结果的可靠性。

理论上来讲,logistic回归采用的是最大似然估计,这种估计方法有很多优点,然而,一个主要的缺点就是,必须有足够的样本才能保证它的优点,或者说,它的优点都是建立在大样本的基础上的。

一般来讲,logistic回归需要的样本量要多于多重线性回归。

最后仍然需要说一句,目前确实没有很好的、很权威的关于logistic回归样本量的估计方法,更多的都是根据自己的经验以及分析过程中的细节发现。

如果你没有太大的把握,就去请教统计老师吧,至少他能给你提出一些建议。

End.作者:数据小兵来源:博客本文均已和作者授权,如转载请与作者联系。

  • 我的微信公众号
  • 微信扫一扫
  • weinxin
  • 我的微信公众号
  • 微信扫一扫
  • weinxin
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: