医学论文中常见的统计学错误

苏藜

已采纳

学好了数学或者成为了一个优秀的程序员绝对不等于对统计学有很好的了解。还有一些案例中显示有扎实的统计能力的优秀科学家也不一定总是在统计方面能做好——科学家也是人，他们也会在统计学领域犯错，这里有些例子：非常草率的处理数据，例如：数据误读，错误标注，未能正确清理数据，合并不正确项，不存档等等。对概率论的理解不足，过分依赖少数概率分布，如常态。对取样理论和取样方法的无知：从一个小的自选择样本推广到一个大的异质群体就是一个例子。对数据加权的误解也很常见。第三个例子使用复杂抽样方法时，将数据视为一个简单的随机样本。对统计推断的把握不严，如混淆统计意义和实际意义。另一个例子是对人口数据进行重要性测试。例如，如果我们对A国有五十年的季度GDP数据，这200个数据点是该时间段内国家的人口数据，而不是人口的样本。例如，进行t检验，看看线性趋势是否与零有统计学上的差异，在这种情况下是没有意义的。利用机会寻找重大差异(p-hacking)，却不考虑已经进行的显著性测试的数量。在学术期刊上，要获得学术期刊的认可，通常需要达到统计上的重要性，而出版偏倚是一个严重的后果。 Meta-Analysis (Borenstein et ) 和Methodsof Meta-Analysis (Schmidt and Hunter)这2本书中的对应方法很管用值得一看。从一个没有被复制甚至交叉验证的单一研究中得出戏剧性的结论。对贝叶斯统计，非参数统计，心理计量学和潜在变量模型的理解太表面。对分析时间序列和纵向数据的方法，以及空间统计和多层次混合模型理解不充分。许多工具，如支持向量机和人工神经网络，以及数据挖掘和预测分析中常用的Boosting和bagging等概念，对许多尚未开发的科学领域有潜在的实用价值。没有对广义线性模型方程给予足够的关注，例如忽略交互术语。在量化回归、回归样条、广义相加模型或其他方法时，对一组特定的数据进行线性化。不理解（或忽略）重要的统计假设。回归分析被普遍滥用。测量误差：统计显着性测试不考虑测量误差，但测量误差可能会对统计模型的解释造成很大影响。忽略回归到平均值：一个非常古老而又非常危险的错误！出于各种动机对连续变量进行分类，以满足统计假设，但这样做是不对的。另一个原因是它是一种输出结果的方法——一些“效应”是年龄真正的代理或年龄大大缓和。连续年龄有时被故意地分组到广泛的年龄范围，使其效果减弱。这样，一个不负责任的研究者可以得出结论：他们试图建立的效果在控制年龄后是“显着的”。已经知道结果后才提出假设:这个现象很普遍，以至于“人人都做，所以没关系”。用数据子集支持一个假设：“调整”数据直到它支持一个假设。混淆因果关系：对因果机制的误解并不罕见。埋藏在评论里的错误：有成千上万的“学术”出版物，但很少有期刊审稿人是具备专业的统计知识。将模拟数据当作实际数据处理，并将计算机模拟解释为使用真实数据的实验。基于假设而不是数据来进行粗略的估计，这在学术文献中很常见，我们很少注意到。随机模型有时也被误解为确定性模型。试图 “从石头里挤血” ：当数据越少，研究人员就越要 “填写空白”。有许多(通常是复杂的)方法来处理过少的数据量，但都增加了进入建模过程的主观性。反过来，这也为不负责人的科学家提供了更多的余地。元分析和倾向分数分析的不当使用。 “从小见大”——用少量信息去证实假设。不跟上统计数据的最新发展，不与专业统计人员交流。这是上面列出的许多问题的根本原因。

医学论文中常见的统计学错误

311 评论（8） 2小时前发布

2000哈利路亚

缺失值的处理：缺失值是人群研究中不可避免的问题，其处理方式的差异可能在不同程度上引入偏倚，因此，详细报告数据清理过程中缺失值的处理方法有助于读者对潜在偏倚风险进行评价。例如，瑞舒伐他汀试验在统计分析部分详细说明了缺失值的填补策略，包括：将二分类结局中的缺失值视为未发生事件；将生物标志物和心电图测量中的缺失值进行多重填补（multiple imputation）；为了证明缺失值处理的合理性和填补结果的稳定性，研究还比较了多重填补与完整数据（complete-case）分析的结果。2、数据的预处理：实施统计分析之前往往需要将原始数据进行预处理，如：对连续变量进行函数转换使其更接近正态分布，基于原始数据构建衍生变量，将连续变量拆分为分类变量或将分类变量的不同类别进行合并等。医学论文应报告处理原始数据的方法及依据，瑞舒伐他汀试验即在统计分析部分描述了对血液生物标志物的对数转换。3、变量分布特征描述：确定统计分析使用的变量，并针对每一个变量的分布特征进行描述，是决定研究选用何种统计分析方法的基础。医学期刊虽然普遍对此提出要求，但作者往往套用常用方法，如：连续变量符合正态分布时，采用均数（标准差）描述，否则采用中位数（四分位间距）描述；分类变量采用频数（百分比）描述等。事实上，应根据研究设计类型、统计分析目的和数据特征选择恰当的描述方法。例如，CKB选择采用年龄、性别和地区校正的均值和率来描述人群分布特征，而非简单的报告连续变量的均数和分类变量的构成比。4、主要分析（primary analysis）：指针对研究结局的统计分析，是研究论文的核心证据。因此，医学论文应详细描述主要分析的实施过程和适用性。在试验性研究中，应明确统计分析数据集、试验效应指标、相对或绝对风险及其置信区间的计算方法、以及假设检验的方法。

342 评论（13） 4小时前发布

zhaowen2010

“社会统计学与数理统计学的理论统一”的重大意义统计学家王见定教授指出：社会统计学描述的是变量，数理统计学描述的是随机变量，而变量和随机变量是两个既有区别又统计学家王见定教授著有联系，且在一定条件下可以相互转化的数学概念。王见定教授的这一论述在数学上就是一个巨大的发现，我们知道“变量”的概念是17世纪由著名数学家笛卡尔首先提出，而“随机变量”的概念是20世纪30年代以后由苏联学者首先提出，两个概念的提出相差3个世纪。截至到王见定教授，世界上还没有第二个人提出变量和随机变量两者的联系、区别以及相互的转化。我们知道变量的提出造就了一系列的函数论、方程论、微积分等重大数学学科的产生和发展；而随机变量的提出则奠定了概率论和数理统计等学科的理论基础和促进了它们的蓬勃发展。可见变量、随机变量概念的提出其价值何等重大，从而把王见定教授在世界上首次提出变量、随机变量的联系、区别以及相应的转化的意义称为巨大、也就不视为过。下面我们回到“社会统计学和数理统计学的统一”理论上来。王见定教授指出社会统计学描述的是变量，数理统计学描述的是随机变量，这样王见定教授准确地界定了社会统计学与数理统计学各自研究的范围，以及在一定条件下可以相互转化的关系，这是对统计学的最大贡献。它结束了近400年来几十种甚至上百种以上五花八门种类的统计学的混战局面，使它们回到正确的轨道上来。由于变量不断地出现且永远地继续下去，所以社会统计学不仅不会消亡，而且会不断发展状大。当然数理统计学也会由于随机变量的不断出现同样发展状大。但是，对随机变量的研究一般来说比对变量的研究复杂的多，而且直到今天数理统计的研究尚处在较低的水平，且使用起来比较复杂；再从长远的研究来看，对随机变量的研究最终会逐步转化为对变量的研究，这与我们通常研究复杂问题研究转化为若干简单问题的研究的道理是一样的。既然社会统计学描述的是变量，而变量描述的范围是极其宽广的，绝非某些数理统计学者所云：社会统计学只作简单的加、减、乘、除。从理论上讲，社会统计学应该复盖除了数理统计学之外的绝大多数数学学科的运作。所以统计学家王见定教授提出的“社会统计学与数理统计学统一”理论，从根本上纠正了统计学界长期存在的低估社会统计学的错误学说，并从理论上和应用上论证了社会统计学的广阔前景。[2] [6][5]

91 评论（12） 9小时前发布

1bobo23

不论是什么错，还是谁提出的，一经核实，原刊物会在以后的期刊中，给出勘误表或更正。如果是作者本人，发现的最好尽快与杂志社联系，予以更正，并附一封对读者的致歉信。

347 评论（10） 11小时前发布

李小琪人

我们当时也有这个作业太多了很少找，去图书馆随便找那种小的医学刊物，全是错。甚至某些上市的药品说明书上都是错

341 评论（12） 11小时前发布

医学论文中常见的统计学错误

5个回答默认排序1

默认排序

按时间排序

相关问答

文章推荐

本科论文的总结怎么写范文

论文中二次引用怎么标注页码

论文答辩完还有事吗初中

论文两个参考文献怎么标注不一样字体

工程造价管理相关论文选题方向

英语专业毕业论文写作穆诗雄电子版

热门文章

论文选题的核心概念怎么写啊

关于新型城镇化的论文参考文献

关于新疆论文题目大全初中

道德在社会中的作用论文摘要

初中生小论文格式模板及范文大全

毕业论文工作自我评价怎么写好

医学论文中常见的统计学错误

5个回答 默认排序1 默认排序 按时间排序

相关问答

文章推荐

本科论文的总结怎么写范文

论文中二次引用怎么标注页码

论文答辩完还有事吗初中

论文两个参考文献怎么标注不一样字体

工程造价管理相关论文选题方向

英语专业毕业论文写作穆诗雄电子版

热门文章

论文选题的核心概念怎么写啊

关于新型城镇化的论文参考文献

关于新疆论文题目大全初中

道德在社会中的作用论文摘要

初中生小论文格式模板及范文大全

毕业论文工作自我评价怎么写好

5个回答默认排序1

默认排序

按时间排序