Business School
博士后资讯
手机:13521943680
电话:010-62904558
博士后论文:什么是研究中的统计学意义?
对于使用有限样本而不是一般人群的科学家来说,重要的是要了解群体之间的差异确实存在并且不是随机的。换句话说,他真的找到了值得谈论的东西吗?
真实效应或差异的存在由学生的 t 检验表示。统计显著性 p 标准表明所研究的变量之间确实存在关系。
在本文中,我们将讨论何时可以使用这些统计数据、它们的工作原理以及它们有哪些限制。
1. 什么是统计学意义?
我们说,如果一个研究结果不能用巧合来解释,那么它就具有统计学意义。统计显著性的指标是标准 p。
要确定研究的统计显著性,您需要检验原假设。
原假设 (H0)表明没有真正的效果,变量之间没有关系,组间没有差异。
备择假设 (H1)假设存在真实效应、变量之间的关系或组之间的差异。
检验从原假设为真的假设开始。在这种情况下,有必要评估获得可用数据的概率是多少。结果,原假设被拒绝或接受。
p 检验的值越低,偶然获得结果的可能性就越小。p 值越低,统计显著性越高。高 p 值是统计显著性低或无统计显著性的指标。
例如,我们正在研究一种新药对全身血压的影响。在我们的研究中:
• N0– 该药物不影响血压
• N1– 该药物导致血压下降
p 的值表示如果原假设为真,则获得可用结果的概率。在我们的例子中,这意味着药物不会影响血压,所有观察到的变化都是巧合。
重要提示:标准 p 不能为零,因为结果与所研究因素的影响无关的概率始终至少很小。
为了检验原假设和统计显著性,我们需要一个实验组和一个对照组。实验组受试者接受药物,对照组接受安慰剂。根据两组之间的血压差异,我们计算:
• t 的值表示实验组的结果与原假设(即对照组的指标)的差异程度;
• 标准P显示了如果使用安慰剂代替药物,则获得在实验组中观察到的效果的概率。
为了评估结果,我们将 p 的计算值与声明的统计显着性水平 α 进行比较。
2. 什么是显著性水平?
显著性水平是研究人员预先设定的阈值。事实上,这是科学家获得假阳性结果的最大可接受风险。
因此,如果 p 小于 α 的显著性水平,则认为结果具有统计显著性。 在这种情况下,我们拒绝原假设并假设存在真正的差异。
如果 p 值大于 α,则结果在统计意义上不显著。然后,我们拒绝替代假设,并假设差异是巧合。
通常,统计显著性水平设置为 0.05。这意味着随机效应或差异发生的概率不超过 5%。
在保守研究中,α值低于 0.05 是可以接受的。在这种情况下,我们应用更严格的标准来检验假设。
统计显著性水平可以设置为大于 0.05。这对于市场和商业研究来说是可以接受的。这样的指标α使研究不那么严谨,而且通常不会在学术论文中使用。
重要提示:没有统计学上显着的效应并不意味着它不存在。
除 p 标准外,还应提供描述性数据统计,例如平均值和标准差。
3. 什么是t检验?
T 检验用于比较平均值。它显示了真实效果的存在和组之间的差异。
重要 t 检验仅适用于平均值,并且仅适用于比较两组时。如果需要比较多个组,请使用后验检验或方差分析。
T 检验要求数据为:
• 定量,以数字表示。
• 独立,即彼此无关。例如,一个人的实验室值可能相互依赖。不同人的相同指标将是独立的。
• 近似服从正态分布。在这种情况下,数据是对称分布的。该图呈钟形,因为大多数受试者的值都接近平均值。指标值越极端,检测到它们的人数就越少。
• 它们在组内具有均匀的分散性。这意味着数据在所有比较组中的分布应该大致相同。如果一组的方差明显高于另一组,则检验的有效性会降低。
重要 对于不服从正态分布和/或具有非均匀方差的数据,使用非参数检验。例如,对方差程度不等的数据进行 Wilcoxon 符号秩检验。
4. t检验是如何工作的?
将 t 检验付诸实践意味着我们必须将针对特定研究计算的 t 检验与 t 的临界值进行比较。
您可以使用公式或使用特殊软件计算 t 检验。大多数统计程序都具有 t 检验函数。导入原始数据并获取样本的 t 值。
现在,我们需要将结果与学生表中的临界值进行比较。为了在表中找到所需的值,我们需要确定α的显著性水平和自由度 df。
5. 如何使用学生表?
要使用 Student 的表格,您需要:
1. 计算研究组的 t 检验。使用STATISTICA或任何其他程序进行统计数据处理。
2. 确定您将在研究中使用的表格。
如果要检查平均值是否等于某个值,请使用该表进行双尾检验。在这种情况下,你的结果偏离或多或少对你来说并不重要,重要的是原则上存在差异。
如果备择假设指出某个组的平均值大于或小于某个水平,请使用单尾检验表。
1. 计算自由度 df。该比率是根据样本量 n 和程序类型确定的。
对于单样本测试(将获得的数据与特定的临界值进行比较)或相关样本的测试(一个样本的每个值对应于另一个样本的一个且只有一个值;例如,治疗前后相同患者的结果)df = n1+ n2— 2
对于独立样本(不同组的数值之间没有对应关系;例如,在比较不同国家、地区和城市的发病率时),df = n – 1
对于线性回归(根据现有和研究的数据学习一组新数据的值)或皮尔逊相关性(估计两个变量之间的关系),df = n – 2
自由度越大,统计检验的性能就越好。统计数据处理软件自动计算 df。
1. 选择显著性水平α。 如前所述,在大多数研究中,α假定为 0.05。随着显著性水平的降低,我们降低了假阳性结果的风险,而随着假阳性结果的增加,假阴性结果的概率也会降低。
2. 现在,在 Student 表中,我们在 df 和 α 的交点处找到临界值 t:
1. 将表中 t 的临界值与计算出的临界值进行比较。
如果 t 检验的计算值的绝对值大于表格值,则无法获得巧合来解释获得的数据,必须否定原假设。
否则,如果 t 的计算值等于或小于表格值,我们被迫接受原假设并拒绝备择假设。
6.具有统计学意义的问题。
由于多种原因,统计显着性不能作为衡量工作重要性和结果质量的唯一标准。
• 由于阈值α是任意设置的,因此向上或向下移动阈值会增加误报或漏报的可能性。但是,如果坚持常规值 α=0.05;这并不能保证正确估计可接受的错误风险。
• p 检验的微小变化(例如,0.001)可以将结果从统计学上不显著变为显著,反之亦然。
• 统计显著性并不能说明观察到的效果或差异的实际实际意义。它受样本大小的影响最大。在大规模研究中,即使观察到的效果非常小,也几乎总是获得具有统计学意义的结果。
例如,成人身高 1 厘米或血压 5 毫米汞柱的差异在统计学上显着差异,在现实生活中没有区别。
另一个问题是偏差和相关数据选择。通常,作者仅在结果具有统计学意义时才发表结果。然而,这并不总是在重复研究中得到证实。医学和社会科学的可重复性危机可能表明,通过过分强调统计意义,我们错过了一些重要的东西。
为了正确解释研究结果,不仅需要评估 p 检验,还需要评估平均值和置信区间。
除了统计学意义外,还必须考虑结果的实际和临床意义。
实际相关性是指观察到的效果的实际影响。指标的数值或其与原始数字相比的增长证明了这一点。例如,使用新肥料使产量增加 2% 可能具有统计学意义。但是,如果在实践中利润不超过成本,那么,正如他们所说,羊皮不值得穿衣。
临床效果意味着患者生活质量的改善。例如,脊柱侧弯的手术矫正不仅具有统计学意义,而且实际上显着降低了Cobb角。但是,如果结果是患者无法自行穿裤子和系鞋带,则干预的临床疗效为阴性。
结论
T检验表明,两组之间确实存在差异。标准p表明,这些差异不是偶然的结果。
这些指标有一定的局限性。它们只能用于分析正态分布且在研究组中方差大致相同的定量数据。如果数据不满足这些要求,则需要使用其他测试。
为了全面了解研究结果,您需要评估平均值、标准差和其他描述性统计数据。
为了避免产生深远影响的错误,值得从裸露的数字中休息一下,看看现实世界。通常,对实践和临床相关性的评估提供的不仅仅是理解结果相关性的统计标准。