Business School
博士后资讯
手机:13521943680
电话:010-62904558
博士后论文:什么是抽样和选择偏差?
简单来说,样本是那些参与研究的人。为了使研究结果推广到整个人群,或至少推广到某些群体,样本必须反映人群的多样性和结构。
样本的形成取决于几个因素:研究的性质、金钱和时间的可用性以及可行性。
今天我们要谈谈什么是抽样;如何创建能够提供可靠数据和高质量结果的样品;哪个样本是有偏差的,以及如何避免其形成中的错误。
1. 什么是抽样?
为了获得可以扩展到整个人群或一大类人群的可靠结果,您需要研究尽可能多的(理想情况下是所有)感兴趣类别的成员。
由于这在现实生活中几乎是不可能的,因此科学家必须选择一组能够充分反映人口属性的主题。例如,在研究城市人口时,有必要在样本中包括所有年龄、专业和教育类别的人口,其比例与所研究城市中的比例相同。
与连续研究相比,取样为科学家节省了大量金钱和时间。如果样品设计得当,获得的结果可以扩展到大人群。
2.抽样主要有两种类型。
研究中使用的抽样主要有两种类型。
概率抽样。 参与者是随机选择的,因此研究人群的所有成员被选中的概率相同。概率抽样允许您收集各种总体的数据。它在定量分析研究中效果很好。
优势:
• 产生可复制到整个人群的代表性结果。
• 允许您识别变量之间的相关性和关系。
弊:
• 要形成它,有必要有一个完整的研究组列表,这并不总是可能的,特别是如果这个组是一个国家或大城市的全部人口。
• 为了避免失真,样品必须足够大,因此这项工作将需要大量的资源。
因此,概率抽样在研究大种群时效果很好,并减少了抽样偏差。
然而,即使这种选择方法也不能将偏差概率降低到零。例如,如果研究涉及大都市地区的居民,则未登记的移民不太可能被包括在样本中。对于从事建筑工作并住在建筑工地营房的工人,或者来自看守所的难民来说,这几乎是不存在的。
此外,科学家并不总是能够评估这个灰色和黑色区域有多大,因此,缺乏这些数据如何影响研究的代表性。
不考虑概率的抽样。 参与者是根据某些标准选择的。因此,该组的不同成员被纳入样本的可能性并不相同。这些样本适用于某些人群的研究:大学生、公司员工、学校教师。它在定量和定性研究中都效果很好。此方法用于不知道确切总体规模的情况。
概率抽样提供了更可靠的数据,但并不总是能够生成它。在某些情况下,非概率抽样可以节省时间和金钱。它不像概率抽样那样具有代表性,因此并不总是可以将研究结果推广到整个人群。
3. 概率抽样的五种变体。
概率抽样有五种类型。
1. 简单的随机抽样。池选择计算机,并且它必须足够大(至少几百个)。这种方法最大限度地减少了选择过程中的抽样偏差和研究人员偏差,因此获得的结果可以安全地扩展到整个人群。
尊严:
• 从技术上讲,很容易形成随机样本,为此您可以使用任何随机数生成器。
弊:
• 可供选择的名单应包括几乎所有人口;
• 大样本量使研究非常耗时。
2. 分层抽样。 根据研究的逻辑,人口按年龄、性别、职业、收入或其他特征分为几组。参与者是从每个阶层中随机选择的。
从每个层中,您可以采用相同数量的参与者,也可以选择与层大小成比例的数字。这样,在选择中就考虑了人口的重要特征。
尊严:
• 对这种样本的研究结果可以推广并应用于整个人群,因为它代表了具有显着区别特征的人群的所有亚组。
缺乏:
• 研究人员可能难以识别重要的地层并确定其数量。
重要提示 如果分层发生在多个原因上,那么在样本形成后,有必要确保其中不会多次包含相同的人。
3. 系统随机抽样。 从普通人群中选择每 N 个受试者(例如,每五分之一、第十个、第一百个)参与研究。在这种情况下,并非所有人口成员都有相同的机会被纳入研究组。
尊严:
• 如果您已经有目标组的记录,此方法很方便。
缺乏:
• 要形成选择,您需要有现成的列表,从中进行选择。
重要为了减少抽样偏差,科学家必须确保在组成研究组的列表中没有隐藏的模式或层次结构顺序,这可能会扭曲结果。
例如,如果一个大型组织中各部门的员工名单是根据所担任的职位来排列的,那么名单上每五个或十个人中就有一个人很可能占据一个类似的职位,而他们的老板和下属根本没有机会被代表。
4. 集群采样。 它涉及将人口划分为与特定地理区域相对应的集群。选择几个集群参与研究。此示例包括群集的所有成员。
尊严:
• 该方法在研究大面积时是有效的。
缺乏:
• 这样的样本可能无法反映总体的所有属性。
5. 多阶段采样。 它用于研究大量人群。在同一研究的不同阶段使用不同的抽样方法。
例如,要研究整个国家,它按地区划分为集群,然后按年龄或其他特征对集群进行分层。通过简单的随机抽样从每个阶层中选择研究参与者。
尊严:
• 当需要从地理上分散的区域收集数据时,该方法是有效的。
缺乏:
• 一项研究不能具有 100% 的代表性。
对于任何方法,样本量都必须足够大以避免错误。
4. 五种抽样选项,不考虑概率。
非概率样本还包括五个选项。
1. 非代表性样品。 这种方法根本不会发生目标导向的选择。人口中最容易接近的成员也参与其中。例如,从同意参与的人中对购物中心的顾客进行调查。
要形成这样的选择,您可以使用手机上的社交网络或联系人列表。
尊严:
• 可以快速轻松地收集数据。
缺乏:
• 代表性低;不可能将结果推广到整个人群。
然而,对于试点研究,这样的样本是相当合适的。
2. 顺序采样。受试者的选择原则与上一版本相同。他们参与研究一段时间,然后招募另一组。
尊严:
• 该方法允许您改进和验证在工作早期阶段获得的数据。
弊:
• 这项研究很耗时。
• 几年后形成的样本可能与最初的样本有根本的不同。例如,如果一个贫穷的郊区变成了一个享有盛誉的发展区,其人口就会发生巨大变化。
3. 配额抽样。 当您需要研究特定人口统计数据时使用,例如 30 多岁和 40 多岁的人。
尊严:
• 它使您可以快速轻松地收集有关特定人口群体的高质量数据。
• 对于确定配额所依据的特征,该研究可能具有相当的代表性。
缺乏:
• 未被选中的性状可能会在样本中不成比例地表示。
4. 主观抽样。 研究者在选择参与者时依靠自己的判断。这种方法是基于科学家的信念,即他可以根据自己的经验和常识形成一个有代表性的样本。
尊严:
• 节省时间和金钱。
• 如果研究人群通常较小,这可能是唯一合适的方法。
缺乏:
• 研究人员在这种选择中的偏差高于其他方法。
5. 滚雪球法。 它可用于研究非常封闭或难以到达的人群。研究人员选择一些合适的对象,然后要求他们邀请他们的熟人,依此类推。
尊严:
• 这种方法使科学家有机会与无法以任何其他方式访问的特遣队合作。
缺乏:
• 避免偏见几乎是不可能的。
在非概率样本中,研究人员偏差的影响要大得多。工作质量可能会因无能或缺乏经验而受到影响。
5. 什么是偏置抽样?
当有偏差的抽样不能反映总体的特征时,就会发生有偏差的抽样。造成这种扭曲的原因可能各不相同:样本太小、选择方法不正确、难以找到合适的特遣队等等。
通常,当某些人比其他人更有可能被纳入研究组时,就会发生抽样偏倚。
抽样偏差有几种类型:
• 自我选择偏差。 如果志愿者被邀请参加研究,那么样本中可能会包括一个非常具体的队伍。例如,缺乏沟通的孤独老人。只有某种类型的人同意参与研究的情况会扭曲研究结果并降低其普遍性。
• 预选偏差。 进行初步面试时发生错误。科学家无意中或有意识地选择了那些可能证实研究假设的参与者。
• 幸存者偏见。 研究人员的偏见,只选择成功的受试者参与工作,也在其发生中发挥了作用。这种扭曲并不总是有意识地发生。通常,没有成功记录的人根本没有兴趣参与。关于它们的信息很难收集。
• 无反应偏倚 同意和不同意回答的受访者之间存在显着差异。如果研究者完全无视那些拒绝参与调查的人,结果将不可避免地出现偏差。
• 抽样偏差。 如果一个或多个人群在研究队列中没有代表,则发生。造成这种扭曲的原因可能是某个人口群体难以接触或地理上难以接近。
显然,在抽样中完全避免偏差是不可能的。失明有助于减少偏见的影响。理想情况下,您可以将抽样委托给不熟悉研究假设且对其结果没有期望的人。
6. 如何避免抽样偏差?
为了避免抽样偏差,需要采取以下几个步骤:
• 首先,制定研究的假设,确定其对象和主题。考虑您需要哪些信息和资源来检验您的假设。
• 确定目标群体或人群。
• 尽量考虑到人口的所有多样性。注意小人群,以确保他们参与研究。
• 请几位专家检查问卷问题是否存在隐藏的偏见。
无应答偏差可以通过以下措施最小化:
• 尽量使调查变得简单。如果问题简明易懂,并且数量不太多,则受访者同意参与并到达问卷末尾的概率更高。
• 激励调查会增加被接受的可能性。
• 向受访者提供匿名保证。
• 使用大多数人都可以使用的问卷分发表格。
虽然抽样偏差不能完全消除,但经过深思熟虑的调查设计和对受访者友好的问卷处理方法可以显着减少偏差。
结论
形成适合特定研究的样本的问题非常尖锐。结果的代表性和结论的概括性直接取决于其质量。
确定适当选择方法的起点是研究问题。确定您要研究的人群以及代表它的样本。
总体的特征决定了抽样要求。它应该与人口的规模和多样性相对应。
由于研究人员或参与者的偏见,可能会出现偏差的结果。概率抽样可以减少偏差,但科学家并不总是可以使用这种方法。因此,如果在不考虑概率的情况下形成样本,请提前考虑哪些因素会导致失真以及如何避免它们。