Business School
博士后资讯
手机:13521943680
电话:010-62904558
推进数据科学教育的研究调查
内容概述
随着对数据科学培训的需求不断增加,课外或“临时”教育工作已经出现,以帮助个人获得相关技能和专业知识。尽管许多计算密集型学科已经存在课外努力,但它们对数据科学教育的支持极大地帮助应对了数据科学实践和正式课程的创新速度。虽然临时努力的激增表明它们很受欢迎,但关于它们旨在满足的需要、它们面临的限制以及成功努力的实际建议的记录较少。为了全面了解数据科学不同临时格式的作用,我们调查了临时数据科学教育工作的组织者,以了解组织者如何看待活动已经消失 - 包括优势领域和需要增长的领域。我们还从过去的活动中收集了建议,供未来的组织者使用。我们的研究结果表明,临时努力的感知好处超出了发展技术技能的范围,并且可能与正式课程一起提供持续的好处,这值得进一步研究。随着越来越多的来自具有复杂数据历史的计算领域的研究人员参与到分享其技能的临时工作中,我们从调查中吸取的经验教训将为有兴趣创建、改进和维持未来工作的从业者领导者提供具体建议。
作者摘要
大型数据集正在成为整个社会,特别是生物科学不可或缺的一部分。因此,对复杂数据技能和经验的需求猛增,使一些人争先恐后地进行交叉培训并获得更多的计算技能。虽然大学正在竞相开发正规课程以满足这一需求,但为了满足对技能和经验的直接需求,已经出现了各种非正式努力。这些“临时”努力在数据科学教育中发挥着至关重要的作用,特别是对于领域科学家而言。虽然一些研究表明特定的临时形式具有相当大的影响,但很少有研究从整体上关注这些努力。在这里,我们调查了来自领先数据科学机构的工作组织者,并收集了经验教训。我们发现,人们普遍报告努力在课程可以改进的困难领域成功提供机会,例如提供平易近人的新技能介绍,增加背景多样性以及培养异质社区。然而,努力也报告了满足各种需求的挑战,并提出了建议。总的来说,我们从这些努力中收集的经验教训有助于改进未来的临时工作,并为正式计划提供信息,这些计划可能正在寻找设计创新教育格式的灵感。
介绍
在过去几年中,人们对数据科学和相关领域的兴趣激增。通常被视为应用编程能力和统计知识来回答来自特定领域专业知识的问题,随着数据集的规模和复杂性的增长,数据科学家的需求量很大[2]。虽然许多大学课程都承认需要数据科学培训和其他具有计算思维的教育机会,但采用这些新数据和技术的正式课程结构和课程设置可能会缓慢改变。
为了弥合当前课程与数据科学新需求之间的直接差距,出现了一系列课外教育机会(即不提供任何课程学分且不需要完成学位课程的机会),为学生提供必要的数据科学技能。这些临时教育工作可以采取多种形式 - 包括长达数小时的研讨会,为期一周的新兵训练营和为期一学期的研究项目 - 并且旨在通过采用新的工具和教学法来补充现有的正规教育结构。这些努力由从业者领导者带头 - 跨职业阶段和路径的数据科学家,他们可能有也可能没有正式的教学专业知识,但希望与他人分享他们的知识。来自具有复杂数据和计算技能(如计算生物学)悠久传统的领域的研究人员是进入这些教育机会最快的人,他们渴望与新兴的数据科学家和成熟的研究人员分享他们的技能,将数据科学整合到大数据和计算工作的“长尾”领域。
以前的研究已经考虑了特定的临时形式的好处,如黑客周,暑期课程和研讨会。其中一些工作表明,除了填补数据科学快速增长暂时造成的教育空白外,临时努力还可能通过快速迭代开发的创新范式来帮助解决更多的系统性弱点[13]。其他工作涉及数据科学教育的制度变革[11]以及如何设计与计算技能相关的正式工作或课程[10,21]。以前的工作还考虑了从个别活动形式中吸取的经验教训,例如短期课程或研讨会[8,19,20,22-24],导师 - 学员关系[25]和暑期课程[26]。 然而,据我们所知,还没有研究全面研究不同课外活动形式可以提供的好处,并为未来的努力和新颖的形式提取经验教训。
为了正式了解临时工作的广度、影响和增长机会,我们从各种工作中调查了组织者。这些努力都是在摩尔-斯隆数据科学环境(MSDSEs)组织的,这是一项早期倡议,旨在促进纽约大学(NYU),华盛顿大学(UW)和加州大学伯克利分校(UC Berkeley)的跨学科数据科学研究,教育和社区。这项调查要求组织者进行建设性的自我批评,通过平衡地看待他们所参与的努力,分享为今后努力吸取的经验教训。(有关调查的详细信息,请参阅 “材料和方法” 部分。除了描述他们的努力之外,我们还要求他们概述他们的活动目标,明确描述他们成功和不成功的方式与这些目标相关,列出他们(或其他人)改变他们的努力(或类似努力)的方式,并提供他们对数据科学临时教育未来的经验教训和想法。
利用这些数据,我们转向了当前论文的主要贡献:提供具体指导,以改善未来跨工作格式的数据科学临时教育工作。为了实现这一目标,我们要求过去的组织者反思他们的经验,并在一系列结构化的封闭形式和开放形式问题中为未来的组织者提供建议。从开放式回复中,我们使用定性研究方法[27,28]提取密码本以捕获重复出现的主题。(有关如何开发密码本的更多信息,请参阅“材料和方法”。这本密码本是当前工作的次要贡献,旨在既作为我们调查具体回答的指南,也是未来定性和定量探索的工具。这些经验教训还为我们提供了一个机会来探索对临时数据科学教育未来的影响,尤其是在不断发展且日益丰富的正规教育结构中。
结果
我们的调查总共收到了24份回复,但有2份被排除在外,因为受访者不同意参与研究。纳入的22份答复代表了18个独特组织者对19项独特工作的看法(表1)。据我们所知,最初的24份调查回复代表了当时MSDSE内临时数据科学教育工作的全面清单。(每所主办大学过去和现在都有额外的临时努力,但我们的重点仅限于由MSDSE赞助的数据科学的临时教育工作。因此,这些分析中包括的22份答复几乎是一个全面的清单。
其中许多工作代表一个事件或一个系列中的多个事件的多次(例如,年度)迭代,因此表示的事件要多得多。收集这些数据最初是为了了解如何改进MSDSE中的临时工作。根据加州大学伯克利分校机构审查委员会(IRB)协议ID 2017-11-10487,我们随后获得了受访者的同意,以便更广泛地分享经验教训。
总的来说,我们调查的组织者报告了大约 1,194 名参与者。然而,由于一些组织者指出这些活动定期举行(例如,每周、每季度),这些临时努力可能包括多达3,554名参与者,使用报告的频率并假设参与率相对稳定。虽然活动之间的参与者可能存在重叠,但这些临时工作触及了大量寻求数据科学培训和经验的个人。
MSDSE所进行的努力类型
我们调查中报告的努力包括多种格式(示例见表2)。我们调查中报告的每项努力通常都可以沿着两个正交轴来表征:高或低投资以及长期或短期凝聚力。投资涵盖创建活动所需的资源量(例如空间、资金)和/或努力。凝聚力侧重于努力的持久性。这并不一定意味着参与这项工作的特定个人将随着时间的推移保持不变;相反,这捕捉到了努力本身的持久性。
高投入,短期凝聚力强
在我们的调查中,MSDSE的大部分努力是高投资,短期凝聚力(HIST;表 2),因为他们需要多个领导者之间的协调,以创建一个跨越几天或一周的统一计划。HIST工作可能包括其他作品中讨论的众所周知的临时工作类型,例如,黑客周(即,将教程和讲座与专门的时间混合在一起以集中精力进行项目的多日活动[13])和所有15个校区的多天研讨会(例如,软件木工[3])。我们调查中包含的大多数HIST工作都不是由教职员工推动的,这突出了临时教育工作领导的开放性。
低投资,短期凝聚力
被描述为低投资、短期凝聚力 (LIST) 的临时教育工作通常是单日活动,投资要求更加分散。LIST的例子包括其他流行的形式,例如单日“非会议”[29],侧重于对单一类型数据的跨学科分析或“闪电谈话”(即3到10分钟的谈话),旨在实际解决数据科学中的单个问题或主题。就其性质而言,这些努力为更有针对性的活动提供了机会,这些活动利用了当地社区的现有优势,针对特定需求或狭窄的主题。
高投资,长期凝聚力
高投资、长期凝聚力 (HILT) 工作需要多项投资(例如时间、资源、成本)才能持续数月或数年。为此,一些工作需要对研究人员或软件开发导师进行培训的层次结构(例如,“培训培训师”模型)。我们的调查中报告的原型HILT工作包括通过长时间(例如,学期,夏季)的密切指导关系专注于实践研究项目或软件开发。虽然这些努力是有益的,但所需资源是一项重大挑战。
低投资,长期凝聚力
被归类为低投资,长期凝聚力(LILT)的努力规模较长,但需要相对较少的集中投资。这些努力通常由一个组织者支持,该组织者可以在一个学期或一年内建立结构。例如,LILT的工作可能包括简短的咨询会议,持续的同行学习教程和讲座系列。松散的连接结构使组织者能够利用现有的社区专业知识,同时加深社区联系并拓宽社区知识。这些活动可能相互依存,但其相对非正式的结构可能会降低参与者的进入门槛。
临时工作的目标受众多样化
为了了解临时努力试图吸引哪些受众,以及他们是否成功地吸引了服务不足的受众,我们要求组织者在我们的调查中使用多选题来命名他们的目标人群。如图 1 所示,列出的每个受众都是多个努力的目标。我们试图尽可能广泛地识别不同类型的多样性:除了使用“多样化”一词来指代人口统计学和学科外,我们还包括了一系列其他类型的多样性(包括职业阶段、编程背景和职业目标)。
每个答复者都表示针对一个以上的已确定人群,有些答复者表示调查问题未指定的其他受众。如前所述,通过拥有各种工作结构,一些临时工作(特别是那些具有短期凝聚力的努力)可以创造比正规课程更低的进入门槛,从而为不同的受众提供与数据科学的初步接触。这些努力也可以进行调整以满足特定受众的需求,因为它们是课外活动,而且往往相对简短。通过纳入更多样化的受众,临时工作可以丰富学习成果,并使数据科学更容易获得。
特别努力的共同目标
使用多选题回答,每个受访者都表示,他们的努力至少记住了4个列出的目标中的一个,而这些目标并不总是在正规课程中得到很好的满足。许多努力还表明了额外的、未列出的目标——最重要的主题之一是建立社区和研究合作。这一主题以多种方式表现出来,但在临时活动中形成并在事件之后持续存在的多样化社区通常被描述为对研究和教育成果的长期好处。通过针对所列领域,特设教育试图以新颖的结构补充课程,以解决课程的传统挑战或缺点。
经验教训:行之有效的方法
虽然对我们关于努力成功的问题的许多开放式回答都是针对事件或所进行的临时努力的类型,但我们发现了 5 个通常作为临时教育成功的一般特征。这些特征中的大多数明确地来自扎根的方法(在“材料和方法”部分中进一步讨论)作为代码,可用于设计或计划和评估未来的工作。请注意,由于目前的研究方法,报告这些特征的频率可能被低估了:开放式调查问题没有明确询问个人特征,而是允许受访者自愿提供有关任何对他们来说突出的成功的信息。
增加背景、经验、观点和技能的多样性。
通过在有限的时间范围内提供平易近人的介绍,许多努力还报告了针对多样性(例如,职业阶段、人口统计、学科),50%的调查回复提到成功吸引了不同的受众。数据科学通常需要个人跨学科。虽然这种多样性激发了令人兴奋的研究和重要发现,但它也可能为进入和进步创造障碍。通过提供具有定向焦点的小模块,临时工作为数据科学教育提供了一个不那么令人生畏的环境,可以增强学习者的能力并加速个人获取新信息和技能的速度。
培养技术技能和研究。
临时工作中最常见的成功之一似乎是创建可以使新主题、技能和/或技术方法变得平易近人的格式。经常提到的临时工作组织者(占答复的68.2%)为参与者提供了实践经验的机会,可以建立和实践技术技能和研究,而不仅仅是理论概念。
其中许多努力是专门设计的,作为材料的介绍。大学课程经常让学生在参加正式课程或自己学习技能之间做出选择。临时教育工作平滑了这些选项之间的范围,帮助学习者在专家支持下快速访问新材料。教程、“黑客”会议和研讨会形式的可接近性不仅对刚接触数据科学的个人很重要,而且对那些过渡到新的或跨学科领域和对新方法的认识也很重要。
技术技能需要大量的实践来完善,而临时努力通过结构化实践(例如,直接指导、项目指导学习)和反馈来支持这一点。例如,一些临时工作以教程格式提供了对新编程库的支持介绍,而另一些工作则通过一个学期的、动手和指导的研究项目提供了更多练习的机会。然而,这种成功需要从参与者的角度和客观结果进行进一步调查,因为最近的研究发现了零学习效应[30],因此与发现积极努力结果的工作相矛盾。
培养非技术技能
同样,许多努力提到提供非技术技能方面的经验(40.9%的答复),例如在研讨会上主持教学课程或通过研究项目指导一组本科生。虽然演示、指导、管理和沟通等非技术技能对于数据科学领域的成功职业生涯至关重要,但大学环境并不总是提供支持性环境来构建、实践和完善这些技能。临时教育工作为建立通常被视为超出标准大学课程范围的新颖技能提供了机会。
建立持久的社区,改善研究
很大一部分答复表明,这项工作得到了大量参与(占答复的40.9%)。其中许多人将这种参与描述为围绕共同的问题、工具或经验建立社区,并报告说,这些社区在多个版本的努力中或超越了努力。由于努力可以吸引不同的受众,许多努力报告说,新成立的社区包括否则可能无法联系的成员。除了成为社区的一部分所带来的广泛好处外,组织者还报告了源于某些努力的特定富有成效的合作。
经验教训:行不通的事情
虽然许多参加我们调查的组织者认为他们的努力取得了一定的成功,但除了3项努力外,其他所有努力都详细说明了改进的空间。大多数努力(86.4%)提到了他们可以改进后勤工作的具体方法或类似工作(例如,安排时间,组织材料)。然而,组织者的回应也提到了更普遍的改进机会。我们将一般回应分为4个主题。
与成功案例一样,我们注意到,由于我们关于努力缺陷的调查问题的开放性和缺乏参与者报告,这些挑战中的每一个都可能被低估。
参与者和组织者的期望不明确
一个值得注意的缺点是缺乏充分表达和先验地传达相互期望。在调查中,18.2%的受访者提到某种形式的努力管理参与者的期望,但这可能是一个低估计,因为其他努力通过他们描述的设想变化暗示了类似的问题。
“参与者期望”包括有关参与者应具备哪些先前知识或技能的信息,有关参与者和从业者领导者将提供什么的指南,以及每个人应从参与或领导中获得的目标。据报道,对必要的背景、参与者角色和工作范围的讨论不明确或不充分,导致沮丧和失望。例如,组织者报告说,没有足够背景信息的参与者认为会议难以接近或令人生畏。同样,当临时努力试图培养导师与学员的关系时,当双方的期望在关系开始时没有明确讨论时,关系双方往往会感到沮丧和失望。
弥合不同技能和水平的挑战
与会者的多样性一直被报告为一个目标,并在实现时取得积极成果。然而,由于技能如此广泛,最常提到的缺点(40.9%)是难以让每个人都在同一页面上。不同的技能和水平使得以最佳速度向每个人展示新材料变得具有挑战性。不同的参与者也带来了对个别事件的不同期望,这可能很难满足,正如软件木工之前所指出的那样。
难以培养持续的领导力。
尽管对参与者的教育进步做出了贡献,但22.7%的受访者提到组织者表示倦怠是一个严肃的考虑因素。临时努力对数据科学和机构社区来说是令人兴奋和有意义的贡献,但它们在传统的学术结构中往往没有得到回报甚至不被承认。结果,组织者努力寻找更多的帮助或人员来继续他们的努力,这往往使努力的未来变得不确定。
难以保持持续参与
保持参与者的参与度是近四分之一(22.7%)的答复中提到的另一个挑战。最初引起对数据科学项目和活动的兴奋很容易,但将这种兴奋转化为定期参加活动、自愿参加演讲或研究成果要困难得多。由于临时教育工作的课外性质,往往没有足够的动力来激励从业者领导者和参与者继续参与。
讨论
在这里,我们考虑了对MSDSE数据科学特别教育工作组织者的调查中的多项选择和开放式回复。从中,我们生成了特别努力的分类法,创建了从开放式答复中提取主题的密码本,并提供了一系列经验教训,这些经验教训来自个别组织者的明确评论和对整个答复的更广泛考虑。同样,由于调查的开放性,这些经验教训在多大程度上被低估了,如果有的话;这些(以及潜在的其他)优势领域和需要改进的领域的普遍性值得进一步调查。在这次讨论中,我们以对过去工作的这些反思为基础,为今后的特别努力提供具体建议。然后,我们转向考虑数据科学教育中面临的一些开放性问题,这些问题自然而然地从我们的数据中产生,并阐明了我们工作的一些局限性。
对临时教育工作的建议
尽管过去的临时教育工作取得了成功,但仍有需要改进的领域,可以帮助指导未来活动的计划。特别是,需要更好的沟通和更有意识的规划。重要的是,尽管此处列出的建议是通过对MSDSE工作组织者的调查提供的,但这些建议同样适用于所有从业者领导者,而不仅仅是那些与MSDSE计划相关的人,并且有些建议也被引用为先前工作中关于个人教育工作形式的经验教训或建议。这些建议对于来自机构支持水平较低和/或现有数据科学社区较小的机构的从业者领导者来说可能是最有价值的,因为这些建议可以帮助充分利用可用的机会、时间和资源。采纳这些建议有助于提高个人临时工作的质量,以及更广泛的临时教育和数据科学实践的质量。
活动前后的调查参与者
近三分之一的受访者(31.8%)报告说,在活动之前或之后对参与者进行了调查,并指出这些信息在塑造他们当前和未来的努力方面很有用。(其他几位受访者指出,他们希望将来采用事前或事后调查,13.6%的受访者表示遗憾他们没有从调查中获得成功指标。
活动前的调查为领导者和组织者提供了有效规划活动的基本见解。它可以帮助从业者领导者为教程和项目设定适当的节奏,帮助组织者管理预期期望,并帮助组织者决定如何在较长的活动中分配时间(例如,如何在黑客周期间在教程和黑客会话之间分配时间)。在努力后进行的参与者调查对于收集改进反馈和收集成功指标很有价值,然后可用于评估努力并加强对未来努力实例的支持。
传达目标以管理期望。
组织者应在活动开始前向从业者领导者仔细阐明活动的目标,以确定充分参与活动所需的最低知识或技能。在我们调查的回复中,阐明和传达目标和期望被认为是一项挑战,这与先前工作确定的针对个别格式的一些经验教训或建议一致。然后应与参与者分享这些目标和要求,以提高理解和管理期望,正如相关工作中所指出的那样。如果可能,在征集参与时应突出显示此信息,以便参与者在决定是否参加活动时可以考虑这些信息,特别是对于研讨会和黑客马拉松等为期多日的活动。
传达必要的先验知识
阐明工作的目标和目标受众将有助于组织者决定如何在所需的参与者准备与临时教育工作的速度和深度之间进行权衡。此外,组织者可以确定参与者为这项工作做准备的方式,正如我们调查中27.3%的受访者所建议的那样。组织者应在招聘材料中包括任何基本要求,以便参与者清楚地了解从活动中受益所需的先前经验(如果有的话),以便参与者能够为工作做好准备。将预期知识设定在适当的水平非常重要,因为设定高标准所需的技能可能会阻止几乎没有数据科学背景的潜在参与者,从而减少多样性。
让代表参与进来,促进多样性
活动目标的表达和沟通对于寻求吸引不同受众的努力尤为重要。临时教育工作提供了一个绝佳的机会,可以创造性地接触跨学科且在数据科学中代表性不足的受众。然而,组织者应该积极努力,以领导者和参与者的身份接触这些受众,如果没有明确的表达和专门的规划,有效的努力就不可能有机地实现。这反映在一些受访者在成功吸引不同受众方面面临的挑战(18.2%)以及几乎大多数努力报告他们将做出改变以解决多样性问题(45.5%),包括一位受访者明确主张多元化的努力领导。
寻求接触不同学科或人口统计学的努力应确定成功实现这一目标的明确步骤,因为相关努力也反映了[20]。如果一项努力旨在针对不同研究领域的参与,组织者应在规划过程的早期与这些领域的代表联系,要么让代表参与组织过程,要么要求对组织结构提供反馈。当从业者领导者来自更具计算思维的领域(例如,计算生物学)并且正在接触来自不太传统的计算领域(例如,社会科学)的受众时,这一点尤其重要。与代表合作可以为吸引和服务目标受众提供宝贵的见解,包括对应涵盖的材料的建议、有效翻译和展示技能的用例示例,甚至帮助在该社区内投放广告。
支持软技能的发展
组织者还应考虑从业者领导者将如何从参与临时工作中受益,以帮助维持从业者领导者的广泛参与。许多软技能——如管理、公开演讲、演讲、沟通和教学——对于任何领域或职业轨迹都是无价的。临时教育工作为从业者-领导者提供了练习这些技能的绝佳机会,但对发展的额外支持将使领导者受益,并有可能改善参与的激励。经济激励是一种可能的选择,但可以考虑其他支持模式,例如提供观众的建设性演示反馈,发展导师与学员关系的建议,或向演讲者组织并建立导师之间的友情。组织者甚至可以直接与潜在的从业者领导者进行对话,看看提供什么可能是最有用的好处。
避免重复
在同一机构进行重复或严重重叠的工作并不总是对资源的最佳利用。这些可能会对试图参与太多重叠工作的组织者和个人产生不必要的时间限制。在我们的调查中,这可能是特别关注的问题,因为它针对的是协调的MSDSE,但临时工作可能是跨机构的,在这种情况下,这种担忧可能会加剧。它也与任何大型机构相关,例如,多个部门可能依靠临时工作来教授编码技能。个人对重叠努力的过度订阅会加剧跟进和倦怠的问题。在机构或跨机构社区和学科内协调工作仍然是一个困难但重要的问题。在机构支持水平相对较低的机构或数据科学社区相对较小的机构中,这种感觉最为强烈。
努力实现连续性、可重现性和可扩展性。
帮助协调教育工作的一种可能方法是使用已经成为数据科学主要内容的科学可重复性工具(例如,GitHub和开放科学框架等开放代码存储库)。通过公开分享这些材料,新努力的组织者可以看到其他努力涵盖了哪些主题,并通过适当地重复使用现有材料来防止不必要的重复工作[18,22,33]。 为建立稳定的教育材料库所作的努力报告说,这是今后届会的一项重大成就和益处。一些努力正在积极解决这些问题[13],未来的工作可能会寻求记录共享学习材料的影响和采用。
除了为临时工作参与者提供持久的资源外,采用开放科学原则还可以促进将特别相关和成功的临时工作纳入正式课程组成部分。使用这些工具可能最有影响,因为它可以作为向规模较小和资金不足的机构复制和传播专门知识的工具。
开放性问题
随着数据科学的成熟,MSDSE及其他地区的临时工作形式无疑会发生变化。因此,数据科学的临时教育工作仍然存在许多问题。通过调查回复和与其他数据科学教育工作者和研究人员的对话,我们确定了一些悬而未决的问题,这些问题可能会通过促进临时工作和正式数据科学课程交叉的对话来影响MSDSE及以后临时工作的未来。接下来的开放性问题旨在吸引整个数据科学社区中以教育为中心的成员,因为他们共同努力确定一系列可以满足各种机构、领域和个人需求的解决方案。
数据科学出现的正规教育机会将在多大程度上减少对临时教育工作的需求?
正式课程的改变不可能完全消除任何临时努力的需要。这一点从成熟学科(如生物学、物理学)的临时努力(如非正式研究项目、暑期学校、系列讲座)的存在以及正规课程更难实现的临时努力(如改善多样性、提供平易近人的介绍)中可以明显看出。然而,随着数据科学正规教育工作的增长以及跨部门考虑新颖的课程格式,临时工作的性质和内容无疑会发生变化[34]。例如,许多部门越来越多地教授基本的编程技能和模型解释[5,6,8-10],数据科学学位课程正在激增[12],一些大学开始要求引入计算机科学。将临时努力中教授的一些技能纳入正式课程可能会改变临时努力和课程的平衡,从而可能减少对某些临时努力的需要。
我们如何确定已经支持临时努力的经常被忽视的体制基础设施?
尽管许多答复者没有明确指出这一点,但MSDSE内部和之间的机构基础设施一直是临时努力取得成功的基本要素。因此,重要的是要认识到使这在机构中成为可能的无形基础设施:非常适合这些活动的专用联合办公空间,支持后勤和通信的行政人员,在整个兄弟姐妹计划中自由共享的丰富知识,以及为跨职业阶段的学者提供协作资金。这些是跨MSDSE的临时努力取得成功的关键,并且考虑到财政投资,可以说是最难复制的。为了扩大获得临时数据科学教育的机会,我们必须确定这些在高资源机构取得成功的无形贡献者,然后尝试确定可以适应其他机构一系列资源可用性的解决方案。
临时努力应在多大程度上促进资源匮乏的机构推广?
虽然个别机构的临时努力为某些个人提供了数据科学支持,但目前尚不清楚如何不仅在机构内部而且在机构之间扩展工作。为MSDSE之外的实施工作提供材料和支持 - 特别是在资源不同的机构 - 是一个特别重要的考虑领域。与上一个悬而未决的问题一样,解决资源和结果方面的这些差异将需要一系列机构的共同努力。最终,创建各种不同的临时数据科学教育工作模型可以让资源较低的机构在识别适合他们的模型方面具有更大的灵活性。然而,回答这个问题需要额外的工作,并且必须包含更多样化的声音:我们考虑过的机构与大型研究机构具有相似的特征,因此可能没有推广到具有不同特征的机构的经验教训。
局限和未来方向
这项工作是研究临时数据科学教育领域的第一步,因此它具有各种局限性,为未来的工作提供了途径。
首先,我们的调查仅针对MSDSE所做的工作,这些工作是与情况相似的机构(即美国的大型研究型大学)的协调努力。因此,吸取的经验教训可能需要适应具有不同重点、资源和社区的不同机构的努力。需要进一步的工作来完全推广到MSDSE之外的数据科学教育。例如,通过MSDSE的使命对数据科学进行高水平的有针对性的投资 - 以及主办机构可用的一般资源水平 - 提供了一组特定的临时努力机会,并且在具有不同背景的机构中可能存在独特的压力,担忧和机会,这在我们的调查中不容易看到。今后的工作应针对更广泛的机构,比较和对比它们的需求和经验。
其次,我们的工作基于对这些活动组织者的大部分开放式调查,并且仅限于他们的主观看法,这可能是有偏见的。我们担心报告回顾时可能存在积极的偏见,因此我们设计了调查,试图对每个事件产生一个整体和平衡的观点:在提出的6个开放式问题中,只有1个问题明确要求组织者描述他们的成功,而3个问题旨在让组织者思考他们努力的局限性。然而,组织者可能仍然由于个人参与这些努力而无意中做出了更积极的反应,正如反应偏差的行为研究所确定的那样(例如,[35])。
第三,与之前的局限性有关,我们没有收集有关参与者主观体验或客观学习成果的数据。以前的一些工作旨在实证检查参与者的感知和学习成果(例如,[13,19,20,30,31]),目前的工作旨在补充这项工作。未来的工作应尝试在数量和质量上弥合这两种观点。应特别注意组织者的目标和感知到的好处是否符合参与者的期望和经验。鉴于最近关于短期培训(如新兵训练营)是否有效[2,13,19,20]或无效[31]的研究结果,这些后续行动尤其重要。
最后,缺点(和成功)可能被低估了,因为代码是从对开放式问题的回答中得出的。更准确的计数可能来自创建一个调查,要求对封闭式问题进行显式评级。今后的工作应确定评价特别努力的趋同方法,将定性和定量方法结合起来。一个起点可能是利用这里开发的密码本为封闭式调查提供信息或继续编写开放式响应。
结论
虽然临时工作(如志愿者研究经验和研讨会系列)一直是学术机构的主要内容,但临时工作在数据科学教育中发挥了特别重要的作用。随着数据科学本身的发展,临时工作的作用可能会继续迅速发展,特别是随着该领域发展到包括正式课程、学位、部门和部门。
我们探讨了临时教育工作试图补充正规课程的各种方式,以及可以增加这些努力实现预期影响的可能性的重要考虑因素。需要额外的定性和定量工作,但我们对MSDSE中经验教训的讨论将使未来的努力能够改进过去的努力并使更广泛的受众受益。
在这里,我们开发了一本新的密码本,可用于未来对临时工作的评估。然后,我们使用该密码本提取见解、建议和建议,使来自计算生物学及其他各个领域的活跃和未来的从业者领导者能够改善他们的教育推广。通过向从业者领导者展示数据科学中临时教育工作的综合,我们寻求为有关完善这些努力、了解它们在数据科学教育中的地位以及塑造数据科学教育未来的对话提供信息。
材料和方法
我们力求了解已经开展了哪些类型的特别努力,并从这些对策中吸取一系列经验教训。
调查的努力
为了找到一组多样化但易于处理的临时调查工作,我们考虑了MSDSE所做的工作。我们试图包括在MSDSE进行的所有教育工作,这些努力不一定提供任何课程学分,也不需要完成学位课程。在某些情况下,学生可以申请独立学习以获得延长(例如,一学期)临时努力的学分,但情况并非普遍如此。
MSDSE是纽约大学数据科学中心,加州大学伯克利分校伯克利数据科学研究所和威斯康星大学电子科学研究所。这些兄弟计划负责推进领域科学和数据科学的交叉点,使其成为了解当今临时教育工作状况的主要测试案例。
收集的数据
为了从MSDSE的临时教育工作中学习,我们联系了MSDSE环境的组织负责人,询问他们已经知道正在发生的事件,编制了一份初步的工作清单,并通过在线调查联系了这些活动的组织者。我们试图包括每一项教育工作,这些努力不是为了提供课程学分或在其中一所大学完成学位课程所必需的。调查的链接也通过电子邮件发送给3个MSDSE机构中每个机构的一般列表服务器。这些互补的方法使我们能够针对已知努力的已知组织者,并征求更广泛的努力和个人组织者的回应。
调查包括2个关于目标和受众的多项选择题(见表3)、后勤问题和6个针对4个主要领域的开放式问题:(a)努力的描述,(b)其优势和劣势,(c)吸取的教训,以及(d)对未来工作的建议。表4提供了这些开放式调查问题的确切措辞。这项调查旨在让组织者批判性地思考他们的努力,并在上下文中对每项努力提出平衡的观点。
除了通过比课程部署更快的重点努力迅速纳入和传播新出现的方法和工具外,临时教育工作还可以满足课程尚未充分满足的其他需求。虽然许多大学正在创新以解决数据科学教育问题(包括加州大学伯克利分校,纽约大学和UW的举措),但我们确定了4个关键领域,临时教育工作可以努力支持社区需求:提高编码能力,提高统计方法的实践知识,接触研究,指导和职业发展。同样,我们确定了临时工作可能针对的 9 个可能受众。受访者能够指出他们想到的这些受众和目标中的哪些(如果有的话),并且他们能够输入我们没有提供的其他受众和目标来指定努力意图。
分析
为了提取经验教训和临时工作建议,第一和第二作者使用民族志和其他定性研究中的归纳编码研究方法,通过与数据的密切迭代接触来分析从业者领导者的开放式反应。 定性研究中的这些标准方法允许从开放式数据或开放式和结构化数据的混合中获得扎根和归纳的见解。
第一和第二作者首先一起审查了答复。然后,第一作者根据对答案的整体考虑,创建了相关主题的初始密码本。然后,第一和第二作者在讨论密码本的同时,通过另一轮独立编码共同完善密码本。两位作者保留了两位作者单独评为适用于至少2项不同努力的代码。然后,第一和第二作者将分析编码在一起,以就此处讨论的所有最终代码达成完全一致,类似于该领域的先前工作。最终密码本和由此产生的代码构成了此处介绍的分析的基础;如前所述,我们认为由此产生的密码本是这项研究的产物,可能有助于未来探索临时工作的研究。
道德声明
这项研究得到了加州大学伯克利分校IRB的批准,根据批准的方案,我们收到了参与者的书面同意。
确认:我们要感谢摩尔-斯隆数据科学环境计划在本书的生成及其所反映的基本教育工作中发挥的巨大作用。我们还要感谢Cathryn Carson,Saul Perlmutter,BIDS教育和培训工作组的成员,以及所有参加我们在2016年和2017年Moore-Sloan数据科学环境数据科学峰会上的讨论的人。我们感谢Sarah Stone(UW)和Micaela Parker(UW)对早期草案提供的宝贵反馈,以及他们对MSDSE数据科学教育工作的巨大贡献。最后,我们要感谢在所有三个机构完成我们调查的从业者领导者。