Business School
博士后资讯
手机:13521943680
电话:010-62904558
斯坦福数据科学博士后研究笔记:在不完全信息时代了解未知
斯坦福数据科学博士后研究笔记:在不完全信息时代了解未知:互联网的技术革命已经将数十亿人的社会、经济、政治和文化活动数字化。虽然研究人员已经开始对虚假信息和偏见给予应有的关注,但这些问题掩盖了一个研究较少、同样阴险的问题——不加批判地消费不完整信息。不完整信息消费的问题源于互联网上明确排序的信息的本质,在互联网上,有限理性的人类别无选择,只能消费冰山一角。在这项研究中,我利用互联网搜索的背景来提出量化“信息可见性”的方法,即我们在网上消费信息时不知道多少。然后,我将这些指标应用于8.40万亿从48个国家的每日搜索趋势中提取的原始互联网搜索结果,为期一年。该研究最终提出了一个开源互联网搜索平台的原型,旨在通过平衡我们访问的信息的相关性和可见性来实现选择。
研究笔记
人类正处于转型之中——向互联网生活的转型。在过去的二十年里,我们的互动经历了一场仍在展开的计算革命的开始。这场革命在很大程度上是由互联网技术革命推动的,互联网有效地数字化了数十亿人的社会、经济、政治和文化活动,产生了大量的数字数据作为副产品。这场革命的规模从每天仅在谷歌上就有超过60亿的互联网搜索可以看出,这大致相当于我们星球上每个人每天的一次搜索。2019年冠状病毒病大流行是这场已经扩大的革命的强大催化剂。这场大流行见证了青少年每天用于非学校工作的互联网使用量飙升至前所未有的水平。这些变化超出了特定人群的范围,因为该国宽带互联网使用量总体增长了47%。
自由获取信息的爆炸式增长促成了跨越时空的民主讨论,但也引发了人们对互联网上信息流动的潜在危害的担忧。跨学科科学家围绕两个主题研究这些担忧取得了进展。第一个主题与虚假信息的传播有关,传播的信息与特定背景下的地面实况不同。第二个主题是对算法公平和偏见传播的日益关注,其中传播的信息不仅与地面实况不同,而且特别可能伤害传统上被边缘化的人群。尽管这两个主题所解决的问题的有效性和严重性,但它们确实取决于可验证的地面实况的可用性。鉴于互联网上表达的观点的主观性和多样性,可验证的地面实况的存在更多地是一个例外,而不是一个规范。当基本事实本身不清楚,甚至不存在时,评估互联网上信息的质量是极其困难的。
虽然我们在打击虚假信息和偏见方面取得了可喜的进展,但我们错过了解决另一个潜在(也可以说同样脆弱)问题的机会——通过承受信息超载来消耗不完整的信息。众所周知,我们被以惊人速度增长的信息淹没了。研究人员估计,人类知识正在呈指数级增长,目前每12小时翻一番。我们与互联网上传播的大量信息的互动有两个方面。首先,在刺激方面,互联网上向我们展示的所有信息都按自然排名。例如,在网络搜索的背景下,第n个搜索结果的排名高于第n+1个结果。同样,在社交媒体环境中,第n个帖子比第n+1个帖子更明显。其次,在反应方面,人类受到自身理性界限的限制。换句话说,我们缺乏跟上并有效处理我们每天面临的呈指数级增长的信息水龙头的心智能力。因此,我们对这些排名的数字信息的反应非常倾向于冰山一角,我们的点击大致遵循幂律分布。
在这样的背景下,一个基本的问题是,在浏览数字信息时,有多少光谱对我们来说是不可见的。换句话说,从互联网上给定搜索查询q的N个结果中,仅查看n<N个搜索结果有多大代表性?这与评估n个搜索结果是否信息错误或有偏见不同,但仍然值得评估。考虑到这个问题对人类行为的影响,它的重要性甚至更加明显。研究表明,几乎所有人口统计数据中,精神分散的程度都在上升,其中很大一部分是由害怕错过我们看不到的东西所驱动的。此外,虚假信息和偏见文献强调了顶级网络搜索结果、新闻搜索结果和社交媒体帖子中存在偏见。这是有问题的,因为互联网向我们发送排名信息,一个我们很少依赖的排名,一个可能有偏见的排名。“可能”的强调与我们在大多数情况下准确评估基本事实时面临的模糊性有关。这反过来又会导致表征的伤害,在这种情况下,数字系统最终会沿着身份线加强一些群体的从属地位。
总而言之,在消费信息时,我们不知道自己有多少不知道,这是互联网系统的一个关键漏洞,使人类能够以前所未有的规模进行话语。正如杰米•萨斯金德在他的《未来政治》一书中指出的那样,如果我们无法控制社会中的信息流,我们就无法控制我们共同的是非感。从哲学的角度来看,意图了解未知并不是一个新的问题,而是一个已经存在了几个世纪的问题。尽管在当前信息过载时代,这个问题具有根本性和实用性,但令人惊讶的是,它没有得到充分的研究关注。在回答“我所知道的与地面实况不同吗?”之前,通过对虚假信息和算法偏见的研究,我们还没有充分回答“我到底有多少不知道?”