达尔文在一百多年前曾赞美“通俗科学读物”的重要性,他不是在赞美这些读物对大众理解的影响,而是在赞美它们对于“科学的进步”。 SSRN 上的一项研究通过随机对照实验的方法印证了维基百科——这一最大的现代通用和通俗著作库对知识传播的影响。研究表明,维基百科不仅反映了科学文献的现状,它还有助于塑造科学文献。
通俗读物对科学的影响
达尔文曾认为,对于科学的进步的来说,一般的、通俗读物和科学论文一样重要。正如他撰写的《物种起源》不仅是开创性的科学著作,同样也是受人喜爱的畅销书。现在人们能通过许多开网站获取知识,这些公共知识库(public repositories of knowledge)能很好地促进个人和社会的发展,例如人类基因组、StackOverflow、种子银行等等。
尽管如此,仍有许多重要的科学知识无法在公共知识库中获取,尤其是发表在一些重要学术期刊上的研究成果或理论。人们对这部分知识的了解往往止步于付费文档、晦涩术语和糟糕的写作等等。但如果这些深奥的科学见解被转化为平易近人的通俗文章,是否可以在便捷的公共知识库中获取呢?
图1:公共知识库(知识共享平台)为无数学习者提供了学习资源
维基百科想必大家并不陌生,有研究表明维基百科涵盖了顶尖学术型本科生讨论的90%以上的话题,以及初级研究生研讨的约一半左右的话题。很明显维基百科反映了科学,但它也同样塑造了科学吗?科学家们在浏览维基百科文章时会产生新的想法吗?
为了客观衡量维基百科对科研的影响,近日在 SSRN 上发表的一项研究通过大数据和实验两种方法,发现了其中蕴含的因果关系,即当科研成果作为参考文献添加到维基百科后,这些论文将会有更多的学术引用。
维基百科,最好的通俗读物数据库之一
维基百科是一个由用户生成和编辑的在线百科全书,是目前同类中最大的百科全书。截至2017年,维基百科有530万篇文章。这些内容是由大约3000万注册编辑完成的,其中大约12万人是活跃者。在过去的十年中,平均每年有3000万余次编辑,其中包括创建新文章和完善现有文章。维基百科涵盖各种各样主题,其中每500万篇文章中有50~100万篇是关于科学主题的,并且这些文章都适合大多数本科生及研究生水平读者。
图2:自维基百科成立以来每年增加的词汇和文章数量
先前的一些实证研究表明,对特定研究主题的接触会影响科学家的研究和文献引用。例如有人发现《纽约时报》发表一篇文章的增量效应会显著增加潜在研究论文的引用,其中第一年的引用增加了72.8%。
维基百科的存在让科学信息变得更易获取,该研究预计它也会对科学文献产生影响。然而,这种影响很难通过熟知的引文检索等方式得出,比如曾经有研究发现只有0.01%的科学文章直接引用维基百科条目。那么,该研究者假设这不是因为维基百科没有影响,而是传统的学术引用没有捕捉到维基百科的影响。为了验证这一点,研究者们开发了一种词汇测量方法,并利用学者们论文中的文字直接测量效果。
研究数据来源介绍
该研究有四个主要的数据来源,分别是——
(1)完整的维基百科编辑历史,包括自维基百科成立以来对每个页面的每一次修改。编辑历史共包括510万篇文章,3.53亿次编辑,174亿字。一般来说,新的维基百科文章开始时很短,内容会随着时间的推移慢慢丰富。比如图3描绘了新创建的超过20个单词的文章的大小分布。这里我们可以看到,大部分的文章开始不到200字。在分布的尾部仍有一部分字数很多的文章,这可能是由于重命名或重新分配大型现有文章而导致的。
图3:所研究数据范围内新创建的超过20个单词的百科文章字数分布
(2)第二个是自1995年以来从5215份Elsevier期刊上发表的所有文章的全文版本,用它来代表科学文献的状态。一方面研究需要文献全文来了解使用的词汇,以此判断它们是否反映了维基百科中使用的词汇。另一方面还需要各文献的发表信息,例如作者、发表年份等等。
(3)第三是从Web of Science获得的学术期刊文章的引用数据。它提供了定向链接,表明哪些论文引用了哪些论文。这一信息也被汇总为每篇论文的每月总被引次数。
(4)第四个数据源是作为随机控制实验而创建的一组维基百科文章。
数据观察分析与结论
该分析的目的是检验维基百科文章内容和科学文献中的技术内容之间的广泛关联,具体表现为确定维基百科和《科学》在许多主题的大量文章中是否存在同步变化。同步变化表现在语义相似度(semantic similarity)和时间线(timeline)上。
(1)语义相似度。研究者们使用了余弦相似度(cosine similarity),一种“向量空间模型”(Vector Space Model)来评估科学文献中的内容是否与维基百科中的内容相似。也就是说,将每个文档中的单词形成一个向量,然后对两个向量进行比较。
图4:化学主题中维基百科和科学文章之间的相似性密度
(2)时间线。为了检验维基百科和科学研究之间的关系,该研究查看了维基百科中新文章出现前与后短期内的科学文章。具体时间线界如图5所示:维基百科中文章的出现时期为首次创建后的三个月,而研究所覆盖的时间范围包括文章发表前6个月和之后的6个月。研究假设如果维基百科对科学发展有影响,那么维基百科文章创建后发表的论文将比之前发表的论文更像百科文章。
图5:维百科文章的科研影响研究时间窗
研究者们对数据进行基本分析后,如图6所示,明确得到了维基百科的文章创作与科研文献的发表有明显正相关关系。不过这种趋势针对于一些专业科学术语,例如“臭氧”一词在维基百科和《科学》之间体现了相关性,但是像“反应”这种词汇却无法体现这一趋势。
图6:维基百科的文章创作与科研文献的发表的相关性
随机对照试验及结论
从观察得到的相关性结论具有启发意义,但这并不是因果关系。为此,在2013至2016年期间,该研究设计了多组对照实验来确定维基百科对学术科学的因果影响。具体做法是:让来自顶尖大学的博士生根据他们各自的研究领域来撰写新的科学主题维基百科文章,其中随机挑选一半的文章上传到维基百科,另一半则不上传,仍采用对比一定时间窗内文章的相似度的方式,来考虑这些文章对科学文献的不同影响。
图7反映对照组和实验组中的维基百科文章对科学文献的影响。其中绿色为没有上传至维基百科网站上的文章(对照组)影响,蓝色是上传至网站上的文章(实验组)影响,通过对比两组文章与科学文献的相似性后发现:对照组低相似度的文章数量增加,而高相似度的文章数量下降。而实验组结果相反,低相似度文章少,高相似文章多。这表明添加一篇新的维基百科文章会导致类似的科学文献数量增加。此外,研究者们推导估计,维基百科的每一篇文章(在一定程度上)可以影响250篇科学文献。
图7:对照组和实验组中的维基百科文章对科学文献的影响
维基百科与科研关系的引申问题
对照实验的发现客观的验证了维基百科对科学文献的影响,为了更好地理解维基百科文章的影响,研究者们还对以下三个问题进行进一步的思考:
(1)维基百科文章的对科学文献的哪些部分有影响?
我们通常把科学文献结构分成摘要、介绍、方法、结果和结论几部分。研究表明,除了摘要部分,维基百科对文献其他部分均有统计学上的显著影响,其中方法部分的统计显著性最弱,而介绍部分最强。这说明维基百科文章对科学的背景以及作者与该领域其他方面的联系产生了最大的影响。方法论部分的弱显著性说明科学家们更倾向于根据维基百科的内容来塑造他们的实验,而非将其置于上下文之中。
(2)将维基百科作为资源对科学文献的质量影响是好是坏?
研究人员将这个棘手的问题又拆分成两个子问题:使用维基百科作为来源的文章被引次数会更少吗?维基百科是否有助于引导科学家找到好的灵感?根据目前的研究看来,并没有发现任何证据表明受维基百科影响的文章比不受维基百科影响的文章获得更多或是更少的引用。
对于第二个个子问题,实验组中的维基百科文章文末均添加了2~3篇参考文献,研究人员在该篇维基百科文章发布后的两年中查看这些参考文献的平均每月引用量。结果显示,维基百科的文章页面浏览量增加一倍会使文章引用量增长13%。
(3)某些特定群体(例如无法获得传统期刊文章的群体)是否获益过多?
人们可能会认为,公共知识库对那些其他知识来源较少的人特别有价值,例如无法获得科学期刊的发展中国家研究人员。相反,如果研究者们不能访问维基百科引用的期刊文章,他们从维基百科文章中的收获可能会更少。
我们通过考虑基于国内人均GDP的差异效应来检验这些维基百科效应的影响。结果表明,相对富裕的国家比贫穷的国家能从中受益更多。可能原因一是在人均GDP较低的地区,维基百科的使用量较低。原因之二可能是能访问学术期刊是充分受益于维基百科文章的必要条件。
研究总结与其现实价值
该研究分析了公共科学知识库的影响,通过随机对照试验,研究者发现维基百科科学文章的创建会影响科学文献中数百篇后续文章——这有力地证明了维基百科是传播知识的重要来源。该项工作超越了相关性来建立因果关系,不难得到这样的结论:维基百科不仅反映了科学文献的现状,它还有助于塑造科学文献。
研究者们希望这项发现能够足以激励更多科学家采取积极行动为维基百科提供文章和编辑。当然,这绝不局限于个人行为。研究者们期望相关公共政策干预能促进科学的发展,例如降低这些公共知识平台运营成本,组织各行业专业协会开发全面的在线知识库等。