TB级数据科研索引免费发布索引了一亿多篇论文

时间：2022-12-30

General Index引擎于本月早些时候10月7日发布并可通过互联网免费访问

友情提示：本文共有 1595 个字，阅读大概需要 4 分钟。

最近公开的一个世界研究论文计算机化分析的项目中，一位美国技术专家通过互联网档案馆（archive.org）了一个包含1亿多篇期刊文章中的单词和短语的巨大索引引擎General Index。

General Index引擎于本月早些时候（10月7日）发布并可通过互联网免费访问。引擎包含超过3550亿个单词和句子片段的列表。它的创建者Carl Malamud说，这是一种帮助科学家使用软件从已发表的论文进行便宜检索的工具，即使对一些付费论文没有合法访问基础论文的权限。Malamud在公共资源（Public Resource）的赞助下发布了这些文件，这是他创立的一家非营利性公司。

Malamud 说，因为索引引擎中并没包含文章的全文，而只是最多五个单词的句子片段，所以发布它不会违反出版商对重复使用付费文章的版权限制。然而，一位法律专家表示，出版商可能会首先质疑Malamud如何创建索引的合法性。

一些早期访问过该索引的研究人员表示，这是帮助他们使用软件搜索文献的重大进展——这一过程被称为文本挖掘。英国剑桥大学计算生物学家 Gitanjali Yadav 研究植物释放的挥发性有机化合物，她说她的目标是梳理General Index，对世界研究论文中描述的植物化学物质进行分析。“我或其他任何人都无法通过实验分析或测量地球上每一种植物物种的化学指纹。我们寻求的大部分信息已经存在于已发表的文献中，但研究人员因无法获得许多论文而受到限制”。

Malamud General Index，旨在解决 Yadav 等研究人员面临的问题。计算机科学家已经通过文本挖掘论文来建立文献中发现的基因、药物和化学物质的数据库，并以比人类阅读速度更快的速度探索论文的内容。但他们经常指出，出版商最终控制着他们工作的速度和范围，科学家只能挖掘开放获取的论文，或者他们（或他们的机构）订阅的那些文章。一些出版商表示，希望挖掘付费论文文本的研究人员需要他们的授权。

尽管Google Scholar等免费搜索引擎已在与出版商的协议下将付费文学的文本编入索引，但它们仅允许用户使用某些类型的文本查询进行搜索，并限制自动搜索。 Malamud 说，这不允许使用更专业的搜索进行大规模的计算机分析。