友情提示:本文共有 1595 个字,阅读大概需要 4 分钟。
最近公开的一个世界研究论文计算机化分析的项目中,一位美国技术专家通过互联网档案馆(archive.org)了一个包含1亿多篇期刊文章中的单词和短语的巨大索引引擎General Index。
General Index引擎于本月早些时候(10月7日)发布并可通过互联网免费访问。引擎包含超过3550亿个单词和句子片段的列表。它的创建者Carl Malamud说,这是一种帮助科学家使用软件从已发表的论文进行便宜检索的工具,即使对一些付费论文没有合法访问基础论文的权限。Malamud在公共资源(Public Resource)的赞助下发布了这些文件,这是他创立的一家非营利性公司。
Malamud 说,因为索引引擎中并没包含文章的全文,而只是最多五个单词的句子片段,所以发布它不会违反出版商对重复使用付费文章的版权限制。然而,一位法律专家表示,出版商可能会首先质疑Malamud如何创建索引的合法性。
一些早期访问过该索引的研究人员表示,这是帮助他们使用软件搜索文献的重大进展——这一过程被称为文本挖掘。英国剑桥大学计算生物学家 Gitanjali Yadav 研究植物释放的挥发性有机化合物,她说她的目标是梳理General Index,对世界研究论文中描述的植物化学物质进行分析。“我或其他任何人都无法通过实验分析或测量地球上每一种植物物种的化学指纹。我们寻求的大部分信息已经存在于已发表的文献中,但研究人员因无法获得许多论文而受到限制”。
Malamud General Index,旨在解决 Yadav 等研究人员面临的问题。计算机科学家已经通过文本挖掘论文来建立文献中发现的基因、药物和化学物质的数据库,并以比人类阅读速度更快的速度探索论文的内容。但他们经常指出,出版商最终控制着他们工作的速度和范围,科学家只能挖掘开放获取的论文,或者他们(或他们的机构)订阅的那些文章。 一些出版商表示,希望挖掘付费论文文本的研究人员需要他们的授权。
尽管Google Scholar等免费搜索引擎已在与出版商的协议下将付费文学的文本编入索引,但它们仅允许用户使用某些类型的文本查询进行搜索,并限制自动搜索。 Malamud 说,这不允许使用更专业的搜索进行大规模的计算机分析。
TB 级数据
该引擎数据目录总计将近5TB,然后可以扩展到38TB。除了句子片段,这些文件还包括文献中近200亿个关键词的表格,以及论文标题、作者和 DOI(文章标识符)的表格,以便用户可以在有阅读权限的情况下追踪整篇论文它。
美国大学华盛顿法学院的法律研究员迈克尔卡罗尔说,发索引在全球范围内应该是合法的,因为这些文件没有复制足够的基础文章来侵犯出版商的版权——尽管法律因国家而异。“版权不保护事实和想法,这些结果将被视为对受版权保护文章的分析得出的事实的交流”
卡罗尔补充说,唯一的法律问题是Malamud获取和复制基础论文是否没有违反出版商的条款。Malamud说,他确实必须获得索引中引用的1.07亿篇文章的副本才能创建它;他拒绝透露具体细节,但强调研究人员将无法访问存储在美国安全、未公开位置的论文全文。
德里国立法律大学的另一位法律研究员Arul George Scaria表示,任何试图利用版权法阻止研究人员使用通用索引的出版商“最终都会失望”。 Scaria 说,该索引的发布是“它从 1.07 亿篇期刊文章中解锁的大量信息的重大发展”。
简单试用
虫虫试着打开General Index进行查询,感觉中文查询时候关键字分词并不是很准确,不过查出来的资料倒是挺丰富。
用“tianwen”为关键字查询,结果到时候比较相关。
当然该引擎是支持高级查询的:
借用高级查询可能结果会准确得多,这高级查询界面可能是大家熟悉的,详细地使用限于篇幅我们再次也不赘述,大家可以尝试。
总之,这是一个非常有用的科研宝库,但是怎么善用需要进一步探索。
本文如果对你有帮助,请点赞收藏《TB级数据科研索引免费发布 索引了一亿多篇论文》,同时在此感谢原作者。