第一句子大全,网罗天下好句子,好文章尽在本站!

TB级数据科研索引免费发布 索引了一亿多篇论文

时间:2022-12-30

General Index引擎于本月早些时候10月7日发布并可通过互联网免费访问

友情提示:本文共有 1595 个字,阅读大概需要 4 分钟。

最近公开的一个世界研究论文计算机化分析的项目中,一位美国技术专家通过互联网档案馆(archive.org)了一个包含1亿多篇期刊文章中的单词和短语的巨大索引引擎General Index。

General Index引擎于本月早些时候(10月7日)发布并可通过互联网免费访问。引擎包含超过3550亿个单词和句子片段的列表。它的创建者Carl Malamud说,这是一种帮助科学家使用软件从已发表的论文进行便宜检索的工具,即使对一些付费论文没有合法访问基础论文的权限。Malamud在公共资源(Public Resource)的赞助下发布了这些文件,这是他创立的一家非营利性公司。

Malamud 说,因为索引引擎中并没包含文章的全文,而只是最多五个单词的句子片段,所以发布它不会违反出版商对重复使用付费文章的版权限制。然而,一位法律专家表示,出版商可能会首先质疑Malamud如何创建索引的合法性。

一些早期访问过该索引的研究人员表示,这是帮助他们使用软件搜索文献的重大进展——这一过程被称为文本挖掘。英国剑桥大学计算生物学家 Gitanjali Yadav 研究植物释放的挥发性有机化合物,她说她的目标是梳理General Index,对世界研究论文中描述的植物化学物质进行分析。“我或其他任何人都无法通过实验分析或测量地球上每一种植物物种的化学指纹。我们寻求的大部分信息已经存在于已发表的文献中,但研究人员因无法获得许多论文而受到限制”。

Malamud General Index,旨在解决 Yadav 等研究人员面临的问题。计算机科学家已经通过文本挖掘论文来建立文献中发现的基因、药物和化学物质的数据库,并以比人类阅读速度更快的速度探索论文的内容。但他们经常指出,出版商最终控制着他们工作的速度和范围,科学家只能挖掘开放获取的论文,或者他们(或他们的机构)订阅的那些文章。 一些出版商表示,希望挖掘付费论文文本的研究人员需要他们的授权。

尽管Google Scholar等免费搜索引擎已在与出版商的协议下将付费文学的文本编入索引,但它们仅允许用户使用某些类型的文本查询进行搜索,并限制自动搜索。 Malamud 说,这不允许使用更专业的搜索进行大规模的计算机分析。

TB 级数据

该引擎数据目录总计将近5TB,然后可以扩展到38TB。除了句子片段,这些文件还包括文献中近200亿个关键词的表格,以及论文标题、作者和 DOI(文章标识符)的表格,以便用户可以在有阅读权限的情况下追踪整篇论文它。

美国大学华盛顿法学院的法律研究员迈克尔卡罗尔说,发索引在全球范围内应该是合法的,因为这些文件没有复制足够的基础文章来侵犯出版商的版权——尽管法律因国家而异。“版权不保护事实和想法,这些结果将被视为对受版权保护文章的分析得出的事实的交流”

卡罗尔补充说,唯一的法律问题是Malamud获取和复制基础论文是否没有违反出版商的条款。Malamud说,他确实必须获得索引中引用的1.07亿篇文章的副本才能创建它;他拒绝透露具体细节,但强调研究人员将无法访问存储在美国安全、未公开位置的论文全文。

德里国立法律大学的另一位法律研究员Arul George Scaria表示,任何试图利用版权法阻止研究人员使用通用索引的出版商“最终都会失望”。 Scaria 说,该索引的发布是“它从 1.07 亿篇期刊文章中解锁的大量信息的重大发展”。

简单试用

虫虫试着打开General Index进行查询,感觉中文查询时候关键字分词并不是很准确,不过查出来的资料倒是挺丰富。

用“tianwen”为关键字查询,结果到时候比较相关。

当然该引擎是支持高级查询的:

借用高级查询可能结果会准确得多,这高级查询界面可能是大家熟悉的,详细地使用限于篇幅我们再次也不赘述,大家可以尝试。

总之,这是一个非常有用的科研宝库,但是怎么善用需要进一步探索。

本文如果对你有帮助,请点赞收藏《TB级数据科研索引免费发布 索引了一亿多篇论文》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
相关阅读
论文查重原理及降重

论文查重原理及降重

...Wiley(威立)介绍,目前超过1/3的国际期刊编辑经常碰到论文有重复的情况。编辑一旦发现论文的重复率过高(即和已发表的论文数据库中的某一篇或多篇论文高度相似),就会直接拒稿或退回论文要求改写,这是每位作者都绝...

2022-12-04 #经典句子

ICLR论文评分「高台跳水」:领域主席急刹车 评审结果8分变1分

ICLR论文评分「高台跳水」:领域主席急刹车 评审结果8分变1分

...之心编辑部上月初,ICLR 2020 评审结果放出,但却遭到了论文作者和社区的极大质疑和疯狂吐槽。他们纷纷将攻击矛头对准了本次大会的评审们,甚至有开发者指出,本次大会近半数审稿人没有在相关领域发表过论文。由此,被...

2023-09-26 #经典句子

论文查重的知识和原理 专家亲自介绍

论文查重的知识和原理 专家亲自介绍

...互联网的快速发展,数字化文档随手可得,大大地降低了论文抄袭成本。最近这几年各种名人学术造假、知识产权被剽窃的事件层出不穷,给学术界造成一定的诚信危机,其学术不端行为的危害引起了政府及主管部门的高度重视...

2023-01-01 #经典句子

驻马店大雅文化传播有限公司 名仕图论文检测降低论文重复率方法

驻马店大雅文化传播有限公司 名仕图论文检测降低论文重复率方法

对论文进行检测是每一个毕业生在写论文必须经历的,各大高校对论文重复率的设定是在30%,如果超过了这个重复率,论文就是不达标的,将无法参与答辩,这将影响到毕业。所以毕业论文查重非常重要,那么论文查重过高怎么...

2022-11-22 #经典句子

论文英文摘要如何撰写

论文英文摘要如何撰写

摘要:英语论文摘要是英语论文写作必不可少的写作环节,具有高度概括性,独立完整性,自明自含性等特点,在内容上简单明了,逻辑思维强,直面结果结论,用司质朴无华,信息源极为丰富、准确,通俗易懂,其写作要求严...

2023-11-06 #经典句子

论文要求的重复率越低越好 怎么才能降低论文的重复率?

论文要求的重复率越低越好 怎么才能降低论文的重复率?

...因为查重问题上了微博热搜,不过这次是网友因为自己的论文重复率怎么也降不下来而怨翟天临,也有很多网友觉得是他让论文重复率变严了。这一问题引起了大家的激烈讨论,不少人也认为,随着论文数量的不断增加,选择期...

2023-12-05 #经典句子

掌握除了语法之外的3个技巧 提高你的SCI论文质量

掌握除了语法之外的3个技巧 提高你的SCI论文质量

...重要的发现被束之高阁或湮没无闻,那么它将毫无用处。论文发表是作者与其他同行研究者进行科研交流的主要方式之一。如果你是一名科研人,那么发表论文也是获得资金和推进研究的重要途径之一。简而言之,发表论文对你...

2022-11-28 #经典句子

论文写作“三字经” 超级实用!

论文写作“三字经” 超级实用!

...kxquan】经微信公众号授权转载,如需转载与原文作者联系论文对于硕士,尤其博士,是必须的一种技能,也是一道难关。所谓大道无形,小道可走。下面给出一些博士期间的写作心得,希望能有所裨益。论文可以有三个境界:毕...

2023-01-01 #经典句子

改变句子顺序能防止论文查重吗?

改变句子顺序能防止论文查重吗?

论文写作是个大事情,论文写作不可能全部是原创,我们会引用一些别人的文章的内容。在论文查重过程中,论文重复率基本上很难做到0%,一般学校会对论文进行查重。我们论文查重的时候,稍微调整一下论文的顺序,论文的...

2022-11-25 #经典句子