CRI: CI-SUSTAIN: Collaborative Research: CiteSeerX: Toward Sustainable Support of Scholarly Big Data
CRI:CI-SUSTAIN:协作研究:CiteSeerX:迈向学术大数据的可持续支持
基本信息
- 批准号:1823288
- 负责人:
- 金额:$ 77万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2018
- 资助国家:美国
- 起止时间:2018-08-01 至 2023-07-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Access to the scientific and scholarly literature has changed radically in recent decades. Increasingly researchers and scholars make their publications freely available on the Web. Taking advantage of this opportunity, new scientific search engine tools have been developed such as Google Scholar, Semantic Scholar, and CiteSeer, now CiteSeerX. CiteSeerX has become one of the most comprehensive and widely-used online public resources for the Computer and Information Science and Engineering (CISE) research community. Millions of CiteSeerX Portable Document Format (PDF) documents are indexed by Google. CiteSeerX is unique among digital library search engines. It is open access, most all of its documents are harvested from the public Web, and users have full-text access to all documents searchable on its website. Moreover, it provides all automatically extracted metadata and citation context via an Open Archive Initiative (OAI) metadata service interface and bulk downloads on a public cloud - all under a Creative Commons license. This service is usually not available from other scholarly search engines. CiteSeerX performs automatic extraction and indexing of tables (in production), figures (developed)}, and algorithms (developed), capabilities rarely seen in other scholarly search engines. CiteSeerX provides its open source software and architecture on GitHub. At this time none of the other above-mentioned systems release their digital library software. Utilizing the established CiteSeerX infrastructure, this proposal aims to create a sustainable CiteSeerX system with new data resources and a much larger data collection. We will develop a new system that runs with low operation overhead, without a single point of failure, and that provides quality and enriched data and metadata in portable formats that will be available through accessible user interfaces. We will ingest all freely accessible scientific documents on the Web, currently estimated to be 30 million. CiteSeerX will make available high-quality metadata through an accessible Web User Interface, Application Programming Interface, and data dumps. SeerSuite, the platform on which CiteSeerX is built, will be refactored so as to be an easily deployable and configurable scholarly digital library framework. It will be built on commercial grade open source software. In addition, we will provide searchable semantic metadata, such as key phrases and disambiguated author names, and non-textual content such as data from figures, tables, algorithms, and equations. For long-term sustainability we will explore different monetization models. The result will be a refactored digital library search engine that provides stable, usable, and reliable data services on multiple types of scientific documents built on a portable, maintainable, and self-contained framework that can be deployed for other research document digital collections. Source code will be hosted at https://github.com/SeerLabs. System development and related research will be published in relevant venues and be made publicly available.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
近几十年来,科学和学术文献的获取方式发生了根本变化。越来越多的研究人员和学者在网络上免费提供他们的出版物。利用这个机会,新的科学搜索引擎工具已经开发出来,如Google Scholar,Semantic Scholar和CiteSeer,现在是CiteSeerX。CiteSeerX已成为计算机和信息科学与工程(CISE)研究社区最全面和最广泛使用的在线公共资源之一。数以百万计的CiteSeerX可移植文档格式(PDF)文档被Google编入索引。CiteSeerX是数字图书馆搜索引擎中独一无二的。它是开放获取的,其大部分文件都是从公共网络上收集的,用户可以全文访问其网站上搜索的所有文件。此外,它通过开放档案倡议(OAI)元数据服务接口提供所有自动提取的元数据和引用上下文,并在公共云上批量下载-所有这些都在知识共享许可下。 此服务通常无法从其他学术搜索引擎获得。CiteSeerX执行自动提取和索引表(在生产),数字(开发),算法(开发),功能很少看到其他学术搜索引擎。CiteSeerX在GitHub上提供其开源软件和架构。目前,上述其他系统都没有发布其数字图书馆软件。利用现有的CiteSeerX基础设施,该提案旨在创建一个可持续的CiteSeerX系统,拥有新的数据资源和更大的数据收集。 我们将开发一个新的系统,该系统运行时的操作开销低,没有一个单一的故障点,并提供高质量和丰富的数据和元数据的便携式格式,将通过可访问的用户界面。我们将在网络上获取所有可免费访问的科学文件,目前估计有3000万份。CiteSeerX将通过可访问的Web用户界面、应用程序编程接口和数据转储提供高质量的元数据。SeerSuite是CiteSeerX构建的平台,将被重构,以便成为一个易于部署和配置的学术数字图书馆框架。它将建立在商业级开源软件上。 此外,我们将提供可搜索的语义元数据,如关键短语和消除歧义的作者姓名,以及非文本内容,如来自数字,表格,算法和方程的数据。为了长期可持续发展,我们将探索不同的货币化模式。其结果将是一个重构的数字图书馆搜索引擎,提供稳定,可用和可靠的数据服务,对多种类型的科学文件建立在一个便携式,可维护性和自包含的框架,可以部署为其他研究文件的数字收藏。源代码将托管在https://github.com/SeerLabs。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(20)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
CiteSeerX: 20 years of service to scholarly big data
CiteSeerX:20 年学术大数据服务
- DOI:10.1145/3359115.3359119
- 发表时间:2019
- 期刊:
- 影响因子:0
- 作者:Wu, Jian;Kim, Kunho;Giles, C. Lee
- 通讯作者:Giles, C. Lee
Scholarly big data quality assessment: a case study of document linking and conflation with S2ORC
- DOI:10.1145/3558100.3563850
- 发表时间:2022-09
- 期刊:
- 影响因子:0
- 作者:Jian Wu;Ryan Hiltabrand;Dominik Soós;C. Lee Giles
- 通讯作者:Jian Wu;Ryan Hiltabrand;Dominik Soós;C. Lee Giles
COVIDSeer : Extending the CORD-19 Dataset
COVIDSeer:扩展 CORD-19 数据集
- DOI:10.1145/3395027.3419597
- 发表时间:2020
- 期刊:
- 影响因子:0
- 作者:Rohatgi, S.;Karishma, Z.;Chhay, J.;Keesara, S.R.R.;Wu, J.;Caragea, C.;Giles, C.L.
- 通讯作者:Giles, C.L.
Design Considerations for a Sustainable Scholarly Big Data Service
- DOI:10.1145/3574318.3574340
- 发表时间:2022-12
- 期刊:
- 影响因子:0
- 作者:Jian Wu;Shaurya Rohatgi;Manoj K. Angadi;Kavya S. Puranik;C. Lee Giles
- 通讯作者:Jian Wu;Shaurya Rohatgi;Manoj K. Angadi;Kavya S. Puranik;C. Lee Giles
Ranked List Fusion and Re-ranking with Pre-trained Transformers for ARQMath Lab
使用 ARQMath Lab 的预训练 Transformer 进行排名融合和重新排名
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Shaurya Rohatgi, Jian Wu
- 通讯作者:Shaurya Rohatgi, Jian Wu
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
C. Lee Giles其他文献
BBookX: An Automatic Book Creation Framework
BBookX:自动书籍创建框架
- DOI:
10.1145/2682571.2797094 - 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
Chen Liang;Shuting Wang;Zhaohui Wu;Kyle Williams;B. Pursel;Benjamin Bräutigam;Sherwyn Saul;Hannah Williams;Kyle Bowen;C. Lee Giles - 通讯作者:
C. Lee Giles
SearchGen: a synthetic workload generator for scientific literature digital libraries and search engines
SearchGen:科学文献数字图书馆和搜索引擎的综合工作负载生成器
- DOI:
10.1145/1255175.1255203 - 发表时间:
2007 - 期刊:
- 影响因子:0
- 作者:
Huajing Li;Wang;A. Sivasubramaniam;C. Lee Giles - 通讯作者:
C. Lee Giles
Phrase Pair Classification for Identifying Subtopics
用于识别子主题的短语对分类
- DOI:
- 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
Sujatha Das Gollapalli;P. Mitra;C. Lee Giles - 通讯作者:
C. Lee Giles
Using Non-invertible Data Transformations to Build Adversarial-Robust Neural Networks
使用不可逆数据转换构建对抗性鲁棒神经网络
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
Qinglong Wang;Wenbo Guo;Alexander Ororbia;Xinyu Xing;Lin Lin;C. Lee Giles;Xue Liu;Peng Liu;Gang Xiong - 通讯作者:
Gang Xiong
SNDocRank: document ranking based on social networks
SNDocRank:基于社交网络的文档排名
- DOI:
10.1145/1772690.1772825 - 发表时间:
2010 - 期刊:
- 影响因子:0
- 作者:
Liang Gou;Hung;Jung;X. Zhang;C. Lee Giles - 通讯作者:
C. Lee Giles
C. Lee Giles的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('C. Lee Giles', 18)}}的其他基金
III: Small: Collaborative Research: Keyphrase Extraction in Document Networks
III:小:协作研究:文档网络中的关键词提取
- 批准号:
1422951 - 财政年份:2014
- 资助金额:
$ 77万 - 项目类别:
Continuing Grant
Collaborative Research: STEM Workforce Training: A Quasi-Experimental Approach Using the Effects of Research Funding
协作研究:STEM 劳动力培训:利用研究经费影响的准实验方法
- 批准号:
1348712 - 财政年份:2013
- 资助金额:
$ 77万 - 项目类别:
Standard Grant
EAGER: Automatic Document and Record Disposition and Retention
EAGER:自动文档和记录处置和保留
- 批准号:
1143921 - 财政年份:2011
- 资助金额:
$ 77万 - 项目类别:
Standard Grant
Collaborative Research: CI-ADDO-EN: Semantic CiteSeer X
合作研究:CI-ADDO-EN:语义 CiteSeer X
- 批准号:
0958143 - 财政年份:2010
- 资助金额:
$ 77万 - 项目类别:
Continuing Grant
EAGER: Creating a Book Citation Index
EAGER:创建图书引文索引
- 批准号:
1042276 - 财政年份:2010
- 资助金额:
$ 77万 - 项目类别:
Standard Grant
CRI: Collaborative: Next Generation CiteSeer
CRI:协作:下一代 CiteSeer
- 批准号:
0454052 - 财政年份:2005
- 资助金额:
$ 77万 - 项目类别:
Continuing Grant
SGER: A Digital Library Archive for Computer Scientists
SGER:计算机科学家的数字图书馆档案
- 批准号:
0330783 - 财政年份:2003
- 资助金额:
$ 77万 - 项目类别:
Standard Grant
相似国自然基金
醒脑静多靶点调控PI3K/Akt通路抑制CI/RI氧化应激—基于网络药理学及体内、外实验研究
- 批准号:2025JJ90117
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
基于“免疫-神经”网络探讨眼针活化CI/RI大鼠MC靶向H3R调节“免疫监视”的抗炎机制
- 批准号:82374375
- 批准年份:2023
- 资助金额:51 万元
- 项目类别:面上项目
ci-Eln促进亲本基因Eln介导的缺氧肺动脉平滑肌细胞增殖的机制研究
- 批准号:
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:青年科学基金项目
通过单细胞转录组测序揭示Wolbachia诱导果蝇CI的分子机制
- 批准号:32170497
- 批准年份:2021
- 资助金额:58 万元
- 项目类别:面上项目
森林垂直分层LAI和CI时空变异特征、LiDAR遥感反演与验证研究
- 批准号:
- 批准年份:2021
- 资助金额:59 万元
- 项目类别:面上项目
CI 994对SLC25A46相关线粒体病的治疗及机制研究
- 批准号:82001449
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
近邻星系中[CI]线作为新分子气体质量探针的观测研究
- 批准号:12003070
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
lncRNA343/miR-509-3p/STC1轴在CI-AKI肾小管上皮细胞线粒体质量控制失衡中的作用与机制
- 批准号:81873607
- 批准年份:2018
- 资助金额:57.0 万元
- 项目类别:面上项目
α2肾上腺素受体活化促ESCRT-III膜聚集在肾CI/RI致肺程序性坏死中的机制研究
- 批准号:81801900
- 批准年份:2018
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
内共生菌引起棉叶螨的细胞质不亲和(CI)的分子机理研究
- 批准号:31860508
- 批准年份:2018
- 资助金额:39.0 万元
- 项目类别:地区科学基金项目
相似海外基金
CRI: CI-SUSTAIN: Racket on Alternative Platforms
CRI:CI-SUSTAIN:替代平台上的喧嚣
- 批准号:
1823244 - 财政年份:2018
- 资助金额:
$ 77万 - 项目类别:
Continuing Grant
CRI: CI-SUSTAIN: Collaborative Research: Sustaining Lemur Project Resources for the Long-Term
CRI:CI-SUSTAIN:合作研究:长期维持狐猴项目资源
- 批准号:
1822986 - 财政年份:2018
- 资助金额:
$ 77万 - 项目类别:
Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: CiteSeerX: Toward Sustainable Support of Scholarly Big Data
CRI:CI-SUSTAIN:协作研究:CiteSeerX:迈向学术大数据的可持续支持
- 批准号:
1853919 - 财政年份:2018
- 资助金额:
$ 77万 - 项目类别:
Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: CiteSeerX: Toward Sustainable Support of Scholarly Big Data
CRI:CI-SUSTAIN:协作研究:CiteSeerX:迈向学术大数据的可持续支持
- 批准号:
1823292 - 财政年份:2018
- 资助金额:
$ 77万 - 项目类别:
Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: Sustaining Lemur Project Resources for the Long-Term
CRI:CI-SUSTAIN:合作研究:长期维持狐猴项目资源
- 批准号:
1822975 - 财政年份:2018
- 资助金额:
$ 77万 - 项目类别:
Standard Grant
Collaborative Research: CI-SUSTAIN: StarExec: Cross-Community Infrastructure for Logic Solving
协作研究:CI-SUSTAIN:StarExec:用于逻辑解决的跨社区基础设施
- 批准号:
1730419 - 财政年份:2017
- 资助金额:
$ 77万 - 项目类别:
Standard Grant
CI-SUSTAIN: Sustainable Tools for Analysis and Research on Darknet Unsolicited Traffic (STARDUST).
CI-SUSTAIN:用于分析和研究暗网主动流量(STARDUST)的可持续工具。
- 批准号:
1730661 - 财政年份:2017
- 资助金额:
$ 77万 - 项目类别:
Standard Grant
Collaborative Research: CI-SUSTAIN: National File System Trace Repository
合作研究:CI-SUSTAIN:国家文件系统跟踪存储库
- 批准号:
1730726 - 财政年份:2017
- 资助金额:
$ 77万 - 项目类别:
Standard Grant
Collaborative Research: CI-SUSTAIN: National File System Trace Repository
合作研究:CI-SUSTAIN:国家文件系统跟踪存储库
- 批准号:
1729939 - 财政年份:2017
- 资助金额:
$ 77万 - 项目类别:
Standard Grant