The Development of a Search Engine for Academic Papers in Web

网络学术论文搜索引擎的开发

基本信息

  • 批准号:
    21300095
  • 负责人:
  • 金额:
    $ 11.48万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2009
  • 资助国家:
    日本
  • 起止时间:
    2009 至 2011
  • 项目状态:
    已结题

项目摘要

Open access scientific papers available on the Web could be searched through several search engines. For example, Google scholar has higher coverage of literature, although it does not necessarily guarantee free access to full text. We have developed and evaluated the "Aletheia" search engine for full text academic papers. The system obtains PDF files on a broad range of topics and automatically detects academic papers using classifiers based on text and structure features. We have built PDF database collection containing 3 million Japanese PDF files, five types of Weka classifiers(AdaBoost, Decision Tree(C4. 5), Naive Bayes, Random Forest, and Support Vector Machine) were separately trained for 20, 000 test collection using 10-fold cross-validation to automatically detect academic papers. The features were generated using hand-built rules and consisted by the three types of features : structure, URL, and content.
可以通过多个搜索引擎搜索网络上可用的开放访问科学论文。例如,Google Scholar对文献的报道更高,尽管它不一定可以保证免费获得全文。我们已经开发并评估了全文学术论文的“动血症”搜索引擎。该系统在广泛的主题上获取PDF文件,并根据文本和结构功能自动检测学术论文。我们已经构建了PDF数据库集合,其中包含300万个日本PDF文件,五种类型的WEKA分类器(ADABOOST,决策树(C4。5),Naive Bayes,Random Forest和Support Vector Machine)进行了20,000次测试收集,使用10倍的测试收集,以自动检测学术论文。这些功能是使用手工构建的规则生成的,由三种类型的功能组成:结构,URL和内容。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Analyzing OPAC Use with Screen Views and Eye Tracking
通过屏幕视图和眼动追踪分析 OPAC 使用情况
  • DOI:
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ishita;Emi;Mine;Shinji ; Koizumi;Masanori ; Miyata;Yosuke ; Kunimoto;Chihiro ; Shiozaki;Junko ; Kurata;Keiko ; Ueda;Shuichi
  • 通讯作者:
    Shuichi
A Search Engine for Japanese Academic Papers
日本学术论文搜索引擎
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Emi Ishita;Teru Agata;Atsushi Ikeuchi;Michiko Nozue;Yosuke Miyata;Shuichi Ueda
  • 通讯作者:
    Shuichi Ueda
大規模日本語PDFファイル集合からの学術論文の自動判定
从大量日语 PDF 文件中自动识别学术论文
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    石田栄美;安形輝;宮田洋輔;池内淳;上田修一
  • 通讯作者:
    上田修一
The Deep Web in Institutional Repositories in Japan
日本机构存储库中的深网
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Teru Agata;Yosuke Miyata;Atsushi Ikeuchi;Shuichi Ueda
  • 通讯作者:
    Shuichi Ueda
学術情報流通における深層ウェブの実態-機関リポジトリに登録された文献を用いた調査
深网在学术信息传播中的现状——基于机构知识库中注册文件的调查
  • DOI:
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    0
  • 作者:
    安形輝;宮田洋輔;池内淳;上田修一
  • 通讯作者:
    上田修一
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

UEDA Shuichi其他文献

話題空間の構成に基づくWeb探索履歴可視化手法の提案
一种基于主题空间结构的网络搜索历史可视化方法的提出
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    ISHITA Emi;UEDA Shuichi;他;枝隼也,島田諭,関洋平,神門典子,佐藤哲司
  • 通讯作者:
    枝隼也,島田諭,関洋平,神門典子,佐藤哲司
Three phases ofthe smallpox mortality in Japan in the19th century, pp.161-162 in Czech Geographical Society (ed.), Abstracts of XV.
19 世纪日本天花死亡率的三个阶段,捷克地理学会(编辑)第 161-162 页,第十五届摘要。
Global Structure of Directed Networks Emerging from a Category Theoretical Formulation of the Idea "Objects as Processes, Interactions as Interfaces"
从“对象作为过程,交互作为接口”这一思想的范畴理论表述中出现的有向网络的全局结构

UEDA Shuichi的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('UEDA Shuichi', 18)}}的其他基金

study of library use pattern by Large quantitative data analysis
大数据定量分析图书馆利用模式研究
  • 批准号:
    15K00453
  • 财政年份:
    2015
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
The Evidence-Based Approach in Library and Information Science
图书情报学的循证方法
  • 批准号:
    18300081
  • 财政年份:
    2006
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Library and Information Professions and Education Renewal
图书馆和信息专业与教育更新
  • 批准号:
    15200017
  • 财政年份:
    2003
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Role of neurotransmitters and environmental enrichment in the critical period of brain development
神经递质和环境丰富在大脑发育关键期的作用
  • 批准号:
    14580733
  • 财政年份:
    2002
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Search engine using automatic web page ranking procedure and automatic classification
使用自动网页排名程序和自动分类的搜索引擎
  • 批准号:
    12558038
  • 财政年份:
    2000
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
NEURODEGENERATION AND NEUROPROTECTION OF MESOSTRIATAL DOPAMINE SYSTEM
中纹状体多巴胺系统的神经变性和神经保护
  • 批准号:
    10680707
  • 财政年份:
    1998
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Information Retrieval protocol Z39.50 Application for OPACs
信息检索协议 Z39.50 OPAC 应用
  • 批准号:
    09558040
  • 财政年份:
    1997
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Transformation of Science Communication by the Information Technology and Networks
信息技术和网络对科学传播的变革
  • 批准号:
    09680403
  • 财政年份:
    1997
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
NEURONAL CIRCUIT FORMATION IN THE GENETICAL AND EXPERIMENTAL BRAIN MALFORMATION ANIMAL.
遗传和实验脑畸形动物的神经回路形成。
  • 批准号:
    08680824
  • 财政年份:
    1996
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Database Search Agent for Network Information Resources
网络信息资源数据库搜索代理
  • 批准号:
    07558167
  • 财政年份:
    1995
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)

相似海外基金

実世界を検索可能とするクロスモーダル言語処理基盤の構築
构建跨模态语言处理平台,让现实世界可搜索
  • 批准号:
    23H03478
  • 财政年份:
    2023
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
The association between health indicators in the Health Japan 21 (the second term) and web log data
Health Japan 21(第二期)中的健康指标与网络日志数据之间的关联
  • 批准号:
    22K17549
  • 财政年份:
    2022
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Development of Multimodal Data Retrieval Engine Based on Human Cognitive System
基于人类认知系统的多模态数据检索引擎开发
  • 批准号:
    19H04172
  • 财政年份:
    2019
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Semantic Search by Big Data Learning
大数据学习语义搜索
  • 批准号:
    18H03243
  • 财政年份:
    2018
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
A research on the notion of right "to be forgotten" and its place in the system of civil law
“被遗忘权”概念及其在民法体系中的地位研究
  • 批准号:
    17K17899
  • 财政年份:
    2017
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了