The Development of a Search Engine for Academic Papers in Web

网络学术论文搜索引擎的开发

基本信息

  • 批准号:
    21300095
  • 负责人:
  • 金额:
    $ 11.48万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2009
  • 资助国家:
    日本
  • 起止时间:
    2009 至 2011
  • 项目状态:
    已结题

项目摘要

Open access scientific papers available on the Web could be searched through several search engines. For example, Google scholar has higher coverage of literature, although it does not necessarily guarantee free access to full text. We have developed and evaluated the "Aletheia" search engine for full text academic papers. The system obtains PDF files on a broad range of topics and automatically detects academic papers using classifiers based on text and structure features. We have built PDF database collection containing 3 million Japanese PDF files, five types of Weka classifiers(AdaBoost, Decision Tree(C4. 5), Naive Bayes, Random Forest, and Support Vector Machine) were separately trained for 20, 000 test collection using 10-fold cross-validation to automatically detect academic papers. The features were generated using hand-built rules and consisted by the three types of features : structure, URL, and content.
可通过几个搜索引擎搜索网上公开获取的科学论文。例如,Google Scholar对文献的覆盖率更高,尽管它不一定保证免费获得全文。我们开发并评估了用于全文学术论文的“Aletheia”搜索引擎。该系统获取广泛主题的PDF文件,并使用基于文本和结构特征的分类器自动检测学术论文。我们已经建立了包含300万个日语PDF文件的PDF数据库集合,五种类型的Weka分类器(AdaBoost,决策树(C4。5),朴素贝叶斯,随机森林,和支持向量机)分别训练20000测试收集使用10倍交叉验证,以自动检测学术论文。这些特征是使用手工构建的规则生成的,由三种类型的特征组成:结构、URL和内容。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Analyzing OPAC Use with Screen Views and Eye Tracking
通过屏幕视图和眼动追踪分析 OPAC 使用情况
  • DOI:
  • 发表时间:
    2009
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ishita;Emi;Mine;Shinji ; Koizumi;Masanori ; Miyata;Yosuke ; Kunimoto;Chihiro ; Shiozaki;Junko ; Kurata;Keiko ; Ueda;Shuichi
  • 通讯作者:
    Shuichi
A Search Engine for Japanese Academic Papers
日本学术论文搜索引擎
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Emi Ishita;Teru Agata;Atsushi Ikeuchi;Michiko Nozue;Yosuke Miyata;Shuichi Ueda
  • 通讯作者:
    Shuichi Ueda
大規模日本語PDFファイル集合からの学術論文の自動判定
从大量日语 PDF 文件中自动识别学术论文
  • DOI:
  • 发表时间:
    2011
  • 期刊:
  • 影响因子:
    0
  • 作者:
    石田栄美;安形輝;宮田洋輔;池内淳;上田修一
  • 通讯作者:
    上田修一
The Deep Web in Institutional Repositories in Japan
日本机构存储库中的深网
  • DOI:
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Teru Agata;Yosuke Miyata;Atsushi Ikeuchi;Shuichi Ueda
  • 通讯作者:
    Shuichi Ueda
日本の機関リポジトリに収録された学術情報のアクセス可能性
日本机构知识库中包含的学术信息的可访问性
  • DOI:
  • 发表时间:
    2001
  • 期刊:
  • 影响因子:
    0
  • 作者:
    宮田洋輔;上田修一;他
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

UEDA Shuichi其他文献

話題空間の構成に基づくWeb探索履歴可視化手法の提案
一种基于主题空间结构的网络搜索历史可视化方法的提出
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    ISHITA Emi;UEDA Shuichi;他;枝隼也,島田諭,関洋平,神門典子,佐藤哲司
  • 通讯作者:
    枝隼也,島田諭,関洋平,神門典子,佐藤哲司
Three phases ofthe smallpox mortality in Japan in the19th century, pp.161-162 in Czech Geographical Society (ed.), Abstracts of XV.
19 世纪日本天花死亡率的三个阶段,捷克地理学会(编辑)第 161-162 页,第十五届摘要。
Global Structure of Directed Networks Emerging from a Category Theoretical Formulation of the Idea "Objects as Processes, Interactions as Interfaces"
从“对象作为过程,交互作为接口”这一思想的范畴理论表述中出现的有向网络的全局结构

UEDA Shuichi的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('UEDA Shuichi', 18)}}的其他基金

study of library use pattern by Large quantitative data analysis
大数据定量分析图书馆利用模式研究
  • 批准号:
    15K00453
  • 财政年份:
    2015
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
The Evidence-Based Approach in Library and Information Science
图书情报学的循证方法
  • 批准号:
    18300081
  • 财政年份:
    2006
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Library and Information Professions and Education Renewal
图书馆和信息专业与教育更新
  • 批准号:
    15200017
  • 财政年份:
    2003
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Role of neurotransmitters and environmental enrichment in the critical period of brain development
神经递质和环境丰富在大脑发育关键期的作用
  • 批准号:
    14580733
  • 财政年份:
    2002
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Search engine using automatic web page ranking procedure and automatic classification
使用自动网页排名程序和自动分类的搜索引擎
  • 批准号:
    12558038
  • 财政年份:
    2000
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
NEURODEGENERATION AND NEUROPROTECTION OF MESOSTRIATAL DOPAMINE SYSTEM
中纹状体多巴胺系统的神经变性和神经保护
  • 批准号:
    10680707
  • 财政年份:
    1998
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Information Retrieval protocol Z39.50 Application for OPACs
信息检索协议 Z39.50 OPAC 应用
  • 批准号:
    09558040
  • 财政年份:
    1997
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Transformation of Science Communication by the Information Technology and Networks
信息技术和网络对科学传播的变革
  • 批准号:
    09680403
  • 财政年份:
    1997
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
NEURONAL CIRCUIT FORMATION IN THE GENETICAL AND EXPERIMENTAL BRAIN MALFORMATION ANIMAL.
遗传和实验脑畸形动物的神经回路形成。
  • 批准号:
    08680824
  • 财政年份:
    1996
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Database Search Agent for Network Information Resources
网络信息资源数据库搜索代理
  • 批准号:
    07558167
  • 财政年份:
    1995
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)

相似海外基金

ソーシャルメディアの情報統合によるエキスパート検索エンジンに関する研究
基于社交媒体信息整合的专家搜索引擎研究
  • 批准号:
    13J08349
  • 财政年份:
    2013
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
時空間メタデータ検索をキーワード検索に統合したウェブ検索エンジンの実現
时空元数据搜索与关键词搜索相结合的网络搜索引擎的实现
  • 批准号:
    11J01016
  • 财政年份:
    2011
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
検索エンジンが返す検索結果中の各文書を情報源としたクエリに関する要約文の生成
以搜索引擎返回的搜索结果中的每个文档为信息源,生成有关查询的摘要语句
  • 批准号:
    09J04371
  • 财政年份:
    2009
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
情報検索エンジンをコア技術とした産学連携共同研究支援プラットフォームに関する研究
以信息搜索引擎为核心技术的产学研联合研究支撑平台研究
  • 批准号:
    18653029
  • 财政年份:
    2006
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
有機立体化学の再構築による検索エンジンの研究
通过重建有机立体化学进行搜索引擎研究
  • 批准号:
    15650016
  • 财政年份:
    2003
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
全文検索エンジンを用いた診療情報 narrative data の標準コード検索
使用全文搜索引擎对临床信息叙述数据进行标准代码搜索
  • 批准号:
    09672298
  • 财政年份:
    1997
  • 资助金额:
    $ 11.48万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了