Development of efficient knowledge discovery systems for large semistructured data
开发针对大型半结构化数据的高效知识发现系统
基本信息
- 批准号:17200011
- 负责人:
- 金额:$ 29.62万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (A)
- 财政年份:2005
- 资助国家:日本
- 起止时间:2005 至 2007
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
By the rapid progress of Internet and Web service technologies, a new kind of massive data called semistructured data emerged, where a semistructured data is a collection of weakly structured electronic data such as Web pages and XML documents. In this research project, we studied efficient knowledge discovery systems for large semistructured data.First we studied theoretical foundations of learning and discovery for semistructured data. One of our main contributions is on kernels for trees. We introduced a new kernel function for labeled ordered trees and showed a hardness result in designing tree kernels for more general labeled trees(JSAI Best Paper Award in 2006). Another important one is on episode mining. We showed that an episode is parallel-free if and only if it is serially constructive.Next, we studied practical processing methods for semistructured data such as pattern matching, text compression, and index structures. Main contributions are as follows We devised efficient matching algorithms for path patterns based on the one-way sequential processing. These algorithms run 2 - 6 times faster and 6 times space-efficient in comparison with XMLTK. We also proposed an efficient index structure for the fast reachability test on directed graphs and implemented it(DEWS2007 BestPaper Award). Furthermore, we developed a new compressed pattern matching(CPM) algorithm that improves both the compression ratio and the search time ratio in comparison with a BPE type CPM algorithm.Finally, we applied the theoretical and practical results in this project to knowledge discovery systems. We demonstrated that these applications work effectively in various areas such as bioinformatics, pharmacy, music, traffic, and security.
随着Internet和Web服务技术的飞速发展,出现了一种新的海量数据--半结构化数据,半结构化数据是指Web页面和XML文档等弱结构化电子数据的集合。本课题研究了面向大规模半结构化数据的高效知识发现系统。我们的主要贡献之一是关于树的内核。我们引入了一个新的核函数的标记有序树,并显示了一个硬度的结果,在设计更一般的标记树的树核(JSAI最佳论文奖,2006年)。另一个重要的是情节挖掘。我们证明了一个情节是无并行的当且仅当它是串行建设性的。接下来,我们研究了半结构化数据的实际处理方法,如模式匹配,文本压缩和索引结构。本文的主要工作如下:基于单向序贯处理的思想,设计了有效的路径模式匹配算法。与XMLTK相比,这些算法运行速度快2 - 6倍,空间效率高6倍。我们还提出了一个高效的索引结构,快速可达性测试的有向图,并实现了它(DEWS 2007年最佳论文奖)。在此基础上,我们提出了一种新的压缩模式匹配(CPM)算法,与BPE型CPM算法相比,该算法在压缩率和搜索时间上都有较大的提高。最后,我们将本课题的理论和实践成果应用到知识发现系统中。我们证明了这些应用程序在生物信息学,制药,音乐,交通和安全等各个领域有效地工作。
项目成果
期刊论文数量(153)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
An Assistant Interface for Finding Query-Related Proper Nouns
用于查找查询相关专有名词的辅助界面
- DOI:
- 发表时间:2007
- 期刊:
- 影响因子:0
- 作者:Tomoya Iwakura;他2名
- 通讯作者:他2名
A New Family of String Classifiers based on Local Relatedness
基于局部相关性的一类新的字符串分类器
- DOI:
- 发表时间:2006
- 期刊:
- 影响因子:0
- 作者:Yasuto Higa;他3名
- 通讯作者:他3名
The Gram Distribution for Rooted Ordered Trees
有根有序树的克分布
- DOI:
- 发表时间:2006
- 期刊:
- 影响因子:0
- 作者:Nobuhito Ohkura;他4名
- 通讯作者:他4名
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
OKAMOTO Seishi其他文献
OKAMOTO Seishi的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似国自然基金
基于集成学习的分布式XML数据流的挖掘模型与概念漂移挖掘方法研究
- 批准号:61773415
- 批准年份:2017
- 资助金额:64.0 万元
- 项目类别:面上项目
海量不确定XML数据查询关键技术研究
- 批准号:61602130
- 批准年份:2016
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
高扩展性XML关键字查询处理技术
- 批准号:61572421
- 批准年份:2015
- 资助金额:66.0 万元
- 项目类别:面上项目
基于事前约束的XML关键字查询处理技术
- 批准号:61472339
- 批准年份:2014
- 资助金额:80.0 万元
- 项目类别:面上项目
面向时空应用的大规模复杂模糊时空XML数据管理关键技术研究
- 批准号:61402087
- 批准年份:2014
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
模糊时空数据XML建模与查询关键技术研究
- 批准号:61370075
- 批准年份:2013
- 资助金额:73.0 万元
- 项目类别:面上项目
基于文本语境约束的XML商业报告多维分析模型研究
- 批准号:61303155
- 批准年份:2013
- 资助金额:23.0 万元
- 项目类别:青年科学基金项目
云计算环境下海量XML数据管理关键技术研究
- 批准号:61272181
- 批准年份:2012
- 资助金额:81.0 万元
- 项目类别:面上项目
面向XML数据的关键字查询算法辅助生成技术研究
- 批准号:61272124
- 批准年份:2012
- 资助金额:80.0 万元
- 项目类别:面上项目
不确定XML数据查询处理关键技术研究
- 批准号:61202083
- 批准年份:2012
- 资助金额:23.0 万元
- 项目类别:青年科学基金项目
相似海外基金
Word文書のXML解析と機械学習を用いた授業課題レポート作成者の識別
使用 Word 文档的 XML 分析和机器学习识别课堂作业报告创建者
- 批准号:
23K02723 - 财政年份:2023
- 资助金额:
$ 29.62万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
『カダム全集』所収『阿毘達磨集論』注釈群のXML電子テキスト構築
噶当全集《阿提达磨文集》注释XML电子文本的构建
- 批准号:
21H04339 - 财政年份:2021
- 资助金额:
$ 29.62万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
XML Validation with Parabix Technology
使用 Parabix 技术进行 XML 验证
- 批准号:
539782-2019 - 财政年份:2019
- 资助金额:
$ 29.62万 - 项目类别:
University Undergraduate Student Research Awards
Textual Analysis of Tibetan Commentarial Traditions on the Abhidharmasamuccaya Using XML
使用 XML 对《阿毗达摩萨摩伽耶》的藏族注释传统进行文本分析
- 批准号:
18H00610 - 财政年份:2018
- 资助金额:
$ 29.62万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Automated Web-Service Testing: WSDL/XSD/XML Bypass Testing
自动化 Web 服务测试:WSDL/XSD/XML 绕过测试
- 批准号:
527599-2018 - 财政年份:2018
- 资助金额:
$ 29.62万 - 项目类别:
University Undergraduate Student Research Awards
Design and implementation of fragmentation-adaptive parallel and distributed XML query library
分段自适应并行分布式XML查询库的设计与实现
- 批准号:
17K00108 - 财政年份:2017
- 资助金额:
$ 29.62万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
XML Access Control Based on Security Views
基于安全视图的XML访问控制
- 批准号:
DDG-2015-00050 - 财政年份:2016
- 资助金额:
$ 29.62万 - 项目类别:
Discovery Development Grant
XML Database for Magnetotelluric Transfer Functions
大地电磁传递函数 XML 数据库
- 批准号:
1463855 - 财政年份:2015
- 资助金额:
$ 29.62万 - 项目类别:
Standard Grant
XML Access Control Based on Security Views
基于安全视图的XML访问控制
- 批准号:
DDG-2015-00050 - 财政年份:2015
- 资助金额:
$ 29.62万 - 项目类别:
Discovery Development Grant
Updating and querying compressed XML documents
更新和查询压缩的 XML 文档
- 批准号:
21999-2010 - 财政年份:2014
- 资助金额:
$ 29.62万 - 项目类别:
Discovery Grants Program - Individual