Automated synthesis of frequent event-sequences corpus from large-scale textual data and its application to WEB content tracking
大规模文本数据频繁事件序列语料库的自动合成及其在WEB内容跟踪中的应用
基本信息
- 批准号:16500078
- 负责人:
- 金额:$ 2.3万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2004
- 资助国家:日本
- 起止时间:2004 至 2006
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
This research we studied and developed the following technologies:1. a novel and rational frequency measure, called Total Frequency Measure, which satisfies anti-monotonic property and never causes duplicated counting within a very long single data sequence.2. a online fast sequential data mining algorithm for extracting frequent subsequences within the framework of a infinite-length window.3. a fast sequential mining algorithm based on the relaxation method which is intended for use for the framework of a finite-length window.4. a intelligent sequential data mining method which uses an integrated occurrence criteria of frequency and information gain for subsequences.5. a sequential pattern mining method for WEB access logs, which enables us to analyze access log data with considering page-staying time sequences6. a new method for extracting important key words and/or phrases from newspaper articles in a huge newspaper corpus.We showed the significance of the above technologies throughout huge amounts of experiments for evaluation.
本研究主要研究和开发了以下技术:1.提出了一种新的合理的频率测度,称为总频率测度,它满足反单调性,并且在很长的单数据序列中不会引起重复计数.提出了一种在无限长窗口框架下提取频繁序列的在线快速序列数据挖掘算法.提出了一种基于松弛法的快速序列挖掘算法,该算法适用于有限长窗口的框架.提出了一种智能序列数据挖掘方法,该方法采用频率和信息增益的综合发生准则来进行序列数据挖掘.一种WEB访问日志的序列模式挖掘方法,该方法能够在分析访问日志数据时考虑页面停留时间序列.一种从大型报纸语料库中的报纸文章中提取重要关键词和/或短语的新方法。我们通过大量的实验评估表明了上述技术的重要性。
项目成果
期刊论文数量(42)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
専門検索エンジンの半自動生成を目的とした類似度に基づくWEB学習データの精製
基于相似性的网络学习数据细化,用于半自动生成专业搜索引擎
- DOI:
- 发表时间:2006
- 期刊:
- 影响因子:0
- 作者:宮川礼子;岩沼宏治;鍋島英知
- 通讯作者:鍋島英知
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
IWANUMA Koji其他文献
IWANUMA Koji的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('IWANUMA Koji', 18)}}的其他基金
An On-line Approximation Algorithm for Mining Latent Association Rules and its Integration with Hypothetical Reasoning
挖掘潜在关联规则的在线近似算法及其与假设推理的结合
- 批准号:
16K00298 - 财政年份:2016
- 资助金额:
$ 2.3万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Efficient Mining Methods for Latent Association Rules and their Application for Generating Latent Event Sequence Corpora
潜在关联规则的高效挖掘方法及其在生成潜在事件序列语料库中的应用
- 批准号:
25330256 - 财政年份:2013
- 资助金额:
$ 2.3万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Knowledge Discovery from Large-scale Text Sequences by Integrating Sequential Data Mining and Advanced Reasoning
通过集成序列数据挖掘和高级推理从大规模文本序列中发现知识
- 批准号:
22500127 - 财政年份:2010
- 资助金额:
$ 2.3万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
相似海外基金
Research on Parallel Extraction of Frequent Sequence Pattern on a Multi-Core Computer Cluster.
多核计算机集群上频繁序列模式并行提取的研究。
- 批准号:
20700095 - 财政年份:2008
- 资助金额:
$ 2.3万 - 项目类别:
Grant-in-Aid for Young Scientists (B)