Pattern Discovery from Large Text Data Based on the Property of Languages Being Scale-Free
基于语言无标度特性的大文本数据模式发现
基本信息
- 批准号:19700150
- 负责人:
- 金额:$ 2.4万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2007
- 资助国家:日本
- 起止时间:2007 至 2008
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究の大目標は、スケールフリー性を利用し、言語や対象領域に依存しないテキストマイニングの手法を確立することである。これに対し、可変長の文字列の組み合わせでパターンを発見する手法を2つ提案し、その有効性を実験により示した。最初の手法で用いるパターンは、複数の可変長部分文字列が重複を持って重なっている。この手法により、従来は困難だったワードサラダと呼ばれる人工的に生成されたスパムを検出できるようになった。この手法は、普通の頻度分布と異なる部分を抽出するという意味で従来よく用いられてきた標準正規分布からのずれ(z-score)を用いた手法に近い。一方で、データマイニングの分野で研究されてきた例外パターン発見の枠組みをテキストに応用し、z-scoreでは見つけられなかったパターンを発見できることを、DNA配列を用いた実験により示した。
The main purpose of this study is to establish the method of language domain dependence. The combination of these two types of text can be seen in two different ways: in one case, in the other, in the other. The original method is to repeat the text string in the middle of the text string, and to repeat the text string in the middle of the text string. This method is difficult to generate manually. This means that the frequency distribution is different from that of the normal distribution, and the method is close to that of the normal distribution. A side, a side.
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Unsupervised Spam Detection by Document Complexity Estimation
通过文档复杂性估计进行无监督垃圾邮件检测
- DOI:
- 发表时间:2008
- 期刊:
- 影响因子:0
- 作者:Uemura;Ikeda;and Arimura
- 通讯作者:and Arimura
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
IKEDA Daisuke其他文献
IKEDA Daisuke的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('IKEDA Daisuke', 18)}}的其他基金
Hierarchical Discovery of Sub-structures and Rare Patterns of Them in Large Text Data
大文本数据中子结构及其罕见模式的分层发现
- 批准号:
24300059 - 财政年份:2012
- 资助金额:
$ 2.4万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Test of Radar Echo Detection using Electron Beam for Future Large Air Shower Observatory
未来大型风淋室天文台电子束雷达回波探测试验
- 批准号:
23654078 - 财政年份:2011
- 资助金额:
$ 2.4万 - 项目类别:
Grant-in-Aid for Challenging Exploratory Research
Evolution of fast skeletal myosin heavy chain genes of fish
鱼类快速骨骼肌球蛋白重链基因的进化
- 批准号:
23780214 - 财政年份:2011
- 资助金额:
$ 2.4万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
Research on statistical discovery of a wide var i ety of patterns with low frequencies and its applications
多种低频模式的统计发现及其应用研究
- 批准号:
21650031 - 财政年份:2009
- 资助金额:
$ 2.4万 - 项目类别:
Grant-in-Aid for Challenging Exploratory Research
The origin and purpose of fast skeletal muscle myosin heavy chain gene cluster of vertebrates
脊椎动物快骨骼肌肌球蛋白重链基因簇的起源和目的
- 批准号:
21780198 - 财政年份:2009
- 资助金额:
$ 2.4万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
Study of High-speed Data Mining Algorithms from Massive Data Streams
海量数据流高速数据挖掘算法研究
- 批准号:
15300036 - 财政年份:2003
- 资助金额:
$ 2.4万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
相似海外基金
テキストマイニングを用いたレビュー分析にみる観光地へのニーズと影響要因
基于文本挖掘的评论分析中的旅游目的地需求及影响因素
- 批准号:
24K15556 - 财政年份:2024
- 资助金额:
$ 2.4万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
テキストマイニングを活用した中国語会話学習プラットフォームの開発
基于文本挖掘的汉语会话学习平台的开发
- 批准号:
24K04084 - 财政年份:2024
- 资助金额:
$ 2.4万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
帝国議会議事速記録のコーパス化とテキストマイニングによる近代日本語史の解明
通过帝国国会会议记录的语料库记录和文本挖掘阐明现代日本的历史
- 批准号:
23K25329 - 财政年份:2024
- 资助金额:
$ 2.4万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
選挙期間中に候補者が発信するソーシャルメディアのコンテンツ分析
选举期间候选人发布的社交媒体内容分析
- 批准号:
23K11766 - 财政年份:2023
- 资助金额:
$ 2.4万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Methodological Innovation in the Study of the History of Thought by the Metrical Analysis of Texts : The Case of Max Weber and German Social Sciences
文本格律分析思想史研究的方法论创新:以马克斯·韦伯与德国社会科学为例
- 批准号:
23K00090 - 财政年份:2023
- 资助金额:
$ 2.4万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
テキストマイニングによるIASB概念フレームワークの本質的特徴の析出
使用文本挖掘分析 IASB 概念框架的基本特征
- 批准号:
23K17557 - 财政年份:2023
- 资助金额:
$ 2.4万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)
Study on Optimization of "Caption Evaluation Method" and Production of its ICT Tool
“字幕评价方法”的优化研究及其ICT工具的制作
- 批准号:
23K04135 - 财政年份:2023
- 资助金额:
$ 2.4万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
帝国議会議事速記録のコーパス化とテキストマイニングによる近代日本語史の解明
通过帝国国会会议记录的语料库记录和文本挖掘阐明现代日本的历史
- 批准号:
23H00632 - 财政年份:2023
- 资助金额:
$ 2.4万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Exploration of the background of sustainability standards and evaluation methods for sustainability report.
可持续发展标准背景及可持续发展报告评价方法探讨。
- 批准号:
23K01679 - 财政年份:2023
- 资助金额:
$ 2.4万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Research on Gender Differences in Entrepreneurship Using Text Mining
基于文本挖掘的创业性别差异研究
- 批准号:
23K01607 - 财政年份:2023
- 资助金额:
$ 2.4万 - 项目类别:
Grant-in-Aid for Scientific Research (C)