Data mining and knowledge discovery from unstructured text using cooperative and distributed algorithms

使用协作和分布式算法从非结构化文本中进行数据挖掘和知识发现

基本信息

  • 批准号:
    1005-2010
  • 负责人:
  • 金额:
    $ 2.48万
  • 依托单位:
  • 依托单位国家:
    加拿大
  • 项目类别:
    Discovery Grants Program - Individual
  • 财政年份:
    2010
  • 资助国家:
    加拿大
  • 起止时间:
    2010-01-01 至 2011-12-31
  • 项目状态:
    已结题

项目摘要

The great advance in software, hardware, and network technologies allows the storage and sharing of a huge amount of data. Most of this data is in the form of unstructured text, where traditional techniques for managing structured databases could not be applied. In this research, innovative solutions to managing unstructured data are proposed. We focus on mining tasks such as: organization of documents into categories based on their similarity (document clustering) and semantic tagging of documents with a set of topics (document classification) for large and high dimensional data. In specific, we propose new efficient representations for unstructured text, and the use of distributive and collaborative algorithms for unstructured data mining. The proposed new representations go beyond the traditional approaches in terms of the use of content concepts and semantics. We investigate the use of representative documents as a basis for a new semantic space in which the proximity between documents represents how their terms are statistically correlated and accordingly provides a better estimate of the true semantic similarity between documents. Extraction of concepts from documents based on semantic and statistical analysis of sentences is proposed to enhance the performance of retrieval and categorization tasks. In order to address the large scale and distributed nature of real applications of data mining, we propose new distributive cooperative methods for data classification and clustering. These methods utilize ensemble of algorithms that cooperate at different stages to improve the final output. Innovative ideas in terms of adaptive aggregation and training of these algorithms are to be developed.
软件、硬件和网络技术的巨大进步允许存储和共享大量数据。这些数据中的大多数是非结构化文本,无法应用管理结构化数据库的传统技术。 在这项研究中,提出了管理非结构化数据的创新解决方案。我们专注于挖掘任务,如:组织的文件到类别的基础上,他们的相似性(文件聚类)和语义标记的文件与一组主题(文件分类)的大型和高维数据。具体而言,我们提出了新的非结构化文本的高效表示,并使用分布式和协作算法进行非结构化数据挖掘。所提出的新的表示超越了传统的方法,在使用的内容概念和语义。我们调查使用的代表性文件作为一个新的语义空间的基础上,文件之间的接近表示他们的条款是如何统计相关的,并因此提供了一个更好的估计文件之间的真实语义相似性。提出了一种基于句子语义和统计分析的概念抽取方法,以提高检索和分类任务的性能。为了解决数据挖掘真实的应用的大规模和分布式的性质,我们提出了新的分布式协作方法的数据分类和聚类。 这些方法利用在不同阶段合作的算法的集合来改善最终输出。在这些算法的自适应聚合和训练方面的创新想法有待开发。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Kamel, Mohamed其他文献

Recognizing novel drugs against Keap1 in Alzheimer's disease using machine learning grounded computational studies.
  • DOI:
    10.3389/fnmol.2022.1036552
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    4.8
  • 作者:
    Mukerjee, Nobendu;Al-Khafaji, Khattab;Maitra, Swastika;Wadi, Jaafar Suhail;Sachdeva, Punya;Ghosh, Arabinda;Buchade, Rahul Subhash;Chaudhari, Somdatta Yashwant;Jadhav, Shailaja B. B.;Das, Padmashree;Hasan, Mohammad Mehedi;Rahman, Md. Habibur;Albadrani, Ghadeer M. M.;Altyar, Ahmed E. E.;Kamel, Mohamed;Algahtani, Mohammad;Shinan, Khlood;Theyab, Abdulrahman;Abdel-Daim, Mohamed M. M.;Ashraf, Ghulam Md.;Rahman, Md. Mominur;Sharma, Rohit
  • 通讯作者:
    Sharma, Rohit
Miscellaneous Modeling Approaches and Testing of a Satellite Honeycomb Sandwich Plate
Simulation-based training in urology residency programmes in the USA: Results of a nationwide survey
  • DOI:
    10.1016/j.aju.2018.06.003
  • 发表时间:
    2018-12-01
  • 期刊:
  • 影响因子:
    1.5
  • 作者:
    Kamel, Mohamed;Eltahawy, Ehab A.;Noureldin, Yasser A.
  • 通讯作者:
    Noureldin, Yasser A.
Management of renal cell carcinoma presenting as inflammatory renal mass
  • DOI:
    10.4103/0974-7796.152051
  • 发表时间:
    2015-07-01
  • 期刊:
  • 影响因子:
    0.7
  • 作者:
    Eltahawy, Ehab;Kamel, Mohamed;Ezzet, Mahmoud
  • 通讯作者:
    Ezzet, Mahmoud
Three measures for secure palmprint identification
  • DOI:
    10.1016/j.patcog.2007.09.002
  • 发表时间:
    2008-04-01
  • 期刊:
  • 影响因子:
    8
  • 作者:
    Kong, Adams;Zhang, David;Kamel, Mohamed
  • 通讯作者:
    Kamel, Mohamed

Kamel, Mohamed的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Kamel, Mohamed', 18)}}的其他基金

Adaptive Data Mining Algorithms for Non-Stationary Data
非平稳数据的自适应数据挖掘算法
  • 批准号:
    RGPIN-2015-05224
  • 财政年份:
    2015
  • 资助金额:
    $ 2.48万
  • 项目类别:
    Discovery Grants Program - Individual
Data mining and knowledge discovery from unstructured text using cooperative and distributed algorithms
使用协作和分布式算法从非结构化文本中进行数据挖掘和知识发现
  • 批准号:
    1005-2010
  • 财政年份:
    2014
  • 资助金额:
    $ 2.48万
  • 项目类别:
    Discovery Grants Program - Individual
Data mining and knowledge discovery from unstructured text using cooperative and distributed algorithms
使用协作和分布式算法从非结构化文本中进行数据挖掘和知识发现
  • 批准号:
    1005-2010
  • 财政年份:
    2013
  • 资助金额:
    $ 2.48万
  • 项目类别:
    Discovery Grants Program - Individual
Data mining and knowledge discovery from unstructured text using cooperative and distributed algorithms
使用协作和分布式算法从非结构化文本中进行数据挖掘和知识发现
  • 批准号:
    1005-2010
  • 财政年份:
    2012
  • 资助金额:
    $ 2.48万
  • 项目类别:
    Discovery Grants Program - Individual
Discrimination of critical objects and event in pervasive multimodal surveillance systems
普遍多模式监视系统中关键对象和事件的区分
  • 批准号:
    385396-2009
  • 财政年份:
    2011
  • 资助金额:
    $ 2.48万
  • 项目类别:
    Collaborative Research and Development Grants
Data mining and knowledge discovery from unstructured text using cooperative and distributed algorithms
使用协作和分布式算法从非结构化文本中进行数据挖掘和知识发现
  • 批准号:
    1005-2010
  • 财政年份:
    2011
  • 资助金额:
    $ 2.48万
  • 项目类别:
    Discovery Grants Program - Individual
Discrimination of critical objects and event in pervasive multimodal surveillance systems
普遍多模式监视系统中关键对象和事件的区分
  • 批准号:
    385396-2009
  • 财政年份:
    2010
  • 资助金额:
    $ 2.48万
  • 项目类别:
    Collaborative Research and Development Grants
Fusion of cooperative-adaptive techniques and applications
协作自适应技术和应用的融合
  • 批准号:
    1005-2005
  • 财政年份:
    2009
  • 资助金额:
    $ 2.48万
  • 项目类别:
    Discovery Grants Program - Individual
Canada Research Chair in Cooperative Intelligent Systems
加拿大合作智能系统研究主席
  • 批准号:
    1000200446-2001
  • 财政年份:
    2008
  • 资助金额:
    $ 2.48万
  • 项目类别:
    Canada Research Chairs
Fusion of cooperative-adaptive techniques and applications
协作自适应技术和应用的融合
  • 批准号:
    1005-2005
  • 财政年份:
    2008
  • 资助金额:
    $ 2.48万
  • 项目类别:
    Discovery Grants Program - Individual

相似国自然基金

基于Genome mining技术研究抑制表皮葡萄球菌生物膜形成的次级代谢产物
  • 批准号:
    21242003
  • 批准年份:
    2012
  • 资助金额:
    10.0 万元
  • 项目类别:
    专项基金项目
在我们的门前发掘化石——利用中国即将开展的巡天来研究银河系的演化
  • 批准号:
    11043005
  • 批准年份:
    2010
  • 资助金额:
    10.0 万元
  • 项目类别:
    专项基金项目
高维稀疏数据聚类研究
  • 批准号:
    70771007
  • 批准年份:
    2007
  • 资助金额:
    16.0 万元
  • 项目类别:
    面上项目
林火行为的动态模拟信息系统
  • 批准号:
    30371171
  • 批准年份:
    2003
  • 资助金额:
    17.0 万元
  • 项目类别:
    面上项目

相似海外基金

Travel: Student Support for the 2023 ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2023)
旅行:2023 年 ACM SIGKDD 知识发现和数据挖掘会议 (KDD 2023) 的学生支持
  • 批准号:
    2323492
  • 财政年份:
    2023
  • 资助金额:
    $ 2.48万
  • 项目类别:
    Standard Grant
Integrative Data Science Approach to Advance Care Coordination of ADRD by Primary Care Providers
综合数据科学方法促进初级保健提供者对 ADRD 的护理协调
  • 批准号:
    10722568
  • 财政年份:
    2023
  • 资助金额:
    $ 2.48万
  • 项目类别:
Data Integration Core
数据集成核心
  • 批准号:
    10555808
  • 财政年份:
    2023
  • 资助金额:
    $ 2.48万
  • 项目类别:
Learning Precision Medicine for Rare Diseases Empowered by Knowledge-driven Data Mining
通过知识驱动的数据挖掘学习罕见疾病的精准医学
  • 批准号:
    10732934
  • 财政年份:
    2023
  • 资助金额:
    $ 2.48万
  • 项目类别:
AI-powered cross-level cross-species omics data integration to elucidate mechanisms of EL
人工智能驱动的跨级别跨物种组学数据集成阐明 EL 机制
  • 批准号:
    10729946
  • 财政年份:
    2023
  • 资助金额:
    $ 2.48万
  • 项目类别:
Data Analytic Services Core
数据分析服务核心
  • 批准号:
    10746902
  • 财政年份:
    2023
  • 资助金额:
    $ 2.48万
  • 项目类别:
Objective and noninvasive diagnosis of middle-ear and conductive pathologies using simulation-based inference and transfer learning applied to clinical data
使用基于模拟的推理和应用于临床数据的迁移学习来客观、无创地诊断中耳和传导性病变
  • 批准号:
    10438246
  • 财政年份:
    2022
  • 资助金额:
    $ 2.48万
  • 项目类别:
SCH: New Advanced Machine Learning Framework for Mining Heterogeneous Ocular Data to Accelerate
SCH:新的先进机器学习框架,用于挖掘异构眼部数据以加速
  • 批准号:
    10601180
  • 财政年份:
    2022
  • 资助金额:
    $ 2.48万
  • 项目类别:
Objective and noninvasive diagnosis of middle-ear and conductive pathologies using simulation-based inference and transfer learning applied to clinical data
使用基于模拟的推理和应用于临床数据的迁移学习来客观、无创地诊断中耳和传导性病变
  • 批准号:
    10599340
  • 财政年份:
    2022
  • 资助金额:
    $ 2.48万
  • 项目类别:
SCH: New Advanced Machine Learning Framework for Mining Heterogeneous Ocular Data to Accelerate
SCH:新的先进机器学习框架,用于挖掘异构眼部数据以加速
  • 批准号:
    10665804
  • 财政年份:
    2022
  • 资助金额:
    $ 2.48万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了