BIGDATA: Mid-Scale: DA: Collaborative Research: Big Tensor Mining: Theory, Scalable Algorithms and Applications

BIGDATA:中型:DA:协作研究:大张量挖掘:理论、可扩展算法和应用

基本信息

  • 批准号:
    1247489
  • 负责人:
  • 金额:
    $ 89.49万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2012
  • 资助国家:
    美国
  • 起止时间:
    2012-12-01 至 2018-09-30
  • 项目状态:
    已结题

项目摘要

Tensors are multi-dimensional generalizations of matrices, and so can have non-numeric entries. Extremely large and sparse coupled tensors arise in numerous important applications that require the analysis of large, diverse, and partially related data. The effective analysis of coupled tensors requires the development of algorithms and associated software that can identify the core relations that exist among the different tensor modes, and scale to extremely large datasets. The objective of this project is to develop theory and algorithms for (coupled) sparse and low-rank tensor factorization, and associated scalable software toolkits to make such analysis possible. The research in the project is centered on three major thrusts. The first is designed to make novel theoretical contributions in the area of coupled tensor factorization, by developing multi-way compressed sensing methods for dimensionality reduction with perfect latent model reconstruction. Methods to handle missing values, noisy input, and coupled data will also be developed. The second thrust focuses on algorithms and scalability on modern architectures, which will enable the efficient analysis of coupled tensors with millions and billions of non-zero entries, using the map-reduce paradigm, as well as hybrid multicore architectures. An open-source coupled tensor factorization toolbox (HTF- Hybrid Tensor Factorization) will be developed that will provide robust and high-performance implementations of these algorithms. Finally, the third thrust focuses on evaluating and validating the effectiveness of these coupled factorization algorithms on a NeuroSemantics application whose goal is to understand how human brain activity correlates with text reading & understanding by analyzing fMRI and MEG brain image datasets obtained while reading various text passages.Given triplets of facts (subject-verb-object), like ('Washington' 'is the capital of' 'USA'), can we find patterns, new objects, new verbs, anomalies? Can we correlate these with brain scans of people reading these words, to discover which parts of the brain get activated, say, by tool-like nouns ('hammer'), or action-like verbs ('run')? We propose a unified "coupled tensor" factorization framework to systematically mine such datasets. Unique challenges in these settings include (a) tera- and peta-byte scaling issues, (b) distributed fault-tolerant computation, (c) large proportions of missing data, and (d) insufficient theory and methods for big sparse tensors. The Intellectual Merit of this effort is exactly the solution to the above four challenges.The Broader Impact is the derivation of new scientific hypotheses on how the brain works and how it processes language (from the never-ending language learning (NELL) and NeuroSemantics projects) and the development of scalable open source software for coupled tensor factorization. Our tensor analysis methods can also be used in many other settings, including recommendation systems and computer-network intrusion/anomaly detection.KEYWORDS:Data mining; map/reduce; read-the-web; neuro-semantics; tensors.
张量是矩阵的多维推广,因此可以有非数值项。在许多需要分析大量、多样和部分相关数据的重要应用中,出现了极大的稀疏耦合张量。耦合张量的有效分析需要开发算法和相关软件,以识别不同张量模式之间存在的核心关系,并扩展到非常大的数据集。该项目的目标是开发(耦合)稀疏和低秩张量分解的理论和算法,以及相关的可扩展软件工具包,使这种分析成为可能。该项目的研究主要集中在三个方面。首先,通过开发具有完美潜在模型重建的多路压缩感知降维方法,在耦合张量分解领域做出新的理论贡献。还将开发处理缺失值、噪声输入和耦合数据的方法。第二个重点是现代架构上的算法和可扩展性,这将使使用map-reduce范式以及混合多核架构能够有效地分析具有数百万和数十亿非零条目的耦合张量。一个开源的耦合张量分解工具箱(HTF- Hybrid tensor factorization)将被开发出来,它将提供这些算法的鲁棒性和高性能实现。最后,第三个重点是评估和验证这些耦合分解算法在一个神经语义应用程序上的有效性,该应用程序的目标是通过分析阅读各种文本段落时获得的fMRI和MEG脑图像数据集,了解人类大脑活动与文本阅读和理解之间的关系。给定三组事实(主语-动词-宾语),比如(“华盛顿”是“美国”的首都),我们能找到规律、新宾语、新动词和异常现象吗?我们能否将这些与阅读这些单词的人的脑部扫描联系起来,以发现大脑的哪些部分被激活,比如,被类似工具的名词(“锤子”)或类似动作的动词(“跑”)激活?我们提出了一个统一的“耦合张量”分解框架来系统地挖掘这些数据集。这些环境中的独特挑战包括(a)兆字节和千兆字节缩放问题,(b)分布式容错计算,(c)大量丢失数据,以及(d)大稀疏张量的理论和方法不足。这种努力的智力价值正是解决上述四个挑战的方法。更广泛的影响是关于大脑如何工作以及如何处理语言的新科学假设的衍生(来自永无止境的语言学习(NELL)和神经语义项目)以及耦合张量分解的可扩展开源软件的开发。我们的张量分析方法也可以用于许多其他设置,包括推荐系统和计算机网络入侵/异常检测。关键词:数据挖掘;map / reduce;read-the-web;neuro-semantics;张量。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Christos Faloutsos其他文献

イメージの鮮明度と残像の明瞭さの関係
图像清晰度与残像清晰度之间的关系
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yasuko Matsubara;Yasushi Sakurai;Christos Faloutsos;廣瀬健司・菱谷晋介
  • 通讯作者:
    廣瀬健司・菱谷晋介
EagleMine: Vision-guided Micro-clusters recognition and collective anomaly detection
EagleMine:视觉引导微团簇识别和集体异常检测
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Wenjie Feng;Shenghua Liu;Christos Faloutsos;Bryan Hooi;Huawei Shen;Xueqi Cheng
  • 通讯作者:
    Xueqi Cheng
大規模時系列データのための特徴自動抽出と将来予測
大规模时间序列数据的自动特征提取和未来预测
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yasuko Matsubara;Yasushi Sakurai;Christos Faloutsos;松原靖子;松原靖子
  • 通讯作者:
    松原靖子
: Patterns and the SOAR Model
:模式和 SOAR 模型
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    D. Eswaran;Reihaneh Rabbany;Artur W. Dubrawski;Christos Faloutsos
  • 通讯作者:
    Christos Faloutsos
DualCast: Friendship-Preference Co-evolution Forecasting for Attributed Networks
DualCast:属性网络的友谊偏好协同进化预测
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hiroyoshi Ito;Christos Faloutsos
  • 通讯作者:
    Christos Faloutsos

Christos Faloutsos的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Christos Faloutsos', 18)}}的其他基金

III: Medium: Collaborative Research: Collective Opinion Fraud Detection: Identifying and Integrating Cues from Language, Behavior, and Networks
III:媒介:协作研究:集体意见欺诈检测:识别和整合来自语言、行为和网络的线索
  • 批准号:
    1408924
  • 财政年份:
    2014
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Standard Grant
TWC: Medium: Collaborative: Know Thy Enemy: Data Mining Meets Networks for Understanding Web-Based Malware Dissemination
TWC:媒介:协作:了解你的敌人:数据挖掘与网络结合以了解基于 Web 的恶意软件传播
  • 批准号:
    1314632
  • 财政年份:
    2013
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Standard Grant
CGV: Small: Making Sense out of Large Graphs - Bridging HCI with Data Mining
CGV:小:从大图中理解 - 连接 HCI 与数据挖掘
  • 批准号:
    1217559
  • 财政年份:
    2012
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Continuing Grant
III: Small: Influence and Virus Propagation in Large Graphs - Theory and Algorithms
III:小:大图中的影响和病毒传播 - 理论和算法
  • 批准号:
    1017415
  • 财政年份:
    2010
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Standard Grant
The Second Workshop on Large-Scale Data Mining: Theory and Applications
第二届大规模数据挖掘:理论与应用研讨会
  • 批准号:
    1045306
  • 财政年份:
    2010
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Standard Grant
III-CXT-Large: Collaborative Research: Interactive and Intelligent searching of biological images by query and network navigation with learning capabilities.
III-CXT-Large:协作研究:通过具有学习功能的查询和网络导航对生物图像进行交互式和智能搜索。
  • 批准号:
    0808661
  • 财政年份:
    2008
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Standard Grant
Collaborative Research: NETS-NBD: RIDR: Towards Robust Inter-Domain Routing: Measurements, Models, and Deployable Tools
协作研究:NETS-NBD:RIDR:迈向稳健的域间路由:测量、模型和可部署工具
  • 批准号:
    0721736
  • 财政年份:
    2007
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Continuing Grant
III-COR: Collaborative Research: Mining Biomedical and Network Data Using Tensors
III-COR:协作研究:使用张量挖掘生物医学和网络数据
  • 批准号:
    0705359
  • 财政年份:
    2007
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Standard Grant
Finding Patterns and Anomalies in Large Time-Evolving Graphs
在大型时间演化图中查找模式和异常
  • 批准号:
    0534205
  • 财政年份:
    2006
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Standard Grant
ITR Collaborative Research: Indexing, Retrieval, and Use of Large Motion Databases
ITR 协作研究:大型运动数据库的索引、检索和使用
  • 批准号:
    0326322
  • 财政年份:
    2004
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Continuing Grant

相似国自然基金

肝细胞Mid 1活化加重脓毒症病理进程的分子机制研究及干预策略优化
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
MID1调控肿瘤相关巨噬细胞细胞中IRF8-STING通路在胶质瘤微环境中的作用机制研究
  • 批准号:
    2025JJ70385
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
E3泛素连接酶Mid1调控Treg细胞影响GVHD 的作用及机制研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
线粒体动力蛋白MiD51在IL-27诱导类风湿关节炎DN2-B细胞分化扩增中的作用及机制研究
  • 批准号:
    82302047
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
MID1调控糖稳态的分子机制
  • 批准号:
    32000815
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
MID1基因缺陷对颅神经嵴细胞的影响及唇腭裂形成的分子病理
  • 批准号:
    2020A151501160
  • 批准年份:
    2020
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
水稻MID1和赤霉素互作调控缺水条件下花粉发育的机制研究
  • 批准号:
    31770352
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于最小重要差异值(MID)的冠心病病证结合疗效评价量表中医临床疗效判定阈值研究
  • 批准号:
    81603504
  • 批准年份:
    2016
  • 资助金额:
    17.0 万元
  • 项目类别:
    青年科学基金项目
层级稀疏化的Mid-Level特征空间下高分辨率遥感影像检索方法研究
  • 批准号:
    41401376
  • 批准年份:
    2014
  • 资助金额:
    25.0 万元
  • 项目类别:
    青年科学基金项目
MID器件机电集成数字化设计关键问题的研究
  • 批准号:
    50975241
  • 批准年份:
    2009
  • 资助金额:
    20.0 万元
  • 项目类别:
    面上项目

相似海外基金

BIGDATA: Mid-Scale: ESCE: DCM: Collaborative Research: DataBridge - A Sociometric System for Long-Tail Science Data Collections
BIGDATA:中型:ESCE:DCM:协作研究:DataBridge - 长尾科学数据收集的社会计量系统
  • 批准号:
    1560625
  • 财政年份:
    2015
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Standard Grant
BIGDATA: Mid-Scale: ESCE: Collaborative Research: Discovery and Social Analytics for Large-Scale Scientific Literature
大数据:中等规模:ESCE:协作研究:大规模科学文献的发现和社会分析
  • 批准号:
    1502780
  • 财政年份:
    2014
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Standard Grant
BIGDATA: Mid-Scale DCM: DA: ESCE: Discovering Molecular Processes
BIGDATA:中型 DCM:DA:ESCE:发现分子过程
  • 批准号:
    8840914
  • 财政年份:
    2013
  • 资助金额:
    $ 89.49万
  • 项目类别:
BIGDATA: Mid-Scale: DCM: A Formal Foundation for Big Data Management
BIGDATA:中型:DCM:大数据管理的正式基础
  • 批准号:
    1247469
  • 财政年份:
    2013
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Continuing Grant
BIGDATA: Mid-Scale: DCM: Collaborative Research: Eliminating the Data Ingestion Bottleneck in Big Data Applications
BIGDATA:中型:DCM:协作研究:消除大数据应用中的数据摄取瓶颈
  • 批准号:
    1247726
  • 财政年份:
    2013
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Standard Grant
BIGDATA: Mid-Scale: DA: Collaborative Research: Genomes Galore - Core Techniques, Libraries, and Domain Specific Languages for High-Throughput DNA Sequencing
大数据:中规模:DA:协作研究:基因组丰富 - 高通量 DNA 测序的核心技术、库和领域特定语言
  • 批准号:
    1416259
  • 财政年份:
    2013
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Standard Grant
BIGDATA: Mid-Scale: DA : Collaborative Research Big Tensor Mining Theory
BIGDATA:中型:DA:协作研究大张量挖掘理论
  • 批准号:
    8599832
  • 财政年份:
    2013
  • 资助金额:
    $ 89.49万
  • 项目类别:
BIGDATA: Mid-Scale DCM: DA: ESCE: Discovering Molecular Processes
BIGDATA:中型 DCM:DA:ESCE:发现分子过程
  • 批准号:
    8599838
  • 财政年份:
    2013
  • 资助金额:
    $ 89.49万
  • 项目类别:
BIGDATA: Mid-Scale: DA: Distribution-based machine learning for high dimensional datasets
BIGDATA:中规模:DA:针对高维数据集的基于分布的机器学习
  • 批准号:
    1247658
  • 财政年份:
    2013
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Continuing Grant
BIGDATA: Mid-Scale: ESCE: Collaborative Research: Discovery and Social Analytics for Large-Scale Scientific Literature.
大数据:中等规模:ESCE:协作研究:大规模科学文献的发现和社会分析。
  • 批准号:
    1247696
  • 财政年份:
    2013
  • 资助金额:
    $ 89.49万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了