Scalable Analysis of Similarity Data

相似性数据的可扩展分析

基本信息

  • 批准号:
    0312275
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2003
  • 资助国家:
    美国
  • 起止时间:
    2003-07-01 至 2008-06-30
  • 项目状态:
    已结题

项目摘要

The investigator studies models for the unsupervised clustering and hierarchical organization of objects based on similarity data. The research takes a three-pronged approach to meeting the objective of scaling the analysis to large data sets. First the investigator studies powerful latent variable models with relatively few parameters for analyzing similarity data. Second, the investigator develops dramatically faster algorithms for fitting the models. Specifically, the models are fit with combinatorial variants of the EM algorithm which converge much faster than the conventional EM algorithm. Third, the latent variable structure of the models are extended hierarchically, leading to scalable algorithms which hierarchically cluster previously found clusters of objects. Investigations of this type f latent variable hierarchy lead to models and algorithms which scale to large data sets much better than traditional flat models. The similarity analysis in addition extracts out relationships between clusters, and allows for targeted clustering based on a prior specification of cluster relationships of interest. In this modern data rich age, there is a pressing need for statistical models which can handle large data sets. This investigation focuses on the ubiquitous type of relational data called similarity data, consisting of similarity measurements between pairs of objects. Examples of data which fit into this framework include internet traffic between routers, web connectivity data used by search engines, and microarray gene expression data. There is great interest in finding internet traffic and web topic clusters as well as functional groupings of genes. The investigator studies models and algorithms for clustering and organizational analysis of relational data which can scale to large data sets. The analysis finds meaningful underlying cluster groups along with structural relationships between groups. The methodology the investigator develops has widespread applicability to various disciplines.
研究人员研究了基于相似性数据的对象的无监督聚类和层次组织模型。这项研究采取了三管齐下的方法,以实现将分析扩展到大型数据集的目标。首先,研究者研究了参数相对较少的强大的潜变量模型,用于分析相似数据。其次,研究人员开发了更快的算法来拟合模型。具体地说,该模型适用于EM算法的组合变体,其收敛速度比传统EM算法快得多。第三,模型的潜在变量结构被分层扩展,导致可扩展的算法,该算法分层地对先前发现的对象集群进行聚类。对这种类型的潜在变量层次的研究导致了比传统平面模型更好地扩展到大数据集的模型和算法。此外,相似性分析提取出集群之间的关系,并允许基于感兴趣的集群关系的先前规范进行定向集群。在这个现代数据丰富的时代,迫切需要能够处理大数据集的统计模型。这项研究的重点是被称为相似性数据的无处不在的关系数据类型,它由对象对之间的相似性度量组成。符合这一框架的数据包括路由器之间的互联网流量、搜索引擎使用的网络连接数据和微阵列基因表达数据。人们对寻找互联网流量和网络话题簇以及基因的功能分组非常感兴趣。研究人员研究了可扩展到大型数据集的关系数据的聚类和组织分析的模型和算法。分析发现有意义的基本群组以及群组之间的结构关系。研究人员开发的方法对各种学科具有广泛的适用性。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Regina Liu其他文献

Asset Pricing: -Discrete Time Approach-
资产定价:-离散时间法-
  • DOI:
  • 发表时间:
    2002
  • 期刊:
  • 影响因子:
    0
  • 作者:
    T. Kariya;Regina Liu;Loren Parker
  • 通讯作者:
    Loren Parker
Epidermal spongiotic Langerhans cell collections, but not eosinophils, are a clue to the diagnosis of allergic contact dermatitis: A series of 170 clinically- and patch test-confirmed cases
表皮海绵形成的朗格汉斯细胞聚集物(而非嗜酸性粒细胞)是诊断过敏性接触性皮炎的线索:一系列 170 例经临床和斑贴试验证实的病例
  • DOI:
    10.1016/j.jaad.2024.11.062
  • 发表时间:
    2025-04-01
  • 期刊:
  • 影响因子:
    11.800
  • 作者:
    Peggy A. Wu;Jiejun Wu;Regina Liu;Sydney Sullivan;Olivia Keller;Leah Caro-Chang;Yuden Pemba;Maxwell A. Fung
  • 通讯作者:
    Maxwell A. Fung
Alopecia areata in a patient with WNT10A heterozygous ectodermal dysplasia.
WNT10A 杂合外胚层发育不良患者的斑秃。
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Regina Liu;A. Vandiver;Nicole Harter;M. Hogeling
  • 通讯作者:
    M. Hogeling

Regina Liu的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Regina Liu', 18)}}的其他基金

Nonparametric Inference and Prediction for Complex Data by Data Depth, Confidence Distribution and Monte Carlo Method
通过数据深度、置信分布和蒙特卡罗方法对复杂数据进行非参数推理和预测
  • 批准号:
    1812048
  • 财政年份:
    2018
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Data Depth: Multivariate Spacings and DD-Classifiers for Nonparametric Multivariate Classification
数据深度:用于非参数多元分类的多元间距和 DD 分类器
  • 批准号:
    1007683
  • 财政年份:
    2010
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
From Centrality To Extremity in Multivariate Statistics: Data Depth, Extreme Value Theory and Applications
多元统计中从中心到极端:数据深度、极值理论与应用
  • 批准号:
    0707053
  • 财政年份:
    2007
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
Collaborative Research "Tracking Statistics and Inference for Indirect Measurements"
合作研究“间接测量的跟踪统计和推断”
  • 批准号:
    0405833
  • 财政年份:
    2004
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Statistical Mining of Massive Data, Data Depth and Aviation Risk Management
海量数据统计挖掘、数据深度与航空风险管理
  • 批准号:
    0306008
  • 财政年份:
    2003
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
Faculty Awards for Women: Mathematical Sciences: Data Analysis and Resampling Techniques in Statistics
女性教师奖:数学科学:统计学中的数据分析和重采样技术
  • 批准号:
    9022126
  • 财政年份:
    1991
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Intelligent Patent Analysis for Optimized Technology Stack Selection:Blockchain BusinessRegistry Case Demonstration
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    外国学者研究基金项目
基于Meta-analysis的新疆棉花灌水增产模型研究
  • 批准号:
    41601604
  • 批准年份:
    2016
  • 资助金额:
    22.0 万元
  • 项目类别:
    青年科学基金项目
大规模微阵列数据组的meta-analysis方法研究
  • 批准号:
    31100958
  • 批准年份:
    2011
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
用“后合成核磁共振分析”(retrobiosynthetic NMR analysis)技术阐明青蒿素生物合成途径
  • 批准号:
    30470153
  • 批准年份:
    2004
  • 资助金额:
    22.0 万元
  • 项目类别:
    面上项目

相似海外基金

Probing Event Structure in Children's Naturalistic Memory Using Representational Similarity Analysis of Scalp-Recorded EEG
使用头皮记录脑电图的表征相似性分析探索儿童自然记忆中的事件结构
  • 批准号:
    10381697
  • 财政年份:
    2021
  • 资助金额:
    --
  • 项目类别:
Enhancements in Experimental Methods for Failure Mode Analysis Considerating Geomaterial Similarity in Hydraulic Model Test
水力模型试验中考虑岩土材料相似性的失效模式分析实验方法的增强
  • 批准号:
    20K14824
  • 财政年份:
    2020
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Research on Music Information Retrieval with Multi-Faceted Similarity Analysis Based on Acoustic and Linguistic Features
基于声学和语言特征的多方面相似性分析音乐信息检索研究
  • 批准号:
    19K12282
  • 财政年份:
    2019
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Study on similarity law and flow analysis of Knudsen pump driven by thermal creep flow.
热蠕变流驱动努森泵相似律及流动分析研究
  • 批准号:
    19K04190
  • 财政年份:
    2019
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Brain structure network analysis based on local similarity for neurodegenerative disorders
基于神经退行性疾病局部相似性的脑结构网络分析
  • 批准号:
    18K12025
  • 财政年份:
    2018
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Financial Text Mining: Market Sentiment Analysis and Document Semantic Similarity for Different Languages
金融文本挖掘:不同语言的市场情绪分析和文档语义相似度
  • 批准号:
    18K11558
  • 财政年份:
    2018
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Analysis of similarity and difference of symbiotic virus and virus like particle related with species specificity
与物种特异性相关的共生病毒和病毒样颗粒的异同分析
  • 批准号:
    17H03942
  • 财政年份:
    2017
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
HySim: Hybrid-parallel similarity search for the analysis of big genomic and proteomic data
HySim:用于分析大基因组和蛋白质组数据的混合并行相似性搜索
  • 批准号:
    329350978
  • 财政年份:
    2016
  • 资助金额:
    --
  • 项目类别:
    Research Grants
Automatic collocation generation for English learners as a foreign language using document similarity analysis
使用文档相似性分析为英语学习者自动生成搭配
  • 批准号:
    16K00489
  • 财政年份:
    2016
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
The neural representation of vocal emotion: representational similarity analysis and information-theoretic approaches
声音情感的神经表征:表征相似性分析和信息论方法
  • 批准号:
    BB/M009742/1
  • 财政年份:
    2015
  • 资助金额:
    --
  • 项目类别:
    Research Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了