High dimensional data: new phenomena and theory in modeling and approximation

高维数据:建模和近似中的新现象和理论

基本信息

  • 批准号:
    0906812
  • 负责人:
  • 金额:
    $ 120.57万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2009
  • 资助国家:
    美国
  • 起止时间:
    2009-07-01 至 2013-09-30
  • 项目状态:
    已结题

项目摘要

This award is funded under the American Recovery and Reinvestment Act of 2009 (Public Law 111-5).The project studies high dimensional settings exemplified by Linear Regression model selection when there are more potential predictors than observations, and Linear Discriminant Analysis when there are more available features than observations, in both cases assuming that only a small unknown fraction are relevant. A two-dimensional phase diagram indexes the ratio of number of variables to number of observations as well as a measure of the fraction of relevant variables. In one region of this diagram, the analysis task can be completed successfully, elsewhere it fails utterly. The investigators propose a four-pronged effort on dimensionality reduction: (1) Phenomenology of Phase Transitions in High-Dimensional Data Analysis: Make structured large-scale computational studies to investigate several such transitions in depth and expose empirical regularities for theoreticians to study. (2) Theoretical Statistics Supporting High-Dimensional Data Analysis: Proposers have developed `at the physicist's level of rigor' a derivation showing roughly that regression model selection must fail for *any* algorithm above a certain boundary in the phase diagram. A rigorous proof, planned for this project, will involve the interplay of classical statistical decision theory, random matrix theory, and statistical physics heuristics. (3) High Dimensional Convex Geometry: A surprising but revealing relationship exists between several of the phase transitions of high-dimensional data analysis and certain key phenomena in high-dimensional convex geometry. The project will further explore these phase transitions and connections. (4) Inference with Large Random Matrices: A random matrix theory perspective leads to useful new questions and results in classical multivariate analysis that will be pursued in this proposal, with useful connections with the phase transition work expected. For example, the project will systematically study the distribution of the largest root statistic at ``contiguous'' alternatives in a variety of the standard statistical settings of multivariate analysis, and address related questions such as tail inequalities for the double Wishart model. Scientific practice in fields ranging from computational biology to image understanding generates ever more datasets in which massive numbers of features are measured per observational unit. The resulting high-dimensional datasets are often mined for features and associations. In many cases, there are at least as many features as observations. It has lately become clear that data analysis in this setting offers deep new phenomena of real importance to applications. Two examples -- of many -- include: Linear Regression model selection when there are more potential predictors than observations, but only a small fraction of these are relevant (and which ones aren't known), and Linear Discriminant Analysis when there are more available features than observations, but again only a small unknown fraction are relevant. In such cases there is a `breakdown' phenomenon, described by a 'phase diagram': a precise relationship between the number of relevant features and the number of observations at which certain procedures for learning from data become impossible. The new results to be developed about this phenomenon by this project will provide practitioners of high-dimensional data analysis with an improved understanding of the sharp limits to data mining, as well as forging new links between statistical theory and fields like high-dimensional convex geometry and statistical physics.
该奖项是根据2009年美国复苏和再投资法案(公法111-5)资助的。该项目研究高维设置,例如当潜在预测因子比观测值多时的线性回归模型选择,以及当可用特征比观测值多时的线性判别分析,在这两种情况下,假设只有一小部分未知部分是相关的。 二维相图是变量数与观测数之比的索引,也是相关变量分数的度量。 在这个图的一个区域,分析任务可以成功完成,在其他地方它完全失败。研究者们提出了一个四管齐下的降维努力:(1)高维数据分析中的相变现象学:进行结构化的大规模计算研究,深入研究几个这样的相变,并为理论家提供经验证据。 (2)支持高维数据分析的理论统计:提议者已经在物理学家的严格水平上开发了一个推导,粗略地表明回归模型选择对于相图中某个边界以上的 * 任何 * 算法都必须失败。 一个严格的证明,计划为这个项目,将涉及经典的统计决策理论,随机矩阵理论和统计物理学的相互作用。 (3)高维凸几何:在高维数据分析的几个相变和高维凸几何中的某些关键现象之间存在一种令人惊讶但揭示性的关系。该项目将进一步探索这些阶段过渡和连接。 (4)大随机矩阵的推理:随机矩阵理论的观点导致了有用的新问题,并在经典的多元分析,将在本提案中追求的结果,与预期的相变工作有用的连接。 例如,该项目将系统地研究多变量分析的各种标准统计设置中“相邻”备选项的最大根统计量的分布,并解决双Wishart模型的尾部不平等等相关问题。从计算生物学到图像理解等领域的科学实践产生了越来越多的数据集,其中每个观测单位测量了大量的特征。 由此产生的高维数据集通常被挖掘为特征和关联。在许多情况下,至少有与观察一样多的特征。 最近已经很清楚,在这种情况下的数据分析提供了对应用程序具有真实的重要性的新现象。两个例子-许多-包括:线性回归模型选择时有更多的潜在预测比观察,但只有一小部分是相关的(哪些是未知的),和线性判别分析时有更多的可用功能比观察,但同样只有一小部分未知是相关的。 在这种情况下,会出现一种“崩溃”现象,用“阶段”来描述:相关特征的数量与观测数量之间的精确关系,在这种关系下,从数据中学习的某些程序变得不可能。 该项目关于这一现象的新成果将为高维数据分析的从业者提供对数据挖掘的尖锐限制的更好理解,并在统计理论与高维凸几何和统计物理等领域之间建立新的联系。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Testing in high-dimensional spiked models
  • DOI:
    10.1214/18-aos1697
  • 发表时间:
    2015-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    I. Johnstone;A. Onatski
  • 通讯作者:
    I. Johnstone;A. Onatski
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Iain Johnstone其他文献

Initial functional and economic status of patients with multivessel coronary artery disease randomized in the Bypass Angioplasty Revascularization Investigation (BARI).
旁路血管成形术血运重建调查 (BARI) 中随机分配的多支冠状动脉疾病患者的初始功能和经济状况。
  • DOI:
    10.1016/s0002-9149(99)80393-2
  • 发表时间:
    1995
  • 期刊:
  • 影响因子:
    0
  • 作者:
    M. Hlatky;Edgar D. Charles;Fred T. Nobrega;Kathryn Gelman;Kathryn Gelman;Iain Johnstone;Joseph Melvin;Thomas J. Ryan;R. Wiens;Bertram Pitt;G. Reeder;Hugh C. Smith;P. Whitlow;George L. Zorn;David J. Frid;Daniel B. Mark
  • 通讯作者:
    Daniel B. Mark
233: Multiparametric high dimensional analysis of normal & VZV infected human tonsil T cells at a single cell resolution by mass cytometry
  • DOI:
    10.1016/j.cyto.2013.06.236
  • 发表时间:
    2013-09-01
  • 期刊:
  • 影响因子:
  • 作者:
    Nandini Sen;Gourab Mukherjee;Sean C. Bendall;Adrish Sen;Astraea Jager;Phil Sung;Garry P. Nolan;Iain Johnstone;Ann M. Arvin
  • 通讯作者:
    Ann M. Arvin

Iain Johnstone的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Iain Johnstone', 18)}}的其他基金

Properties of Approximate Inference for Complex High-Dimensional Models
复杂高维模型的近似推理的性质
  • 批准号:
    1811614
  • 财政年份:
    2018
  • 资助金额:
    $ 120.57万
  • 项目类别:
    Continuing Grant
Estimation and testing in low rank multivariate models
低秩多元模型中的估计和测试
  • 批准号:
    1407813
  • 财政年份:
    2014
  • 资助金额:
    $ 120.57万
  • 项目类别:
    Continuing Grant
A genetic analysis of the response to the presence of glycine
对甘氨酸存在反应的遗传分析
  • 批准号:
    G0401202/1
  • 财政年份:
    2006
  • 资助金额:
    $ 120.57万
  • 项目类别:
    Research Grant
Rigorous Methods for Dimensionality Reduction of High-Dimensional Data
高维数据降维的严格方法
  • 批准号:
    0505303
  • 财政年份:
    2005
  • 资助金额:
    $ 120.57万
  • 项目类别:
    Continuing Grant
New Statistical Challenges Posed by Multiscale and Adaptive Representations
多尺度和自适应表示带来的新统计挑战
  • 批准号:
    0072661
  • 财政年份:
    2000
  • 资助金额:
    $ 120.57万
  • 项目类别:
    Continuing Grant
Mathematical Sciences/GIG: "Group Infrastructure Grant for Stanford Statistics"
数学科学/GIG:“斯坦福统计集团基础设施拨款”
  • 批准号:
    9631278
  • 财政年份:
    1996
  • 资助金额:
    $ 120.57万
  • 项目类别:
    Standard Grant
Mathematical Sciences: Adaptive Estimation: New Tools, New Settings
数学科学:自适应估计:新工具,新设置
  • 批准号:
    9505151
  • 财政年份:
    1995
  • 资助金额:
    $ 120.57万
  • 项目类别:
    Continuing Grant
U.S.-Australia Joint Workshop: New Directions in Nonparametric Curve Estimation / Canberra, Australia / June 1994
美国-澳大利亚联合研讨会:非参数曲线估计的新方向 / 澳大利亚堪培拉 / 1994 年 6 月
  • 批准号:
    9316006
  • 财政年份:
    1994
  • 资助金额:
    $ 120.57万
  • 项目类别:
    Standard Grant
PYI: Mathematical Sciences: Studies in New Multivariate Methods and Decision Theory
PYI:数学科学:新多元方法和决策理论研究
  • 批准号:
    8451750
  • 财政年份:
    1985
  • 资助金额:
    $ 120.57万
  • 项目类别:
    Continuing Grant

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Data-driven Recommendation System Construction of an Online Medical Platform Based on the Fusion of Information
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    外国青年学者研究基金项目
Development of a Linear Stochastic Model for Wind Field Reconstruction from Limited Measurement Data
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    40 万元
  • 项目类别:
基于高频信息下高维波动率矩阵估计及应用
  • 批准号:
    71901118
  • 批准年份:
    2019
  • 资助金额:
    18.0 万元
  • 项目类别:
    青年科学基金项目
半参数空间自回归面板模型的有效估计与应用研究
  • 批准号:
    71961011
  • 批准年份:
    2019
  • 资助金额:
    16.0 万元
  • 项目类别:
    地区科学基金项目
高频数据波动率统计推断、预测与应用
  • 批准号:
    71971118
  • 批准年份:
    2019
  • 资助金额:
    50.0 万元
  • 项目类别:
    面上项目
基于个体分析的投影式非线性非负张量分解在高维非结构化数据模式分析中的研究
  • 批准号:
    61502059
  • 批准年份:
    2015
  • 资助金额:
    19.0 万元
  • 项目类别:
    青年科学基金项目
基于Linked Open Data的Web服务语义互操作关键技术
  • 批准号:
    61373035
  • 批准年份:
    2013
  • 资助金额:
    77.0 万元
  • 项目类别:
    面上项目
体数据表达与绘制的新方法研究
  • 批准号:
    61170206
  • 批准年份:
    2011
  • 资助金额:
    55.0 万元
  • 项目类别:
    面上项目
一类新Regime-Switching模型及其在金融建模中的应用研究
  • 批准号:
    11061041
  • 批准年份:
    2010
  • 资助金额:
    24.0 万元
  • 项目类别:
    地区科学基金项目

相似海外基金

Defining new asthma phenotypes using high-dimensional data
使用高维数据定义新的哮喘表型
  • 批准号:
    2901112
  • 财政年份:
    2024
  • 资助金额:
    $ 120.57万
  • 项目类别:
    Studentship
New Algorithms for Cryogenic Electron Microscopy
低温电子显微镜的新算法
  • 批准号:
    10543569
  • 财政年份:
    2023
  • 资助金额:
    $ 120.57万
  • 项目类别:
Bioorthogonal probe development for highly parallel in vivo imaging
用于高度并行体内成像的生物正交探针开发
  • 批准号:
    10596786
  • 财政年份:
    2023
  • 资助金额:
    $ 120.57万
  • 项目类别:
Targeting Menin in Acute Leukemia with Upregulated HOX Genes
通过上调 HOX 基因靶向急性白血病中的 Menin
  • 批准号:
    10655162
  • 财政年份:
    2023
  • 资助金额:
    $ 120.57万
  • 项目类别:
Novel Polymer-antibody Conjugates as Long-acting Therapeutics for Ocular Diseases
新型聚合物-抗体缀合物作为眼部疾病的长效治疗药物
  • 批准号:
    10760186
  • 财政年份:
    2023
  • 资助金额:
    $ 120.57万
  • 项目类别:
Investigating a new vulnerability in oral squamous cell carcinoma
研究口腔鳞状细胞癌的新脆弱性
  • 批准号:
    10714352
  • 财政年份:
    2023
  • 资助金额:
    $ 120.57万
  • 项目类别:
Integrated experimental and statistical tools for ultra-high-throughput spatial transcriptomics
用于超高通量空间转录组学的集成实验和统计工具
  • 批准号:
    10727130
  • 财政年份:
    2023
  • 资助金额:
    $ 120.57万
  • 项目类别:
Development of multi-color 3D super-localization LiveFISH and LiveFISH PAINT to investigate the chromatin dynamics at any genomic scale
开发多色 3D 超定位 LiveFISH 和 LiveFISH PAINT,以研究任何基因组规模的染色质动态
  • 批准号:
    10725002
  • 财政年份:
    2023
  • 资助金额:
    $ 120.57万
  • 项目类别:
Selective Radionuclide Delivery for Precise Bone Marrow Niche Alterations
选择性放射性核素输送以实现精确的骨髓生态位改变
  • 批准号:
    10727237
  • 财政年份:
    2023
  • 资助金额:
    $ 120.57万
  • 项目类别:
A new in vivo zebrafish model to study alpha-synuclein aggregation in Lewy Body Disease
研究路易体病中α-突触核蛋白聚集的新体内斑马鱼模型
  • 批准号:
    10731005
  • 财政年份:
    2023
  • 资助金额:
    $ 120.57万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了