Feature selection in several challenging directions

几个具有挑战性的方向的特征选择

基本信息

  • 批准号:
    2310668
  • 负责人:
  • 金额:
    $ 22.5万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2023
  • 资助国家:
    美国
  • 起止时间:
    2023-09-01 至 2026-08-31
  • 项目状态:
    未结题

项目摘要

Feature selection plays a crucial role in many statistical problems, such as cancer classification and analysis of text and network data. This project will study feature selection in several challenging, understudied directions. First, MDAStat is a recent large-scale data set on the publications of statisticians between 1971 and 2015, which provides a rich resource for research on network analysis and text analysis. The project will expand the scope of data set to 1971-2025 by collecting new data. Second, the project will develop a family of correlation metrics, which provide a better way to measure the nonlinear relationship between the response and predictive variables. The metrics provide more accurate feature selection results in many application problems in cancer and biomedical study. Last, the project will develop new approaches to extracting features from social networks and text documents and generate better results in applications such as analysis of health care data and author attribution (i.e., identifying the right authors of a possibly ancient text document). The research will generate new ideas and methods to address many challenging problems in modern statistical research, and will substantially increase the understanding of many problems in science and engineering, such as cancer and biomedical research, network analysis, text analysis, and natural language processing. Feature selection is an important approach in high dimensional data analysis. The project will study feature selection in several challenging directions and will make contributions on the following topics. First, despite many studies on the rare/strong signal regime, the property of the lasso remains largely unknown in the more challenging rare/weak signal regime. The project will develop new techniques and use them to derive sharp rates of the Hamming selection errors of the lasso, especially for the rare/weak signal regime. Second, a challenging problem in feature selection is how to measure the nonlinear relationship between the response and predictive variables. The project will develop a family of nonlinear correlation metrics and use them to derive sharp phase transitions in nonlinear rare/weak models for cancer classification and cancer clustering. Third, despite that there are more than a handful of models for social networks, it remains unclear which model fits the best with real networks, partially because network goodness-of-fit is a challenging problem. The project will develop a novel goodness-of-fit approach and use it to identify the most appropriate models for social networks. Last, feature extraction and embedding with text documents and networks is a challenging problem. The project will develop novel approaches for feature extraction and embedding and using them for predicting future citation counts of a published paper and for author attribution.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
特征选择在许多统计问题中起着至关重要的作用,例如癌症分类以及文本和网络数据的分析。这个项目将在几个具有挑战性的,未充分研究的方向研究特征选择。首先,MDAStat是统计学家在1971年至2015年期间发表的最新大规模数据集,为网络分析和文本分析的研究提供了丰富的资源。该项目将通过收集新的数据,将数据集的范围扩大到1971-2025年。其次,该项目将开发一系列相关性度量,提供一种更好的方法来测量响应和预测变量之间的非线性关系。该度量为癌症和生物医学研究中的许多应用问题提供了更准确的特征选择结果。最后,该项目将开发从社交网络和文本文档中提取特征的新方法,并在医疗保健数据和作者归属分析等应用中产生更好的结果(即,识别可能是古代文本文档的正确作者)。该研究将产生新的想法和方法来解决现代统计研究中的许多挑战性问题,并将大大增加对科学和工程中许多问题的理解,如癌症和生物医学研究,网络分析,文本分析和自然语言处理。特征选择是高维数据分析中的一种重要方法。该项目将在几个具有挑战性的方向上研究特征选择,并将在以下主题上做出贡献。首先,尽管对罕见/强信号机制进行了许多研究,但在更具挑战性的罕见/弱信号机制中,套索的属性在很大程度上仍然未知。该项目将开发新的技术,并使用它们来推导套索的汉明选择误差的急剧变化率,特别是对于罕见/弱信号状态。其次,特征选择中的一个挑战性问题是如何度量响应变量和预测变量之间的非线性关系。该项目将开发一系列非线性相关度量,并使用它们来推导非线性罕见/弱模型中的急剧相变,用于癌症分类和癌症聚类。第三,尽管社交网络有很多模型,但哪种模型最适合真实的网络仍然不清楚,部分原因是网络拟合优度是一个具有挑战性的问题。该项目将开发一种新的拟合优度方法,并使用它来确定最适合社交网络的模型。最后,文本文档和网络的特征提取和嵌入是一个具有挑战性的问题。该项目将开发用于特征提取和嵌入的新方法,并将其用于预测已发表论文的未来引用计数和作者归属。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Jiashun Jin其他文献

SCORE+ for Network Community Detection
网络社区检测 SCORE
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiashun Jin;Z. Ke;Shengming Luo
  • 通讯作者:
    Shengming Luo
Supplement of ``Estimating Network Memberships by Simplex Vertex Hunting"
《通过单纯形顶点狩猎估计网络成员资格》的补充
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiashun Jin;Z. Ke;Shengming Luo
  • 通讯作者:
    Shengming Luo
MEDLINE/ PubMed
MEDLINE/PubMed
  • DOI:
    10.1007/978-0-387-39940-9_3039
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    3.8
  • 作者:
    Cornelia Caragea;V. Honavar;P. Boncz;P. Larson;S. Dietrich;Gonzalo Navarro;Bhavani Thuraisingham;Yan Luo;Ouri E. Wolfson;S. Beitzel;Eric C. Jensen;Ophir Frieder;Christian S. Jensen;N. Tradisauskas;Ethan V. Munson;A. Wun;K. Goda;Stephen E. Fienberg;Jiashun Jin;Guimei Liu;Nick Craswell;T. Pedersen;Cesare Pautasso;M. Moro;S. Manegold;B. Carminati;Marina Blanton;Sara Bouchenak;Noël de Palma;Wei Tang;Christoph Quix;M. Jeusfeld;R. K. Pon;David J. Buttler;W. Meng;P. Zezula;Michal Batko;Vlastislav Dohnal;J. Domingo;Denilson Barbosa;Ioana Manolescu;Jeffrey Xu Yu;Emmanuel Cecchet;Vivien Quéma;Xifeng Yan;G. Santucci;D. Zeinalipour;Panos K. Chrysanthis;Amol Deshpande;Carlos Guestrin;Samuel Madden;Carson Kai;R. H. Güting;Amarnath Gupta;Heng Tao Shen;G. Weikum;Ramesh Jain;Jeffrey Xu Yu;Paolo Ciaccia;K. Candan;M. Sapino;C. Meghini;F. Sebastiani;U. Straccia;F. Nack;V. S. Subrahmanian;Maria Vanina Martinez;D. Reforgiato;T. Westerveld;M. Sebillo;G. Vitiello;Maria De Marsico;K. Voruganti;C. Parent;S. Spaccapietra;Christelle Vangenot;Esteban Zimányi;Prasan Roy;S. Sudarshan;E. Puppo;Peer Kröger;Matthias Renz;H. Schuldt;Solmaz Kolahi;A. Unwin;W. Cellary
  • 通讯作者:
    W. Cellary
Estimation and Confidence Sets for Sparse Normal Mixtures
稀疏正态混合物的估计和置信集
  • DOI:
    10.1214/009053607000000334
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    4.5
  • 作者:
    T. Cai;Jiashun Jin;Mark G. Low
  • 通讯作者:
    Mark G. Low
Privacy-Preserving Data Sharing in High Dimensional Regression and Classification Settings
高维回归和分类设置中的隐私保护数据共享
  • DOI:
    10.29012/jpc.v4i1.618
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    S. Fienberg;Jiashun Jin
  • 通讯作者:
    Jiashun Jin

Jiashun Jin的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Jiashun Jin', 18)}}的其他基金

New Tools for Analyzing Complex Network and Text Data
用于分析复杂网络和文本数据的新工具
  • 批准号:
    2015469
  • 财政年份:
    2020
  • 资助金额:
    $ 22.5万
  • 项目类别:
    Standard Grant
New Tools for Large-Scale Sparse Inference
用于大规模稀疏推理的新工具
  • 批准号:
    1513414
  • 财政年份:
    2015
  • 资助金额:
    $ 22.5万
  • 项目类别:
    Continuing Grant
Rare and Weak Signals in Big Data: How to Find Them and How to Use Them
大数据中的稀有信号和微弱信号:如何找到它们以及如何使用它们
  • 批准号:
    1208315
  • 财政年份:
    2012
  • 资助金额:
    $ 22.5万
  • 项目类别:
    Standard Grant
CAREER: Inferences on Large-Scale Multiple Comparisons: The Temptation of the Fourier Kingdom
职业:大规模多重比较的推论:傅里叶王国的诱惑
  • 批准号:
    0908613
  • 财政年份:
    2008
  • 资助金额:
    $ 22.5万
  • 项目类别:
    Continuing Grant
CAREER: Inferences on Large-Scale Multiple Comparisons: The Temptation of the Fourier Kingdom
职业:大规模多重比较的推论:傅里叶王国的诱惑
  • 批准号:
    0639980
  • 财政年份:
    2007
  • 资助金额:
    $ 22.5万
  • 项目类别:
    Continuing Grant
New Tools for Sparse Inference in Large-scale Multiple Comparisons
大规模多重比较中稀疏推理的新工具
  • 批准号:
    0505423
  • 财政年份:
    2005
  • 资助金额:
    $ 22.5万
  • 项目类别:
    Standard Grant

相似国自然基金

Intelligent Patent Analysis for Optimized Technology Stack Selection:Blockchain BusinessRegistry Case Demonstration
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    外国学者研究基金项目
基于microRNA前体性质的microRNA演化研究
  • 批准号:
    31100951
  • 批准年份:
    2011
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
最优证券设计及完善中国资本市场的路径选择
  • 批准号:
    70873012
  • 批准年份:
    2008
  • 资助金额:
    27.0 万元
  • 项目类别:
    面上项目
收缩估计作为模型选择方法的有效性研究
  • 批准号:
    10771006
  • 批准年份:
    2007
  • 资助金额:
    21.0 万元
  • 项目类别:
    面上项目
连锁群选育法(Linkage Group Selection)在柔嫩艾美耳球虫表型相关基因研究中应用
  • 批准号:
    30700601
  • 批准年份:
    2007
  • 资助金额:
    17.0 万元
  • 项目类别:
    青年科学基金项目
控制厚皮甜瓜花性型基因“A“的精细构图及标记辅助育种
  • 批准号:
    30471113
  • 批准年份:
    2004
  • 资助金额:
    21.0 万元
  • 项目类别:
    面上项目

相似海外基金

Phase Ib/II study of safety and efficacy of EZH2 inhibitor, tazemetostat, and PD-1 blockade for treatment of advanced non-small cell lung cancer
EZH2 抑制剂、他泽美司他和 PD-1 阻断治疗晚期非小细胞肺癌的安全性和有效性的 Ib/II 期研究
  • 批准号:
    10481965
  • 财政年份:
    2024
  • 资助金额:
    $ 22.5万
  • 项目类别:
Evolutionarily smart vaccine strain selection for proactive vaccinology
用于主动疫苗学的进化智能疫苗株选择
  • 批准号:
    MR/Y004337/1
  • 财政年份:
    2024
  • 资助金额:
    $ 22.5万
  • 项目类别:
    Research Grant
mRNA selection for translation: beyond the canonical view
用于翻译的 mRNA 选择:超越规范观点
  • 批准号:
    BB/Y005783/1
  • 财政年份:
    2024
  • 资助金额:
    $ 22.5万
  • 项目类别:
    Research Grant
Development of Integrated Quantum Inspired Algorithms for Shapley Value based Fast and Interpretable Feature Subset Selection
基于 Shapley 值的快速且可解释的特征子集选择的集成量子启发算法的开发
  • 批准号:
    24K15089
  • 财政年份:
    2024
  • 资助金额:
    $ 22.5万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
ERI: Intelligent Modeling and Parameter Selection in Distributed Optimization for Power Networks
ERI:电力网络分布式优化中的智能建模和参数选择
  • 批准号:
    2347120
  • 财政年份:
    2024
  • 资助金额:
    $ 22.5万
  • 项目类别:
    Standard Grant
Leveraging Machine Learning to Examine Engineering Students Self-selection in Entrepreneurship Education Programs
利用机器学习检查工科学生在创业教育项目中的自我选择
  • 批准号:
    2321175
  • 财政年份:
    2024
  • 资助金额:
    $ 22.5万
  • 项目类别:
    Standard Grant
Causes and Downstream Effects of 14-3-3 Phosphorylation in Synucleinopathies
突触核蛋白病中 14-3-3 磷酸化的原因和下游影响
  • 批准号:
    10606132
  • 财政年份:
    2024
  • 资助金额:
    $ 22.5万
  • 项目类别:
Universal Model Selection Criteria for Scientific Machine Learning
科学机器学习的通用模型选择标准
  • 批准号:
    DE240100144
  • 财政年份:
    2024
  • 资助金额:
    $ 22.5万
  • 项目类别:
    Discovery Early Career Researcher Award
Indication selection, patient stratification, and IND preparation for STX-002: the first-in-class LRG1 inhibitor for treatment of chronic kidney disease and immunotherapy-resistant tumours.
STX-002的适应症选择、患者分层和IND准备:用于治疗慢性肾病和免疫治疗耐药肿瘤的一流LRG1抑制剂。
  • 批准号:
    10092585
  • 财政年份:
    2024
  • 资助金额:
    $ 22.5万
  • 项目类别:
    Collaborative R&D
AI tools for biocatalyst route selection
用于生物催化剂路线选择的人工智能工具
  • 批准号:
    10076156
  • 财政年份:
    2023
  • 资助金额:
    $ 22.5万
  • 项目类别:
    Grant for R&D
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了