Statistical learning algorithms for high-dimensional non-normally distributed data

高维非正态分布数据的统计学习算法

基本信息

  • 批准号:
    RGPIN-2018-06787
  • 负责人:
  • 金额:
    $ 1.17万
  • 依托单位:
  • 依托单位国家:
    加拿大
  • 项目类别:
    Discovery Grants Program - Individual
  • 财政年份:
    2022
  • 资助国家:
    加拿大
  • 起止时间:
    2022-01-01 至 2023-12-31
  • 项目状态:
    已结题

项目摘要

Computational methods to reflect a variety of data are continuing to improve. This proposal suggests three main threads of addressing issues with modelling and discovering patterns in data with statistical learning techniques.The first thread of research considers binary data bases. From records of receipts keeping track of what customers purchase to observations indicating the factors involved in an accident, binary data bases are both common, and can be very large. Summarizing associations in these data bases is a useful task for a variety of reasons. Many possible associations exist and comparing them to each other is important. Numerically comparing these associations is particularly valuable as this can be automated by the computer in large scales. However, the choice of numerical summary is important. This proposal suggests methods of improving numerical summaries of associations in binary data to elucidate patterns. One of these methods is on how to summarize data when some of the binary variables are actually elements of a categorical variable, and another is to consider how noteworthy these values are in light of the distribution of the data. A second thread of the proposal addresses the complexity of models. Although very complex models can accurately model some data, this is undesirable for a variety of reasons including interpretability, robustness, and computational challenges. Some complex models can be simplified by considering when certain parameters, quantities which define a model, are constrained to be the same as other parameters of the model. This relates whatever the parameters represent, reduces the number of estimates the computer requires, and make the model easier to interpret. This proposal suggests explores a recently proposed method of discovering these constraints for a variety of statistical models. The final thread of this proposal addresses the realistic issue of the assumptions made when modelling what are often considered to be "continuous" variables. These data are often modeled as truly continuous, following a particular distribution (the normal distribution), or both. In this thread, more flexible assumptions are considered and accommodates the situation that data representing continuous variables are actually only known up to a limited precision which can influence results. The exploration will determine in which scenarios this limited precision matters and how accurate answers are when accounting for the limited precision and less stringent assumptions. All of these issues will be addressed as highly qualified personnel develop and apply new skills, trained in the analysis of realistic, sometimes inconvenient, and big data. This is a skillset that has been identified as a "talent gap" within Canada and will be addressed with this proposal.
反映各种数据的计算方法正在不断改进。这个建议提出了三个主要的线索,解决问题的建模和发现模式的数据与统计学习技术。从记录客户购买的收据记录到指示事故所涉及的因素的观察结果,二进制数据库都很常见,而且可能非常大。由于各种原因,总结这些数据库中的关联是一项有用的任务。存在许多可能的关联,将它们相互比较很重要。在数字上比较这些关联是特别有价值的,因为这可以由计算机大规模自动化。然而,数字摘要的选择很重要。该建议提出了改进二进制数据中关联的数值总结以阐明模式的方法。其中一种方法是当一些二进制变量实际上是分类变量的元素时如何总结数据,另一种方法是考虑这些值在数据分布中的重要性。该提案的第二个主题涉及模型的复杂性。尽管非常复杂的模型可以准确地对某些数据进行建模,但由于各种原因,包括可解释性,鲁棒性和计算挑战,这是不可取的。一些复杂的模型可以通过考虑某些参数(定义模型的量)何时被约束为与模型的其他参数相同来简化。这与参数所代表的任何内容相关,减少了计算机所需的估计数量,并使模型更容易解释。该建议建议探索了最近提出的发现各种统计模型的这些约束的方法。本提案的最后一条主线涉及在对通常被认为是“连续”变量的内容进行建模时所作假设的现实问题。这些数据通常被建模为真正连续的,遵循特定的分布(正态分布),或两者兼而有之。在这个线程中,考虑了更灵活的假设,并适应了表示连续变量的数据实际上只知道有限的精度,这可能会影响结果的情况。探索将确定在哪些情况下,这种有限的精度很重要,以及在考虑有限的精度和不太严格的假设时,答案的准确性如何。所有这些问题都将得到解决,因为高素质的人员开发和应用新的技能,在分析现实的,有时不方便的,和大数据的培训。这一技能组合已被确定为加拿大境内的“人才缺口”,本提案将解决这一问题。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Shaikh, Mateen其他文献

Bivariate random-effects meta-analysis models for diagnostic test accuracy studies using arcsine-based transformations
  • DOI:
    10.1002/bimj.201700101
  • 发表时间:
    2018-07-01
  • 期刊:
  • 影响因子:
    1.7
  • 作者:
    Negeri, Zelalem F.;Shaikh, Mateen;Beyene, Joseph
  • 通讯作者:
    Beyene, Joseph

Shaikh, Mateen的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Shaikh, Mateen', 18)}}的其他基金

Statistical learning algorithms for high-dimensional non-normally distributed data
高维非正态分布数据的统计学习算法
  • 批准号:
    RGPIN-2018-06787
  • 财政年份:
    2021
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Discovery Grants Program - Individual
Statistical learning algorithms for high-dimensional non-normally distributed data
高维非正态分布数据的统计学习算法
  • 批准号:
    RGPIN-2018-06787
  • 财政年份:
    2020
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Discovery Grants Program - Individual
Statistical learning algorithms for high-dimensional non-normally distributed data
高维非正态分布数据的统计学习算法
  • 批准号:
    RGPIN-2018-06787
  • 财政年份:
    2019
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Discovery Grants Program - Individual
Statistical learning algorithms for high-dimensional non-normally distributed data
高维非正态分布数据的统计学习算法
  • 批准号:
    DGECR-2018-00016
  • 财政年份:
    2018
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Discovery Launch Supplement
Statistical learning algorithms for high-dimensional non-normally distributed data
高维非正态分布数据的统计学习算法
  • 批准号:
    RGPIN-2018-06787
  • 财政年份:
    2018
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Discovery Grants Program - Individual

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Understanding structural evolution of galaxies with machine learning
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
煤矿安全人机混合群智感知任务的约束动态多目标Q-learning进化分配
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于领弹失效考量的智能弹药编队短时在线Q-learning协同控制机理
  • 批准号:
    62003314
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
集成上下文张量分解的e-learning资源推荐方法研究
  • 批准号:
    61902016
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
儿童音乐能力发展对语言与社会认知能力及脑发育的影响
  • 批准号:
    31971003
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
具有时序迁移能力的Spiking-Transfer learning (脉冲-迁移学习)方法研究
  • 批准号:
    61806040
  • 批准年份:
    2018
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
基于Deep-learning的三江源区冰川监测动态识别技术研究
  • 批准号:
    51769027
  • 批准年份:
    2017
  • 资助金额:
    38.0 万元
  • 项目类别:
    地区科学基金项目
多场景网络学习中基于行为-情感-主题联合建模的学习者兴趣挖掘关键技术研究
  • 批准号:
    61702207
  • 批准年份:
    2017
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于异构医学影像数据的深度挖掘技术及中枢神经系统重大疾病的精准预测
  • 批准号:
    61672236
  • 批准年份:
    2016
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目

相似海外基金

Next-Generation Algorithms in Statistical Genetics Based on Modern Machine Learning
基于现代机器学习的下一代统计遗传学算法
  • 批准号:
    10714930
  • 财政年份:
    2023
  • 资助金额:
    $ 1.17万
  • 项目类别:
Bayesian Statistical Learning for Robust and Generalizable Causal Inferences in Alzheimer Disease and Related Disorders Research
贝叶斯统计学习在阿尔茨海默病和相关疾病研究中进行稳健且可推广的因果推论
  • 批准号:
    10590913
  • 财政年份:
    2023
  • 资助金额:
    $ 1.17万
  • 项目类别:
CAREER: Statistical Learning with Recursive Partitioning: Algorithms, Accuracy, and Applications
职业:递归分区的统计学习:算法、准确性和应用
  • 批准号:
    2239448
  • 财政年份:
    2023
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Continuing Grant
SaTC: CORE: Small: Auditing Private Statistical and Machine Learning Algorithms: Theory and Practice
SaTC:核心:小型:审计私人统计和机器学习算法:理论与实践
  • 批准号:
    2247484
  • 财政年份:
    2023
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Continuing Grant
SCH: Novel and Interpretable Statistical Learning for Brain Images in AD/ADRDs
SCH:针对 AD/ADRD 大脑图像的新颖且可解释的统计学习
  • 批准号:
    10816764
  • 财政年份:
    2023
  • 资助金额:
    $ 1.17万
  • 项目类别:
Learning-Enabled Autonomous Decision-Support for Blood Pressure Management in Hemorrhage Resuscitation via Population-Informed Statistical Inference
通过基于人群的统计推断,为出血复苏中的血压管理提供学习型自主决策支持
  • 批准号:
    10727737
  • 财政年份:
    2023
  • 资助金额:
    $ 1.17万
  • 项目类别:
New statistical and computational tools for optimization of planarian behavioral chemical screens
用于优化涡虫行为化学筛选的新统计和计算工具
  • 批准号:
    10658688
  • 财政年份:
    2023
  • 资助金额:
    $ 1.17万
  • 项目类别:
Statistical methods for longitudinal integrated mechanistic modeling of multiview data
多视图数据纵向综合机制建模的统计方法
  • 批准号:
    10685565
  • 财政年份:
    2022
  • 资助金额:
    $ 1.17万
  • 项目类别:
Robust and efficient statistical learning algorithms with applications in actuarial science
稳健高效的统计学习算法在精算科学中的应用
  • 批准号:
    RGPIN-2020-07064
  • 财政年份:
    2022
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Discovery Grants Program - Individual
Approximations of computationally intensive statistical learning algorithms: theory and methods
计算密集型统计学习算法的近似:理论和方法
  • 批准号:
    RGPIN-2019-06487
  • 财政年份:
    2022
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Discovery Grants Program - Individual
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了