Statistical learning algorithms for high-dimensional non-normally distributed data

高维非正态分布数据的统计学习算法

基本信息

  • 批准号:
    RGPIN-2018-06787
  • 负责人:
  • 金额:
    $ 1.17万
  • 依托单位:
  • 依托单位国家:
    加拿大
  • 项目类别:
    Discovery Grants Program - Individual
  • 财政年份:
    2019
  • 资助国家:
    加拿大
  • 起止时间:
    2019-01-01 至 2020-12-31
  • 项目状态:
    已结题

项目摘要

Computational methods to reflect a variety of data are continuing to improve. This proposal suggests three main threads of addressing issues with modelling and discovering patterns in data with statistical learning techniques.******The first thread of research considers binary data bases. From records of receipts keeping track of what customers purchase to observations indicating the factors involved in an accident, binary data bases are both common, and can be very large. Summarizing associations in these data bases is a useful task for a variety of reasons. Many possible associations exist and comparing them to each other is important. Numerically comparing these associations is particularly valuable as this can be automated by the computer in large scales. However, the choice of numerical summary is important. This proposal suggests methods of improving numerical summaries of associations in binary data to elucidate patterns. One of these methods is on how to summarize data when some of the binary variables are actually elements of a categorical variable, and another is to consider how noteworthy these values are in light of the distribution of the data. ******A second thread of the proposal addresses the complexity of models. Although very complex models can accurately model some data, this is undesirable for a variety of reasons including interpretability, robustness, and computational challenges. Some complex models can be simplified by considering when certain parameters, quantities which define a model, are constrained to be the same as other parameters of the model. This relates whatever the parameters represent, reduces the number of estimates the computer requires, and make the model easier to interpret. This proposal suggests explores a recently proposed method of discovering these constraints for a variety of statistical models.****** The final thread of this proposal addresses the realistic issue of the assumptions made when modelling what are often considered to be "continuous" variables. These data are often modeled as truly continuous, following a particular distribution (the normal distribution), or both. In this thread, more flexible assumptions are considered and accommodates the situation that data representing continuous variables are actually only known up to a limited precision which can influence results. The exploration will determine in which scenarios this limited precision matters and how accurate answers are when accounting for the limited precision and less stringent assumptions. ******All of these issues will be addressed as highly qualified personnel develop and apply new skills, trained in the analysis of realistic, sometimes inconvenient, and big data. This is a skillset that has been identified as a "talent gap" within Canada and will be addressed with this proposal.
反映各种数据的计算方法正在不断改进。这一建议提出了三个主要的解决问题与建模和发现模式的数据统计学习技术。******第一个研究线程考虑二进制数据库。从跟踪顾客购买的收据记录到指示事故涉及因素的观察,二进制数据库都很常见,而且可能非常大。由于各种原因,总结这些数据库中的关联是一项有用的任务。存在许多可能的联系,将它们相互比较很重要。数值比较这些关联是特别有价值的,因为这可以由计算机在大规模自动化。然而,数值总结的选择是重要的。本文提出了改进二进制数据关联的数值摘要以阐明模式的方法。其中一种方法是当一些二进制变量实际上是分类变量的元素时,如何总结数据,另一种方法是考虑根据数据的分布,这些值有多值得注意。******该提案的第二条线索涉及模型的复杂性。尽管非常复杂的模型可以准确地对一些数据建模,但由于各种原因,包括可解释性、鲁棒性和计算挑战,这是不可取的。一些复杂的模型可以通过考虑某些参数,即定义模型的量,何时被约束为与模型的其他参数相同来简化。这将参数所代表的内容联系起来,减少了计算机所需的估计次数,并使模型更容易解释。这一建议提出了一种最近提出的发现各种统计模型的这些约束的方法。******本建议的最后一条线索解决了通常被认为是“连续”变量建模时所做假设的现实问题。这些数据通常被建模为真正连续的,遵循特定的分布(正态分布),或者两者兼而有之。在这个线程中,考虑了更灵活的假设,并适应了代表连续变量的数据实际上只知道有限的精度,这可能会影响结果的情况。探索将确定在哪些情况下这种有限的精度是重要的,以及当考虑到有限的精度和不太严格的假设时,答案有多准确。******所有这些问题都将随着高素质人才的发展和应用新技能而得到解决,他们将接受分析现实(有时是不方便的)和大数据的培训。这一技能被认为是加拿大的“人才缺口”,并将通过本提案加以解决。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Shaikh, Mateen其他文献

Bivariate random-effects meta-analysis models for diagnostic test accuracy studies using arcsine-based transformations
  • DOI:
    10.1002/bimj.201700101
  • 发表时间:
    2018-07-01
  • 期刊:
  • 影响因子:
    1.7
  • 作者:
    Negeri, Zelalem F.;Shaikh, Mateen;Beyene, Joseph
  • 通讯作者:
    Beyene, Joseph

Shaikh, Mateen的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Shaikh, Mateen', 18)}}的其他基金

Statistical learning algorithms for high-dimensional non-normally distributed data
高维非正态分布数据的统计学习算法
  • 批准号:
    RGPIN-2018-06787
  • 财政年份:
    2022
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Discovery Grants Program - Individual
Statistical learning algorithms for high-dimensional non-normally distributed data
高维非正态分布数据的统计学习算法
  • 批准号:
    RGPIN-2018-06787
  • 财政年份:
    2021
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Discovery Grants Program - Individual
Statistical learning algorithms for high-dimensional non-normally distributed data
高维非正态分布数据的统计学习算法
  • 批准号:
    RGPIN-2018-06787
  • 财政年份:
    2020
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Discovery Grants Program - Individual
Statistical learning algorithms for high-dimensional non-normally distributed data
高维非正态分布数据的统计学习算法
  • 批准号:
    DGECR-2018-00016
  • 财政年份:
    2018
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Discovery Launch Supplement
Statistical learning algorithms for high-dimensional non-normally distributed data
高维非正态分布数据的统计学习算法
  • 批准号:
    RGPIN-2018-06787
  • 财政年份:
    2018
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Discovery Grants Program - Individual

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Understanding structural evolution of galaxies with machine learning
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
煤矿安全人机混合群智感知任务的约束动态多目标Q-learning进化分配
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于领弹失效考量的智能弹药编队短时在线Q-learning协同控制机理
  • 批准号:
    62003314
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
集成上下文张量分解的e-learning资源推荐方法研究
  • 批准号:
    61902016
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
儿童音乐能力发展对语言与社会认知能力及脑发育的影响
  • 批准号:
    31971003
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
具有时序迁移能力的Spiking-Transfer learning (脉冲-迁移学习)方法研究
  • 批准号:
    61806040
  • 批准年份:
    2018
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
基于Deep-learning的三江源区冰川监测动态识别技术研究
  • 批准号:
    51769027
  • 批准年份:
    2017
  • 资助金额:
    38.0 万元
  • 项目类别:
    地区科学基金项目
多场景网络学习中基于行为-情感-主题联合建模的学习者兴趣挖掘关键技术研究
  • 批准号:
    61702207
  • 批准年份:
    2017
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于异构医学影像数据的深度挖掘技术及中枢神经系统重大疾病的精准预测
  • 批准号:
    61672236
  • 批准年份:
    2016
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目

相似海外基金

Next-Generation Algorithms in Statistical Genetics Based on Modern Machine Learning
基于现代机器学习的下一代统计遗传学算法
  • 批准号:
    10714930
  • 财政年份:
    2023
  • 资助金额:
    $ 1.17万
  • 项目类别:
Bayesian Statistical Learning for Robust and Generalizable Causal Inferences in Alzheimer Disease and Related Disorders Research
贝叶斯统计学习在阿尔茨海默病和相关疾病研究中进行稳健且可推广的因果推论
  • 批准号:
    10590913
  • 财政年份:
    2023
  • 资助金额:
    $ 1.17万
  • 项目类别:
CAREER: Statistical Learning with Recursive Partitioning: Algorithms, Accuracy, and Applications
职业:递归分区的统计学习:算法、准确性和应用
  • 批准号:
    2239448
  • 财政年份:
    2023
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Continuing Grant
SaTC: CORE: Small: Auditing Private Statistical and Machine Learning Algorithms: Theory and Practice
SaTC:核心:小型:审计私人统计和机器学习算法:理论与实践
  • 批准号:
    2247484
  • 财政年份:
    2023
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Continuing Grant
SCH: Novel and Interpretable Statistical Learning for Brain Images in AD/ADRDs
SCH:针对 AD/ADRD 大脑图像的新颖且可解释的统计学习
  • 批准号:
    10816764
  • 财政年份:
    2023
  • 资助金额:
    $ 1.17万
  • 项目类别:
Learning-Enabled Autonomous Decision-Support for Blood Pressure Management in Hemorrhage Resuscitation via Population-Informed Statistical Inference
通过基于人群的统计推断,为出血复苏中的血压管理提供学习型自主决策支持
  • 批准号:
    10727737
  • 财政年份:
    2023
  • 资助金额:
    $ 1.17万
  • 项目类别:
New statistical and computational tools for optimization of planarian behavioral chemical screens
用于优化涡虫行为化学筛选的新统计和计算工具
  • 批准号:
    10658688
  • 财政年份:
    2023
  • 资助金额:
    $ 1.17万
  • 项目类别:
Statistical learning algorithms for high-dimensional non-normally distributed data
高维非正态分布数据的统计学习算法
  • 批准号:
    RGPIN-2018-06787
  • 财政年份:
    2022
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Discovery Grants Program - Individual
Statistical methods for longitudinal integrated mechanistic modeling of multiview data
多视图数据纵向综合机制建模的统计方法
  • 批准号:
    10685565
  • 财政年份:
    2022
  • 资助金额:
    $ 1.17万
  • 项目类别:
Robust and efficient statistical learning algorithms with applications in actuarial science
稳健高效的统计学习算法在精算科学中的应用
  • 批准号:
    RGPIN-2020-07064
  • 财政年份:
    2022
  • 资助金额:
    $ 1.17万
  • 项目类别:
    Discovery Grants Program - Individual
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了