Methods for big data, sparsity, and environmental thresholds
大数据、稀疏性和环境阈值的方法
基本信息
- 批准号:RGPIN-2021-03970
- 负责人:
- 金额:$ 1.31万
- 依托单位:
- 依托单位国家:加拿大
- 项目类别:Discovery Grants Program - Individual
- 财政年份:2021
- 资助国家:加拿大
- 起止时间:2021-01-01 至 2022-12-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
With the rapid progress of technology, research in science and engineering is undergoing a revolution as big data are harnessed for various purposes. Thus, the long-term goal of this research program is to advance the science in statistics, machine learning and statistical ecology by exploiting the useful information in big data. The short-term goals are developing: ensemble of models based on diverse subsets of variables to improve prediction performances for the response variable of interest with applications to big data in drug discovery and genetics, Bayesian statistical tests and inference for sparsity in big data with applications to genetics, and ecological models to detect environmental thresholds via the changes in slope and variance against human induced disturbances to nature. Unlike discarding information, the applicant proposes ensemble methods which utilize more useful variables instead of throwing some out. The hypothesis is that filtering variables is like losing information which reduces the prediction power of a model. To address this issue, the applicant proposes methods which group useful variables into diverse subsets and aggregates them in an ensemble by fitting a model to each subset and aggregating models across the subsets. The novelty of the method is that the subsets of variables are obtained adaptively, rather than the current trend of using either known or random subsets. Many statistical methods force sparsity, the condition of scant information in big data, in model building which lacks enough reasons and justification. Instead, the applicant proposes Bayesian statistical tests for sparsity to be used before model building. The novelty of the method is that the amount of sparsity to induce in model building is supported by the evidence measured in data. Relationship between an ecological response and environmental disturbance often represent threshold effects via the changes in slope and variance. Presently, such relationship is represented by a model via the changes in either slope or variance. There is a need for developing a model which can estimate threshold effects via the changes in slope and variance. Also, many ecologists often know where the changes in slope and variance might occur in the stress-response relationship. The applicant proposes a Bayesian model which can estimate the changes in slope and variance, simultaneously, by adding the prior knowledge from ecologists. The proposed program will advance the research in statistics by better utilizing the information in big data. The applications in drug discovery and genetics will improve human and animal health with a potential to develop new drugs and identification of the causes of disease. In environmental ecology, the research will identify threshold effects of human induced disturbances to nature leading to sustainable management of aquatic habitat. The trained HQPs will be an asset in academia and industries in Canada and beyond.
随着技术的快速进步,科学和工程研究正在经历一场革命,大数据被用于各种目的。因此,该研究项目的长期目标是通过利用大数据中的有用信息来推进统计学、机器学习和统计生态学的科学发展。短期目标正在制定:基于不同变量子集的模型集合,以提高对感兴趣的响应变量的预测性能,应用于药物发现和遗传学中的大数据,贝叶斯统计测试和大数据稀疏性的推断,应用于遗传学,以及生态模型,通过针对人类对自然造成的干扰的斜率和方差的变化来检测环境阈值。与丢弃信息不同,申请人提出了利用更有用的变量而不是丢弃一些变量的集成方法。假设是过滤变量就像丢失信息一样,会降低模型的预测能力。为了解决这个问题,申请人提出了将有用变量分组为不同子集并通过将模型拟合到每个子集并聚合跨子集的模型来将它们聚合在集合中的方法。该方法的新颖之处在于自适应地获得变量子集,而不是当前使用已知或随机子集的趋势。许多统计方法在模型构建中强加稀疏性,即大数据中信息匮乏的情况,缺乏足够的理由和依据。相反,申请人提出在模型构建之前使用稀疏性的贝叶斯统计测试。该方法的新颖之处在于,模型构建中引入的稀疏量得到了数据测量证据的支持。生态响应和环境干扰之间的关系通常通过斜率和方差的变化来表示阈值效应。目前,这种关系由模型通过斜率或方差的变化来表示。需要开发一种可以通过斜率和方差的变化来估计阈值效应的模型。此外,许多生态学家通常知道压力-反应关系中斜率和方差的变化可能发生在哪里。申请人提出了一种贝叶斯模型,该模型可以通过添加生态学家的先验知识来同时估计斜率和方差的变化。拟议的计划将通过更好地利用大数据中的信息来推进统计研究。在药物发现和遗传学方面的应用将改善人类和动物的健康,并有可能开发新药和识别疾病原因。在环境生态学中,该研究将确定人类对自然造成的干扰的阈值效应,从而实现水生栖息地的可持续管理。训练有素的总部人员将成为加拿大及其他地区学术界和工业界的资产。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Tomal, Jabed其他文献
Measuring statistical evidence and multiple testing
- DOI:
10.1139/facets-2017-0121 - 发表时间:
2018-05-25 - 期刊:
- 影响因子:3.1
- 作者:
Evans, Michael;Tomal, Jabed - 通讯作者:
Tomal, Jabed
Tomal, Jabed的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Tomal, Jabed', 18)}}的其他基金
Methods for big data, sparsity, and environmental thresholds
大数据、稀疏性和环境阈值的方法
- 批准号:
RGPIN-2021-03970 - 财政年份:2022
- 资助金额:
$ 1.31万 - 项目类别:
Discovery Grants Program - Individual
Methods for big data, sparsity, and environmental thresholds
大数据、稀疏性和环境阈值的方法
- 批准号:
DGECR-2021-00271 - 财政年份:2021
- 资助金额:
$ 1.31万 - 项目类别:
Discovery Launch Supplement
相似国自然基金
Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
- 批准号:
- 批准年份:2024
- 资助金额:万元
- 项目类别:合作创新研究团队
ARF鸟苷酸交换因子BIG1介导ACSL4依赖性铁死亡在非酒精性脂肪性肝炎中的作用及机制研究
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于Big Code深度背景增强的Android应用代码反混淆研究
- 批准号:61972290
- 批准年份:2019
- 资助金额:60.0 万元
- 项目类别:面上项目
BIG1介导STING囊泡转运在抗肺癌免疫反应中的作用及分子机制
- 批准号:81903639
- 批准年份:2019
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
水稻Big Grain3 通过调控细胞分裂素转运调节籽粒大小
- 批准号:2019JJ50243
- 批准年份:2019
- 资助金额:0.0 万元
- 项目类别:省市级项目
ARF鸟苷酸交换因子BIG1调控巨噬细胞重编程在脓毒症免疫抑制形成中的作用及机制研究
- 批准号:81971488
- 批准年份:2019
- 资助金额:56.0 万元
- 项目类别:面上项目
控制豆科作物器官大小关键基因BIG SEEDS1的功能与应用研究
- 批准号:31771345
- 批准年份:2017
- 资助金额:65.0 万元
- 项目类别:面上项目
罗氏沼虾GTPases多样性分析及其在先天免疫中的功能研究
- 批准号:31101926
- 批准年份:2011
- 资助金额:23.0 万元
- 项目类别:青年科学基金项目
生长素转运调控基因BIG介导高浓度CO2下气孔关闭的分子机制
- 批准号:31171356
- 批准年份:2011
- 资助金额:65.0 万元
- 项目类别:面上项目
ARF鸟苷酸交换因子BIG1定向调控ABCA1功能的分子机制
- 批准号:81173056
- 批准年份:2011
- 资助金额:69.0 万元
- 项目类别:面上项目
相似海外基金
Developing methods for Big Data capture in support of the Digital Twin for Investment Casting Shelling
开发大数据捕获方法以支持熔模铸造脱壳的数字孪生
- 批准号:
2889986 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
Studentship
Developing and exploring methods to understand human-nature interactions in urban areas using new forms of big data
利用新形式的大数据开发和探索理解城市地区人与自然相互作用的方法
- 批准号:
ES/W012979/1 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
Research Grant
Demographic Patterns of Eugenic Sterilization in Five U.S. States: Mixed Methods Investigation of Reproductive Control of the 'Unfit'
美国五个州优生绝育的人口统计模式:“不健康者”生殖控制的混合方法调查
- 批准号:
10640886 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
Tackling Big Data problems in biomedical sciences with extended similarity methods
使用扩展相似性方法解决生物医学科学中的大数据问题
- 批准号:
10713143 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
Use Bayesian methods to facilitate the data integration for complex clinical trials
使用贝叶斯方法促进复杂临床试验的数据集成
- 批准号:
10714225 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
Disentangling the anatomical, functional and clinical heterogeneity of major depression, using machine learning methods
使用机器学习方法解开重度抑郁症的解剖学、功能和临床异质性
- 批准号:
10714834 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
Leveraging complementary big data methods and patient intervention designs to optimize neural markers of adolescent cannabis use
利用互补的大数据方法和患者干预设计来优化青少年大麻使用的神经标记
- 批准号:
10739527 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
New Epidemiologic Methods for Reducing Measurement Error and Misclassification Bias in Cancer Epidemiology
减少癌症流行病学中测量误差和误分类偏差的新流行病学方法
- 批准号:
10801058 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
Federated learning methods for heterogeneous and distributed Medicaid data
异构分布式医疗补助数据的联邦学习方法
- 批准号:
10590354 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
Machine learning-based methods for phenotyping dementia patients from electronic health record data
基于机器学习的方法,根据电子健康记录数据对痴呆症患者进行表型分析
- 批准号:
10720916 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:














{{item.name}}会员




