Methods for big data, sparsity, and environmental thresholds
大数据、稀疏性和环境阈值的方法
基本信息
- 批准号:RGPIN-2021-03970
- 负责人:
- 金额:$ 1.31万
- 依托单位:
- 依托单位国家:加拿大
- 项目类别:Discovery Grants Program - Individual
- 财政年份:2022
- 资助国家:加拿大
- 起止时间:2022-01-01 至 2023-12-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
With the rapid progress of technology, research in science and engineering is undergoing a revolution as big data are harnessed for various purposes. Thus, the long-term goal of this research program is to advance the science in statistics, machine learning and statistical ecology by exploiting the useful information in big data. The short-term goals are developing: ensemble of models based on diverse subsets of variables to improve prediction performances for the response variable of interest with applications to big data in drug discovery and genetics, Bayesian statistical tests and inference for sparsity in big data with applications to genetics, and ecological models to detect environmental thresholds via the changes in slope and variance against human induced disturbances to nature. Unlike discarding information, the applicant proposes ensemble methods which utilize more useful variables instead of throwing some out. The hypothesis is that filtering variables is like losing information which reduces the prediction power of a model. To address this issue, the applicant proposes methods which group useful variables into diverse subsets and aggregates them in an ensemble by fitting a model to each subset and aggregating models across the subsets. The novelty of the method is that the subsets of variables are obtained adaptively, rather than the current trend of using either known or random subsets. Many statistical methods force sparsity, the condition of scant information in big data, in model building which lacks enough reasons and justification. Instead, the applicant proposes Bayesian statistical tests for sparsity to be used before model building. The novelty of the method is that the amount of sparsity to induce in model building is supported by the evidence measured in data. Relationship between an ecological response and environmental disturbance often represent threshold effects via the changes in slope and variance. Presently, such relationship is represented by a model via the changes in either slope or variance. There is a need for developing a model which can estimate threshold effects via the changes in slope and variance. Also, many ecologists often know where the changes in slope and variance might occur in the stress-response relationship. The applicant proposes a Bayesian model which can estimate the changes in slope and variance, simultaneously, by adding the prior knowledge from ecologists. The proposed program will advance the research in statistics by better utilizing the information in big data. The applications in drug discovery and genetics will improve human and animal health with a potential to develop new drugs and identification of the causes of disease. In environmental ecology, the research will identify threshold effects of human induced disturbances to nature leading to sustainable management of aquatic habitat. The trained HQPs will be an asset in academia and industries in Canada and beyond.
随着技术的快速进步,科学和工程研究正在经历一场革命,因为大数据被用于各种目的。因此,该研究计划的长期目标是通过利用大数据中的有用信息来推进统计学,机器学习和统计生态学的科学。短期目标正在制定:基于不同变量子集的模型集合,以提高对药物发现和遗传学大数据应用的感兴趣响应变量的预测性能,贝叶斯统计测试和遗传学大数据中稀疏性的推断,以及生态模型,通过斜率和方差的变化来检测环境阈值,以对抗人类对自然的干扰。与丢弃信息不同,申请人提出了利用更多有用变量而不是丢弃一些变量的集成方法。假设是过滤变量就像丢失信息,这会降低模型的预测能力。为了解决这个问题,申请人提出了将有用的变量分组到不同的子集中并且通过将模型拟合到每个子集并且跨子集聚合模型来将它们聚合在集合中的方法。该方法的新奇在于自适应地获得变量的子集,而不是使用已知或随机子集的当前趋势。许多统计方法在建模时都强调稀疏性,即大数据中信息稀缺的情况,缺乏足够的理由和正当性。相反,申请人提出了在模型构建之前使用的稀疏性的贝叶斯统计测试。该方法的新奇之处在于,在模型构建中引入的稀疏度的量由数据中测量的证据支持。生态响应与环境干扰之间的关系往往通过斜率和方差的变化表现为阈值效应。目前,这种关系通过斜率或方差的变化由模型表示。有必要开发一种模型,可以通过斜率和方差的变化来估计阈值效应。此外,许多生态学家通常知道在压力-反应关系中斜率和方差的变化可能发生在哪里。申请人提出了一种贝叶斯模型,该模型可以通过添加来自生态学家的先验知识来同时估计斜率和方差的变化。该计划将通过更好地利用大数据中的信息来推进统计学研究。在药物发现和遗传学方面的应用将改善人类和动物的健康,并有可能开发新药和确定疾病的原因。在环境生态学方面,该研究将确定人类对自然造成的干扰的阈值效应,从而对水生生境进行可持续管理。经过培训的HQP将成为加拿大及其他地区学术界和工业界的资产。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Tomal, Jabed其他文献
Measuring statistical evidence and multiple testing
- DOI:
10.1139/facets-2017-0121 - 发表时间:
2018-05-25 - 期刊:
- 影响因子:3.1
- 作者:
Evans, Michael;Tomal, Jabed - 通讯作者:
Tomal, Jabed
Tomal, Jabed的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Tomal, Jabed', 18)}}的其他基金
Methods for big data, sparsity, and environmental thresholds
大数据、稀疏性和环境阈值的方法
- 批准号:
DGECR-2021-00271 - 财政年份:2021
- 资助金额:
$ 1.31万 - 项目类别:
Discovery Launch Supplement
Methods for big data, sparsity, and environmental thresholds
大数据、稀疏性和环境阈值的方法
- 批准号:
RGPIN-2021-03970 - 财政年份:2021
- 资助金额:
$ 1.31万 - 项目类别:
Discovery Grants Program - Individual
相似国自然基金
Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
- 批准号:
- 批准年份:2024
- 资助金额:万元
- 项目类别:合作创新研究团队
ARF鸟苷酸交换因子BIG1介导ACSL4依赖性铁死亡在非酒精性脂肪性肝炎中的作用及机制研究
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于Big Code深度背景增强的Android应用代码反混淆研究
- 批准号:61972290
- 批准年份:2019
- 资助金额:60.0 万元
- 项目类别:面上项目
BIG1介导STING囊泡转运在抗肺癌免疫反应中的作用及分子机制
- 批准号:81903639
- 批准年份:2019
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
水稻Big Grain3 通过调控细胞分裂素转运调节籽粒大小
- 批准号:2019JJ50243
- 批准年份:2019
- 资助金额:0.0 万元
- 项目类别:省市级项目
ARF鸟苷酸交换因子BIG1调控巨噬细胞重编程在脓毒症免疫抑制形成中的作用及机制研究
- 批准号:81971488
- 批准年份:2019
- 资助金额:56.0 万元
- 项目类别:面上项目
控制豆科作物器官大小关键基因BIG SEEDS1的功能与应用研究
- 批准号:31771345
- 批准年份:2017
- 资助金额:65.0 万元
- 项目类别:面上项目
罗氏沼虾GTPases多样性分析及其在先天免疫中的功能研究
- 批准号:31101926
- 批准年份:2011
- 资助金额:23.0 万元
- 项目类别:青年科学基金项目
生长素转运调控基因BIG介导高浓度CO2下气孔关闭的分子机制
- 批准号:31171356
- 批准年份:2011
- 资助金额:65.0 万元
- 项目类别:面上项目
ARF鸟苷酸交换因子BIG1定向调控ABCA1功能的分子机制
- 批准号:81173056
- 批准年份:2011
- 资助金额:69.0 万元
- 项目类别:面上项目
相似海外基金
Developing and exploring methods to understand human-nature interactions in urban areas using new forms of big data
利用新形式的大数据开发和探索理解城市地区人与自然相互作用的方法
- 批准号:
ES/W012979/1 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
Research Grant
Developing methods for Big Data capture in support of the Digital Twin for Investment Casting Shelling
开发大数据捕获方法以支持熔模铸造脱壳的数字孪生
- 批准号:
2889986 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
Studentship
Demographic Patterns of Eugenic Sterilization in Five U.S. States: Mixed Methods Investigation of Reproductive Control of the 'Unfit'
美国五个州优生绝育的人口统计模式:“不健康者”生殖控制的混合方法调查
- 批准号:
10640886 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
Use Bayesian methods to facilitate the data integration for complex clinical trials
使用贝叶斯方法促进复杂临床试验的数据集成
- 批准号:
10714225 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
Disentangling the anatomical, functional and clinical heterogeneity of major depression, using machine learning methods
使用机器学习方法解开重度抑郁症的解剖学、功能和临床异质性
- 批准号:
10714834 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
Leveraging complementary big data methods and patient intervention designs to optimize neural markers of adolescent cannabis use
利用互补的大数据方法和患者干预设计来优化青少年大麻使用的神经标记
- 批准号:
10739527 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
Tackling Big Data problems in biomedical sciences with extended similarity methods
使用扩展相似性方法解决生物医学科学中的大数据问题
- 批准号:
10713143 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
New Epidemiologic Methods for Reducing Measurement Error and Misclassification Bias in Cancer Epidemiology
减少癌症流行病学中测量误差和误分类偏差的新流行病学方法
- 批准号:
10801058 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
Federated learning methods for heterogeneous and distributed Medicaid data
异构分布式医疗补助数据的联邦学习方法
- 批准号:
10590354 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:
Machine learning-based methods for phenotyping dementia patients from electronic health record data
基于机器学习的方法,根据电子健康记录数据对痴呆症患者进行表型分析
- 批准号:
10720916 - 财政年份:2023
- 资助金额:
$ 1.31万 - 项目类别:














{{item.name}}会员




