测量误差和随机缺失下高维稀疏模型的统一纠偏理论及误差界分析
结题报告
批准号:
11801168
项目类别:
青年科学基金项目
资助金额:
22.0 万元
负责人:
杨晶
依托单位:
学科分类:
A0403.贝叶斯统计与统计应用
结题年份:
2021
批准年份:
2018
项目状态:
已结题
项目参与者:
卢芳、孙军、向行、曹鹏、刘启
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
数据带污染现象是制约高维统计推断的重要瓶颈之一,此时标准的正则化方法如Lasso将产生不稳定、有偏甚至错误的结果。本项目旨在高维变系数部分线性模型下,针对参数部分协变量带有测量误差和随机缺失两种污染情形,提出统一的矫正方案并进行理论分析。第一,将两类污染的模型整合到同一个可加误差模型框架下,进而利用正交投影方法将新模型转换成高维线性模型进行研究;第二,针对正态和非正态模型误差,分别基于偏差矫正的加权最小二乘Lasso和加权分位数Lasso方法对参数模型进行稀疏推断,其中我们将利用凸条件Lasso和锥规划等技巧对非凸的正则化目标函数进行凸化处理;第三,在常见的稀疏性假设下建立新方法模型选择的相合性,并借助各类范数建立估计误差的上界。我们的方法适用于高维/超高维稀疏模型,因此该项工作在基因组学、流行病学和计量经济学等大数据领域具有重要的应用价值。
英文摘要
Data with corruption is one of the most important bottlenecks that impede the statistical inference in high dimensional cases, since the standard regularized methods such as Lasso will generate unstable, biased or even misleading results now. This project aims at to provide some unified correction approaches for the high dimensional varying coefficient partially linear model, in which the parametric covariate is carried with two types of contamination including measurement error or missing at random, along with the related theoretical analysis. Firstly, we integrate the two corrupted model structures into the same one model framework with additive errors, and then transform the new model into a high dimensional linear model for studying through orthogonality-projection procedure. Secondly, for the normal and non-normal model errors, we do some sparse inference based on the obtained parametric model via bias-corrected weighted least squares Lasso and weighted quantile Lasso methods, respectively. During the process, we will employ different skills including convex conditional Lasso and conic programming, to deal with the related non-convex regularized objective functions. Thirdly, we establish the consistency of model selection for the new methods under some regularity assumptions on sparsity, and then present the upper bounds of the estimate error in terms of different norms. Our proposed methods are suitable for high/ultra-high dimensional sparse model, so this work has great applications in the areas of big data like genomics, epidemiology and econometrics, for instance.
生物统计、医学统计以及经济金融统计等交叉学科是当代统计学领域研究的焦点,其丰富的实际背景为统计学的研究提出了许多新的模型和问题。同时,这些交叉学科通常涉及庞大的数据信息和复杂的数据结构,极大地拓宽了统计模型选择方法的研究和应用价值。针对这些高维数据环境下的实际问题,简单的参数模型通常无法刻画响应变量和协变量之间的依赖关系,非参数模型会遭遇“维数祸根”的现象。因此,如何建立合适的高维半参数模型,进而寻求创新性的解决方法和工具,特别是稳健且有效的统计推断方法,显得十分有意义。.本项目主要基于分位数回归、众数回归、秩回归等稳健且有效的统计分析方法,结合正则化罚函数思想,研究了几类高维半参数模型的稳健估计、变量选择以及结构识别问题。理论上证明了所得估计量的渐近正态性与变量选择的相合性,并推导出新方法相对已有方法(如:最小二乘方法、分位数方法)的渐近相对效率,进而通过大量的数值模拟验证了新方法的稳健性和有效性。最后,将我们的方法应用到人体脂肪含量影响因素分析、城市住房价格影响因素分析、大气污染与气象因素关联分析等多个生物、医学、经济与环境领域的实例中,所得结果表明新方法相比现有统计分析方法具有更高的预测精度、更好的稳健性与可解释性。此外,针对空间相依型数据,我们借助广义矩估计思想和工具变量法研究了高维半参数空间自回归模型的稳健估计和变量选择问题,并建立了估计量的大样本性质。最后,将所提方法应用到居民住房价格数据分析中,所得结果与现有文献结果相比具有更强的解释性。在流行病与脑科学研究、房价分析与预测、区域经济发展等具有空间相关性的大数据实际问题中,我们的方法具有较高的应用价值。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Local Walsh-average-based estimation and variable selection for single-index models
单指标模型的基于局部沃尔什平均的估计和变量选择
DOI:10.1007/s11425-017-9262-3
发表时间:2019-09
期刊:Science China Mathematics
影响因子:--
作者:Yang Jing;Lu Fang;Yang Hu
通讯作者:Yang Hu
Rank-based estimation in varying coefficient partially functional linear regression models
变系数部分函数线性回归模型中基于等级的估计
DOI:10.1080/03610926.2020.1747079
发表时间:2020-04
期刊:Communications in Statistics - Theory and Methods
影响因子:--
作者:Liu Wanrong;Sun Jun;Yang Jing
通讯作者:Yang Jing
One-step oracle procedure for semi-parametric spatial autoregressive model and its empirical application to Boston housing price data
半参数空间自回归模型的一步预言程序及其在波士顿房价数据中的实证应用
DOI:10.1007/s00181-021-02118-z
发表时间:2021-08
期刊:Empirical Economics
影响因子:3.2
作者:Fang Lu;Jing Yang;Xuewen Lu
通讯作者:Xuewen Lu
Robust variable selection of varying coefficient partially nonlinear model based on quantile regression
基于分位数回归的变系数部分非线性模型的鲁棒变量选择
DOI:10.4310/sii.2019.v12.n3.a5
发表时间:2019
期刊:Statistics and Its Interface
影响因子:0.8
作者:Yang Jing;Lu Fang;Tian Guoliang;Lu Xuewen;Yang Hu
通讯作者:Yang Hu
DOI:10.1080/02331888.2018.1506922
发表时间:2018
期刊:Statistics
影响因子:1.9
作者:Yang Jing;Lu Fang;Yang Hu
通讯作者:Yang Hu
复杂大数据下半参数模型的自动结构识别方法、理论及应用
  • 批准号:
    2022JJ30368
  • 项目类别:
    省市级项目
  • 资助金额:
    0.0万元
  • 批准年份:
    2022
  • 负责人:
    杨晶
  • 依托单位:
高维半参数回归模型稳健兼有效的稀疏统计推断及应用研究
  • 批准号:
    2018JJ3322
  • 项目类别:
    省市级项目
  • 资助金额:
    0.0万元
  • 批准年份:
    2018
  • 负责人:
    杨晶
  • 依托单位:
国内基金
海外基金