缺失数据分析中若干重要问题研究

批准号:
11871460
项目类别:
面上项目
资助金额:
55.0 万元
负责人:
王启华
依托单位:
学科分类:
A0402.统计推断与统计计算
结题年份:
2022
批准年份:
2018
项目状态:
已结题
项目参与者:
丁晓波、邓涧秋、盛赢、孙逸帆、张敬、黄云翔、王若宇
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
本项目研究数据缺失下几个重要并具有挑战性的问题。 在协变量缺失时,通过挖掘包含在协变量中模型信息,并发展拟半经验似然利用这一信息改进推断;在协变量缺失时,以Kullback-LeiblerL距离均值得分估计作为模型选择的距离准则,然而在计算均值得分时,由于给定响应变量及观察协变量下缺失协变量条件分布通常假设错误,从而导致均值得分距离估计发生偏差,于是发展一种纠正距离准则得分估计方法进行模型选择,使得在纠正距离准则下模型选择仍具有选择相合性;在响应变量不可忽略缺失下,发展降维技术,证明所获得的降维中心子空间有根号n相合性且其维数估计是相合的;在类标记缺失时,我们在再生核空间使用惩罚积分均方误差方法获得选择概率函数的估计,并将这一方法通过逆概率加权推广到给定协变量下类标记的条件概率的估计,从而得到基于该条件概率函数估计的分类器,并证明所提方法的条件错误分类率渐近到Bayes条件错误分类率。
英文摘要
In this project, we intend to investigate some significant and challenge problems with data missing. In the presence of missing covariables, we first extract model information and then incorporate the information by developing a pseudo semi-empirical likelihood to make improved inference. We develop model selection method based on the conditional mean score estimator of Kullback-Leiblert (KL) distance with covariables missing at random. For calculating the conditional mean score, one need assume a parametric model for the conditional distribution of the missing covariables given the response variable and the observable covariables. In practice, however, the conditional parametric model is usually specified errorly and hence leads to the bias for the conditional mean score estimator of the KL distance. Hence, we develop bias-corrected method to reduce the bias of the mean score estimator of the KL distance to zero in probability such that the .model selection method based on the bias-corrected distance is of selection consistency. With non-ignorable missing response, we intend to develop dimension reduction method, and prove the estimators of the central subspace are root n consistent and their structure dimension estimators are consistent. With class label missing at random,we introduce a reproducing kernel Hilbert space (RKHS) and estimate the selection probability function directly by minimizing the expected squared error. And then we extend the method to estimate the conditional probability function of the class label given covariables with the inverse probability weighted approach. We construct the conditional probability based classifier and investigate some asymptotic properties. We intend to prove that the proposed method attains asymptotically the Bayes misclassication error rate under some reasonable conditions and the rates of convergence are also obtained.
缺失数据在现实中普遍发生,比如民意测验,邮寄问卷调查,市场调研,经济金融研究,医药研究及其它一些科学实验中就普遍存在缺失数据问题。 本项目研究数据缺失下几个重要并具有挑战性的问题。在协变量缺失时,以Kullback-LeiblerL距离均值得分估计作为模型选择的距离准则,然而在计算均值得分时,由于给定响应变量及观察协变量下缺失协变量条件分布通常假设错误,从而导致均值得分距离估计发生偏差,于是发展一种纠正距离准则得分估计方法进行模型选择,使得在纠正距离准则下模型选择仍具有选择相合性;在超高维数据分析中,在不可忽略缺失机制下,发展了不依赖模型的变量筛选方法,通过借用缺失示性的信息,使得任何全数据下的变量筛选方法均可应用于不可忽略响应变量缺失时的变量筛选,并保持全数据下确定筛选性质;在响应变量不可忽略缺失下,发展降维技术,证明所获得的降维中心子空间有根号n相合性且其维数估计是相合的;在类标记缺失时,我们在再生核空间使用惩罚积分均方误差方法获得选择概率函数的估计,并将这一方法通过逆概率加权推广到给定协变量下类标记的条件概率的估计,从而得到基于该条件概率函数估计的分类器,并证明所提方法的条件错误分类率渐近到Bayes条件错误分类率。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:10.5705/ss.202017.0288
发表时间:2019
期刊:Statistica Sinica
影响因子:1.4
作者:Xiaojie Yang;Qihua Wang
通讯作者:Xiaojie Yang;Qihua Wang
An adaptive group LASSO approach for domain selection in functional generalized linear models
函数广义线性模型中域选择的自适应群 LASSO 方法
DOI:--
发表时间:2021-11
期刊:Journal of Statistical Planning and Inference
影响因子:0.9
作者:Sun Yifan;Wang Qihua
通讯作者:Wang Qihua
DOI:10.1007/s10463-020-00759-y
发表时间:2020-07
期刊:Annals of the Institute of Statistical Mathematics
影响因子:1
作者:Wei Yuting;Wang Qihua;Liu Wei
通讯作者:Liu Wei
DOI:10.1016/j.csda.2020.106975
发表时间:2020-09
期刊:Comput. Stat. Data Anal.
影响因子:--
作者:Jing Zhang;Qihua Wang;Jian Kang
通讯作者:Jing Zhang;Qihua Wang;Jian Kang
DOI:10.1016/j.csda.2019.106814
发表时间:2020-02
期刊:Computational Statistics & Data Analysis
影响因子:1.8
作者:Sun Yifan;Wang Qihua
通讯作者:Wang Qihua
若干分布式非参数统计方法及其理论研究
- 批准号:12271510
- 项目类别:面上项目
- 资助金额:46万元
- 批准年份:2022
- 负责人:王启华
- 依托单位:
生物医学数据统计分析的方法、理论与应用
- 批准号:11331011
- 项目类别:重点项目
- 资助金额:240.0万元
- 批准年份:2013
- 负责人:王启华
- 依托单位:
数据缺失时高维数据降维分析的方法、理论与应用
- 批准号:11171331
- 项目类别:面上项目
- 资助金额:40.0万元
- 批准年份:2011
- 负责人:王启华
- 依托单位:
协变量缺失时生存数据回归分析的方法、理论与应用
- 批准号:10671198
- 项目类别:面上项目
- 资助金额:21.0万元
- 批准年份:2006
- 负责人:王启华
- 依托单位:
核实数据帮助下测量误差回归模型的校准分析
- 批准号:10241001
- 项目类别:专项基金项目
- 资助金额:4.0万元
- 批准年份:2002
- 负责人:王启华
- 依托单位:
国内基金
海外基金
