大维矩阵数据中的异常值识别
结题报告
批准号:
11971247
项目类别:
面上项目
资助金额:
52.0 万元
负责人:
王兆军
依托单位:
学科分类:
统计推断与统计计算
结题年份:
2023
批准年份:
2019
项目状态:
已结题
项目参与者:
王兆军
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
在现代诸多复杂数据的统计推断或机器学习过程中,一个必要的环节就是所谓的“数据清洗”,而异常点探查是数据清洗的核心内容之一。只有找到这些异常点,后续数据分析结果的正确性和有效性才有保证。如果把n个p维样本看作n×p矩阵,最近已有一些工作研究在高维情形下此矩阵中行数据是否为异常,但在许多实际问题中,仅有某些观测值的个别分量出现异常的情况更为普遍。而本项目则将侧重研究如何通过充分利用变量相关性,有效地探查矩阵中的元素异常点,开发稳健的识别方案。我们将首先针对一般的大规模数据矩阵开展研究,之后拓展至对线性模型和广义线性模型中的协变量观测矩阵中的异常值的研究,最后研究函数型数据中的异常点探查与检验。由于数据是高维的,故为了更好地控制错误识别率,我们将深入研究如何利用knock-off方法来控制筛选的FDR,并详尽研究崩溃点性质和筛选的相合性问题。
英文摘要
In the modern statistical inference or machine learning process of complex data, a necessary step is the so-called "data cleaning", and outlier detection is one of the key procedures of data cleaning. Only when these outlying points are found, the correctness and validity of the subsequent data analysis results could be guaranteed. Consider a multivariate dataset consists of n cases in p dimensions, and is often stored in an n by p data matrix. It is well-known that real data may contain outliers. In statistics and data analysis the word outlier usually refers to a row of the data matrix, and the methods to detect such outliers only work when at least half the rows are clean. But often many rows have a few contaminated cell values, which may not be visible by looking at each variable (column) separately. In this project, we aim to design new methods to detect deviating data cells in a high-dimensional sample which takes the correlations between the variables into account. .We will focus on the standard large matrix data, and extend the approaches to the linear model or generalized linear model, as well the functional data. The proposed method can serves as an initial step for massive data analysis. To better control the error rate, we will delve into how to use the knock-off method to control the FDR, and thoroughly study the breakdown point and the identification consistency of the proposed method.
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:10.1016/j.jmva.2023.105224
发表时间:2023-08
期刊:J. Multivar. Anal.
影响因子:--
作者:Lilun Du;Mengtao Wen
通讯作者:Lilun Du;Mengtao Wen
cpss: an package for change-point detection by sample-splitting methods
cpss:通过样本分割方法进行变化点检测的包
DOI:10.1080/00224065.2022.2035284
发表时间:2022
期刊:Journal of Quality Technology
影响因子:2.5
作者:Guanghui Wang;Changliang Zou
通讯作者:Changliang Zou
DOI:--
发表时间:2022
期刊:The Canadian Journal of Statistics
影响因子:--
作者:Liu Yanhong;Ren Haojie;Guo Xu;Zhou Qin;Zou Changliang
通讯作者:Zou Changliang
DOI:10.1002/sta4.509
发表时间:2022-09
期刊:Stat
影响因子:1.7
作者:Qingsong Wang;Shaojun Guo;Fang Yao;Changliang Zou
通讯作者:Qingsong Wang;Shaojun Guo;Fang Yao;Changliang Zou
DOI:10.1007/s42952-023-00213-8
发表时间:2023-05
期刊:Journal of the Korean Statistical Society
影响因子:0.6
作者:Yanhong Liu;Yuhao Zhang;Zhonghua Li
通讯作者:Yanhong Liu;Yuhao Zhang;Zhonghua Li
模式生物线虫形态的数学表示方法及其在衰老特征计算中的应用
  • 批准号:
    12026209
  • 项目类别:
    数学天元基金项目
  • 资助金额:
    20.0万元
  • 批准年份:
    2020
  • 负责人:
    王兆军
  • 依托单位:
大数据与试验设计中的统计方法与计算
  • 批准号:
    11431006
  • 项目类别:
    重点项目
  • 资助金额:
    280.0万元
  • 批准年份:
    2014
  • 负责人:
    王兆军
  • 依托单位:
复杂数据中的变点、异常点检测及在线监控
  • 批准号:
    11371202
  • 项目类别:
    面上项目
  • 资助金额:
    55.0万元
  • 批准年份:
    2013
  • 负责人:
    王兆军
  • 依托单位:
统计过程控制图设计理论的深入研究
  • 批准号:
    11071128
  • 项目类别:
    面上项目
  • 资助金额:
    27.0万元
  • 批准年份:
    2010
  • 负责人:
    王兆军
  • 依托单位:
统计过程控制图的设计理论及其应用
  • 批准号:
    10771107
  • 项目类别:
    面上项目
  • 资助金额:
    22.0万元
  • 批准年份:
    2007
  • 负责人:
    王兆军
  • 依托单位:
国内基金
海外基金