高维生物数据的PLS特征选择方法研究
 结题报告
								结题报告
							批准号:
61473329
项目类别:
面上项目
资助金额:
						
57.0 万元
负责人:
游文杰
依托单位:
						
学科分类:
F0603.机器学习
结题年份:
						
2018
批准年份:
2014
项目状态:
						
已结题
项目参与者:
						
郭永宁、李立耀、孙树亮、阚元平
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
									深度指导申报书撰写,确保创新可行
									指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
基于统计计算与机器学习理论方法,针对高维数、小样本、高噪声、强相关和多类别的生物数据,研究偏最小二乘特征选择模型算法。给出考虑交互效应的多特征选择算法,筛选较小主效应且有较强交互效应的信息特征;引入递归特征消除策略的多特征选择算法,提升所选子集的一致性和紧致性;给出多扰动的集成特征选择方法,增强所选特征子集的稳健性;提出选维与降维的特征级信息融合框架,挖掘高维数据的潜结构信息;开发实现计算分析工具。将研究算法应用到全基因组水平的肿瘤基因表达分析中,筛选出肿瘤特异表达基因,提取表达模式和共调节基因,辅助生物学家理解和解释肿瘤基因的特异表达机制,达到有效辅助生物实验的水平。本研究计划,有助于加强高维小样本多类别生物数据的处理方法研究,促进生物信息处理和前沿问题的理解,对数据挖掘方法与生物学科的结合研究有着信息学与生物学意义。
英文摘要
In view of the data with high-dimensional small sample (HDSS), high noise, strong relevance and multi-class, our project focuses on the models and algorithms of feature reduction based on the theory and methods of statistical computing and machine learning. We present multi-feature selection, which takes into accounts the combined effects of all the features and the correlation among the features, indirectly consider the joint distribution of features, and effective detect the features with a relatively small main effect, but with a strong interaction effect; We present a novel multi-feature selection based on recursive feature elimination strategy, which can improve the consistency of the selected feature subset, and makes the selected feature subset more compact; We present multipertubation ensemble feature selection, which improve the affectiveness of the selected feature subset on the small sample data; We propose the novel method which implements information fusion of feature selection and feature extraction in a unified framework. It can effectively improve the generalization ability of the learner, and enhance the interpretability and understandability of recognition results. Moreover, our algorithm is computationally efficient especially for high-dimensional dataset, and it can be applied to both two-category classification and multi-category classification problems without limitation. Further, our methodology is applied to the study of tumor gene expression analysis on genome-wide level, and focusing on identify tumor-specific expressed genes and extract co-regulate genes. The works will assist biologists to understand and explain the mechanism of tumor-specific gene expression, and effectively assist the biological experiments level. The projected impact of our results will be of interest to cancer biologists, it will provide a new research paradigm in studies of other complex traits or diseases under multi-conditions. Our model and algorithms are also applied to the other study of biological information processing, to achieve the efficient feature selection, and to assistant biological experiments. Our research will help promote biological information processing and accelerate the understanding of its frontier issues. It can provide a theoretical basis and practical calculation methods to solve complex calculation of HDSS.
基于统计计算与机器学习的理论与方法,研究适合于生物数据特点的特征工程(特征表示和特征选择),具体包括:..1)具有交互效应的多源信息融合的特征表示。DNA结合蛋白在各种细胞过程中发挥着极其重要的作用,在理解和解释蛋白质功能中,识别DNA结合蛋白是一个非常重要的任务。给出基于蛋白质序列数据的特征表示与选择性集成。首先,提出具有交互效应的多信息融合的特征表示模型,它同时考虑了物化属性、进化信息以及残基间跳空距离的交互效应。其次,给出基于跳空距离的选择性集成算法,它通过选择得到具有差异性的基分类器,提升整体分类器的泛化能力。相关研究结果给出了多源信息交互融合特征表示的数学模型与算法,以及基于参数扰动的选择性集成分类算法,实验表明它们可以有效地用于预测DNA结合蛋白,并且所提交互融合特征表示有利于从交互作用的视角去理解DNA结合蛋白在细胞中的功能与作用。..2)基于偏最小二乘的多扰动集成的特征选择。肿瘤是一种复杂的基因疾病,是由于某些染色体上DNA损伤而导致的细胞内基因异常表达。识别肿瘤疾病状态之间发生特异表达的基因及其功能是研究肿瘤疾病发病机理的一项重要任务。针对肿瘤微阵列数据的特点,引入不同的扰动机制,给出多扰动集成的基因选择的分析框架;利用PLS多基因度量方法,在该框架下发展出新的基于PLS集成基因选择方法。该算法基于子集的整体效应,能够识别出具有差异表达的基因,同时还能识别出差异表达信号微弱的基因。算法基于多重扰动机制,能够识别出一系列不同的基因子集,这些子集的长度较小且整体判别能力较强。在只有有限样例的人类肿瘤微阵列数据集上进行测试,算法能够识别出众多不同的肿瘤特异基因子集,这些子集在独立测试集上均可实现100%的识别。在对子集中的弱差异表达基因做进一步的分析,发现它们中间有些是重要的潜在基因,存在对肿瘤疾病的间接表达。因此,相对于传统方法仅能得到一组的特异基因子集,所提算法所识别出的一系列不同的基因子集及其弱差异表达基因,能够提高对肿瘤疾病分子特征的理解,能够更全面的认识肿瘤基因的特异表达模式,对辅助理解肿瘤发生发展的机理、寻找肿瘤药物治疗的分子靶标,以及可靠的分子诊断与治疗,提供新的视角。..本研究加强了相关生物数据的处理方法,促进了生物信息处理和前沿问题的理解,对于数据挖掘方法与生物学科的结合研究有着信息学与生物学意义。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:https://doi.org/10.1016/j.knosys.2018.09.023
发表时间:2018
期刊:Knowledge-Based Systems 
影响因子:--
作者:Wenjie You;Zijiang Yang;Guangbao Guo;Xiu-Feng Wan;GuoliJi 
通讯作者:GuoliJi
DOI:--
发表时间:2016
期刊:华中师范大学学报(自然科学版) , Journal of Central China Normal University(Natural Sciences), 
影响因子:--
作者:甘胜进;游文杰 
通讯作者:游文杰
DOI:--
发表时间:2016
期刊:电信科学 
影响因子:--
作者:孙树亮 
通讯作者:孙树亮
A novel edge based image steganography with 2k correction and Huffman encoding 一种新颖的基于边缘的图像隐写术,具有 2k 校正和霍夫曼编码
一种新颖的基于边缘的图像隐写术,具有 2k 校正和霍夫曼编码
DOI:10.1016/j.ipl.2015.09.016
发表时间:2016-02
期刊:Information Processing Letters 
影响因子:0.5
作者:Sun Shuliang 
通讯作者:Sun Shuliang
DOI:--
发表时间:2015
期刊:佳木斯大学学报(自然科学版) 
影响因子:--
作者:甘胜进;游文杰;涂开仁 
通讯作者:涂开仁
国内基金
海外基金


 刷新
              刷新
            
















 {{item.name}}会员
              {{item.name}}会员
            

