基于规则化Boosting算法和度量元选取技术的软件缺陷倾向预测模型

批准号:
61300069
项目类别:
青年科学基金项目
资助金额:
23.0 万元
负责人:
王世海
依托单位:
学科分类:
F0605.模式识别与数据挖掘
结题年份:
2016
批准年份:
2013
项目状态:
已结题
项目参与者:
刘斌、杨顺昆、凌冬怡、黄抚群、王晔、张汇楠
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
作为保证软件质量的重要手段之一,软件缺陷倾向预测模型的构建方法已成为研究者们关注的热点。具有很强模型构建能力的模式识别技术在于软件缺陷倾向预测领域已得到了一定的应用,但受限于软件缺陷数据固有的数据分布不平衡和输入信息(度量元)冗余的特点,现有的基于模式识别的软件缺陷倾向预测模型的性能受到很大制约。传统的非平衡数据学习算法,通过简单地人工样本添加方法进行样本扩充,对扩充样本带来的不确定类标注信息未加处理,并且不具备剔除冗余信息的能力。本项目对Boosting算法的损失函数进行理论研究,通过加入先验信息,对人工样本进行规则化学习,提出适合非平衡数据的损失函数,构造新的Boosting算法,使其能对人工扩充后的非平衡数据进行规则化学习和特征提取,最大程度上挖掘数据所含信息,提高模型精度。最终构建具有度量元选取和针对非平衡数据学习能力的性能优越的软件缺陷倾向预测模型。
英文摘要
Software fault-proneness prediction is an effective approach to make a significent improvement on the qulity of software systems. Patter recogniton methods have revealed a strong modeling ability, and have been applying to software fault-proneness prediction task. BUT how to employ parttern recognition is still an open question, due to the characters of software fault data, imbalance data distribution and information redundancy. Currently,in pattern recognition area, Imbalance data learning is still an open challenge left. Several approaches have been proposed or extended to this with synthetic oversampling technique(SOTE). But, to our best knowledge, none of them take the issue of the synthetic samples with the unserness of labelling (class information) into account. There are many metrics of software have been proposed, in which there is redundant information (noises) for software fault-proneness prediction. In our project we will propose a novel Boosting cost function with introducing prior-knowledges,and building a regularized Boosting algorithm for imbalance data learning, which treats the orignal data and synthetic data separately and also has the feature selection ability. Finally the performance of model will be improved dramaticly in imbalance data learning tasks. Base on the research in this project, finally, we employ the new imbalacne data learning Boosting technique combining feature selection ability to build the software fault-proneness prediction model with the significent improvment on performance.
软件缺陷数据具有极不平衡的分布特性造成了非平衡数据学习问题,给模式识别技术在软件缺陷预测上的应用带来了较大的挑战,项目组深入分析软件度量及缺陷数据,针对软件缺陷数据不平衡问题采取现有的方法SMOTE添加人工样本,总结软件缺陷不平衡数据的数据特性,分析人工样本的不确定性,提出衡量人工样本可信度的方法。针对人工样本的不确定性问题,使模型能够有区别地学习原始样本和人工样本,提出三种人工样本的权重更新方法,第一种方法是修改原AdaBoost算法的损失函数,构造损失函数规则项,并用梯度下降的方法推演了对新的损失函数进行优化的过程,以此来确定具体的算法步骤。第二种方法是将真实样本的权重更新与人工样本的权重更新过程分开,真实样本仍按原来的更新方法进行更新,而人工样本则根据距离其最近的真实少数类的权重和自身的可信度来确定。第三种方法是借鉴了EM算法,把最终的分类模型和数据可信度作为需要学习和优化的目标,在学习的过程中同时对分类模型和样本可信度进行学习,构建一个动态可信度优化模型。最后对算法进行编码实现并在实验平台上同其他算法进行了比较,验证了其有效性,数据结果显示出模型提高了少数类的精度,同时没有造成多数类精度较大程度地下降。针对软件缺陷数据应用过多的度量元影响模型可用性,不相关或者多余的特征导致模型性能的下降问题,研究Boosting特征提取技术,提出基于AdaBoost的特征选取技术,将每个特征定义为一个弱分类器,每轮筛选出一个分类误差最小的弱分类器作为输出,解决不相关特征对软件缺陷倾向预测模型的干扰,提高预测的准确率。这些研究内容及成果为针对非平衡数据学习问题的模式识别算法带来新的理论与技术思路,特征选取技术的应用为揭示软件内部属性与软件所含缺陷风险之间的关系提供了依据,这些还可以为对模式识别技术在其它非平衡数据领域,如医疗诊断,提供通用的理论算法,奠定技术基础。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
A hazard analysis via an improved timed colored petri net with time-space coupling safety constraint
基于时空耦合安全约束的改进定时彩色 Petri 网的危害分析
DOI:10.1016/j.cja.2016.04.016
发表时间:2016-08
期刊:Chinese Journal of Aeronautics
影响因子:5.7
作者:Li Zelin;Wang Shihai;Zhao Tingdi;Liu Bin
通讯作者:Liu Bin
Approach for integrated modular avionics reconfiguration modelling and reliability analysis based on AADL
基于AADL的集成模块化航电重构建模与可靠性分析方法
DOI:10.1049/iet-sen.2014.0179
发表时间:2016-02
期刊:IET SOFTWARE
影响因子:1.6
作者:Zhang Quan;Wang Shihai;Liu Bin
通讯作者:Liu Bin
An Empirical Study for Software Fault-Proneness Prediction with Ensemble Learning Models on Imbalanced Data Sets
不平衡数据集上集成学习模型软件故障倾向预测的实证研究
DOI:10.4304/jsw.9.3.697-704
发表时间:2014-01
期刊:Journal of Software
影响因子:--
作者:Renqing Li, Shihai Wang
通讯作者:Renqing Li, Shihai Wang
An enhanced software defect prediction model with multiple metrics and learners
具有多个指标和学习器的增强型软件缺陷预测模型
DOI:10.1504/ijise.2016.074711
发表时间:2016-02
期刊:International Journal of Industrial and Systems Engineering
影响因子:--
作者:Wang Shihai;He Ping;Li Zelin
通讯作者:Li Zelin
国内基金
海外基金
