面向功能挖掘的代码主题建模技术研究

批准号:
61472007
项目类别:
面上项目
资助金额:
80.0 万元
负责人:
赵俊峰
依托单位:
学科分类:
F0203.软件理论、软件工程与服务
结题年份:
2018
批准年份:
2014
项目状态:
已结题
项目参与者:
谢冰、李萌、叶挺、唐浩、何慧虹、华哲邦、张飞雪、林泽琦
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
代码复用中,开发人员需要理解软件的功能及其代码实现。近年来,基于主题建模技术的代码理解方法成为研究热点之一。现有工作大多将代码作为普通文本,直接利用针对普通文本的主题建模技术,缺少对代码特点的考虑;并且挖掘出的主题语义不明确,多种类型主题混杂在一起,开发人员难以理解与应用。 本项目以功能性主题为核心,研究面向功能挖掘的代码主题建模技术。首先,在针对普通文本的主题建模技术基础上,结合软件代码静态结构与动态行为特点进行改进,提出适合代码的主题建模技术,并研究区分不同类型主题及识别功能性主题的技术;进而,构建主题及其关联实体描述模型,在此基础上研究描述功能性主题语义的技术,并建立主题-主题之间、主题-关联实体之间关联关系。最后,研究基于主题的代码理解、软件分类、领域分析等应用技术,并研制相应的原型系统,利用开源软件数据和企业实践进行技术验证。
英文摘要
Developers need to comprehend the functional concerns of a software system and the corresponding implementations in source code, before they reuse the source code. Recently, topic modeling-based source code comprehension has become one of the research hotspots. Most previous approaches take source code as plain text written in natural languages, and reuse the topic modeling techniques designed for plain text, which neglect the distinct characteristics of source code. It is difficult to determine the semantics of the topics mined from source code, and there are different categories of topics mixed together. Consequently, it is difficult for the developers to comprehend and apply the topics. In this project, we conduct research on topic modeling techniques for mining functional concerns from source code, which is focused on functional topics. Firstly, based on topic modeling techniques for plain text, we carry out improvements utilizing the characteristics of source code to construct new topic modeling techniques that are more suitable for source code, and we conduct research on categorizing topics mined from source code and identifying functional concerns. Then, we propose a new model to describe the topics and its associated artifacts. Based on the model, we further research specific techniques for describing the semantics of functional topics and establishing relationships among topics and its associated artifacts. Finally, we study mechanisms for developers to apply topics in software comprehension, software categorization, domain analysis, etc., implement the prototype system, and evaluate the effectiveness of our approach with open source software data and enterprise practices.
代码复用中,开发人员需要理解软件的功能及其代码实现。基于主题建模技术的代码理解方法已成为近年来研究热点之一。现有工作大多将代码作为普通文本,直接利用针对普通文本的主题建模技术,缺少对代码特点的考虑;并且挖掘出的主题语义不明确,多种类型主题混杂在一起,开发人员难以理解与应用。本项目针对上述问题,以功能性主题为核心,研究了面向功能挖掘的代码主题建模技术。.本项目从互联网上收集了不同类别、不同规模的开源软件项目资源,针对这些资源进行了主题建模技术方面的研究。首先,针对所收集的软工数据高维稀疏的特征,以及其结构化、半结构化的特征,重点开展了主题建模技术的改进方法研究,以及基于改进张量分解技术的稀疏数据处理方法。在针对普通文本的主题建模技术基础上,结合软件代码静态结构与动态行为特点进行了改进,对现有的主题建模技术进行了改进与扩展,使其可以处理多关联关系以及属性值情况的软工数据。.进而,研究了主题建模技术的计算机制、参数设定、主题词权重判定、主题描述自动生成等工作,并结合软件知识图谱构造技术,研究了主题-主题之间、主题-关联实体之间关联关系的构建技术,构建了主题及其关联实体描述模型,在此基础上研究了描述功能性主题语义的技术,研究了基于主题建模技术的代码主题摘要自动生成方法。将所提炼的功能性主题作为知识图谱中的成分加入其中,构建了一个具有可扩展性的、更适合代码特点的主题及其关联实体描述模型,基于此模型,研究了智能检索与问答技术。.最后,基于上述研究,设计并实现了一个基于扩展主题模型的多源数据分析平台,通过所采集的开源项目数据验证了方法的有效性,并将研究成果应用到神州数码等软件企业中,验证了原型工具的实际应用效果。.本项目共发表论文10篇,发布专利2项申请专利1项,获得软件著作权2项,培养1名博士生、4名硕士生,5名本科生。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:10.7544/issn1000-1239.2016.20148325
发表时间:2016
期刊:计算机研究与发展
影响因子:--
作者:林泽琦;赵俊峰;谢冰
通讯作者:谢冰
Mining Patterns of Disease Progression: A Topic-Model-Based Approach
挖掘疾病进展模式:基于主题模型的方法
DOI:10.3233/978-1-61499-678-1-354
发表时间:2016
期刊:Studies in health technology and informatics
影响因子:--
作者:Lingxiao Zhang;Junfeng Zhao;Yasha Wang;Bing Xie
通讯作者:Bing Xie
DOI:10.11896/j.issn.1002-137x.2017.04.008
发表时间:2017
期刊:计算机科学
影响因子:--
作者:李文鹏;赵俊峰;谢冰
通讯作者:谢冰
DOI:doi: 10.3778/j.issn.1673-9418.1609026
发表时间:2017
期刊:计算机科学与探索
影响因子:--
作者:李文鹏;王建彬;林泽琦;赵俊峰;邹艳珍;谢冰
通讯作者:谢冰
DOI:--
发表时间:--
期刊:计算机科学与探索
影响因子:--
作者:唐爽;张灵箫;赵俊峰;谢冰;邹艳珍
通讯作者:邹艳珍
知识增强的“急危重症”智能辅助诊疗模型与技术
- 批准号:62172011
- 项目类别:面上项目
- 资助金额:60万元
- 批准年份:2021
- 负责人:赵俊峰
- 依托单位:
Web Service QoS的多维多尺度模型及评估、预测方法的研究
- 批准号:60803011
- 项目类别:青年科学基金项目
- 资助金额:19.0万元
- 批准年份:2008
- 负责人:赵俊峰
- 依托单位:
国内基金
海外基金
