面向目标代码的软件抄袭检测及证据生成方法研究

批准号:
61702414
项目类别:
青年科学基金项目
资助金额:
25.0 万元
负责人:
田振洲
依托单位:
学科分类:
F0203.软件理论、软件工程与服务
结题年份:
2020
批准年份:
2017
项目状态:
已结题
项目参与者:
马小博、范铭、佟菲菲、张福涛、王海波、王星、杨为惠
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
软件抄袭已成为软件生态环境健康发展的威胁之一。而通常情况下源码的缺失、大量自动化混淆技术和工具的出现、抄袭与检测过程的信息不对称等,使得软件抄袭检测成为一项非常有挑战性的任务。针对现有方法暴露的源码依赖、抗混淆能力弱、难以应对部分抄袭、证据缺失等问题,项目拟结合当下主流的基于软件胎记的抄袭检测技术框架,通过优化已有的胎记构建-比较-检测阶段,引入新的抄袭证据生成阶段,形成四段式的抄袭检测及证据生成方案。具体需研究:1)行为和语义感知的函数级胎记构建和相似性比较方法;2)基于多胎记优势互补的抄袭检测方法;3)基于证据图和抄袭手段推断的抄袭证据生成方法;从而提出面向目标代码的、混淆对抗、支持部分抄袭检测、具备证据生成能力的软件胎记新技术。项目的实施将进一步完善现有软件胎记技术的理论方法体系,贡献更具现实应用价值的抄袭检测技术和工具,推进软件知识产权保护及其相关领域的研究进展。
英文摘要
Software plagiarism has become a serious threat to the healthy development of the software ecosystem. Yet, the unavailability of source code, the burst of mature automated code obfuscation techniques and tools, and the information asymmetry between the plagiarism and detection processes, are a few reasons making plagiarism detection a daunting task. Existing software plagiarism detection methods expose from different aspects limitations, such as require access to the source code, not resilient against code obfuscations, can not handle partial plagiarisms, and provide little evidence of plagiarism. On the basis of the popular software birthmark based plagiarism detection framework, we attempt to extend it to a four-phase detection and evidence generation framework, by optimizing the existing birthmark construction, comparison and plagiarism detection phases, as well as introducing a new phase-evidence generation. Novel object code oriented and obfuscation resilient software birthmarking methods that support partial plagiarism detection as well as evidence generation of plagiarism shall be proposed, by studying 1) behavior and semantics aware function-level birthmark construction and matched birthmark similarity comparison methods; 2) enhanced detection methods utilizing the complementary advantages of different birthmarks; 3) plagiarism evidence generation methods based on the construction of evidence graphs and the inference of possible plagiarism means. Through the implementation of the project, further improved theoretical system of software birthmarking and more practical plagiarism detection techniques and tools can be expected, which help promote the researches on software intellectual property protection and relevant fields.
随着开源软件的蓬勃发展,软件抄袭亦成为软件生态环境健康发展的威胁之一。针对现有抄袭检测方法暴露的源码依赖、抗混淆能力弱、难以应对部分抄袭、证据缺失等问题,本研究结合软件胎记技术的基本框架,以程序的目标代码为分析对象,通过语义感知的动静态程序行为分析和代码表示学习,实现混淆对抗和交织对抗的软件胎记构建;通过多种胎记的有机融合,进一步增强检测方法对抗复杂代码混淆的能力;通过实施可疑函数对装配和抄袭手段逆向推断,突破抄袭证据的生成问题。基于上述思路,在胎记构建和相似性比较阶段,提出了两种行为和语义感知的动态软件胎记,分别利用抽象序列比对和频繁模式挖掘,从程序多次执行对应的执行轨迹集中挖掘可有效对抗线程交织干扰的行为模式,构建了motifs胎记和FPBirth胎记;为支持局部抄袭的检测,在函数控制流图的基础上进行路径提取、约减及抽象,构建了函数级胎记RSPB。对于胎记优势互补机制的研究,提出了一种基于孪生神经网络的代码表示学习方法,实现多种胎记技术的有机融合,提升对抗代码混淆的能力及抄袭检测性能。在抄袭证据生成方面,提出基于调用依赖关系引导进行可疑函数匹配并装配成证据图的证据生成方法;同时,提出了一种编译器识别方法NeuralCI,其利用深度神经网络逆向推断出用于生成程序目标代码的编译器家族、编译选项、编译器版本等,具备极高的检测精度。项目共发表论文13篇,申请国家发明专利2项。项目的实施完善了现有软件胎记技术的理论方法体系,提出的检测方法和研制的原型系统,可为软件知识产权保护领域提供直接的技术支撑,且有望推广应用到代码搜索、软件漏洞挖掘、恶意软件识别和分类等安全相关领域。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
A Cost-Efficient Virtual Sensor Management Scheme for Manufacturing Network in Smart Factory
一种经济高效的智能工厂制造网络虚拟传感器管理方案
DOI:10.6688/jise.201909_35(5).0009
发表时间:2019
期刊:Journal of Information Science and Engineering
影响因子:1.1
作者:Gao Cong;Tian Zhenzhou;Chen Yanping;Wang Zhongmin
通讯作者:Wang Zhongmin
Plagiarism Detection of Multi-Threaded Programs via Siamese Neural Networks
通过连体神经网络进行多线程程序抄袭检测
DOI:10.1109/access.2020.3021184
发表时间:2020
期刊:IEEE Access
影响因子:3.9
作者:Tian Zhenzhou;Wang Qing;Gao Cong;Chen Lingwei;Wu Dinghao
通讯作者:Wu Dinghao
DOI:10.7544.issn1000-1239.2020.20180871
发表时间:2020
期刊:计算机研究与发展
影响因子:--
作者:田振洲;王宁宁;王清;高聪;刘烃;郑庆华
通讯作者:郑庆华
Plagiarism Detection of Multi-threaded Programs using Frequent Behavioral Pattern Mining
使用频繁行为模式挖掘的多线程程序抄袭检测
DOI:10.1142/s0218194020400252
发表时间:2021
期刊:International Journal of Software Engineering and Knowledge Engineering
影响因子:0.9
作者:Zhenzhou Tian;Qing Wang;Cong Gao;Lingwei Chen;Dinghao Wu
通讯作者:Dinghao Wu
Can We Trust Your Explanations? Sanity Checks for Interpreters in Android Malware Analysis
我们可以相信你的解释吗?
DOI:10.1109/tifs.2020.3021924
发表时间:2020
期刊:IEEE Transactions on Information Forensics and Security
影响因子:6.8
作者:Ming Fan;Wenying Wei;Xiaofei Xie;Yang Liu;Xiaohong Guan;Ting Liu
通讯作者:Ting Liu
基于架构无关指令嵌入的代码跨模相似性度量学习方法研究
- 批准号:--
- 项目类别:面上项目
- 资助金额:54万元
- 批准年份:2022
- 负责人:田振洲
- 依托单位:
国内基金
海外基金
