课题基金基金详情
基于中文文本挖掘技术的SIPO专利知识演化分析
结题报告
批准号:
61272370
项目类别:
面上项目
资助金额:
20.0 万元
负责人:
丁堃
依托单位:
学科分类:
F0211.信息检索与社会计算
结题年份:
2013
批准年份:
2012
项目状态:
已结题
项目参与者:
林鸿飞、杨志豪、赵铭伟、林德明、王贤文、高继平、刘盛博、林原、张春博
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
专利是技术知识最有效的载体,专利知识演化图谱的构建将会极大地提升专利的应用价值。项目的宗旨是:综合运用文本挖掘技术,从知识主体和知识客体两个视角,进行面向专题的专利知识演化分析。首先,对于给定的用户需求,构建相应的领域本体,用于术语识别和查询扩展,检索国家专利数据库SIPO,建立专题数据库;然后,给出专利的逻辑表示,定义专利知识的细粒度表示<Feature,Effect>、<Effect,Value>,利用命名实体识别、属性抽取、语义标注等技术,填充专利的Feature、Effect和Value值框架,将非结构化信息转化为可以量化的知识单元。在专利知识相似度和新颖度基础上进行专利的主题聚类;最后,构造基于知识主体的竞争网络和基于知识客体的共词网络,按照时间维度,研制专利知识演化图谱,进行热点专利识别、专利机会发现和专利趋势预测,建立可视化的专利挖掘平台。
英文摘要
Nowadays Patent is rich in the information of knowledge and plays an import role in economy. The construction of map of patent knowledge evolution arises the value of application greatly. The aim for this proposal is to do deeply research on patent knowledge evolution based on text mining from the viewpoint of knowledge subject and object. Firstly, the domain ontology is constructed using users demand, and it is used for term identification and query expansion. The domain patent dataset is retrieved from SIPO(Chinese Patent Database) with query. Secondly, The representation of patent knowledge is presented with the form of < Feature,Effect > and < Effect,Value > in order to convert the unstructed information into knowledge unit with metrics , and the key issue is to filled the framework of knowledge using named entity identification, attribution extraction and semantic annotation. The patent theme is clustered from similarity and novelty. Finally, competition network of knowledge subject and co-word network of knowledge object are built up, and the map of patent evolution is drawn by time dimension to discovery chance and forecast the trend. The visual platform of patent knowledge mining is developed.
专利是技术知识最有效的载体,专利知识挖掘将会极大地提升专利的应用价值。项目主要目的是综合运用知识计量、文本挖掘、自然语言处理技术,以国家专利数据库SIPO为载体,进行面向专题的专利知识演化分析。首先,给出了专利的逻辑表示,相对于通常的信息抽取,根据专利领域特性,构建了专利知识的细粒度表示,将专利摘要文本表示技术特征和特征值的序列,即< Patent Frame>表示为若干个<Feature,Value>,利用命名实体识别、属性抽取、语义标注等技术,填充专利<Feature,Value>,从而将非结构化信息转化为可以量化的知识单元,实现了更为精细化的检索和分析。然后,在专利逻辑表示的基础上,提出了基于有序聚类和主题模型的专利知识演化分析方法,得到了所关心领域的不同发展历史阶段和不同阶段的主题聚类。在每个时间段内部,专利技术具有较强的内聚性,围绕相关的主题展开。不同时间段之间耦合性降低,表现为不同时期的专利热点的变化,有序聚类可以合理的表示技术发展的阶段。在前面演化分析的基础上,根据词语共现和时间因素构建词语关联图,从而基于小世界理论进行专利机会预测。实验显示,该方法能够发现潜在的专利机会。最后,建立可视化的中文专利挖掘平台,并将其中主要的文本挖掘方法拓展到到专利、生物、引文网络中。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:--
发表时间:2013
期刊:江西师范大学学报(自然科学版)
影响因子:--
作者:杨海天;王健;林鸿飞
通讯作者:林鸿飞
DOI:--
发表时间:2013
期刊:情报学报
影响因子:--
作者:刘盛博;丁堃;刘则渊
通讯作者:刘则渊
DOI:--
发表时间:2013
期刊:江西师范大学学报(自然科学版)
影响因子:--
作者:何文译;林鸿飞;杨亮
通讯作者:杨亮
Extracting drug-drug interaction from the biomedical literature using a stacked generalization-based approach.
使用基于堆叠泛化的方法从生物医学文献中提取药物相互作用
DOI:10.1371/journal.pone.0065814
发表时间:2013
期刊:PloS one
影响因子:3.7
作者:He L;Yang Z;Zhao Z;Lin H;Li Y
通讯作者:Li Y
DOI:--
发表时间:2013
期刊:江西师范大学学报(自然科学版)
影响因子:--
作者:于凤英;杨志豪;林鸿飞
通讯作者:林鸿飞
基于引用极性和评论挖掘的论文综合评价模型研究
  • 批准号:
    61772103
  • 项目类别:
    面上项目
  • 资助金额:
    63.0万元
  • 批准年份:
    2017
  • 负责人:
    丁堃
  • 依托单位:
国内基金
海外基金