课题基金基金详情
基于深度学习的零样本和小样本文本过滤技术研究
结题报告
批准号:
61872278
项目类别:
面上项目
资助金额:
65.0 万元
负责人:
李晨亮
依托单位:
学科分类:
F0211.信息检索与社会计算
结题年份:
2022
批准年份:
2018
项目状态:
已结题
项目参与者:
孙爱欣、郑渤龙、田纲、全聪、吴伟、齐燕、孙万捷、段誉、陈诗倩
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
文本过滤已成为文档分析不可缺少的技术手段。这项技术对于大数据时代下的各类应用中的信息检索、商品推荐等服务提供了技术层面的支撑。现有研究工作主要基于监督学习技术,需要借助大量人力去构建类别的训练文档。然而,在大数据时代的背景下,文档可能覆盖的类别数量不断增长,构建所有类别的训练文档是不现实的。本项目旨在通过类别的语义关键词(种子词),研究基于种子词的零样本/小样本学习的文本过滤技术,克服上述的文本种类不断增长和标注文档样本代价昂贵的难题。项目将采用深度学习与信息检索相关技术理论,重点研究:1)基于词向量表示的文本类别关联特征表示学习技术;2)面向零样本的文本类别语义关联信息的提取机制;3)面向小样本的文本语义匹配技术;4)基于零样本文本过滤模型的小样本文本过滤方法。本项研究对于推动文本处理技术的进一步发展以及降低大数据时代构建训练数据成本的需求具有重要的科学意义和应用价值。
英文摘要
Document filtering has become an indispensable technical process for document analysis. This class of techniques provides technical support for information retrieval and recommendation related applications in the era of big data. Existing works mainly develop the filtering solutions in the paradigm of supervised learning, which requires a lot of manually identified documents for each category in their training phase. In the era of big data, the number of possible categories covered by documents becomes constantly larger. It is unrealistic to manually identify a lot of positive examples for each possible category. In this project, our endeavor is devoted to the development of zero/few-shot document filtering techniques based solely on the provided semantic keywords (called seed words) of each category, aiming at reducing the cost for building the expensive training data. Following the deep learning and information retrieval methodologies, we mainly focus on the following research topics: (1) the category-specific relevance representation learning for documents based on word embeddings; (2) zero-shot driven category-specific relevance signal extraction for documents; (3) few-shot driven semantic matching for documents; (4) few-shot document filtering on the basis of zero-shot document filtering model. This project will make significant contributions to the development of text processing techniques and fulfill the requirement on the cost reduction for building training data.
该项目试图从少量代表类别语义信息的单词(简称种子词)出发,利用词向量表示学习、信息检索、自然语言处理以及人工智能中神经网络相关知识和技术,基于种子词针对性地表示文档与对应类别之间的关联特征,通过设计基于深度神经网络的关联度估计模型,从文档中提取目标类别的语义关联信息,实现针对目标类别的零样本文本相关度排序,即文本过滤;与此同时,通过目标领域少量样本,设计面向文本匹配的深度神经网络模型;在零样本文本过滤模型的基础之上,强化文档对于类别的特征信息提取性能,进一步提升文本过滤的性能,实现目标类别领域的零样本/小样本文本过滤目标。通过解决其中涉及的关键科学问题,丰富基于深度学习的文本检索理论,并最终服务于围绕文本信息为主题的各类信息检索、新闻推送、个性化商品推荐以及广告营销等应用。具体而言,该项目以文本过滤任务为研究对象,在给定类别对应的种子词的辅助条件下,建立基于种子词的文档与类别之间关联特征的表示方法;基于深度学习对抗训练方法构建面向零样本的文档类别语义关联信息的提取与融合机制;在零样本文档语义关联信息提取与融合的基础上,借助强化学习理论建立小样本文档类别过滤方法体系,最终实现在训练文档类别有限、以及目标类别标注文档数量有限的情况下,根据类别少量种子词完成类别过滤任务。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Multi-label dataless text classification with topic modeling
具有主题建模的多标签无数据文本分类
DOI:10.1007/s10115-018-1280-0
发表时间:2017-11
期刊:Knowledge and Information Systems (CCF-B类)
影响因子:--
作者:Zha Daochen;Li Chenliang
通讯作者:Li Chenliang
DOI:10.19363/j.cnki.cn10-1380/tn.2021.09.10
发表时间:2021
期刊:信息安全学报 (CCF-B类)
影响因子:--
作者:朱芮;刘布楼;刘艺语;邹鑫雨;李晨亮
通讯作者:李晨亮
An Attention-based Deep Relevance Model for Few-shot Document Filtering
一种基于注意力的深度相关性模型,用于小样本文档过滤
DOI:10.1145/3419972
发表时间:2020-10
期刊:ACM Transactions on Information Systems (CCF-A类)
影响因子:--
作者:Liu Bulou;Li Chenliang;Zhou Wei;Ji Feng;Duan Yu;Chen Haiqing
通讯作者:Chen Haiqing
A Context-Aware User-Item Representation Learning for Item Recommendation
用于项目推荐的上下文感知用户项目表示学习
DOI:10.1145/3298988
发表时间:2019-03-01
期刊:ACM TRANSACTIONS ON INFORMATION SYSTEMS
影响因子:5.6
作者:Wu, Libing;Quan, Cong;Luo, Xiangyang
通讯作者:Luo, Xiangyang
文本驱动的推荐技术
  • 批准号:
    62272349
  • 项目类别:
    面上项目
  • 资助金额:
    54万元
  • 批准年份:
    2022
  • 负责人:
    李晨亮
  • 依托单位:
面向微博的地理兴趣点抽取及其用户行为意图分析研究
  • 批准号:
    61502344
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    21.0万元
  • 批准年份:
    2015
  • 负责人:
    李晨亮
  • 依托单位:
国内基金
海外基金