基于弱监督学习的细粒度中医临床医学实体识别方法研究
项目介绍
AI项目解读
基本信息
- 批准号:61501063
- 项目类别:青年科学基金项目
- 资助金额:19.0万
- 负责人:
- 依托单位:
- 学科分类:F0125.医学信息检测与处理
- 结题年份:2018
- 批准年份:2015
- 项目状态:已结题
- 起止时间:2016-01-01 至2018-12-31
- 项目参与者:舒红平; 郑皎凌; 唐聃; 文立玉; 高燕; 杜晓宇; 文俊; 郭艳珍; 郭亚玲;
- 关键词:
项目摘要
Medical entity recognition from clinical records of traditional Chinese medicine (TCM) is the key to achieve better understanding of the semi-structure and unstructured clinical records based on computer. Most of the currently existing methods used to recognize medical entities from clinical records of TCM are based on supervised sequential models which need satisfy strong supervision assumption, and they recognize the medical entities directly through chunking in coarse-grained forms. While these methods have some disadvantages that (1) they cannot appropriately and accurately recognize the composite entities which are frequently appear in clinical records of TCM; (2) it is impossible to construct a training dataset which satisfy the strong supervision assumption in practice. Recently, we find that weakly-supervised learning and fine-grained entity recognition methods could be used to cover these disadvantages. Therefore, in this project, we would study on the methods of fine grained medical entity recognition from clinical records of TCM based on weakly-supervised learning. It would provide new ideas and methods for other researchers who are working on medical entity recognition from clinical records of TCM in the field of TCM information acquisition and processing. Moreover, we expect that our research would promote the development of the field.
中医临床医学实体识别是实现计算机准确地理解半结构化和非结构化中医临床记录的关键任务。目前中医临床医学实体识别主要基于需要满足“强监督假设”条件的训练数据,构建有监督序列化模型,采用语块划分的方法直接从中医临床记录中识别粗粒度的医学实体。该类方法存在(1)复合型中医临床医学实体识别结果不能准确表示;(2)充分满足“强监督假设”条件的训练数据在实际条件下难以构建的问题。根据前期研究发现,弱监督学习和细粒度命名实体识别方法是解决中医临床医学实体识别现存问题的重要手段。因此,本课题拟以中医临床记录中的“主诉和现病史”为研究载体,以其中包含的中医临床医学实体(如症状实体、疾病实体等)为研究对象,依据弱监督学习和细粒度命名实体识别方法的框架和最新成果,开展对高效、鲁棒且实用的中医临床医学实体识别模型和算法的研究。从而,为中医临床医学实体识别提供新思路和新方法,推进中医信息获取与处理领域的研究进展。
结项摘要
中医临床医学实体识别是实现计算机精准地理解半结构化和非结构化中医临床临床记录的关键任务。目前,中医临床医学实体识别主要基于需满足“强监督假设”条件的训练数据,构建有监督序列化模型,采用语块划分的方法从中医临床记录中识别中医学实体。该类方法主要存在(1)复合型的中医临床医学实体其层次结构描述不能准确表示,包含的不同粒度和层级的实体描述不能准确识别;(2)在实践中构建专家满意度一致且充分满足“强监督假设”条件的训练数据耗时、费力且难度大。.本项目开展了以中医临床记录中“主诉和现病史”为载体,以其中包含的中医学症状和证候为研究对象,采用远程监督学习实现利用英文词素级“中-英”翻译对齐信息来远程指导中医细粒度命名实体识别;采用主动学习实现仅借助少量的专家标注即完成大量带标注训练数据的构建;采用部分监督学习方法,基于对抗学习框架,实现伪训练样本生成,进而实现主动学习过程中模型的加速训练;基于实例迁移学习方法,借助大规模一般领域的中文文本数据,仅利用有限的中医临床记录数据,训练高质量的中医细粒度实体词嵌入。.通过实验得到以下重要结果:(1)将中医学命名实体的英文翻译词素与中文字的对齐可作为中医细粒度实体分割的含噪声远程指导信息,用于中医临床记录中的细粒度医学实体识别,该方法的F值可达到91.77%,接近采用人工构建同等规模训练数据所能达到的水平;(2)采用主动学习方法可以提升大规模带标注训练数据获取效率,达到同样分词和实体识别性能结果时,仅需要人工标注有监督学习所需数据规模的三分之一,采用对抗学习生成伪训练样例可以加速模型训练,还能够提高F值3%;(3)在中医临床记录数据有限的条件下,采用实例迁移学习方法,借助一般领域中文文本数据,可以提升中医细粒度实体词嵌入学习质量。项目成果为中医临床记录数据有限条件下开展语义表示学习和细粒度命名实体识别研究的开展奠定良好基础。
项目成果
期刊论文数量(3)
专著数量(0)
科研奖励数量(4)
会议论文数量(2)
专利数量(3)
级联式低消耗大规模网页分类在线获取方法
- DOI:--
- 发表时间:2017
- 期刊:计算机应用
- 影响因子:--
- 作者:王亚强;汤铭;曾沁;唐聃;舒红平
- 通讯作者:舒红平
An empirical investigation on fine-grained syndrome segmentation in TCM by learning a CRF from a noisy labeled data
通过从噪声标记数据中学习 CRF 进行中医细粒度证候分割的实证研究
- DOI:10.12720/jait.9.2.45-50
- 发表时间:2018-05-01
- 期刊:Journal of Advances in Information Technology
- 影响因子:1
- 作者:Yaqiang Wang;Dan Tang;Chen Su
- 通讯作者:Chen Su
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--"}}
- 发表时间:{{ item.publish_year || "--" }}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--"}}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:{{ item.authors }}
数据更新时间:{{ patent.updateTime }}
其他文献
油污泥热解残渣处治风积沙路基力学性能研究
- DOI:--
- 发表时间:--
- 期刊:湖南大学学报(自然科学版)
- 影响因子:--
- 作者:冉武平;王亚强;李玲;张珊珊;王帅
- 通讯作者:王帅
基于FY-4A卫星遥感数据分析2021年3次沙尘暴特征
- DOI:--
- 发表时间:2022
- 期刊:气象科技
- 影响因子:--
- 作者:高泽田;胡秀清;张小曳;王亚强
- 通讯作者:王亚强
孤儿G蛋白偶联受体55在糖尿病性胃轻瘫小鼠发病中的作用
- DOI:--
- 发表时间:2014
- 期刊:生理学报
- 影响因子:--
- 作者:王亚强;李国恩;李荟苹;任学群
- 通讯作者:任学群
动脉粥样硬化性脑梗死患者血浆抗凝血酶Ⅲ的变化及其机制
- DOI:--
- 发表时间:2014
- 期刊:中国病理生理杂志
- 影响因子:--
- 作者:王亚强;赵耀亭;李倩一;任学群
- 通讯作者:任学群
天津市中心城区公园绿地可达性与服务评价
- DOI:--
- 发表时间:2013
- 期刊:安徽农业科学
- 影响因子:--
- 作者:王亚强;孙艳玲
- 通讯作者:孙艳玲
其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:{{ item.doi || "--" }}
- 发表时间:{{ item.publish_year || "--"}}
- 期刊:{{ item.journal_name }}
- 影响因子:{{ item.factor || "--" }}
- 作者:{{ item.authors }}
- 通讯作者:{{ item.author }}

内容获取失败,请点击重试

查看分析示例
此项目为已结题,我已根据课题信息分析并撰写以下内容,帮您拓宽课题思路:
AI项目摘要
AI项目思路
AI技术路线图

请为本次AI项目解读的内容对您的实用性打分
非常不实用
非常实用
1
2
3
4
5
6
7
8
9
10
您认为此功能如何分析更能满足您的需求,请填写您的反馈:
相似国自然基金
{{ item.name }}
- 批准号:{{ item.ratify_no }}
- 批准年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}
相似海外基金
{{
item.name }}
{{ item.translate_name }}
- 批准号:{{ item.ratify_no }}
- 财政年份:{{ item.approval_year }}
- 资助金额:{{ item.support_num }}
- 项目类别:{{ item.project_type }}