古典漢文依存文法コーパスにもとづく係り受け構造の自動抽出

基于文言依存语法语料库的依存结构自动提取

基本信息

  • 批准号:
    20H04481
  • 负责人:
  • 金额:
    $ 11.15万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2020
  • 资助国家:
    日本
  • 起止时间:
    2020-04-01 至 2023-03-31
  • 项目状态:
    已结题

项目摘要

本研究は、これまでわれわれがおこなってきた古典漢文の形態素解析および依存文法解析を、さらにもう一歩進めて、古典漢文の構文解析へとつなげることを目的とする。現在のところ、現代中国語に対しては、このような形態素解析・構文解析の研究がおこなわれているものの、古典漢文に対しては、われわれを除いてほとんど手つかずの状態である。本研究によって、古典漢文の係り受け構造を、単語と単語の間、節と節の間、さらには文と文の間にまで自動抽出できるようになれば、白文のままで放置されている大量の古典漢文テキストを、コンピュータを用いて自然言語処理できる可能性が、さらに進むと考えられる。本研究では、古典漢文に対し形態素解析と依存文法解析をおこなった上で、単語と単語の間の係り受け関係、節と節の間の係り受け関係、文と文の間の係り受け関係を、自動抽出する手法の構築をおこなう。この手法を構築するために、各レベル(単語・節・文)での係り受け関係を記述するための文法と、その文法にもとづくTreebankの構築を並行しておこない、単語・節・文の順に、係り受け関係を自動抽出する手法を完成する予定である。本年度(2021年度)は、古典中国語の言語モデルであるRoBERTa-Classical-Chinese (baseモデルおよびlargeモデル)をファインチューニングする形で、白文から文と節を切り出す手法について研究をおこない、それらの係り受け解析に挑戦した。具体的には、系列ラベリングにより文の切れ目を抽出し、同時に品詞付与と係り受け解析をおこなうことで、節レベルでの係り受け解析までは、かなりの精度でおこなえるようになった。また、これまでの成果を論文『古典中国語(漢文)Universal Dependenciesとその応用』として、情報処理学会論文誌2022年2月号に掲載した。
这项研究旨在对我们迄今为止一直在进行的中文文本进行形态学和依赖的语法分析,并导致对古典中文文本的句法分析。目前,尽管已经针对现代中国人进行了这种形态学和句法分析,但除我们以外,古典中国人几乎没有受到影响。如果这项研究允许在单词,从句甚至句子之间自动提取古典中文文本的结构,那么这将进一步提高许多可以使用计算机处理白色句子的无人看管的古典中文文本的可能性。在这项研究中,对古典文本进行了形态分析和依赖的语法分析,然后是一种自动提取单词和单词之间的关系,条款之间的关系以及句子之间的关系的方法。要构建此方法,我们计划完成一种方法,该方法通过基于语法(并行构造Treebank)来自动提取与每个级别(单词,条款和句子)相关的关系,并自动根据单词,条款和句子的顺序自动提取彼此相关的关系。今年(2021年),我们使用经典中文模型Roberta-Classical-Chinese(基本模型和大型模型)的微调进行了微调,并尝试分析这些员工。具体而言,通过提取句子突破序列标记,言论和表演部分分析,可以执行相当多的准确性,直到在截面级别进行言论的一部分分析为止。此外,本文的结果已发表在2022年2月的《信息处理科学学会杂志》上,如“普遍依赖性及其应用”的论文。

项目成果

期刊论文数量(17)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Universal Dependenciesにもとづく多言語係り受け可視化ツールdeplacy
deplacy,基于通用依赖关系的多语言依赖关系可视化工具
カレル大学(チェコ)
查理大学(捷克共和国)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
世界のUniversal Dependenciesと係り受け解析ツール群
世界通用的依赖关系和依赖分析工具
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    M. Hosoi;T. Mizoguchi;T. Hinokihara;H. Matsuura;and M. Ogata;安岡孝一
  • 通讯作者:
    安岡孝一
「古典中国語のコーパスの研究」共同研究班ログ
“文言语料库研究”联合课题组日志
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
北京理工大学/南京農業大学(中国)
北京工业大学/南京农业大学(中国)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

安岡 孝一其他文献

安岡 孝一的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('安岡 孝一', 18)}}的其他基金

古典漢文依存文法コーパスから日本漢文コーパスへの展開
从文言依存语法语料库到日语汉语语料库的发展
  • 批准号:
    23K28379
  • 财政年份:
    2024
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
古典漢文依存文法コーパスから日本漢文コーパスへの展開
从文言依存语法语料库到日语汉语语料库的发展
  • 批准号:
    23H03690
  • 财政年份:
    2023
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Study of Hierarchic Decipherment Model of Early Japanese Hanzi Dictionaries under Digital Humanities
数字人文下早期日语汉字词典的分层破译模型研究
  • 批准号:
    17F17301
  • 财政年份:
    2017
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

古典漢文依存文法コーパスから日本漢文コーパスへの展開
从文言依存语法语料库到日语汉语语料库的发展
  • 批准号:
    23K28379
  • 财政年份:
    2024
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
古典漢文依存文法コーパスから日本漢文コーパスへの展開
从文言依存语法语料库到日语汉语语料库的发展
  • 批准号:
    23H03690
  • 财政年份:
    2023
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
中国における日本漢文学の受容に関する総合的研究
日本中国文学在中国的接受情况综合研究
  • 批准号:
    22K00305
  • 财政年份:
    2022
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
新学習指導要領下における、高等学校国語の新しい古典教育研究
新课程纲要下的高中日语新古典教育研究
  • 批准号:
    21K02253
  • 财政年份:
    2021
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
新学習指導要領に基づく万葉集教材の研究
基于新课程纲要的万叶术教材研究
  • 批准号:
    21K02173
  • 财政年份:
    2021
  • 资助金额:
    $ 11.15万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了