Constructing Reading Comprehension Datasets to Evaluate Discourse-level Language Understanding

构建阅读理解数据集以评估话语级语言理解

基本信息

  • 批准号:
    22K17954
  • 负责人:
  • 金额:
    $ 2.91万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2025-03-31
  • 项目状态:
    未结题

项目摘要

2021年度後半から2022年度にかけて大規模なパラメータ数からなるアーキテクチャを大規模なコーパスの上で訓練することで構築した大規模言語モデルと呼ばれるシステムを基礎にした研究が急増している。そのなかで、本研究はとくに文の相互関係の理解に注目し、説明性の高い談話的文章理解を問う評価用データセットの構築を目指している。高度化したシステムの振る舞いを評価するにあたって単文にとどまらない複数の文の理解を総合的に問うアプローチは重要性が高く、集中的に取り組まれる必要がある。大規模言語モデルの発展と軌を一にして、言語理解の評価用のデータセットも多様化・大規模化する傾向があり、現状のデータセットで何が取り組まれており、現状のシステムに何ができるのか、広範で正確な調査が必要とされている。初年度においてはこうした進展を踏まえた文献調査を進めながら、システム分析・簡易的なデータセット作成を通した状況把握に努めた。具体的には、読解問題における文章に含まれる表面的な特徴が文章読解システムの振る舞いのどのような影響を与えているのかを調査した。また、日付情報の理解や常識推論の理解をシステムに問うことを通して、複数の文を同時に理解しなければならないタスクでシステムが適切に振る舞うことができるのかを調査した。このような予備的な調査を通して、今後文間の理解を正確に評価するタスクをデザインする上で重要になる知見などを収集した。
2021 second half か ら 2022 に か け て large-scale な パ ラ メ ー タ number か ら な る ア ー キ テ ク チ ャ を large-scale な コ ー パ ス の on training で す る こ と で build し た mass speech モ デ ル と shout ば れ る シ ス テ ム を based に し た research が urgent raised し て い る. そ の な か で, this study は と く に article の に attention し masato is の understanding, illustrative の high い conversation article understanding を ask う review 価 use デ ー タ セ ッ ト の build を refers し て い る. Vibration し empirically た シ ス テ ム の る dance い を review 価 す る に あ た っ て 単 article に と ど ま ら な い plural の article の understand を 総 に of q う ア プ ロ ー チ high importance は が く, concentrated に take り group ま れ る necessary が あ る. Mass speech モ デ ル の 発 exhibition と rail を に し て, speech understanding の review 価 の デ ー タ セ ッ ト も others in turn, more large scale す る tendency が あ り, status の デ ー タ セ ッ ト で what が group take り ま れ て お り, status の シ ス テ ム に what が で き る の か, hiroo van で な investigation right が necessary と さ れ て い る. Early annual に お い て は こ う し た progress tread を ま え た を literature investigation into め な が ら, シ ス テ ム analysis, simple な デ ー タ セ ッ ト made を tong し た conditions hold に Mr め た. Specific に は, 読 solutions に お け に contain ま る article れ る surface of な 徴 が article 読 solution シ ス テ ム の vibration る dance い の ど の よ う な influence を and え て い る の か を survey し た. ま た, paid intelligence の understanding や common sense reasoning の を シ ス テ ム に asked う こ と を tong し て, plural の を に understanding at the same time し な け れ ば な ら な い タ ス ク で シ ス テ ム が appropriate vibration に る dance う こ と が で き る の か を survey し た. な こ の よ う な reserve survey を tong し て, future の understanding between を に correct evaluation 価 す る タ ス ク を デ ザ イ ン す る で important に な る knowledge な ど を 収 set し た.

项目成果

期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Possible Stories: Evaluating Situated Commonsense Reasoning under Multiple Possible Scenarios
  • DOI:
    10.48550/arxiv.2209.07760
  • 发表时间:
    2022-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Mana Ashida;Saku Sugawara
  • 通讯作者:
    Mana Ashida;Saku Sugawara
Penalizing Confident Predictions on Largely Perturbed Inputs Does Not Improve Out-of-Distribution Generalization in Question Answering
惩罚对严重扰动输入的置信预测并不能改善问答中的分布外泛化
Which Shortcut Solution Do Question Answering Models Prefer to Learn?
问答模型更喜欢学习哪种捷径?
Look to the Right: Mitigating Relative Position Bias in Extractive Question Answering
向右看:减轻抽取式问答中的相对位置偏差
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

菅原 朔其他文献

菅原 朔的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('菅原 朔', 18)}}的其他基金

状況モデルの形式化に基づく自然言語読解システムの構築
基于情境模型形式化的自然语言阅读理解系统构建
  • 批准号:
    18J12960
  • 财政年份:
    2018
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

MFB: Better Homologous Folding using Computational Linguistics and Deep Learning
MFB:使用计算语言学和深度学习更好的同源折叠
  • 批准号:
    2330737
  • 财政年份:
    2024
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Standard Grant
Conference: Doctoral Consortium at Student Research Workshop at the Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL)
会议:计算语言学协会 (NAACL) 北美分会年会学生研究研讨会上的博士联盟
  • 批准号:
    2415059
  • 财政年份:
    2024
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Standard Grant
Conference: Doctoral Consortium at Student Research Workshop at the Annual Meeting of the Association for Computational Linguistics
会议:计算语言学协会年会学生研究研讨会上的博士联盟
  • 批准号:
    2307288
  • 财政年份:
    2023
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Standard Grant
Conference: Training the US Computational Linguistics Team
会议:培训美国计算语言学团队
  • 批准号:
    2329963
  • 财政年份:
    2023
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Standard Grant
WORKSHOP: Doctoral consortium at Student Research Workshop at the North American Chapter of the Association for Computational Linguistics
研讨会:计算语言学协会北美分会学生研究研讨会上的博士联盟
  • 批准号:
    2225202
  • 财政年份:
    2022
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Standard Grant
発声運動学習が音声認識学習に与える影響に関する計算言語学的研究
发声运动学习对语音识别学习影响的计算语言学研究
  • 批准号:
    21K17805
  • 财政年份:
    2021
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Natural Language Processing and Computational Linguistics - Discourse Parsing and Summarization
自然语言处理和计算语言学 - 语篇解析和摘要
  • 批准号:
    566113-2021
  • 财政年份:
    2021
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Alexander Graham Bell Canada Graduate Scholarships - Master's
微分幾何学と計算言語学に基づくデザイン言語学の構築
基于微分几何和计算语言学的建筑设计语言学
  • 批准号:
    21H03765
  • 财政年份:
    2021
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Quantum Computing for Computational Linguistics
计算语言学的量子计算
  • 批准号:
    2407119
  • 财政年份:
    2020
  • 资助金额:
    $ 2.91万
  • 项目类别:
    Studentship
Characterizing Episodes of Lucidity in Dementia Using Observational and Applied Computational Linguistics Approaches
使用观察和应用计算语言学方法表征痴呆症的清醒发作
  • 批准号:
    10266124
  • 财政年份:
    2020
  • 资助金额:
    $ 2.91万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了