Abstractive Neural Multi-document Summarization Considering Cross Document Structure

考虑跨文档结构的抽象神经多文档摘要

基本信息

  • 批准号:
    21H03495
  • 负责人:
  • 金额:
    $ 10.98万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2021
  • 资助国家:
    日本
  • 起止时间:
    2021-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

テキスト内の文間の関係を解析する文書構造解析器は,我々のグループが世界最高性能を達成していたが,引き続き研究開発を継続し,新しい手法を提案することで,現在も世界最高性能を維持している.この分野の技術の進歩を明確にできるよう,既存の上向き,下向きの解析戦略と最新の事前学習済み言語モデルを組み合わせることで強いベースライン解析器を構築した.この解析器を評価した結果,解析戦略には大きな差がなく,トークンではなくスパンのマスキングを採用した事前学習済み言語モデルが有効であることが分かった.特に,DeBERTa を用いると世界最高性能を達成した.また,十分な量の学習データを確保できないことにより,文間の修辞構造解析の性能は文内と比較して大幅に低く,下流タスクにとって大きな問題となっている.これを解決するため,学習データを逆翻訳することで得た擬似正解データを用いて解析器を事前学習し,正解データを用いて追加学習する手法を提案した.シフト還元法による上向き解析器,スパン分割による下向き解析器に提案法を適用し,標準的ベンチマークデータセットであるRST-DT,Instr-DT を用いて評価した結果,疑似正解データを用いることで Standard-ParsEval のスコアが約 1-2 ポイント向上することを確認した.
Between テ キ ス ト の article within の masato is を parsing す parser は る document construction, I 々 の グ ル ー プ が を reached the world's highest performance し て い た が, lead き 続 き research open 発 を 継 続 し, new し い technique proposed を す る こ と で, も now the world's highest performance を maintain し て い る. の こ の eset の technology into step を clear に で き る よ う, existing to き の, next to the き の parsing 戦 slightly と latest の prior learning 済 み words モ デ ル を group み close わ せ る こ と で strong い ベ ー ス ラ イ ン parser を build し た. こ の parser を review 価 し た results, analytic 戦 slightly に は big き な poor が な く, ト ー ク ン で は な く ス パ ン の マ ス キ ン グ を using し た prior learning 済 み words モ デ ル が have sharper で あ る こ と が points か っ た. Special に, DeBERTa を achieved た with the world 's highest performance を. ま た, very な の learning デ ー タ を ensure で き な い こ と に よ り, wen の rhetorical structure between の は performance in と compare し て に sharply lower く, obscene タ ス ク に と っ て big き な problem と な っ て い る. こ れ を solve す る た め, learning デ ー タ を inverse turn 訳 す る こ と で have た quasi truth デ ー タ を with い て parser を し prior learning, positive solution デ ー タ を with い て additional learning す る technique proposed を し た. シ フ ト element method also に よ る to き parser, ス パ ン segmentation に よ る next to き parser に を applicable し proposal method, standard ベ ン チ マ ー ク デ ー タ セ ッ ト で あ る RST - DT, Instr - DT を with い て review 価 し た results, Suspected positive solution デ ー タ を with い る こ と で Standard - ParsEval の ス コ ア が about 1-2 ポ イ ン ト upward す る こ と を confirm し た.

项目成果

期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Abstractive Document Summarization with Word Embedding Reconstruction
  • DOI:
    10.26615/978-954-452-072-4_178
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jingyi You;Chenlong Hu;Hidetaka Kamigaito;Hiroya Takamura;M. Okumura
  • 通讯作者:
    Jingyi You;Chenlong Hu;Hidetaka Kamigaito;Hiroya Takamura;M. Okumura
A Simple and Strong Baseline for End-to-End Neural RST-style Discourse Parsing
  • DOI:
    10.48550/arxiv.2210.08355
  • 发表时间:
    2022-10
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Naoki Kobayashi;T. Hirao;Hidetaka Kamigaito;M. Okumura;M. Nagata
  • 通讯作者:
    Naoki Kobayashi;T. Hirao;Hidetaka Kamigaito;M. Okumura;M. Nagata
逆翻訳を利用したデータ拡 張による文間の修辞構造解析の改善
通过使用反向翻译扩展数据来改进句子之间的修辞结构分析
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    前川在;小林尚輝;平尾努;上垣外英剛;奥村学
  • 通讯作者:
    奥村学
言語モデルと解析戦略の 観点からの修辞構造解析器の比較
从语言模型和分析策略角度比较修辞结构分析器
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    小林尚輝;平尾努;上垣外英剛;奥村学;永田昌明
  • 通讯作者:
    永田昌明
Neural RST-Style Discourse Parsing Exploiting Agreement Sub-trees as Silver Data
神经 RST 风格的话语解析利用协议子树作为白银数据
  • DOI:
    10.5715/jnlp.29.875
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    小林尚輝;平尾努;上垣外英剛;奥村学;永田昌明
  • 通讯作者:
    永田昌明
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

奥村 学其他文献

対話型意見収集システムの評価方法の検討
交互式意见收集系统评价方法的思考
Automatic Extraction of Travel Blog Entries
自动提取旅游博客条目
  • DOI:
    10.18996/kenkyu2016390305
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    藤井 一輝;難波 英嗣;竹澤 寿幸;石野 亜耶;奥村 学;倉田 洋平;石野 亜耶
  • 通讯作者:
    石野 亜耶
分散表現による語義曖昧性解消の領域適応
使用分布式表示的词义消歧领域适应
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    鈴木 翔太;古宮 嘉那子;佐々木 稔;新納 浩幸;奥村 学
  • 通讯作者:
    奥村 学
複数のソーシャルメディアアカウントの関連付け防止システムの構築
建立防止多个社交媒体帐户关联的系统
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    木原 裕二;笹野 遼平;高村 大也;奥村 学
  • 通讯作者:
    奥村 学
埒外の生態学にむけて―寄生と依存が生み出す社会
走向国界之外的生态:一个由寄生和依赖创造的社会
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    曹 国林;高村 大也;奥村 学;佐藤洋一郎;内藤直樹
  • 通讯作者:
    内藤直樹

奥村 学的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('奥村 学', 18)}}的其他基金

大規模事前学習モデルを活用した生成型複数テキスト要約に関する研究
使用大规模预训练模型的生成式多文本摘要研究
  • 批准号:
    24K02997
  • 财政年份:
    2024
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
日タイブログを対象とした多観点言語横断ブログ検索
针对日语和泰语博客的多语言跨语言博客搜索
  • 批准号:
    08F08365
  • 财政年份:
    2008
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
対話に基づく意見収集・分析システムの構築に向けて
构建基于对话的意见收集与分析体系
  • 批准号:
    18650031
  • 财政年份:
    2006
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
blog上の意見分析のためのblogへの属性付与
为博客添加属性以进行博客观点分析
  • 批准号:
    18049025
  • 财政年份:
    2006
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
検索結果の知的提示手法に関する研究
搜索结果智能呈现方法研究
  • 批准号:
    05F05281
  • 财政年份:
    2005
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
情報に対する注目と価値判断のモデル化
建模对信息和价值判断的关注
  • 批准号:
    15650022
  • 财政年份:
    2003
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
仮想世界のキャラクタを用いた動作生成と身体的理解の研究
使用虚拟世界角色进行动作生成和物理理解的研究
  • 批准号:
    02F00607
  • 财政年份:
    2002
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Web上のテキストデータを対象とした複数テキスト要約に関する研究
网络文本数据的多文本摘要研究
  • 批准号:
    14019036
  • 财政年份:
    2002
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
自然言語処理技術を応用した外国語自習支援システムに関する研究
应用自然语言处理技术的外语自学支持系统研究
  • 批准号:
    12040217
  • 财政年份:
    2000
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (A)
談話情報付きコーパスの構築とそれを用いた談話解析に関する研究
语篇信息语料库构建及语篇分析研究
  • 批准号:
    08837009
  • 财政年份:
    1996
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)

相似海外基金

大規模事前学習モデルを活用した生成型複数テキスト要約に関する研究
使用大规模预训练模型的生成式多文本摘要研究
  • 批准号:
    24K02997
  • 财政年份:
    2024
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Web上のテキストデータを対象とした複数テキスト要約に関する研究
网络文本数据的多文本摘要研究
  • 批准号:
    14019036
  • 财政年份:
    2002
  • 资助金额:
    $ 10.98万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了