Deepening linguistic analysis methods for understanding and utilizing real documents

深化理解和利用真实文档的语言分析方法

基本信息

  • 批准号:
    22K19818
  • 负责人:
  • 金额:
    $ 4.08万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-06-30 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

現在の自然言語処理は、入力単位としてトークンの並びである「文」または「文の集合」を想定している。しかし、現実の文書には、レイアウト構造や表示スタイルなどが混然一体となって埋め込まれ、読みを支援する「手がかり」として機能している。人間が文書を読む際には、視覚的な入力を通してこのような手がかりを即座に解読して、「文」の意味理解へとつなげていると考えられる。そこで本研究では、文書中に埋め込まれた非言語情報を抽出・活用するための文書解析手法を検討する。具体的には、(1)レイアウトされた文書やインタラクティブなメディア(ウェブ上のフォーム)などの文書全体、(2)文書中の非言語要素(数式など)と対応する説明文(3)言語音意味とは独立の編集的な属性(例:大文字・小文字の違い)の3つの文書構成要素に注目する。そして、これらを分析・モデル化することで、人間の可読性を高めたり、計算機の言語処理性能を向上したりするための手法を開発する。初年度である2022年度は、近年の大規模言語モデルの登場を踏まえて関連分野の調査を行うとともに、上記3つの研究課題に取り組んだ。
Now natural speech processing is not only in the position of force, but also in the position of "text" and "text collection." The structure of the document indicates that the document is mixed with the document, and the document is supported by the document. The human world is full of documents, and the entry force of the visual field is connected. The hand is connected to the seat, and the meaning of the text is understood. This paper discusses the method of extracting non-verbal information from documents The specific words are: (1) the whole document,(2) the non-speech elements in the document (numerical formula),(3) the speech meaning and the independent compilation attributes (e.g., large text, small text and violation), and the three elements of the document. For example, if you want to improve your speech processing performance, you can improve your speech processing performance. In 2022, the large-scale speech contest was launched in recent years, and the research on related fields was carried out. The three research topics mentioned above were selected.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
ディスプレイ操作記録ツールの提案と有効性の検証
显示操作记录工具的提案及有效性验证
Effect of Letter Case on Named Entity Recognition Performance
字母大小写对命名实体识别性能的影响
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

相澤 彰子其他文献

和英著者キーワードからの多言語類語辞書自動構築の試み情報管理
尝试从日英作者关键词和信息管理中自动构建多语言同义词词典
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    高須 淳宏;相原 健郎;相澤 彰子
  • 通讯作者:
    相澤 彰子
On calculating word similarity using large text corpora
利用大文本语料库计算单词相似度
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shunsuke;Tanaka;Naomi;Fujimura;相澤 彰子;Akiko Aizawa
  • 通讯作者:
    Akiko Aizawa
言い換え技術の文書レイアウト最適化への応用
释义技术在文档布局优化中的应用
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    城戸 祐亮;横野 光;トピチ ゴラン;相澤 彰子
  • 通讯作者:
    相澤 彰子
自然言語処理と計算代数の接合による数学問題へのアプローチ(<特集>ロボットは東大に入れるか?)
结合自然语言处理和计算代数解决数学问题的方法(<特辑>机器人能考上东京大学吗?)
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    相澤 彰子;松崎 拓也;穴井 宏和
  • 通讯作者:
    穴井 宏和
共起に基づく類似性尺度
基于共现的相似性度量

相澤 彰子的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('相澤 彰子', 18)}}的其他基金

文書の階層的アラインメントによる分散型知識基盤の構築
通过文档的分层对齐构建分布式知识库
  • 批准号:
    24K03231
  • 财政年份:
    2024
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Natural Language Interface Technology to Support Complex Tasks
支持复杂任务的自然语言接口技术
  • 批准号:
    21H03502
  • 财政年份:
    2021
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
数式を含む文書の検索・利用基盤の構築に関する研究
数学公式文献检索与使用平台的构建研究
  • 批准号:
    21650023
  • 财政年份:
    2009
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
データベース照合に基づくテキスト・エンティティの同定に関する研究
基于数据库匹配的文本实体识别研究
  • 批准号:
    17650035
  • 财政年份:
    2005
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
高並列統計推論による探索問題へのアプローチ
使用高度并行的统计推断来处理搜索问题
  • 批准号:
    08750488
  • 财政年份:
    1996
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
集合分割問題のためのヒューリスティック統計推論の提案と情報検索システムへの適用
集合划分问题的启发式统计推断的提出及其在信息检索系统中的应用
  • 批准号:
    07750468
  • 财政年份:
    1995
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
超平面処理に基づく集団型探索アルゴリズムの研究
基于超平面处理的集体搜索算法研究
  • 批准号:
    06750425
  • 财政年份:
    1994
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
遺伝的アルゴリズムの最適化問題への適用に関する基礎研究
遗传算法在优化问题中的应用基础研究
  • 批准号:
    05750385
  • 财政年份:
    1993
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

種々の統計情報を統合した統計的自然言語解析に関する研究
整合各种统计信息的统计自然语言分析研究
  • 批准号:
    09878066
  • 财政年份:
    1997
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Exploratory Research
文脈自由文法の並列構文解析アルゴリズムと自然言語解析への応用
上下文无关语法并行解析算法及其在自然语言分析中的应用
  • 批准号:
    05780301
  • 财政年份:
    1993
  • 资助金额:
    $ 4.08万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了