自然言語処理の応用によるゲノム文献の高度検索システムの構築

应用自然语言处理构建基因组文档的高级搜索系统

基本信息

  • 批准号:
    12208025
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (C)
  • 财政年份:
    2000
  • 资助国家:
    日本
  • 起止时间:
    2000 至 无数据
  • 项目状态:
    已结题

项目摘要

自然言語の文章では,人間にとって理解可能な範囲で頻繁に省略や代名詞化がおこる.この問題は,文章を単語集合として扱っている現在の情報検索でさほど表面化しないが,今後,情報検索を高度化していくためには,省略・代名詞に対する照応詞の同定が必須の要素技術となる.省略・代名詞解析には,用言(動詞,形容詞,名詞+判定詞)ごとに,どのような名詞が主語,目的語(格要素)になるかという情報をまとめた格フレーム辞書が必要となる.しかし,数千から数万の用言について,専門分野における特殊な用法までカバーする大規模で実用的な格フレーム辞書はこれまでのところ存在しなかった.格フレーム自動構築における最大の問題は,用言の意味の多義性である.たとえば「(友達に)なる」と「(病気に)なる」,「(塩,調味料などを)加える」と「(砲撃を)加える」では,同じ動詞でも格フレームのパターンがまったく異なる.この多義性を解消しなければ,格フレームは自動的には構築できない.ここでのポイントは,用言の意味を決定づける重要な名詞は用言の直前にあり,かつそれは文章中で省略されることは比較的少ない,という点である.そこで,用言単独ではなく,用言とその直前の名詞のペア,すなわち「友達になる」や「病気になる」を格フレームの単位とし,そのまわりに他にどのような格要素が存在するかを大量のテキストから学習するという手法を考案した.新聞記事を対象とし,約370万文から格フレームを学習したところ,9,900用言について平均6.0個の格フレームが学習された.さらに,この格フレーム辞書を用いて文章中の省略要素を同定する実験を行ったところ,70%程度の正解率が得られた.この手法は言語独立,分野独立であり,必要となるのはある分野の大量のテキストだけである.今後,ゲノム文献を対象としてこの手法の有効性を確認し,これを検索の高度化につなげていく予定である.
Articles of natural language では, Human world にとって Understanding possible な Fan 囲 で Frequent に Omission や Pronounization がおこる. このQuestion は, Articles 単语Assembling the information now, the information is now surfaced, and from now on, the information will be advanced, the province Omission・Pronoun analysisには, use of words (verb, adjective, noun) + Determinant)ごとに,どのようなNounがSubject, target language (case element)になるかというInformationをまとめた格フレームDictionaryがNecessary usage, thousands of usage, tens of thousands usage, exclusive usage, special usage, large-scale usage The dictionary of な格フレームはこれまでのところ exists しなかった. The grid フレームautomatically constructs におけるthe biggest problemは, the meaning of words The polysemy of flavor is である.たとえば「(佰に)なる」と「( Disease 気に)なる」,「(塩, Seasoning などを)加える」と「 (gun撃を) add える」では, same as verb でも格フレームのパターンがまったくdifferent なる. , grid フレームはautomatic にはconstruct できない.ここでのポイントは, use words to mean をdetermine づけるimportant な noun は use words のstraightにあり,かつそれはでされることは is omitted in the article. Compared with ない, という points to である.そこで, use the words 単多ではなく, Use the words とその正前ののペア, すなわち「Youda になる」や「 sick気になる」を格フレームの単bit とし, そのまわりに His にどのような grid element がexistent するかをa large number of のテキストからlearn するというtechnique をanswer case した.News notes を対向とし, about 3.7 million words of text, 9,900 words of words, an average of 6.0 wordsされた.さらに,この格フレームdictionaryを用いてのomit elements in the articleを同定する実験を行ったところ,70% levelのCorrect answer rate が got られた.このtechniqueはlanguage independence, dividing field independent であり, necessary となるのはある dividing field のlarge amount のテキストだけである. From now on, we will confirm the effectiveness of the ゲノムdocumentation method and the としてこのtechnique, and the これを検検検恮高につなげていく will be determined.

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
河原大輔: "自動構築された格フレーム辞書に基づく省略解析"言語処理学会第7回年次大会. (2001)
Daisuke Kawahara:“基于自动构建的案例框架词典的省略分析”,语言处理学会第七届年会(2001)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Daisuke Kawahara: "Japanese Case Frame Construction by Coupling the Uerb and its Closest Case Component"Proc.of Human Language Technology Conference (HLT01). (2001)
Daisuke Kawahara:“通过耦合 Uerb 及其最近的格组件来构建日语格框架”人类语言技术会议 (HLT01) 的会议记录。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

黒橋 禎夫其他文献

探索点のランク情報に基づく複数の突然変異戦略を導入したDifferential Evolution の提案
基于搜索点排名信息引入多种变异策略的差分进化提案
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    時武 孝介;村脇 有吾;黒橋 禎夫;串田淳一,原章,高濱徹行
  • 通讯作者:
    串田淳一,原章,高濱徹行
曖昧性を含む翻訳に着目したマルチモーダル機械翻訳データセットの構築方法の検討
如何构建针对含歧义翻译的多模态机器翻译数据集的研究
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yihang Li;清水 周一郎;Chenhui Chu;黒橋 禎夫
  • 通讯作者:
    黒橋 禎夫
テキスト生成モデルによる日本語形態素解析
使用文本生成模型进行日语词法分析
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    児玉 貴志;植田 暢大;大村 和正;清丸 寛一;村脇 有吾;河原 大輔;黒橋 禎夫
  • 通讯作者:
    黒橋 禎夫
情報源のアノテーションによる外部知識に基づいた応答の魅力度の分析
使用信息源注释分析基于外部知识的响应的吸引力
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    児玉 貴志;清丸 寛一;Yin-Jou Huang;岡久 太郎;黒橋 禎夫
  • 通讯作者:
    黒橋 禎夫
実世界における総合的参照解析を目的としたマルチモーダル対話データセットの構築
构建多模态交互数据集,用于现实世界的综合参考分析
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    植田 暢大;波部 英子;湯口 彰重;河野 誠也;川西 康友;黒橋 禎夫;吉野 幸一郎
  • 通讯作者:
    吉野 幸一郎

黒橋 禎夫的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('黒橋 禎夫', 18)}}的其他基金

自己組織的手法による辞書知識ベースの作成
使用自组织方法创建词典知识库
  • 批准号:
    11130209
  • 财政年份:
    1999
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (A)
自己組織的手法による辞書知識ベースの作成
使用自组织方法创建词典知识库
  • 批准号:
    10143209
  • 财政年份:
    1998
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (A)
専門分野の知識ベースに対する質問応答システムの作成
为专业知识库创建问答系统
  • 批准号:
    07780319
  • 财政年份:
    1995
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

和漢書テキストデータベースに対する知的情報検索システムの研究開発
日汉文本数据库智能信息检索系统的研发
  • 批准号:
    23K25157
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
IoTネットワーク上の柔軟かつ自律的な情報検索を用いたタスクスケジューリング
在物联网网络上使用灵活自主的信息检索进行任务调度
  • 批准号:
    24K14905
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
コンテンツの受容性を高めるための文書生成AIを用いた情報検索・推薦基盤の構築
利用文档生成AI构建信息搜索/推荐平台,提高内容接受度
  • 批准号:
    24K15197
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
汎用検索モデルに基づく低資源下における情報検索システム構築技術の開発
基于通用搜索模型的低资源条件下信息检索系统构建技术开发
  • 批准号:
    23K28090
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
オンライン購買行動支援の実現に向けた情報要求抽出および適応的情報検索基盤の研究
实现在线购买行为支持的信息需求提取和自适应信息检索基础设施研究
  • 批准号:
    24K03048
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
汎用検索モデルに基づく低資源下における情報検索システム構築技術の開発
基于通用搜索模型的低资源条件下信息检索系统构建技术开发
  • 批准号:
    23H03400
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Investigating the complexity of human information search
研究人类信息搜索的复杂性
  • 批准号:
    578254-2023
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
    Postdoctoral Fellowships
ユーザとコンテンツの関係性表示に基づく受容性を高める情報検索基盤の構築
基于展示用户与内容的关系,构建提高接受度的信息搜索平台
  • 批准号:
    21K12147
  • 财政年份:
    2021
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
情報検索対話における情報仲介者の対話機能のモデル化とその応用に関する研究
信息搜索对话中信息中介对话功能建模及其应用研究
  • 批准号:
    20J14823
  • 财政年份:
    2020
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
How Confidence Influences Information Search Strategies
信心如何影响信息搜索策略
  • 批准号:
    2261863
  • 财政年份:
    2019
  • 资助金额:
    --
  • 项目类别:
    Studentship
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了