Intelligent Information Retrieval Systems for Text Databases of Japanese and Chinese Classics

日汉典籍文本数据库智能信息检索系统

基本信息

  • 批准号:
    22H03903
  • 负责人:
  • 金额:
    $ 10.82万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2026-03-31
  • 项目状态:
    未结题

项目摘要

本年度は、和漢書テキストに対する漢文固有表現の抽出と統合を行った。既存の和漢書テキストデータベースは、情報検索機能には十分対応できていない。主な原因は、漢文の文法のため、和漢書テキストの多くには固有名詞の別称や省略が存在し、検索のキーワードと完全に一致する結果しか検出できない。固有名詞の別称を含む結果を検出するため、事前に固有名詞とその別称を和漢書テキストから抽出することが求められる。ただ、現代中国語と異なり、漢文のテキストには句読点がないことが多いため、句読点のないデータを扱うことは困難な課題である。以上の問題に対処するため、トークンフリーの事前学習済みモデルを活用した。これまでの最も広く使用されている事前学習済み言語モデルは、単語や部分単語単位に対応するトークンのシーケンスに作用する。これに対して、トークンフリーのモデルは、生のテキスト(バイトまたは文字)に直接作用し、多くの利点を持っている。例えば、任意の言語のテキストを処理することができ、ノイズに対してより堅牢であり、複雑でエラーが発生しやすいテキスト前処理パイプラインを取り除くことができる。それらの利点を考えて、ByT5というトークンフリーのモデルに基づく漢文の事前学習済み言語モデルを開発し、漢文の固有名詞認識のために学習済みモデルを微調整(fine-tune)した。微調整されたモデルは、既存の手法を大幅に上回る性能を発揮し、いわゆるグラウンドトゥルース(C-CLUE)のエラーさえも訂正できる。初期の結果はDEIM 2023学会で発表された。詳細な研究成果はEMNLP 2023に提出される予定である。さらに、データ統合のため、意味的に等価なコンテンツの識別手法を開発し、研究成果はVLDB 2023学会で発表される予定である。
In the current year, there is an inherent table in the text of this year's report, which shows that the system has been drawn out. The existing information and information systems are in high demand, and the information demand machine is very effective. The main cause, the grammar, and the inherent name of the grammar are known as the omission of existence, and the results are consistent with each other. The inherent name is another name, which contains the results. The results show that the inherent name is not known in advance, and that the inherent name is not known in advance and that it is pulled out. On behalf of the Chinese people, please do not know what to do, and the words will tell you how to do it. The above questions will help you to learn how to use them in advance. The most important thing is to use the information in advance to learn how to speak in advance, and that in some parts of the book, there are some questions about the role of the child. The word "direct action", and so on. For example, if you don't want to talk about it, please do not know what to do. If you want to do so, please do not know what to do. If you do not want to do so, please do not know what to do. In order to make a profit, ByT5 should learn how to learn English in advance, and that the proper name of the text would be to learn how to learn English, to learn how to do so, and to study it in a micro-computer (fine-tune). Micro-adjustment, existing performance, performance and performance. The initial results show that DEIM 2023 learns to learn more about the table. In this paper, the research results of EMNLP 2023 have been proposed to predict the accuracy of the research. The results of the research are listed in the VLDB 2023 Institute of Science and Technology, and the results of the research are listed in the table of VLDB 2023.

项目成果

期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
経路を用いた高速なサブグラフ編集距離問合せ
使用路径快速子图编辑距离查询
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    堀内 美聡;佐々木 勇和;肖 川;鬼塚 真
  • 通讯作者:
    鬼塚 真
創薬のための分子グラフ推薦システム
用于药物发现的分子图推荐系统
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Sheng Hu;Ichigaku Takigawa;Chuan Xiao
  • 通讯作者:
    Chuan Xiao
Token-Free Cross-Lingual Named Entity Recognition for Classical Chinese
文言文无令牌跨语言命名实体识别
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhongqing Jiang;Zengqing Wu;Chuan Xiao
  • 通讯作者:
    Chuan Xiao
MQH: Locality Sensitive Hashing on Multi-level Quantization Errors for Point-to-Hyperplane Distances
  • DOI:
    10.14778/3574245.3574269
  • 发表时间:
    2022-12
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Kejing Lu;Y. Ishikawa;Chuan Xiao
  • 通讯作者:
    Kejing Lu;Y. Ishikawa;Chuan Xiao
大域的一貫性を保証する自律分散型データ統合技術の性能分析
保证全局一致性的自治分布式数据集成技术性能分析
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    吉田 凌河;伊藤 竜一;肖 川;鬼塚 真
  • 通讯作者:
    鬼塚 真
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

肖 川其他文献

頬を用いた3Dマスクの顔認証なりすまし防止に関する研究
利用脸颊进行 3D 面具预防人脸识别欺骗的研究
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    小出 智士;肖 川;石川 佳治;田島リオ,姜玄浩;藤玲央,姜玄浩
  • 通讯作者:
    藤玲央,姜玄浩
KL情報量に基づいたガウス分布の類似検索
基于KL信息量的高斯分布相似度搜索
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    董 テイテイ;石川 佳治;肖 川
  • 通讯作者:
    肖 川
多様化軌跡を効率検索するための統合クエリパラダイム
用于有效搜索多样化轨迹的集成查询范例
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    胡 晟;馬 強;肖 川
  • 通讯作者:
    肖 川
識別モデルを用いたスコープを意識したコード補完
使用判别模型的范围感知代码完成
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    胡 晟;肖 川;石川 佳治
  • 通讯作者:
    石川 佳治
反復機構による属性付き時系列グラフ予測の精度検証
使用迭代机制验证属性时间序列图预测的准确性
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    山崎 翔平;Panagiotis Karras;佐々木 勇和;肖 川;鬼塚 真
  • 通讯作者:
    鬼塚 真

肖 川的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('肖 川', 18)}}的其他基金

和漢書テキストデータベースに対する知的情報検索システムの研究開発
日汉文本数据库智能信息检索系统的研发
  • 批准号:
    23K25157
  • 财政年份:
    2024
  • 资助金额:
    $ 10.82万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)

相似海外基金

和漢書テキストデータベースに対する知的情報検索システムの研究開発
日汉文本数据库智能信息检索系统的研发
  • 批准号:
    23K25157
  • 财政年份:
    2024
  • 资助金额:
    $ 10.82万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了