Large-scale general-purpose language models for information retrieval tasks
用于信息检索任务的大规模通用语言模型
基本信息
- 批准号:22K21303
- 负责人:
- 金额:$ 1.83万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Research Activity Start-up
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-08-31 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究では,さまざまな情報検索 (IR) タスクに適用可能な大規模汎用クエリ-文書言語モデルの実現に取り組む.大規模汎用言語モデルである BERTは,大規模コーパス(文書)を用いた高計算コストな事前学習により汎用的な言語表現を獲得し,その後にタスクに特化した低計算コストなファインチューニング(再学習)を行うことで,さまざまな自然言語処理 (NLP) タスクの性能を大幅に改善した.その一方で,IR タスクでは,単に BERT を IR タスクデータセットで再学習するだけでは他の NLP タスクほど高い効果は得られず,高精度達成には複雑かつ高計算コストな学習が追加で必要となる.そこで本課題では,従来の事前学習で用いられる文書に加えて,IR タスクのみに存在する検索質問(クエリ)も用いることで,IR タスクに適した事前学習を行う.これによって,複雑・高計算コストな後段処理を必要としない情報検索用大規模汎用クエリ-文書言語モデルの実現を目指す.2022 年度は,IR タスクに適した事前学習として,事前学習モデルと IR タスクの再学習モデルの乖離を埋めるための中間学習を提案した.その際,一般的な NLP タスクと IR タスクの相違点である入力データの違い,すなわち,NLPタスクの入力は自然文ペアであるのに対して IR タスクの入力は数語のキーワード集合から構成されるクエリと自然文で記述された文書ペアであることに着目した.これらの差異から IR タスクにおける再学習の効果が低下されるという仮説を立て,事前学習モデルに対して IR タスクに汎用的な表現を獲得することを目的とした学習方法を提案した.その結果,提案手法を適用することで IR タスクの再学習済みモデルの検索性能の改善が確認された.
This study で は, さ ま ざ ま な intelligence 検 cable (IR) タ ス ク に may apply な large-scale domestic ク エ リ - document words モ デ ル の be presently に む り group. Large-scale domestic words モ デ ル で あ る BERT は, large-scale コ ー パ ス (documents) を い た high computing コ ス ト な prior learning に よ り domestic な speech performance を し, そ の after に タ ス ク に specialized し た low computing コ ス ト な フ ァ イ ン チ ュ ー ニ ン グ line (to learn) を う こ と で, The performance of さまざまな natural language processing (NLP) タス に <s:1> has been significantly improved に. そ の で a party, the IR タ ス ク で は, 単 に BERT を IR タ ス ク デ ー タ セ ッ ト で す learning again る だ け で は he の NLP タ ス ク ほ ど high い fruit comes unseen は ら れ ず, high precision to achieve に は complex 雑 か つ high computing コ ス ト な learning が additional で necessary と な る. そ こ で this topic で は 従 to learn で の advance with い ら れ る documents に plus え て, IR タ ス ク の み に exist す る 検 line query (ク エ リ) も with い る こ と で, IR タ ス ク に optimum し た prior learning う を line. こ れ に よ っ て, complex 雑 · high computing コ ス ト な period after 処 Richard を necessary と し な い intelligence 検 cable with large domestic ク エ リ - document words モ デ ル の be presently を refers す. 2022 annual は, IR タ ス ク に optimum し た prior learning と し て, prior learning モ デ ル と IR タ ス ク の relearning モ デ ル の stays buried を め る た め の learning among を proposal し た. そ の interstate, general な NLP タ ス ク と IR タ ス ク の conceives some で あ る デ into force ー タ の violations い, す な わ ち, NLP タ ス ク の は into force nature article ペ ア で あ る の に し seaborne て IR タ ス ク の は several language into force の キ ー ワ ー ド collection か ら constitute さ れ る ク エ リ と nature article で account さ れ た documents ペ ア で あ る こ と に with mesh し た. こ れ ら の differences か ら IR タ ス ク に お け る relearning の unseen low fruit が さ れ る と い う 仮 said を て, prior learning モ デ ル に し seaborne て IR タ ス ク に domestic な performance を get す る こ と を purpose と し た learning method proposed を し た. そ の as a result, the proposed technique を applicable す る こ と で IR タ ス ク の relearning 済 み モ デ ル の 検 can simply の improve が confirm さ れ た.
项目成果
期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
ツイートを利用した地域別の市民同士のつながりを評価する指標の提案
提议使用推文评估各地区公民之间联系的指数
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:米丸 周吾;関 洋平;欅 惇志;柏野 和佳子;神門 典子
- 通讯作者:神門 典子
大規模言語モデルを用いた情報検索のための coarse-tuning 手法の提案
提出一种使用大规模语言模型进行信息检索的粗调方法
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:三木 章寛;板東 正祐;永松 祐弥;河原塚 健人;利光 泰徳;平岡 直樹;岡田 慧;稲葉 雅幸;欅 惇志,田中リベカ
- 通讯作者:欅 惇志,田中リベカ
都市を横断した市民意見抽出の評価
- DOI:10.5715/jnlp.30.586
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:T. Ishida;Yohei Seki;Atsushi Keyaki;Wakako Kashino;Noriko Kando
- 通讯作者:T. Ishida;Yohei Seki;Atsushi Keyaki;Wakako Kashino;Noriko Kando
都市を横断した市民意見抽出に関する課題と手法についての検証
跨城市公民意见提取相关问题和方法的验证
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:石田 哲也;関 洋平;欅 惇志;柏野和佳子;神門典子
- 通讯作者:神門典子
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
欅 惇志其他文献
スカイライン演算を用いたユーザ思考を考慮した情報推薦のランキング手法の精度改善
利用天际线计算提高考虑用户想法的信息推荐排序方法的准确性
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
岸田 脩平;欅 惇志;宮崎 純 - 通讯作者:
宮崎 純
RDBとKVSを相互に活用した大規模多次元データに対する集約演算の効率化
RDB与KVS的相互利用提高大规模多维数据聚合操作的效率
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
渡 佑也;欅 惇志;宮崎 純;中村 匡秀 - 通讯作者:
中村 匡秀
多峰性のあるコピュラを用いた文書の適合度の統合手法の提案及びその検証
使用多模态联结函数整合文档适用性的方法的提出和验证
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
小松田 卓也;欅 惇志;宮崎 純 - 通讯作者:
宮崎 純
大型高精細表示環境上の統一的災害情報GISの操作方法の一検討
大规模高清显示环境下统一灾害信息GIS运行研究
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
佐々木 夢;小松田 卓也;欅 惇志;宮崎 純;Yosuke Sakata and Koji Eguchi;櫻庭 彬,江原康生,橋本浩二,柴田義孝 - 通讯作者:
櫻庭 彬,江原康生,橋本浩二,柴田義孝
XML情報検索のための動的な索引管理手法の一提案
一种用于XML信息检索的动态索引管理方法的建议
- DOI:
- 发表时间:
2011 - 期刊:
- 影响因子:0
- 作者:
欅 惇志;宮崎 純;波多野 賢治;山本 豪志朗;加藤 博一 - 通讯作者:
加藤 博一
欅 惇志的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('欅 惇志', 18)}}的其他基金
述語論理に基づくデータベース照合による厳密かつ高精度・高速な事実検証システム
基于谓词逻辑的数据库匹配的严格、高精度、快速的事实验证系统
- 批准号:
24K15066 - 财政年份:2024
- 资助金额:
$ 1.83万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
タスク指向型情報検索システムの高速化
加速面向任务的信息检索系统
- 批准号:
17K12684 - 财政年份:2017
- 资助金额:
$ 1.83万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
高精度かつ高速なXML検索に関する研究
高精度、高速XML搜索研究
- 批准号:
12J00780 - 财政年份:2012
- 资助金额:
$ 1.83万 - 项目类别:
Grant-in-Aid for JSPS Fellows














{{item.name}}会员




