単語ID最適化によるダブル配列言語モデルのサイズ縮小手法の開発
使用单词 ID 优化开发双数组语言模型的尺寸缩减方法
基本信息
- 批准号:22K12162
- 负责人:
- 金额:$ 2.66万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2026-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
ダブル配列言語モデルはダブル配列を用いたコンパクトなngram言語モデルの実装であり、高速な検索を実現できる点を特徴としている。しかし、非常に大きなテキストデータから学習する場合、モデルサイズ・構築速度が悪化する。本研究では、ダブル配列のモデルサイズ縮小の問題が単語ID付与(トライ遷移行列での列並び)に大きく依存している事実に基づき、ngram言語モデルのサイズ・構築時間を縮小させる単語ID付与手法を開発することを大きな目的としている。初年度はいくつかの提案予定の手法のうち、単語IDをngramのレベルによって変化させるRemappingと呼ばれる手法をダブル配列に適用することを提案し、サイズ・構築速度の効率を改善できることを示した。Remappingはngram単語列をトライ木で表現した場合の各ノードから子ノードへ分岐する単語ID番号を付け替えて、子ノード集合への分岐のIDの幅(分岐する可能性のある単語ID番号の範囲)を小さくする手法である。トライ木中の単語IDを直前の単語(トライ木の1つ上のノード)に依存したIDに付け替える。直前の単語により単語の種類が限定されるため、単語ID番号を小さな範囲に限定できる。このRemappingの手法はこれまで文字列圧縮の効率化に使われてきた手法であるが、我々はこの手法をダブル配列の効率化に利用することを提案した。ngramの種類数が数億から10億程度のある程度の規模のデータを用いて、Remappingの効果を評価した。その結果、Remappingしない場合に比べて確実にサイズが縮小しており、最大で30%程度のサイズ削減効果を確認できた。また、ngramの種類数が多くなるほどサイズ削減効果が高まっており、スケール効果が期待できる。加えて、構築速度もわずかであるが早くなっていることが確認できた。
Double Array语言模型是使用Double Arrays对Ngram语言模型的紧凑实现,其特点是它可以实现高速搜索。但是,当从非常大的文本数据中学习时,模型的大小和构造速度会恶化。基于以下事实:减小双阵列的模型大小的问题在很大程度上取决于单词ID授予(试验过渡序列中的序列序列),本研究旨在开发一种单词ID授予方法,以减少Ngram语言模型的大小和构建时间。在第一年,在提出的几种方法中,我们提议应用一种称为重新映射的技术,该技术根据Ngram的级别更改单词ID,以双向阵列,表明可以提高尺寸和构造速度的效率。重新映射是一种降低分支ID宽度的技术(当ngram word字符串在试验树中表达时可能分支到子节点的单词ID范围,通过替换每个节点到子节点分支的单词ID数字来表达,从而将分支ID的宽度降低到iD rand iD range in the Word ID的范围(替换为reption never n of the rawter n offers n offers n of子范围)。 (三个上方的节点)。单词的类型受到了最后的范围,因此,该单词的范围可以限制为较小的范围。进行重新映射,我们能够看到尺寸降低效果高达30%。此外,越多的ngram类型,尺寸减小效果的有效性越有效,并且可以预期缩放效果。此外,确认构建速度也略高。
项目成果
期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
単語IDのremappingによるダブル配列言語モデルの効率化
通过重新映射单词ID来提高双数组语言模型的效率
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:幡鉾勇哉,山本幹雄
- 通讯作者:幡鉾勇哉,山本幹雄
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
山本 幹雄其他文献
山本 幹雄的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('山本 幹雄', 18)}}的其他基金
AICTを活用した合理的配慮の自動化・コモディティ化研究
利用 AICT 对合理便利的自动化和商品化进行研究
- 批准号:
20K03094 - 财政年份:2020
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
音声認識技術を活用した教育支援方法の研究
利用语音识别技术的教育支持方法研究
- 批准号:
18700648 - 财政年份:2006
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
Suffix Arrayを利用した全部分文字列による情報検索
使用后缀数组使用所有子字符串进行信息搜索
- 批准号:
11780249 - 财政年份:1999
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
文字レベルと単語レベルの確率モデルを融合した形態素解析システム
结合字符级和词级概率模型的词法分析系统
- 批准号:
09780309 - 财政年份:1997
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
タグなしコーパスからの形態素解析情報の抽出
从未标记的语料库中提取形态分析信息
- 批准号:
08780329 - 财政年份:1996
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
アメリカ帝国主義の研究―主としてその形成過程を中心に―
美帝国主义研究:主要关注其形成过程
- 批准号:
X42440-----12237 - 财政年份:1967
- 资助金额:
$ 2.66万 - 项目类别:
Particular Research
欧米における国家思想の形成に関する総合的研究
欧美国家意识形态形成综合研究
- 批准号:
X41065------1202 - 财政年份:1966
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Co-operative Research
相似海外基金
A packet filtering method whose latency does not depends on the number of rules
一种延迟不依赖于规则数量的包过滤方法
- 批准号:
26330163 - 财政年份:2014
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)