単語ID最適化によるダブル配列言語モデルのサイズ縮小手法の開発
使用单词 ID 优化开发双数组语言模型的尺寸缩减方法
基本信息
- 批准号:22K12162
- 负责人:
- 金额:$ 2.66万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2026-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
ダブル配列言語モデルはダブル配列を用いたコンパクトなngram言語モデルの実装であり、高速な検索を実現できる点を特徴としている。しかし、非常に大きなテキストデータから学習する場合、モデルサイズ・構築速度が悪化する。本研究では、ダブル配列のモデルサイズ縮小の問題が単語ID付与(トライ遷移行列での列並び)に大きく依存している事実に基づき、ngram言語モデルのサイズ・構築時間を縮小させる単語ID付与手法を開発することを大きな目的としている。初年度はいくつかの提案予定の手法のうち、単語IDをngramのレベルによって変化させるRemappingと呼ばれる手法をダブル配列に適用することを提案し、サイズ・構築速度の効率を改善できることを示した。Remappingはngram単語列をトライ木で表現した場合の各ノードから子ノードへ分岐する単語ID番号を付け替えて、子ノード集合への分岐のIDの幅(分岐する可能性のある単語ID番号の範囲)を小さくする手法である。トライ木中の単語IDを直前の単語(トライ木の1つ上のノード)に依存したIDに付け替える。直前の単語により単語の種類が限定されるため、単語ID番号を小さな範囲に限定できる。このRemappingの手法はこれまで文字列圧縮の効率化に使われてきた手法であるが、我々はこの手法をダブル配列の効率化に利用することを提案した。ngramの種類数が数億から10億程度のある程度の規模のデータを用いて、Remappingの効果を評価した。その結果、Remappingしない場合に比べて確実にサイズが縮小しており、最大で30%程度のサイズ削減効果を確認できた。また、ngramの種類数が多くなるほどサイズ削減効果が高まっており、スケール効果が期待できる。加えて、構築速度もわずかであるが早くなっていることが確認できた。
The language of the language of For example, in the case of a large number of cases, the construction speed of a large number of cases is reduced. In this study, the problem of reducing the number of words assigned to a group of words is that the number of words assigned to a group of words depends on the number of words assigned to a group of words. In the beginning of the year, the proposal for a predetermined method, the language ID, the change of the name, the method of the call, the application of the proposal, the improvement of the construction speed, the construction speed, the improvement of the construction speed, the construction speed, the improvement of the construction speed, the construction speed, the construction speed. Remapping is a method for identifying the range of unit ID numbers in the ngram unit column and for identifying the range of unit ID numbers in the sub-set. A single language ID in a single language (a single language ID in a single language ID The type of language is limited, and the ID number is limited. The method of text compression and efficiency is proposed The number of ngram types ranges from hundreds of millions to 1 billion, and the scale of the application and Remapping is evaluated. The results, Remapping, etc. are confirmed by the reduction of the maximum of 30%. The number of types of ngram is too high to be expected. Add, build speed
项目成果
期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
単語IDのremappingによるダブル配列言語モデルの効率化
通过重新映射单词ID来提高双数组语言模型的效率
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:幡鉾勇哉,山本幹雄
- 通讯作者:幡鉾勇哉,山本幹雄
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
山本 幹雄其他文献
山本 幹雄的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('山本 幹雄', 18)}}的其他基金
AICTを活用した合理的配慮の自動化・コモディティ化研究
利用 AICT 对合理便利的自动化和商品化进行研究
- 批准号:
20K03094 - 财政年份:2020
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
音声認識技術を活用した教育支援方法の研究
利用语音识别技术的教育支持方法研究
- 批准号:
18700648 - 财政年份:2006
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
Suffix Arrayを利用した全部分文字列による情報検索
使用后缀数组使用所有子字符串进行信息搜索
- 批准号:
11780249 - 财政年份:1999
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
文字レベルと単語レベルの確率モデルを融合した形態素解析システム
结合字符级和词级概率模型的词法分析系统
- 批准号:
09780309 - 财政年份:1997
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
タグなしコーパスからの形態素解析情報の抽出
从未标记的语料库中提取形态分析信息
- 批准号:
08780329 - 财政年份:1996
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
アメリカ帝国主義の研究―主としてその形成過程を中心に―
美帝国主义研究:主要关注其形成过程
- 批准号:
X42440-----12237 - 财政年份:1967
- 资助金额:
$ 2.66万 - 项目类别:
Particular Research
欧米における国家思想の形成に関する総合的研究
欧美国家意识形态形成综合研究
- 批准号:
X41065------1202 - 财政年份:1966
- 资助金额:
$ 2.66万 - 项目类别:
Grant-in-Aid for Co-operative Research














{{item.name}}会员




