単語ID最適化によるダブル配列言語モデルのサイズ縮小手法の開発

使用单词 ID 优化开发双数组语言模型的尺寸缩减方法

基本信息

  • 批准号:
    22K12162
  • 负责人:
  • 金额:
    $ 2.66万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2026-03-31
  • 项目状态:
    未结题

项目摘要

ダブル配列言語モデルはダブル配列を用いたコンパクトなngram言語モデルの実装であり、高速な検索を実現できる点を特徴としている。しかし、非常に大きなテキストデータから学習する場合、モデルサイズ・構築速度が悪化する。本研究では、ダブル配列のモデルサイズ縮小の問題が単語ID付与(トライ遷移行列での列並び)に大きく依存している事実に基づき、ngram言語モデルのサイズ・構築時間を縮小させる単語ID付与手法を開発することを大きな目的としている。初年度はいくつかの提案予定の手法のうち、単語IDをngramのレベルによって変化させるRemappingと呼ばれる手法をダブル配列に適用することを提案し、サイズ・構築速度の効率を改善できることを示した。Remappingはngram単語列をトライ木で表現した場合の各ノードから子ノードへ分岐する単語ID番号を付け替えて、子ノード集合への分岐のIDの幅(分岐する可能性のある単語ID番号の範囲)を小さくする手法である。トライ木中の単語IDを直前の単語(トライ木の1つ上のノード)に依存したIDに付け替える。直前の単語により単語の種類が限定されるため、単語ID番号を小さな範囲に限定できる。このRemappingの手法はこれまで文字列圧縮の効率化に使われてきた手法であるが、我々はこの手法をダブル配列の効率化に利用することを提案した。ngramの種類数が数億から10億程度のある程度の規模のデータを用いて、Remappingの効果を評価した。その結果、Remappingしない場合に比べて確実にサイズが縮小しており、最大で30%程度のサイズ削減効果を確認できた。また、ngramの種類数が多くなるほどサイズ削減効果が高まっており、スケール効果が期待できる。加えて、構築速度もわずかであるが早くなっていることが確認できた。
ダ ブ ル go words モ デ ル は ダ ブ ル go を with い た コ ン パ ク ト な ngram words モ デ ル の be loaded で あ り, high-speed な 検 cable を be presently で き る point を, 徴 と し て い る. し か し, very big に き な テ キ ス ト デ ー タ か ら learning す る occasions, モ デ ル サ イ ズ, constructing speed が 悪 change す る. This study で は, ダ ブ ル go の モ デ ル サ イ ズ narrow の が 単 language ID give (ト ラ イ migration ranks で の column and び) に big き く dependent し て い る things be に base づ ngram き words モ デ ル の サ イ ズ time, constructing を narrow さ せ る 単 language ID give gimmick を open 発 す る こ と を big き な purpose と し て い る. Early annual は い く つ か の proposal to settle の gimmick の う ち, 単 ID を ngram の レ ベ ル に よ っ て variations change さ せ る Remapping と shout ば れ る gimmick を ダ ブ ル go に applicable す る こ と を proposal し, サ イ ズ, constructing speed の を improve working rate で き る こ と を shown し た. Remapping は ngram 単 language column を ト ラ イ wood で performance し の た occasion each ノ ー ド か ら son ノ ー ド へ branching す る 単 language ID mash を pay for え け て, child ノ ー ド collection へ の branching の ID の picture (branching す る possibility の あ る 単 の ID our fan 囲) を small さ く す る gimmick で あ る. ト ラ イ wood の 単 language ID を ahead の 単 language (ト ラ イ wooden の 1 つ の ノ ー ド) に dependent し た ID pay for え け に る. の way の 単 language に よ り 単 language types が qualified さ れ る た め, 単 ID mash を small さ な van 囲 に qualified で き る. こ の Remapping の gimmick は こ れ ま で text columns 圧 shrinkage の sharper rate change に make わ れ て き た gimmick で あ る が, I 々 は こ の gimmick を ダ ブ ル go の sharper rate に use す る こ と を proposal し た. Ngram の species number が hundreds of millions of か ら 1 billion degree の あ る degree の scale の デ ー タ を with い て, Remapping の unseen fruit を review 価 し た. そ の results, Remapping し な に い occasion than べ て indeed be に サ イ ズ が narrow し て お り degree 30%, maximum で の サ イ ズ sharper cuts fruit を confirm で き た. ま た, ngram の species number more than が く な る ほ ど サ イ ズ sharper cuts high が ま っ て お り, ス ケ ー ル unseen fruit が expect で き る. Increase えて, build speed わず わず であるが early くなって る る とが confirm で た た た.

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
単語IDのremappingによるダブル配列言語モデルの効率化
通过重新映射单词ID来提高双数组语言模型的效率
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    幡鉾勇哉,山本幹雄
  • 通讯作者:
    幡鉾勇哉,山本幹雄
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山本 幹雄其他文献

山本 幹雄的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山本 幹雄', 18)}}的其他基金

AICTを活用した合理的配慮の自動化・コモディティ化研究
利用 AICT 对合理便利的自动化和商品化进行研究
  • 批准号:
    20K03094
  • 财政年份:
    2020
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音声認識技術を活用した教育支援方法の研究
利用语音识别技术的教育支持方法研究
  • 批准号:
    18700648
  • 财政年份:
    2006
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Suffix Arrayを利用した全部分文字列による情報検索
使用后缀数组使用所有子字符串进行信息搜索
  • 批准号:
    11780249
  • 财政年份:
    1999
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
文字レベルと単語レベルの確率モデルを融合した形態素解析システム
结合字符级和词级概率模型的词法分析系统
  • 批准号:
    09780309
  • 财政年份:
    1997
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
タグなしコーパスからの形態素解析情報の抽出
从未标记的语料库中提取形态分析信息
  • 批准号:
    08780329
  • 财政年份:
    1996
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
アメリカ帝国主義の研究―主としてその形成過程を中心に―
美帝国主义研究:主要关注其形成过程
  • 批准号:
    X42440-----12237
  • 财政年份:
    1967
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Particular Research
欧米における国家思想の形成に関する総合的研究
欧美国家意识形态形成综合研究
  • 批准号:
    X41065------1202
  • 财政年份:
    1966
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Co-operative Research
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了