単語ID最適化によるダブル配列言語モデルのサイズ縮小手法の開発

使用单词 ID 优化开发双数组语言模型的尺寸缩减方法

基本信息

  • 批准号:
    22K12162
  • 负责人:
  • 金额:
    $ 2.66万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-04-01 至 2026-03-31
  • 项目状态:
    未结题

项目摘要

ダブル配列言語モデルはダブル配列を用いたコンパクトなngram言語モデルの実装であり、高速な検索を実現できる点を特徴としている。しかし、非常に大きなテキストデータから学習する場合、モデルサイズ・構築速度が悪化する。本研究では、ダブル配列のモデルサイズ縮小の問題が単語ID付与(トライ遷移行列での列並び)に大きく依存している事実に基づき、ngram言語モデルのサイズ・構築時間を縮小させる単語ID付与手法を開発することを大きな目的としている。初年度はいくつかの提案予定の手法のうち、単語IDをngramのレベルによって変化させるRemappingと呼ばれる手法をダブル配列に適用することを提案し、サイズ・構築速度の効率を改善できることを示した。Remappingはngram単語列をトライ木で表現した場合の各ノードから子ノードへ分岐する単語ID番号を付け替えて、子ノード集合への分岐のIDの幅(分岐する可能性のある単語ID番号の範囲)を小さくする手法である。トライ木中の単語IDを直前の単語(トライ木の1つ上のノード)に依存したIDに付け替える。直前の単語により単語の種類が限定されるため、単語ID番号を小さな範囲に限定できる。このRemappingの手法はこれまで文字列圧縮の効率化に使われてきた手法であるが、我々はこの手法をダブル配列の効率化に利用することを提案した。ngramの種類数が数億から10億程度のある程度の規模のデータを用いて、Remappingの効果を評価した。その結果、Remappingしない場合に比べて確実にサイズが縮小しており、最大で30%程度のサイズ削減効果を確認できた。また、ngramの種類数が多くなるほどサイズ削減効果が高まっており、スケール効果が期待できる。加えて、構築速度もわずかであるが早くなっていることが確認できた。
The language of the language of For example, in the case of a large number of cases, the construction speed of a large number of cases is reduced. In this study, the problem of reducing the number of words assigned to a group of words is that the number of words assigned to a group of words depends on the number of words assigned to a group of words. In the beginning of the year, the proposal for a predetermined method, the language ID, the change of the name, the method of the call, the application of the proposal, the improvement of the construction speed, the construction speed, the improvement of the construction speed, the construction speed, the improvement of the construction speed, the construction speed, the construction speed. Remapping is a method for identifying the range of unit ID numbers in the ngram unit column and for identifying the range of unit ID numbers in the sub-set. A single language ID in a single language (a single language ID in a single language ID The type of language is limited, and the ID number is limited. The method of text compression and efficiency is proposed The number of ngram types ranges from hundreds of millions to 1 billion, and the scale of the application and Remapping is evaluated. The results, Remapping, etc. are confirmed by the reduction of the maximum of 30%. The number of types of ngram is too high to be expected. Add, build speed

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
単語IDのremappingによるダブル配列言語モデルの効率化
通过重新映射单词ID来提高双数组语言模型的效率
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    幡鉾勇哉,山本幹雄
  • 通讯作者:
    幡鉾勇哉,山本幹雄
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

山本 幹雄其他文献

山本 幹雄的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('山本 幹雄', 18)}}的其他基金

AICTを活用した合理的配慮の自動化・コモディティ化研究
利用 AICT 对合理便利的自动化和商品化进行研究
  • 批准号:
    20K03094
  • 财政年份:
    2020
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
音声認識技術を活用した教育支援方法の研究
利用语音识别技术的教育支持方法研究
  • 批准号:
    18700648
  • 财政年份:
    2006
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Suffix Arrayを利用した全部分文字列による情報検索
使用后缀数组使用所有子字符串进行信息搜索
  • 批准号:
    11780249
  • 财政年份:
    1999
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
文字レベルと単語レベルの確率モデルを融合した形態素解析システム
结合字符级和词级概率模型的词法分析系统
  • 批准号:
    09780309
  • 财政年份:
    1997
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
タグなしコーパスからの形態素解析情報の抽出
从未标记的语料库中提取形态分析信息
  • 批准号:
    08780329
  • 财政年份:
    1996
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
アメリカ帝国主義の研究―主としてその形成過程を中心に―
美帝国主义研究:主要关注其形成过程
  • 批准号:
    X42440-----12237
  • 财政年份:
    1967
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Particular Research
欧米における国家思想の形成に関する総合的研究
欧美国家意识形态形成综合研究
  • 批准号:
    X41065------1202
  • 财政年份:
    1966
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Co-operative Research

相似海外基金

CAREER: Carotenoid coloration in an evolutionary radiation: Connecting molecular function, fitness, and diet ecology in wood warblers
职业:进化辐射中的类胡萝卜素着色:连接林莺的分子功能、健康和饮食生态学
  • 批准号:
    2337828
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Continuing Grant
Development of an ultra low emission catalytic gasification wood stove
超低排放催化气化柴火炉的研制
  • 批准号:
    10080888
  • 财政年份:
    2023
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Small Business Research Initiative
Dynamic visualization of the penetration and fixation mechanisms of oil-borne wood preservatives into wood
油性木材防腐剂对木材的渗透和固定机制的动态可视化
  • 批准号:
    23H02281
  • 财政年份:
    2023
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Development of termite control method for wood by using inorganic salts based on traditional techniques in Okinawa
基于冲绳传统技术开发利用无机盐的木材白蚁防治方法
  • 批准号:
    23K17791
  • 财政年份:
    2023
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
Challenging application of wood materials to masonry structure in Asian developing countries for fundamental seismic performance improvement
亚洲发展中国家木质材料在砖石结构中的应用具有挑战性,以提高基本的抗震性能
  • 批准号:
    23KK0085
  • 财政年份:
    2023
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Fund for the Promotion of Joint International Research (International Collaborative Research)
Multiplexed Sensors for Biomonitoring of Wood Smoke Exposure among Wildland Firefighters
用于野外消防员木烟暴露生物监测的多路传感器
  • 批准号:
    10717843
  • 财政年份:
    2023
  • 资助金额:
    $ 2.66万
  • 项目类别:
STTR Phase I: Rapid Characterization of Wood-based Materials
STTR 第一阶段:木质材料的快速表征
  • 批准号:
    2233237
  • 财政年份:
    2023
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Standard Grant
Computational investigation of wood combustion in timber buildings
木结构建筑中木材燃烧的计算研究
  • 批准号:
    2902452
  • 财政年份:
    2023
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Studentship
Dionysus Dendrites: Wood and Carpentry in Greek Tragedy
狄俄尼索斯树突:希腊悲剧中的木材和木工
  • 批准号:
    2881819
  • 财政年份:
    2023
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Studentship
Vegetable cultivation using wood-based organic matter
利用木质有机物种植蔬菜
  • 批准号:
    23K05488
  • 财政年份:
    2023
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了