データストリーム環境におけるオンライン学習アルゴリズムの研究

数据流环境下在线学习算法研究

基本信息

批准号：
11J03668
负责人：
松島慎
金额：
$ 0.83万
依托单位：
The University of Tokyo
依托单位国家：
日本
项目类别：
Grant-in-Aid for JSPS Fellows
财政年份：
2011
资助国家：
日本
起止时间：
2011 至 2012
项目状态：
已结题

项目摘要

実用的な機械学習をRAM容量を超える数10GB単位のデータに対して適用する場合はメモリスワップにより効率が著しく低下する問題があった。そこで我々は特にサポートベクターマシン(SVM)の機械学習において、現在汎用的に利用可能なマルチコアプロセッサおよびメモリ階層構造の特長を利用し、RAM容量を超えるデータを用いたSVM学習を高速に行うアルゴリズム、StreamSVMを提案した。提案アルゴリズムはDual Cached Loopsという提案スキームの上で動作する。Dual Cached Loopsは2つのスレッドが非同期的に動作する。Reading threadとよばれるスレッドはハードディスク(HDD)に連続アクセスし、繰り返しデータをHDDからRAMへ読み込む。一方のTraining ThreadとよばれるスレッドはRAMに転送されたデータにのみアクセスするため、HDDからの読み込みのオーバーヘッドを被ることなく、かつ途中で停止することなくデータアクセスが可能である。RAMへのアクセスはHDDからの読み込みに比べ高速であるため、Readingthreadが一度データを読み込む間に何回もデータにアクセスすることが可能であり、高速なパラメータ更新が可能となる。評価実験により、提案手法は既存手法に比べて非常に高速に学習が可能であることを確認した。さらに、この提案スキームを用いて他の機械学習の問題であるロジスティック回帰やサポートベクター回帰に対するアルゴリズムを開発した。また、複数のモデルを同時に学習する手法も開発することができた。これによってストリームデータをHDDに記憶させながら、それらを無駄にすることなく、またオンライン学習アルゴリズムの効率の良さを保ちながらバッチ学習を行うことができる。このアルゴリズムおよび方法論によって、当初の目的であったデータストリーム環境における制限を克服しながら今までの方法と匹敵する高い精度を達成することが可能になったと言える。

当实用的机器学习将超过RAM容量的数十GB单位的数据应用于数据时，记忆掉期会导致一个大大降低效率的问题。因此，我们提出了使用超过RAM容量的数据的算法，尤其是在支持向量机器（SVMS）的机器学习中，它利用当前通用的多核处理器和内存层次结构的功能，使用超过RAM容量的数据来快速训练SVM。所提出的算法对所提出的方案进行了工作，称为双缓存循环。双缓存循环具有两个不同步的线程。一个称为读取线程的线程连续访问硬盘（HDD），并从HDD重复读取数据中的数据。另一方面，一个称为训练线程的线程仅访问传输到RAM的数据，因此可以访问数据而无需从HDD读取的开销，而无需停止中间。访问RAM比从HDD阅读的速度快，因此可以在阅读线读取数据时多次访问数据，从而可以进行高速参数更新。我们证实，通过评估实验，与现有方法相比，可以很快学习提出的方法。此外，使用此建议的方案，我们开发了用于物流和支持向量回归的算法，其他机器学习问题。我们还开发了一种同时学习多个模型的方法。这允许在HDD上存储流数据而不会浪费它，并保持在线学习算法的效率时，可以在HDD上存储流数据时进行批处理学习。这种算法和方法使我们能够克服最初意图的数据流环境中的局限性，并实现与以前的方法相当的高精度。

项目成果

期刊论文数量（0）

专著数量（0）

科研奖励数量（0）

会议论文数量（0）

专利数量（0）

Linear support vector machines via dual cached loops

DOI：
10.1145/2339530.2339559
发表时间：
2012-08
期刊：
影响因子：
0
作者：
Shin Matsushima;S. Vishwanathan;Alex Smola
通讯作者：
Shin Matsushima;S. Vishwanathan;Alex Smola

DOI：
{{ item.doi }}
发表时间：
{{ item.publish_year }}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor }}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

数据更新时间：{{ journalArticles.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ monograph.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ sciAawards.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ conferencePapers.updateTime }}

作者：
{{ item.author }}

数据更新时间：{{ patent.updateTime }}

松島慎其他文献

松島慎的其他文献

DOI：
{{ item.doi }}
发表时间：
{{ item.publish_year }}
期刊：
{{ item.journal_name }}
影响因子：
{{ item.factor }}
作者：
{{ item.authors }}
通讯作者：
{{ item.author }}

{{ truncateString('松島慎', 18)}}的其他基金

Large-scale sparse learning using asynchronous architecture for interpretable model

使用异步架构进行可解释模型的大规模稀疏学习

批准号：
23K11213
财政年份：
2023
资助金额：
$ 0.83万
项目类别：
Grant-in-Aid for Scientific Research (C)

ビッグデータ解析のための非同期的な分散型最適化法

大数据分析的异步分布式优化方法

批准号：
13J09586
财政年份：
2013
资助金额：
$ 0.83万
项目类别：
Grant-in-Aid for JSPS Fellows

相似海外基金

大規模データに基づく機会制約問題の解と分離超平面の同時最適化

基于大规模数据的机会约束问题解与分离超平面的同步优化

批准号：
22K12187
财政年份：
2022
资助金额：
$ 0.83万
项目类别：
Grant-in-Aid for Scientific Research (C)

Study on algorithms of numerical methods for large scale nonlinear optimization problems and their implementation

大规模非线性优化问题数值方法算法研究及其实现

批准号：
20K11698
财政年份：
2020
资助金额：
$ 0.83万
项目类别：
Grant-in-Aid for Scientific Research (C)

Riemannian optimization and applications for high-dimensional large-scale data

高维大规模数据的黎曼优化及应用

批准号：
16K00031
财政年份：
2016
资助金额：
$ 0.83万
项目类别：
Grant-in-Aid for Scientific Research (C)

Development of statistical methods for large scale somatic mutation data mining

大规模体细胞突变数据挖掘统计方法的开发

批准号：
15K00398
财政年份：
2015
资助金额：
$ 0.83万
项目类别：
Grant-in-Aid for Scientific Research (C)

Theories of structured estimation methods for large scale data and their applications

大规模数据结构化估计方法理论及其应用

批准号：
25730013
财政年份：
2013
资助金额：
$ 0.83万
项目类别：
Grant-in-Aid for Young Scientists (B)

会员权益说明：