大規模・複雑データに対するクラスタリング法の開発とその理論的性質の解明
大规模复杂数据聚类方法的发展及其理论特性的阐明
基本信息
- 批准号:20K19756
- 负责人:
- 金额:$ 1.91万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Early-Career Scientists
- 财政年份:2020
- 资助国家:日本
- 起止时间:2020-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本年度は, 大規模クラスタリングの近似法に関する研究(研究1)と大規模データにも適用可能なconvex clustering algorithmの開発(研究2)を行った.(研究1)研究1では, 先行研究の母集団レベルでのズレの問題点を解決した新たなスペクトルクラスタリングの近似アルゴリズムを開発した. また, このアルゴリズムは, 本研究でこれまでに提案した密度推定を必要とする方法と異なり, 高次元データに対しても適用可能な汎用的な近似法となっている.(研究2)Convex clusteringはk-means法とは異なり局所解の問題が無く, 適切な重みを与えることで柔軟なクラスタ構造を捉えることができる. 一方で, 既存の最適化アルゴリズムは計算コストが高く, 大規模なデータに対しては適用することができなかった. 研究2では, この問題を解決するため, サンプルサイズが100万を超える大規模データに対しても適用可能なconvex clusteringのアルゴリズムを開発した. 具体的には, 一般の重みを伴ったL2 convex clusteringに対して, Majorization-Minimizationに基づく効率の良いalgorithm (CCMM) を提案した. さらに, L1 convex clusteringに対しては, 重みが木構造をもつときに効率良く最適化できることに注目し, 重みが木構造をもつ場合に限定されるが, 大規模データに適用可能な非常に効率的なアルゴリズム (TGCC) を提案した. この方法を用いれば, 100万点のデータに対して, 1分ほどでcluster pathと呼ばれる解の軌道と階層的クラスタ構造を得ることができる. CCMMに関しては論文化し, 投稿を行った.
This year, we conducted research on approximation methods for large-scale clustering (Study 1) and development of feasible clustering algorithms for large-scale clustering (Study 2). (Study 1) Study 1, the parent group of the first study to solve the problem point, the new selection of the sample to approximate the problem point to develop. In this study, we propose a new method for density estimation, which is based on the approximate method that may be widely used in high dimensional density estimation. (Study 2) Convex clustering k-means method On the one hand, the existing optimization algorithm is not suitable for calculation, but for large-scale optimization. Study 2: To solve this problem, we need to develop a solution to the problem. Specifically, the L2 convex clustering algorithm (CCMM) is proposed for Majorization-Minimization. In addition, L1 convex clustering is suitable for the optimization of wood structures with high efficiency, especially for limited applications, and for large-scale applications with high efficiency (TGCC). This method is used in the middle, 1 million points of the data is related to the problem, 1 minute to the cluster path, call to the solution of the orbital hierarchy of the structure is obtained. CCMM is concerned about culture, contribution and behavior.
项目成果
期刊论文数量(17)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Classification from only positive and unlabeled functional data
仅根据阳性和未标记的功能数据进行分类
- DOI:10.1214/20-aoas1404
- 发表时间:2020
- 期刊:
- 影响因子:0
- 作者:Terada Yoshikazu;Ogasawara Issei;Nakata Ken
- 通讯作者:Nakata Ken
ベクトル量子化による大規模クラスタリングの近似法とその性質
大规模聚类矢量量化逼近方法及其性质
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Takehiro Ito;Yuni Iwamasa;Yasuaki Kobayashi;Yu Nakahata;Yota Otachi;Kunihiro Wasa;寺田吉壱,山本倫生.
- 通讯作者:寺田吉壱,山本倫生.
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
寺田 吉壱其他文献
On the difference-based estimator of Hemodynamic Response Function (HRF)
基于差分的血流动力学响应函数(HRF)估计器
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
坂田綾香,樺島祥介;Patrik .J.F. Groenen and Yoshikazu Terada;坂田綾香,樺島祥介;Yoshikazu Terada;坂田綾香,樺島祥介;寺田 吉壱;Ayaka Sakata and Yoshiyuki Kabashima;寺田 吉壱;坂田綾香,樺島祥介;寺田 吉壱;Yoshikazu Terada - 通讯作者:
Yoshikazu Terada
Sample Complexity and Belief Propagation in Dictionary Learning
字典学习中的样本复杂性和置信传播
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
坂田綾香,樺島祥介;Patrik .J.F. Groenen and Yoshikazu Terada;坂田綾香,樺島祥介;Yoshikazu Terada;坂田綾香,樺島祥介;寺田 吉壱;Ayaka Sakata and Yoshiyuki Kabashima - 通讯作者:
Ayaka Sakata and Yoshiyuki Kabashima
fMRIデータに対するシンプルで強い仮定を必要としない脳活動領域の特定法
一种无需强有力的假设即可识别功能磁共振成像数据上的大脑活动区域的简单方法
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
坂田綾香,樺島祥介;Patrik .J.F. Groenen and Yoshikazu Terada;坂田綾香,樺島祥介;Yoshikazu Terada;坂田綾香,樺島祥介;寺田 吉壱;Ayaka Sakata and Yoshiyuki Kabashima;寺田 吉壱 - 通讯作者:
寺田 吉壱
fMRIデータに対する血流動態反応関数のセミパラメトリック推測とその応用
fMRI数据血流动力学响应函数的半参数估计及其应用
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
坂田綾香,樺島祥介;Patrik .J.F. Groenen and Yoshikazu Terada;坂田綾香,樺島祥介;Yoshikazu Terada;坂田綾香,樺島祥介;寺田 吉壱 - 通讯作者:
寺田 吉壱
マルチスケールブートストラップによる近似的に不偏なselective inference
具有多尺度引导的近似无偏选择性推理
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
寺田 吉壱;下平 英寿 - 通讯作者:
下平 英寿
寺田 吉壱的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('寺田 吉壱', 18)}}的其他基金
離散的に観測された関数データに対する解析法の基礎的な理論研究
离散观测函数数据分析方法基础理论研究
- 批准号:
24K14855 - 财政年份:2024
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
シンボリックデータ解析による大規模及び複雑なデータに対する解析法の研究
基于符号数据分析的大规模复杂数据分析方法研究
- 批准号:
12J02466 - 财政年份:2012
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for JSPS Fellows
相似海外基金
自治体による大規模データを活用した医療介護サービス提供状況の地域診断モデルの開発
利用地方政府的大规模数据开发提供医疗保健服务的区域诊断模型
- 批准号:
23K27827 - 财政年份:2024
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
高分解能ナノ組成顕微鏡の開発と大規模データ解析による細胞機能の解明
开发高分辨率纳米组合物显微镜并通过大规模数据分析阐明细胞功能
- 批准号:
24H00411 - 财政年份:2024
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
超大規模データから流体制御に有意な因果関係を導くデータ駆動科学的手法の構築
建立数据驱动的科学方法,从超大规模数据中得出流体控制中的重要因果关系
- 批准号:
24K17443 - 财政年份:2024
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
医療・交通事故の大規模データの統合検討による超高齢化社会の安全なモビリティの推進
通过整合医疗和交通事故的大规模数据,促进超级老龄化社会的安全出行
- 批准号:
24K02705 - 财政年份:2024
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
情報量最適な大規模データ差分プライバシー技術の開発
最优信息量的大规模数据差异隐私技术开发
- 批准号:
23K28035 - 财政年份:2024
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
大規模データに対するベイズモデリングの新展開
大规模数据贝叶斯建模的新进展
- 批准号:
23K20592 - 财政年份:2024
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
非線形時系列解析と機械学習を融合した大規模データ動態特性の検出手法開発
非线性时间序列分析与机器学习相结合的大规模数据动态特征检测方法开发
- 批准号:
24K15079 - 财政年份:2024
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
大規模データにおける創作法の法理の変容―競争法・情報法の視点から
大数据面前创意法法理的转变:基于竞争法和信息法的视角
- 批准号:
23K20136 - 财政年份:2024
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
麻酔中脳波の大規模データ分析
麻醉期间脑电图大规模数据分析
- 批准号:
24K19454 - 财政年份:2024
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
プライマリケアの質と格差に影響する「医師側決定要因」の大規模データ分析
对影响初级保健质量和差异的“医生方决定因素”进行大规模数据分析
- 批准号:
24K02701 - 财政年份:2024
- 资助金额:
$ 1.91万 - 项目类别:
Grant-in-Aid for Scientific Research (B)