Convex space learning for synthetic data generation on clinical tabular datasets
用于临床表格数据集上的合成数据生成的凸空间学习
基本信息
- 批准号:515800538
- 负责人:
- 金额:--
- 依托单位:
- 依托单位国家:德国
- 项目类别:Research Grants
- 财政年份:
- 资助国家:德国
- 起止时间:
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
Synthetic data generation is gaining prominence in biomedical research in solving practical problems: personalization; underrepresentation of groups in clinical trials; data privacy hindering sharing of data among institutions etc. Synthetic data generation using deep generative networks for medical images is a booming research field. For image datasets, there is a perceptional advantage, in the sense, that one can visually judge how realistic the synthetic image is, just by looking at it. However, in biomedical science, tabular datasets are a very common way of storing patient data, and for such data the advantage of visual perception is limited. Since 2017, researchers have focused on developing deep generative models for tabular datasets. Over the last three years, we have developed expertise in tabular synthetic data generation to solve the problem of imbalanced classification. We developed multiple algorithms in the domain of oversampling-driven imbalanced classification and tested their applicability to biological problems such as rare-cell annotation from single-cell transcriptomics data. From our studies emerged the idea of convex space learning, whose theoretical foundations were also explored in our studies. With our newest convex space learning model ConvGeN, we were able to improve classification on tabular imbalanced datasets using synthetic sample generation, compared to the state-of-the-art deep generative algorithms designed for tabular datasets. Synthetic samples generated using ConvGeN can approximate feature-wise statistical distributions better compared to existing deep generative algorithms for tabular datasets since the synthetic samples from ConvGeN fix feature-wise means in tabular data while learning appropriate feature-wise higher-order moments in a non-linear iterative fashion. We argue that convex space learning has extensive potential outside the domain of imbalanced classification that we have explored so far. We propose to extend our model ConvGeN, enabling it to generate synthetic tabular data outside the context of data imbalance. Furthermore, we propose to investigate the potential use of the synthetic data generated using convex space learning for several applications of machine learning in the clinical domain such as patient stratification, classification, regression problems, etc. The goal is to establish whether a given machine learning workflow involving synthetic data generation can produce similar enough performance as using real data, e.g. in patient stratification. Finally, we propose to use the developed algorithm for synthetic sample generation in real-life clinical problems to solve issues like privacy preservation in association with our clinical partners.
合成数据生成在生物医学研究中越来越突出,以解决实际问题:个性化;临床试验中群体代表性不足;数据隐私阻碍机构之间的数据共享等。对于图像数据集,有一个感知的优势,在这个意义上说,一个人可以直观地判断合成图像的真实性,只是通过看它。然而,在生物医学科学中,表格数据集是一个非常常见的方式存储病人的数据,和这样的数据的视觉感知的优势是有限的。自2017年以来,研究人员一直专注于为表格数据集开发深度生成模型。在过去的三年里,我们已经开发了表格合成数据生成方面的专业知识,以解决不平衡分类的问题。我们在过采样驱动的不平衡分类领域开发了多种算法,并测试了它们对生物学问题的适用性,例如来自单细胞转录组学数据的稀有细胞注释。从我们的研究中出现了凸空间学习的想法,其理论基础也在我们的研究中进行了探索。通过我们最新的凸空间学习模型ConvGeN,与为表格数据集设计的最先进的深度生成算法相比,我们能够使用合成样本生成来改进表格不平衡数据集的分类。与现有的表格数据集深度生成算法相比,使用ConvGeN生成的合成样本可以更好地近似特征统计分布,因为来自ConvGeN的合成样本修复了表格数据中的特征均值,同时以非线性迭代方式学习适当的特征高阶矩。我们认为,凸空间学习具有广泛的潜力领域以外的不平衡分类,我们已经探索到目前为止。我们建议扩展我们的模型ConvGeN,使其能够在数据不平衡的背景下生成合成表格数据。此外,我们建议研究潜在的使用凸空间学习的机器学习在临床领域的几个应用程序,如患者分层,分类,回归问题等,我们的目标是建立一个给定的机器学习工作流程,涉及合成数据生成是否可以产生足够的性能相似,使用真实的数据,例如在患者分层的合成数据。最后,我们建议在现实生活中的临床问题中使用开发的合成样本生成算法来解决与我们的临床合作伙伴相关的隐私保护等问题。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Professor Dr. Olaf Wolkenhauer其他文献
Professor Dr. Olaf Wolkenhauer的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Professor Dr. Olaf Wolkenhauer', 18)}}的其他基金
Modelle, Mechanismen, Komplexität. Zur Philosophie der Systembiologie
模型、机制、复杂性。
- 批准号:
201038283 - 财政年份:2011
- 资助金额:
-- - 项目类别:
Research Grants
Photorespiration-centred metabolic modelling: reconstruction and structural analysis of the network of primary metabolism in cyanobacteria, comparison to eukaryotic energy and central carbon metabolism, metabolic engineering approach for optimisation of C
以光呼吸为中心的代谢模型:蓝藻初级代谢网络的重建和结构分析,与真核能量和中心碳代谢的比较,优化C的代谢工程方法
- 批准号:
134778053 - 财政年份:2009
- 资助金额:
-- - 项目类别:
Research Units
相似国自然基金
基于非对称k-space算子分解的时空域声波和弹性波隐式有限差分新方法研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
联合QISS和SPACE一站式全身NCE-MRA对原发性系统性血管炎的诊断价值的研究
- 批准号:n/a
- 批准年份:2022
- 资助金额:0.0 万元
- 项目类别:省市级项目
三维流形的L-space猜想和左可序性
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
高维space-filling问题及其相关问题
- 批准号:
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:青年科学基金项目
难治性焦虑障碍儿童青少年父母基于SPACE 应对技能训练团体干预疗效
- 批准号:20Y11906700
- 批准年份:2020
- 资助金额:0.0 万元
- 项目类别:省市级项目
Rigged Hilbert Space与Bethe-Salpeter方程框架下强子共振态的理论研究
- 批准号:11975075
- 批准年份:2019
- 资助金额:60.0 万元
- 项目类别:面上项目
Space-surface Multi-GNSS机会信号感知植生参数建模与融合方法研究
- 批准号:41974039
- 批准年份:2019
- 资助金额:63.0 万元
- 项目类别:面上项目
基于压缩感知的核磁共振成像问题驱动的应用数学研究
- 批准号:11571325
- 批准年份:2015
- 资助金额:55.0 万元
- 项目类别:面上项目
三维空间中距离知觉的可塑性
- 批准号:31100739
- 批准年份:2011
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
Teichmüller理论与动力系统
- 批准号:11026124
- 批准年份:2010
- 资助金额:3.0 万元
- 项目类别:数学天元基金项目
相似海外基金
Navigating Chemical Space with Natural Language Processing and Deep Learning
利用自然语言处理和深度学习驾驭化学空间
- 批准号:
EP/Y004167/1 - 财政年份:2024
- 资助金额:
-- - 项目类别:
Research Grant
Learning to Represent Space in the Brain
学习在大脑中表示空间
- 批准号:
EP/Y024656/1 - 财政年份:2024
- 资助金额:
-- - 项目类别:
Research Grant
Collaborative Research: CyberTraining: Pilot: Cyberinfrastructure-Enabled Machine Learning for Understanding and Forecasting Space Weather
合作研究:网络培训:试点:网络基础设施支持的机器学习用于理解和预测空间天气
- 批准号:
2320148 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Standard Grant
CCSS: Uncertainty-Aware Computational Imaging in the Wild: a Bayesian Deep Learning Approach in the Latent Space
CCSS:野外不确定性感知计算成像:潜在空间中的贝叶斯深度学习方法
- 批准号:
2318758 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Standard Grant
Collaborative Research: IIBR: Innovation: Bioinformatics: Linking Chemical and Biological Space: Deep Learning and Experimentation for Property-Controlled Molecule Generation
合作研究:IIBR:创新:生物信息学:连接化学和生物空间:属性控制分子生成的深度学习和实验
- 批准号:
2318829 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Continuing Grant
High-performance deep neural networks for medical image analysis
用于医学图像分析的高性能深度神经网络
- 批准号:
10723553 - 财政年份:2023
- 资助金额:
-- - 项目类别:
The space-time organization of sleep oscillations as potential biomarker for hypersomnolence
睡眠振荡的时空组织作为嗜睡的潜在生物标志物
- 批准号:
10731224 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Customizable Artificial Intelligence for the Biomedical Masses: Development of a User-Friendly Automated Machine Learning Platform for Biology Image Analysis.
面向生物医学大众的可定制人工智能:开发用于生物图像分析的用户友好的自动化机器学习平台。
- 批准号:
10699828 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Predictive modeling of mammalian cell fate transitions over time and space with single-cell genomics
利用单细胞基因组学预测哺乳动物细胞命运随时间和空间转变的模型
- 批准号:
10572855 - 财政年份:2023
- 资助金额:
-- - 项目类别:
CCSS: Uncertainty-Aware Computational Imaging in the Wild: a Bayesian Deep Learning Approach in the Latent Space
CCSS:野外不确定性感知计算成像:潜在空间中的贝叶斯深度学习方法
- 批准号:
2348046 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Standard Grant