Convex space learning for synthetic data generation on clinical tabular datasets

用于临床表格数据集上的合成数据生成的凸空间学习

基本信息

项目摘要

Synthetic data generation is gaining prominence in biomedical research in solving practical problems: personalization; underrepresentation of groups in clinical trials; data privacy hindering sharing of data among institutions etc. Synthetic data generation using deep generative networks for medical images is a booming research field. For image datasets, there is a perceptional advantage, in the sense, that one can visually judge how realistic the synthetic image is, just by looking at it. However, in biomedical science, tabular datasets are a very common way of storing patient data, and for such data the advantage of visual perception is limited. Since 2017, researchers have focused on developing deep generative models for tabular datasets. Over the last three years, we have developed expertise in tabular synthetic data generation to solve the problem of imbalanced classification. We developed multiple algorithms in the domain of oversampling-driven imbalanced classification and tested their applicability to biological problems such as rare-cell annotation from single-cell transcriptomics data. From our studies emerged the idea of convex space learning, whose theoretical foundations were also explored in our studies. With our newest convex space learning model ConvGeN, we were able to improve classification on tabular imbalanced datasets using synthetic sample generation, compared to the state-of-the-art deep generative algorithms designed for tabular datasets. Synthetic samples generated using ConvGeN can approximate feature-wise statistical distributions better compared to existing deep generative algorithms for tabular datasets since the synthetic samples from ConvGeN fix feature-wise means in tabular data while learning appropriate feature-wise higher-order moments in a non-linear iterative fashion. We argue that convex space learning has extensive potential outside the domain of imbalanced classification that we have explored so far. We propose to extend our model ConvGeN, enabling it to generate synthetic tabular data outside the context of data imbalance. Furthermore, we propose to investigate the potential use of the synthetic data generated using convex space learning for several applications of machine learning in the clinical domain such as patient stratification, classification, regression problems, etc. The goal is to establish whether a given machine learning workflow involving synthetic data generation can produce similar enough performance as using real data, e.g. in patient stratification. Finally, we propose to use the developed algorithm for synthetic sample generation in real-life clinical problems to solve issues like privacy preservation in association with our clinical partners.
在解决实践问题的生物医学研究中,合成数据的生成正在获得突出:个性化;临床试验中的组人数不足;数据隐私阻碍了机构之间的数据共享等。使用深层生成网络进行医学图像的综合数据生成是一个蓬勃发展的研究领域。对于图像数据集而言,从某种意义上说,只要通过查看它,就可以在视觉上判断合成图像的现实程度。但是,在生物医学科学中,表格数据集是存储患者数据的一种非常常见的方法,并且对于此类数据,视觉感知的优势是有限的。自2017年以来,研究人员一直致力于为表格数据集开发深层生成模型。在过去的三年中,我们开发了表格合成数据生成方面的专业知识,以解决分类不平衡的问题。我们在过度采样驱动的不平衡分类领域中开发了多种算法,并测试了它们对生物学问题的适用性,例如来自单细胞转录组数据的稀有细胞注释。从我们的研究中出现了凸出太空学习的想法,在我们的研究中也探讨了其理论基础。借助我们最新的凸出空间学习模型,与为表格数据集设计的最新深层生成算法相比,使用合成样本的生成来改进表格不平衡数据集的分类。与表格数据集的现有深层生成算法相比,使用Convgen生成的合成样品可以更好地近似于特征的统计分布,因为从Convgen Fix Fix Partale Partale Mane中的合成样品在表格数据中的合成样本同时以非线性迭代方式学习适当的高阶高阶矩。我们认为,在迄今为止我们探索的不平衡分类领域之外,凸出太空学习具有广泛的潜力。我们建议扩展我们的模型会议,使其能够在数据不平衡的上下文之外生成综合表格数据。此外,我们建议研究使用凸空间学习生成的合成数据的潜在用途,用于在临床领域中的机器学习的多种应用,例如患者分层,分类,回归问题等。其目标是确定给定的机器学习工作流程涉及合成数据生成是否可以产生与实际数据相似的相似性能,例如使用真实数据,例如。在患者分层中。最后,我们建议将开发的算法用于现实临床问题中的合成样本生成,以解决与我们的临床合作伙伴相关的隐私保护问题。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Professor Dr. Olaf Wolkenhauer其他文献

Professor Dr. Olaf Wolkenhauer的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Professor Dr. Olaf Wolkenhauer', 18)}}的其他基金

Modelle, Mechanismen, Komplexität. Zur Philosophie der Systembiologie
模型、机制、复杂性。
  • 批准号:
    201038283
  • 财政年份:
    2011
  • 资助金额:
    --
  • 项目类别:
    Research Grants
Photorespiration-centred metabolic modelling: reconstruction and structural analysis of the network of primary metabolism in cyanobacteria, comparison to eukaryotic energy and central carbon metabolism, metabolic engineering approach for optimisation of C
以光呼吸为中心的代谢模型:蓝藻初级代谢网络的重建和结构分析,与真核能量和中心碳代谢的比较,优化C的代谢工程方法
  • 批准号:
    134778053
  • 财政年份:
    2009
  • 资助金额:
    --
  • 项目类别:
    Research Units

相似国自然基金

基于机器学习的长江干流三维水体空间及初级生产力遥感反演研究
  • 批准号:
    52309076
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于因果小样本学习的卫星用空间轴承可信故障诊断方法
  • 批准号:
    52375089
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
机理模型与数据混合驱动的空间遥操作学习控制方法研究
  • 批准号:
    62373305
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
深度学习框架下火星凹锥智能检测和空间分异特征研究
  • 批准号:
    42302265
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于深度学习的城市三维空间扩张动态监测及驱动机制研究
  • 批准号:
    42301455
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Navigating Chemical Space with Natural Language Processing and Deep Learning
利用自然语言处理和深度学习驾驭化学空间
  • 批准号:
    EP/Y004167/1
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Research Grant
Learning to Represent Space in the Brain
学习在大脑中表示空间
  • 批准号:
    EP/Y024656/1
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Research Grant
Collaborative Research: CyberTraining: Pilot: Cyberinfrastructure-Enabled Machine Learning for Understanding and Forecasting Space Weather
合作研究:网络培训:试点:网络基础设施支持的机器学习用于理解和预测空间天气
  • 批准号:
    2320148
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
CCSS: Uncertainty-Aware Computational Imaging in the Wild: a Bayesian Deep Learning Approach in the Latent Space
CCSS:野外不确定性感知计算成像:潜在空间中的贝叶斯深度学习方法
  • 批准号:
    2318758
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Collaborative Research: IIBR: Innovation: Bioinformatics: Linking Chemical and Biological Space: Deep Learning and Experimentation for Property-Controlled Molecule Generation
合作研究:IIBR:创新:生物信息学:连接化学和生物空间:属性控制分子生成的深度学习和实验
  • 批准号:
    2318829
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了