General and Semi-supervised Machine Learning Applied to Bioinformatics

应用于生物信息学的通用和半监督机器学习

基本信息

  • 批准号:
    8558105
  • 负责人:
  • 金额:
    $ 56.4万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
  • 资助国家:
    美国
  • 起止时间:
  • 项目状态:
    未结题

项目摘要

1) Many different methods have been investigated for the purpose of clustering sets of documents with the hope of improving retrieval. Unfortunately these have generally failed to provide improved retrieval capability. Part of the problem is clearly the fact that a given document often involves more than one subject so that it is not possible to make a clean categorization of the documents into definite categories to the exclusion of others. In order to overcome this problem we have developed methods that are designed to identify a theme among a set of documents. The theme need not encompass the whole of any document. It only needs to exist in some subset of the documents in order to be identifiable. Some of these same documents may participate in the definition of several themes. One method of finding themes is based on the EM algorithm and requires an iterative procedure which converges to themes. The method has been implemented and tested and found to be successful. 2) A second approach can be based on the singular value decomposition and essentially is a vector approach. 3) We are also investigating other methods to extract higher level features. One method we are currently studying is to perform machine learning with an SVM or other classifier and score the documents based on this learning. Then PAV can be applied to the resulting scores and this score function can be descretized without the loss of significant information. This allows us to make use of the results as features which can be individually weighted in another classifier. 4) We have developed a new algorithm called the periodic random orbiter algorithm (PROBE) which is applicable to minimize any convex loss function. We have applied it to the MeSH classification problem and it seems to work very well and better than the alternatives on such a large problem.
1)许多不同的方法已被调查的目的,聚类集的文件,希望提高检索。不幸的是,这些通常不能提供改进的检索能力。部分问题显然是,一份文件往往涉及一个以上的主题,因此不可能将文件明确归类为明确的类别,而排除其他类别。为了克服这个问题,我们已经开发出的方法,旨在确定一组文件中的主题。主题不必涵盖任何文件的全部。它只需要存在于文档的某个子集中即可识别。其中一些文件可能参与若干主题的界定。发现主题的一种方法是基于EM算法,并且需要收敛到主题的迭代过程。该方法已被实施和测试,并发现是成功的。 2)第二种方法可以基于奇异值分解,并且本质上是向量方法。 3)我们还在研究其他方法来提取更高级别的特征。我们目前正在研究的一种方法是使用SVM或其他分类器进行机器学习,并根据这种学习对文档进行评分。然后,PAV可以被应用到所得到的分数,并且该分数函数可以被离散化而不会丢失重要信息。这允许我们将结果用作可以在另一个分类器中单独加权的特征。 4)我们已经开发了一种新的算法称为周期性随机轨道算法(PROBE),这是适用于最小化任何凸损失函数。我们已经将其应用于MeSH分类问题,它似乎工作得很好,比这样一个大问题的替代品更好。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Willy Wilbur其他文献

Willy Wilbur的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Willy Wilbur', 18)}}的其他基金

A Document Processing System
文档处理系统
  • 批准号:
    8344939
  • 财政年份:
  • 资助金额:
    $ 56.4万
  • 项目类别:
Automatic Analysis and Annotation of Document Keywords in Biomedical Literature
生物医学文献中文档关键词的自动分析与标注
  • 批准号:
    8344960
  • 财政年份:
  • 资助金额:
    $ 56.4万
  • 项目类别:
Natural Language Processing Techniques To Enhance Information Access.
增强信息访问的自然语言处理技术。
  • 批准号:
    8943224
  • 财政年份:
  • 资助金额:
    $ 56.4万
  • 项目类别:
PubMed Query Log Analysis and Use in Access Inhancement
PubMed 查询日志分析及其在访问增强中的使用
  • 批准号:
    7969244
  • 财政年份:
  • 资助金额:
    $ 56.4万
  • 项目类别:
Automatic Bayesian Methods In Text Retrieval
文本检索中的自动贝叶斯方法
  • 批准号:
    8149591
  • 财政年份:
  • 资助金额:
    $ 56.4万
  • 项目类别:
A Document Processing System
文档处理系统
  • 批准号:
    8149592
  • 财政年份:
  • 资助金额:
    $ 56.4万
  • 项目类别:
General and Semi-supervised Machine Learning Applied to Bioinformatics
应用于生物信息学的通用和半监督机器学习
  • 批准号:
    8149602
  • 财政年份:
  • 资助金额:
    $ 56.4万
  • 项目类别:
A Document Processing System
文档处理系统
  • 批准号:
    9160906
  • 财政年份:
  • 资助金额:
    $ 56.4万
  • 项目类别:
A Document Processing System
文档处理系统
  • 批准号:
    7969199
  • 财政年份:
  • 资助金额:
    $ 56.4万
  • 项目类别:
General and Semi-supervised Machine Learning Applied to Bioinformatics
应用于生物信息学的通用和半监督机器学习
  • 批准号:
    8344948
  • 财政年份:
  • 资助金额:
    $ 56.4万
  • 项目类别:

相似海外基金

Conference: Global Bioinformatics Education Summit 2024 — Energizing Communities to Power the Bioeconomy Workforce
会议:2024 年全球生物信息学教育峰会 — 激励社区为生物经济劳动力提供动力
  • 批准号:
    2421267
  • 财政年份:
    2024
  • 资助金额:
    $ 56.4万
  • 项目类别:
    Standard Grant
Open Access Block Award 2024 - EMBL - European Bioinformatics Institute
2024 年开放获取区块奖 - EMBL - 欧洲生物信息学研究所
  • 批准号:
    EP/Z532678/1
  • 财政年份:
    2024
  • 资助金额:
    $ 56.4万
  • 项目类别:
    Research Grant
Conference: The 9th Workshop on Biostatistics and Bioinformatics
会议:第九届生物统计与生物信息学研讨会
  • 批准号:
    2409876
  • 财政年份:
    2024
  • 资助金额:
    $ 56.4万
  • 项目类别:
    Standard Grant
PDB Management by The Research Collaboratory for Structural Bioinformatics
结构生物信息学研究合作实验室的 PDB 管理
  • 批准号:
    2321666
  • 财政年份:
    2024
  • 资助金额:
    $ 56.4万
  • 项目类别:
    Cooperative Agreement
PAML 5: A friendly and powerful bioinformatics resource for phylogenomics
PAML 5:用于系统基因组学的友好且强大的生物信息学资源
  • 批准号:
    BB/X018571/1
  • 财政年份:
    2024
  • 资助金额:
    $ 56.4万
  • 项目类别:
    Research Grant
Building a Bioinformatics Ecosystem for Agri-Ecologists
为农业生态学家构建生物信息学生态系统
  • 批准号:
    BB/X018768/1
  • 财政年份:
    2023
  • 资助金额:
    $ 56.4万
  • 项目类别:
    Research Grant
Integrative viral genomics and bioinformatics platform
综合病毒基因组学和生物信息学平台
  • 批准号:
    MC_UU_00034/5
  • 财政年份:
    2023
  • 资助金额:
    $ 56.4万
  • 项目类别:
    Intramural
Collaborative Research: IIBR: Innovation: Bioinformatics: Linking Chemical and Biological Space: Deep Learning and Experimentation for Property-Controlled Molecule Generation
合作研究:IIBR:创新:生物信息学:连接化学和生物空间:属性控制分子生成的深度学习和实验
  • 批准号:
    2318829
  • 财政年份:
    2023
  • 资助金额:
    $ 56.4万
  • 项目类别:
    Continuing Grant
Planning Proposal: CREST Center in Bioinformatics
规划方案:CREST生物信息学中心
  • 批准号:
    2334642
  • 财政年份:
    2023
  • 资助金额:
    $ 56.4万
  • 项目类别:
    Standard Grant
Bioinformatics Core
生物信息学核心
  • 批准号:
    10404414
  • 财政年份:
    2023
  • 资助金额:
    $ 56.4万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了