CD-HIT: A Fast Program to Cluster and Compare Large Sets of Biological Sequences
CD-HIT:对大量生物序列进行聚类和比较的快速程序
基本信息
- 批准号:7892867
- 负责人:
- 金额:$ 13.57万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2009
- 资助国家:美国
- 起止时间:2009-08-26 至 2010-08-25
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
DESCRIPTION (provided by applicant): Project Summary/Abstract CD-HIT is a computer program for clustering and comparing large sets of protein or nucleotide sequences. It helps to significantly reduce the computational and manual efforts in various sequence analysis tasks and aids in understanding the data structure and correct the bias within a dataset. CD-HIT is 2 to 3 orders of magnitude faster than other methods. It can handle extremely large databases and has been used extensively in various fields. CD-HIT is becoming increasingly popular based on users' feedback and the growing number of publications that cited CD-HIT. CD-HIT has thousands of users now and is routinely used in many popular databases, such as UniProt and PDB. Researchers are now facing serious challenges and problems from the explosive growth of public sequence databases as a result of high-throughput genome sequencing projects and the very recent environmental metagenomic projects. The routine analysis, from searching a database to building a multiple alignment, is getting more computational expensive and complicated. An efficient clustering method is crucial to address many of the challenges and help researchers to overcome the problems. Currently, no other available program can replace CD-HIT in terms of speed and the ability to handle very large datasets. Therefore, CD-HIT will be playing a more important role in the future. The goal of this proposal is the further improvement and development of the CD-HIT program and related applications to better serve the increasing user community and to address the issues raised by users of CD-HIT. The algorithm will be improved to achieve better performance and overcome the existing limitations. Efforts will be spent towards more accurate clustering results while still maintaining the ultrahigh speed. New functions will be implemented to meet various clustering and comparing needs. More enhanced maintenance and better software engineering techniques will take place to provide regular program releases and updates, better portability, shorter trouble shooting cycles, and richer documentation. Subject to University policies, CD-HIT will be continually an open source package. In addition, a web server will be set up for easier public access to CD-HIT's applications. The server will provide further analysis and visualization tools, interface and links to other bioinformatics resources. Pre-calculated popular datasets will be made available to the public to eliminate the need for individual labs to repeat the same work. Project Narrative CD-HIT is a fast computer program for clustering and comparing biological sequences used by thousands of researchers in public health related studies. It directly helps researchers to significantly reduce the efforts in sequence analysis and to correct the bias within public databases. Continued development of CD-HIT will better serve researchers who are facing more challenges in sequence analysis by the explosive growth of public sequence databases.
CD-HIT是一个计算机程序,用于聚类和比较大量的蛋白质或核苷酸序列。它有助于显着减少各种序列分析任务中的计算和手动工作,并有助于理解数据结构和纠正数据集中的偏差。CD-HIT比其他方法快2 ~ 3个数量级。它可以处理非常大的数据库,并已广泛应用于各个领域。根据用户的反馈和越来越多的出版物引用CD-HIT,CD-HIT越来越受欢迎。CD-HIT现在有成千上万的用户,并经常用于许多流行的数据库,如UniProt和PDB。由于高通量基因组测序计划和最近的环境宏基因组计划,研究人员现在面临着来自公共序列数据库爆炸性增长的严重挑战和问题。常规分析,从搜索数据库到建立多重比对,变得越来越计算昂贵和复杂。一个有效的聚类方法是至关重要的,以解决许多挑战,并帮助研究人员克服这些问题。目前,没有其他可用的程序可以在速度和处理非常大的数据集的能力方面取代CD-HIT。因此,CD-HIT将在未来发挥更重要的作用。本提案的目标是进一步改进和发展CD-HIT程序和相关应用程序,以便更好地为日益增多的用户群体服务,并解决CD-HIT用户提出的问题。该算法将得到改进,以达到更好的性能,并克服现有的局限性。将努力争取更准确的聚类结果,同时仍保持搜索速度。将实现新的功能以满足各种聚类和比较需求。将采用更强的维护和更好的软件工程技术,以提供定期的程序发布和更新、更好的可移植性、更短的故障排除周期和更丰富的文档。根据大学的政策,CD-HIT将继续是一个开源软件包。此外,还将设置一个网络服务器,方便公众使用CD-HIT的应用程序。该服务器将提供进一步的分析和可视化工具,接口和链接到其他生物信息学资源。预先计算的流行数据集将向公众提供,以消除单个实验室重复相同工作的需要。Project Narrative CD-HIT是一个快速的计算机程序,用于聚类和比较数千名研究人员在公共卫生相关研究中使用的生物序列。它直接帮助研究人员显着减少序列分析的工作,并纠正公共数据库中的偏见。随着公共序列数据库的爆炸式增长,CD-HIT的持续发展将更好地服务于那些在序列分析中面临更多挑战的研究人员。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Weizhong Li其他文献
Weizhong Li的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Weizhong Li', 18)}}的其他基金
A study of antibiotics usage on early gut microbiome colonization and establishment in young children
抗生素使用对幼儿早期肠道微生物定植和建立的研究
- 批准号:
10113538 - 财政年份:2020
- 资助金额:
$ 13.57万 - 项目类别:
Novel Methods for Effective Analysis Assembly and Comparison of HMP Sequences
HMP 序列有效分析组装和比较的新方法
- 批准号:
8294893 - 财政年份:2010
- 资助金额:
$ 13.57万 - 项目类别:
Novel Methods for Effective Analysis Assembly and Comparison of HMP Sequences
HMP 序列有效分析组装和比较的新方法
- 批准号:
8020878 - 财政年份:2010
- 资助金额:
$ 13.57万 - 项目类别:
Novel Methods for Effective Analysis Assembly and Comparison of HMP Sequences
HMP 序列有效分析组装和比较的新方法
- 批准号:
8150493 - 财政年份:2010
- 资助金额:
$ 13.57万 - 项目类别:
CD-HIT: A Fast Program to Cluster and Compare Large Sets of Biological Sequences
CD-HIT:对大量生物序列进行聚类和比较的快速程序
- 批准号:
7495498 - 财政年份:2008
- 资助金额:
$ 13.57万 - 项目类别:
CD-HIT: A Fast Program to Cluster and Compare Large Sets of Biological Sequences
CD-HIT:对大量生物序列进行聚类和比较的快速程序
- 批准号:
7682840 - 财政年份:2008
- 资助金额:
$ 13.57万 - 项目类别:
相似国自然基金
TiO2/MoS2非金属等离激元在双面HIT太阳电池光吸收增强及载流子传输过程中的作用研究
- 批准号:62304065
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
拟南芥HIT4和HIT4L参与高温条件下染色质松散的机制和功能研究
- 批准号:
- 批准年份:2022
- 资助金额:54 万元
- 项目类别:面上项目
易用性激励 HIT 质量和效果的作用和机制研究
- 批准号:LY22H180001
- 批准年份:2021
- 资助金额:0.0 万元
- 项目类别:省市级项目
基于硅倒金字塔微观特征调控的高广角发电量薄硅HIT太阳电池性能研究
- 批准号:
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:青年科学基金项目
HIT 和MCT 通过AMPKα2 介导的骨骼肌线粒体自噬改善小鼠胰岛素抵抗机制研究
- 批准号:2021JJ40981
- 批准年份:2021
- 资助金额:0.0 万元
- 项目类别:省市级项目
口腔黏膜上皮界面炎症微环境中的CD4+TRIM21hiT细胞经IL-6/Jak-Stat3信号通路调控调节性T细胞功能的机制研究
- 批准号:82020108010
- 批准年份:2020
- 资助金额:248 万元
- 项目类别:国际(地区)合作与交流项目
用于糖脂代谢时空动态研究的HIT2敲进小鼠的制备和应用
- 批准号:91957121
- 批准年份:2019
- 资助金额:81.0 万元
- 项目类别:重大研究计划
高效钙钛矿/HIT叠层太阳能电池的制备与性能研究
- 批准号:61574133
- 批准年份:2015
- 资助金额:64.0 万元
- 项目类别:面上项目
基于温和等离子体沉积技术的n型晶硅HIT太阳能电池的制备与研究
- 批准号:61404061
- 批准年份:2014
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
水稻核编码的新基因Pi-hit-1在抗逆过程中的生物学特性
- 批准号:30670176
- 批准年份:2006
- 资助金额:8.0 万元
- 项目类别:面上项目
相似海外基金
Fragment to small molecule hit discovery targeting Mycobacterium tuberculosis FtsZ
针对结核分枝杆菌 FtsZ 的小分子片段发现
- 批准号:
MR/Z503757/1 - 财政年份:2024
- 资助金额:
$ 13.57万 - 项目类别:
Research Grant
Hit expansion of allosteric GALK1 inhibitors for galactosemia
半乳糖血症变构 GALK1 抑制剂的命中扩展
- 批准号:
MR/Z503708/1 - 财政年份:2024
- 资助金额:
$ 13.57万 - 项目类别:
Research Grant
CC* Data Storage: Cost-effective Attached Storage for High throughput computing using Homo- geneous IT (CASH HIT) supporting Penn State Science, the Open Science Grid and LIGO
CC* 数据存储:使用同质 IT (CASH HIT) 实现高吞吐量计算的经济高效附加存储,支持宾夕法尼亚州立大学科学学院、开放科学网格和 LIGO
- 批准号:
2346596 - 财政年份:2024
- 资助金额:
$ 13.57万 - 项目类别:
Standard Grant
Bayesian estimation of soil layer parameters and immediate prediction of spatial distribution of hit probability in debris flow simulation
泥石流模拟中土层参数的贝叶斯估计及撞击概率空间分布的即时预测
- 批准号:
23K13412 - 财政年份:2023
- 资助金额:
$ 13.57万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
Hit-to-lead optimisation of fragment hits targeting SARS-CoV-2 non structural protein 10 using structure-based drug design
使用基于结构的药物设计对针对 SARS-CoV-2 非结构蛋白 10 的片段命中进行命中到先导优化
- 批准号:
MR/X013995/1 - 财政年份:2023
- 资助金额:
$ 13.57万 - 项目类别:
Research Grant
Hybrid Intelligence for Trustable Diagnosis And Patient Management of Prostate Cancer (HIT-PIRADS)
用于前列腺癌可信诊断和患者管理的混合智能 (HIT-PIRADS)
- 批准号:
10611212 - 财政年份:2023
- 资助金额:
$ 13.57万 - 项目类别:
Conduct Hit-to-Lead Progression Studies on Interventional Agents: Identification of Anti-HIV Lead Compounds
对介入药物进行从先导化合物到先导化合物的进展研究:抗 HIV 先导化合物的鉴定
- 批准号:
10927005 - 财政年份:2023
- 资助金额:
$ 13.57万 - 项目类别:
Insights into a multi-hit process in the development of necrotizing enterocolitis
深入了解坏死性小肠结肠炎发展中的多重打击过程
- 批准号:
10763712 - 财政年份:2023
- 资助金额:
$ 13.57万 - 项目类别:
MARTIN (NUVONURO)-HIT TO LEAD CHEMISTRY-ADMET ONLY- MCSP-HEAL
马丁(NUVONURO)-仅领导化学-ADMET-MCSP-HEAL
- 批准号:
10949270 - 财政年份:2023
- 资助金额:
$ 13.57万 - 项目类别:
A two-hit hypothesis for dystonia pathophysiology: Cerebello-thalamo-striatal dysfunction and connectivity in DYT1 mice
肌张力障碍病理生理学的二次假设:DYT1 小鼠的小脑-丘脑-纹状体功能障碍和连接
- 批准号:
10508076 - 财政年份:2022
- 资助金额:
$ 13.57万 - 项目类别: