III: Small: Probabilistic Hashing for Efficient Search Learning
III:小:用于高效搜索学习的概率哈希
基本信息
- 批准号:1319830
- 负责人:
- 金额:$ 47.51万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2013
- 资助国家:美国
- 起止时间:2013-09-01 至 2013-10-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Numerous applications involve massive, high-dimensional datasets. For example, the search industry routinely deals with billions of web pages, where each page is often represented as a binary vector in 2^64 dimensions. In computer vision, images are often represented as non-binary vectors in millions of dimensions. Algorithms which are capable of efficiently compressing, retrieving, and mining these datasets are of high practical importance. Mathematically rigorous and computationally efficient hashing methods will be developed to dramatically reduce ultra-high-dimensional datasets. These algorithms will be integrated with a variety of learning techniques including classification, clustering, near-neighbor search, matrix factorizations, etc. The project builds on and extends minwise hashing, and b-bit minwise hashing which are standard hashing techniques in search applications. The project aims to (i) rigorously analyze b-bit minwise hashing and develop, analyze, and apply significantly more efficient (and more accurate) to problems in search and learning; (ii) develop a unified framework of probabilistic hashing which essentially consists of one permutation followed by (at most) one random projection; (iii) develop a unified theory of summary statistics under a variety of engineering constraints (storage space, computational speed, indexing capability, adaptation to streaming, etc.). Hashing algorithms developed under this framework are expected to be substantially much more efficient and more accurate than existing popular algorithms such as random projections and minwise hashing. This general framework allows the design algorithms to accommodate many different data types (sparse or dense data, binary or real-valued data, static or streaming data), many different engineering needs (computing inner products or lp distances, kernel learning or linear learning), and different storage requirements. Anticipated results of the proposed research include rigorous and computationally efficient hashing algorithms for dealing with ultra-high-dimensional datasets, the integration of the resulting hashing algorithms into with a variety of learning techniques for classification, clustering, near-neighbor search, singular value decompositions, matrix factorization, etc; and rigorous experimental evaluation of the resulting methods on big (e.g., TeraByte or potentially PetaByte) data of the order of up to 2^64 dimensions. Broader Impacts: Effective approaches to building predictive models from extremely high dimensional data can impact many areas of science that rely on machine learning as the primary methodology for knowledge acquisition from data. The PI's education and outreach efforts aim to broaden the participation of women and underrepresented groups. The publications, software, and datasets resulting from the project will be freely disseminated to the larger scientific community.
许多应用涉及大量的高维数据集。例如,搜索行业通常处理数十亿个网页,其中每个页面通常表示为2^64维的二进制向量。在计算机视觉中,图像通常表示为数百万维的非二进制向量。能够有效地压缩、检索和挖掘这些数据集的算法具有很高的实际意义。将开发数学上严格和计算效率高的哈希方法,以大幅减少超高维数据集。这些算法将与各种学习技术,包括分类,聚类,近邻搜索,矩阵分解等项目的基础上建立和扩展minwise哈希,和b位minwise哈希这是标准的哈希技术在搜索应用程序。该项目旨在(i)严格分析b位minwise哈希,并开发,分析和应用显着更有效(ii)开发一个统一的概率散列框架,其基本上由一个排列和(最多)一个随机投影组成;(iii)在各种工程限制(储存空间、计算速度、索引能力、适应串流等)下,发展概括统计的统一理论。在此框架下开发的散列算法预计将比现有的流行算法,如随机投影和minwise散列更有效,更准确。 这个通用框架允许设计算法适应许多不同的数据类型(稀疏或密集数据,二进制或实值数据,静态或流数据),许多不同的工程需求(计算内积或lp距离,内核学习或线性学习),以及不同的存储要求。所提出的研究的预期结果包括用于处理超高维数据集的严格且计算高效的散列算法,将所得散列算法与用于分类、聚类、近邻搜索、奇异值分解、矩阵分解等的各种学习技术集成;以及对所得方法进行严格的实验评估(例如,TeraByte或潜在的PetaByte)数据,其数量级高达2^64维。更广泛的影响:从极高维数据中构建预测模型的有效方法可以影响许多依赖机器学习作为从数据中获取知识的主要方法的科学领域。PI的教育和外联工作旨在扩大妇女和代表性不足群体的参与。该项目产生的出版物、软件和数据集将免费传播给更广泛的科学界。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Ping Li其他文献
A Cognitive Interpretation of Chinese Neologism Foxi
汉语新词“狐”的认知解释
- DOI:
10.35532/jahs.v1.008 - 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
Ping Li - 通讯作者:
Ping Li
A monocular odometer for a quadrotor using a homography model and inertial cues
使用单应模型和惯性线索的四旋翼单目里程计
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
Ping Li;M. Garratt;A. Lambert - 通讯作者:
A. Lambert
Compressed Sensing with Very Sparse Gaussian Random Projections
具有非常稀疏高斯随机投影的压缩感知
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
Ping Li;Cun - 通讯作者:
Cun
Study on absorption and spectral properties of H2S in carboxylate protic ionic liquids with low viscosity
低粘度羧酸质子离子液体中H2S的吸收和光谱特性研究
- DOI:
10.1016/j.molliq.2018.07.011 - 发表时间:
2018-09 - 期刊:
- 影响因子:6
- 作者:
Tianxiang Zhao;Ping Li;Xi Feng;Xingbang Hu;Youting Wu - 通讯作者:
Youting Wu
Fe particles on the tops of carbon nanofibers immobilized on structured carbon microfibers for ammonia decomposition
固定在结构化碳微纤维上的碳纳米纤维顶部的铁颗粒用于氨分解
- DOI:
10.1016/j.cattod.2013.06.008 - 发表时间:
2013-11 - 期刊:
- 影响因子:5.3
- 作者:
Ping Li;Xinggui Zhou;De Chen;Weikang Yuan - 通讯作者:
Weikang Yuan
Ping Li的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Ping Li', 18)}}的其他基金
Collaborative Research: Study of A- and B-class dye-decolorizing peroxidases (DyPs): From molecular mechanisms to applications in dye removal and lignin degradation
合作研究:A 类和 B 类染料脱色过氧化物酶 (DyPs) 的研究:从分子机制到在染料去除和木质素降解中的应用
- 批准号:
1807532 - 财政年份:2018
- 资助金额:
$ 47.51万 - 项目类别:
Standard Grant
Efficient Data Reduction and Summarization
高效的数据缩减和汇总
- 批准号:
1444124 - 财政年份:2014
- 资助金额:
$ 47.51万 - 项目类别:
Continuing Grant
Neurocognitive Mechanisms of Second Language Learning: Role of Learning Context and Cognitive Functions
第二语言学习的神经认知机制:学习情境和认知功能的作用
- 批准号:
1338946 - 财政年份:2013
- 资助金额:
$ 47.51万 - 项目类别:
Standard Grant
III: Small: Probabilistic Hashing for Efficient Search Learning
III:小:用于高效搜索学习的概率哈希
- 批准号:
1360971 - 财政年份:2013
- 资助金额:
$ 47.51万 - 项目类别:
Continuing Grant
BIGDATA: Small: DA: A Random Projection Approach
大数据:小:DA:随机投影方法
- 批准号:
1419210 - 财政年份:2013
- 资助金额:
$ 47.51万 - 项目类别:
Standard Grant
BIGDATA: Small: DA: A Random Projection Approach
大数据:小:DA:随机投影方法
- 批准号:
1250914 - 财政年份:2013
- 资助金额:
$ 47.51万 - 项目类别:
Standard Grant
EAGER: Preliminary Study of Hashing Algorithms for Large-Scale Learning
EAGER:大规模学习的哈希算法初步研究
- 批准号:
1249316 - 财政年份:2012
- 资助金额:
$ 47.51万 - 项目类别:
Standard Grant
Collaborative Research: Cross-Language Lexical Interaction
合作研究:跨语言词汇交互
- 批准号:
1057877 - 财政年份:2011
- 资助金额:
$ 47.51万 - 项目类别:
Standard Grant
Efficient Data Reduction and Summarization
高效的数据缩减和汇总
- 批准号:
0808864 - 财政年份:2008
- 资助金额:
$ 47.51万 - 项目类别:
Continuing Grant
RUI: Self-organization and the Acquisition, Representation, and Processing of Language
RUI:自组织和语言的习得、表示和处理
- 批准号:
0131829 - 财政年份:2003
- 资助金额:
$ 47.51万 - 项目类别:
Continuing Grant
相似国自然基金
昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
- 批准号:n/a
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
- 批准号:32000033
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
- 批准号:31972324
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
- 批准号:81900988
- 批准年份:2019
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
- 批准号:31870821
- 批准年份:2018
- 资助金额:56.0 万元
- 项目类别:面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
- 批准号:31802058
- 批准年份:2018
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
- 批准号:31772128
- 批准年份:2017
- 资助金额:60.0 万元
- 项目类别:面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
- 批准号:81704176
- 批准年份:2017
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
- 批准号:91640114
- 批准年份:2016
- 资助金额:85.0 万元
- 项目类别:重大研究计划
相似海外基金
III: Small: Scalable Probabilistic Inference for Large Knowledge Bases
III:小:大型知识库的可扩展概率推理
- 批准号:
1614738 - 财政年份:2016
- 资助金额:
$ 47.51万 - 项目类别:
Standard Grant
III: Small: Efficient Query Processing over Large Probabilistic Knowledge Bases
III:小型:大型概率知识库的高效查询处理
- 批准号:
1526753 - 财政年份:2015
- 资助金额:
$ 47.51万 - 项目类别:
Standard Grant
III: Small: Collaborative Research: Probabilistic Models using Generalized Exponential Families
III:小:协作研究:使用广义指数族的概率模型
- 批准号:
1564765 - 财政年份:2015
- 资助金额:
$ 47.51万 - 项目类别:
Standard Grant
III: Small: Probabilistic Hashing for Efficient Search Learning
III:小:用于高效搜索学习的概率哈希
- 批准号:
1360971 - 财政年份:2013
- 资助金额:
$ 47.51万 - 项目类别:
Continuing Grant
III: Small: Collaborative Research: Probabilistic Models using Generalized Exponential Families
III:小:协作研究:使用广义指数族的概率模型
- 批准号:
1117705 - 财政年份:2011
- 资助金额:
$ 47.51万 - 项目类别:
Standard Grant
III: Small: Collaborative Research: Probabilistic Models using Generalized Exponential Families
III:小:协作研究:使用广义指数族的概率模型
- 批准号:
1118028 - 财政年份:2011
- 资助金额:
$ 47.51万 - 项目类别:
Standard Grant
III: Small: Efficient Ranking and Aggregate Query Processing for Probabilistic Data
III:小:概率数据的高效排序和聚合查询处理
- 批准号:
1212310 - 财政年份:2011
- 资助金额:
$ 47.51万 - 项目类别:
Continuing Grant
III: Small: Query Compilation on Probabilistic Databases
III:小:概率数据库上的查询编译
- 批准号:
1115188 - 财政年份:2011
- 资助金额:
$ 47.51万 - 项目类别:
Standard Grant
III: Small: Efficient Ranking and Aggregate Query Processing for Probabilistic Data
III:小:概率数据的高效排序和聚合查询处理
- 批准号:
0916488 - 财政年份:2009
- 资助金额:
$ 47.51万 - 项目类别:
Continuing Grant
III-COR-Small: Multi-Relational Data Clustering with Probabilistic Mixture Models
III-COR-Small:具有概率混合模型的多关系数据聚类
- 批准号:
0812183 - 财政年份:2008
- 资助金额:
$ 47.51万 - 项目类别:
Standard Grant