Unsupervised Document Set Exploration Using Divisive Partitioning

使用分裂分区进行无监督文档集探索

基本信息

  • 批准号:
    9811229
  • 负责人:
  • 金额:
    $ 18万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    1998
  • 资助国家:
    美国
  • 起止时间:
    1998-09-15 至 2002-08-31
  • 项目状态:
    已结题

项目摘要

The purpose of this project is to develop algorithms and tools for the exploration and categorization of extremely large bodies of documents, especially from the World Wide Web. The technical approach is based on a new hierarchical divisive partitioning method which has produced quality clusters very fast in preliminary tests. The research issues to be addressed include: scalability analysis, theoretical foundations, incremental updating methods, generalizations (such as handling missing values and different scaling), and interface to one or more Web agents for various applications. Educational seminars and tutorials are a natural part of this project, given its interdisciplinary nature. Anticipated results are a set of algorithms and tools for organizing large document collections that enjoy the features of (1) scalability to very large datasets, (2) unsupervised operation, and (3) reasonable quality and usefulness of the categories found. Anticipated benefits include an order of magnitude increase in the size of datasets on which it will be practical to extract useful categories in an unsupervised manner. Potential applications include client-side WWW organization and search aids, server-side aids to create document ratings in a consistent manner, tools to maintain and update organization and classification of contents of specialized databases, all with a minimum of human intervention. http://www.cs.umn.edu/~boley/PDDP.html
这个项目的目的是开发算法和工具,用于探索和分类极大的文档,特别是来自万维网的文档。该技术方法基于一种新的等级划分划分方法,该方法在初步测试中非常快速地产生了质量集群。要解决的研究问题包括:可伸缩性分析、理论基础、增量更新方法、泛化(如处理缺失值和不同的伸缩性)以及与不同应用的一个或多个Web代理的接口。鉴于该项目的跨学科性质,教育研讨会和教程是该项目的自然组成部分。预期的结果是一套用于组织大型文档集合的算法和工具,这些算法和工具具有以下特征:(1)可扩展到非常大的数据集,(2)无监督操作,以及(3)所发现类别的合理质量和有用性。预期的好处包括数据集的大小增加了一个数量级,在这些数据集上以无监督的方式提取有用的类别将是切实可行的。潜在的应用包括客户端WWW组织和搜索辅助工具、以一致方式创建文档评级的服务器端辅助工具、维护和更新专门数据库内容的组织和分类的工具,所有这些都只需最少的人工干预。Http://www.cs.umn.edu/~boley/PDDP.html

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Daniel Boley其他文献

Clustering Very Large Data Sets with Principal Direction Divisive Partitioning
使用主方向划分分区对非常大的数据集进行聚类
  • DOI:
    10.1007/3-540-28349-8_4
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    D. Littau;Daniel Boley
  • 通讯作者:
    Daniel Boley
Transpose-free multiple Lanczos and its application in Padé approximation
无转置多重Lanczos及其在Padé近似中的应用
Krylov space methods on state-space control models
Chapter 1 A SCALABLE HIERARCHICAL ALGORITHM FOR UNSUPERVISED CLUSTERING
第 1 章 用于无监督聚类的可扩展分层算法
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Daniel Boley
  • 通讯作者:
    Daniel Boley
A Correlated Random Walk Model to Rapidly Approximate Hitting Time Distributions in Multi-robot Systems
快速逼近多机器人系统中击球时间分布的相关随机游走模型

Daniel Boley的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Daniel Boley', 18)}}的其他基金

REU Site: Computational Methods for Discovery Driven by Big Data
REU 网站:大数据驱动的发现计算方法
  • 批准号:
    1460620
  • 财政年份:
    2015
  • 资助金额:
    $ 18万
  • 项目类别:
    Standard Grant
III: Small: Effective Convex Solvers for Machine Learning
III:小型:用于机器学习的有效凸求解器
  • 批准号:
    1319749
  • 财政年份:
    2013
  • 资助金额:
    $ 18万
  • 项目类别:
    Continuing Grant
Effective Learning by Leveraging Supervised and Unsupervised Techniques
利用监督和非监督技术进行有效学习
  • 批准号:
    0534286
  • 财政年份:
    2005
  • 资助金额:
    $ 18万
  • 项目类别:
    Continuing Grant
General Purpose Methods for Unsupervised Exploration of Large Datasets
大型数据集无监督探索的通用方法
  • 批准号:
    0208621
  • 财政年份:
    2002
  • 资助金额:
    $ 18万
  • 项目类别:
    Continuing Grant
Robust Fault Tolerance for Computations in Linear Algebra and Signal Processing
线性代数和信号处理计算的鲁棒容错能力
  • 批准号:
    9628786
  • 财政年份:
    1996
  • 资助金额:
    $ 18万
  • 项目类别:
    Standard Grant
Numerical Methods for Very Large Sparse Dynamical Systems
超大型稀疏动力系统的数值方法
  • 批准号:
    9405380
  • 财政年份:
    1994
  • 资助金额:
    $ 18万
  • 项目类别:
    Standard Grant
A Study of Large Matrix Eigenvalue Problems
大矩阵特征值问题的研究
  • 批准号:
    8813493
  • 财政年份:
    1988
  • 资助金额:
    $ 18万
  • 项目类别:
    Continuing Grant
Large Matrix Eigenvalue and Singular Value Problems
大矩阵特征值和奇异值问题
  • 批准号:
    8519029
  • 财政年份:
    1986
  • 资助金额:
    $ 18万
  • 项目类别:
    Standard Grant
Research Initiation: Numerical Problems in Linear Control Theory
研究发起:线性控制理论中的数值问题
  • 批准号:
    8204468
  • 财政年份:
    1982
  • 资助金额:
    $ 18万
  • 项目类别:
    Standard Grant

相似海外基金

Interoperable applications suite to enhance European identity and document Security and fraud detection (EINSTEIN)
可互操作的应用程序套件可增强欧洲身份和文件安全以及欺诈检测 (EINSTEIN)
  • 批准号:
    10093453
  • 财政年份:
    2024
  • 资助金额:
    $ 18万
  • 项目类别:
    EU-Funded
HERDS - Horse Domestication and Early Husbandry in Central Asian Steppes: Bone Remains to Document Uses and Breeding Practices in Pastoral Societies
牧群 - 中亚草原的马驯化和早期畜牧业:遗骨记录了牧区社会的使用和饲养实践
  • 批准号:
    EP/Y016521/1
  • 财政年份:
    2024
  • 资助金额:
    $ 18万
  • 项目类别:
    Fellowship
Studies of speech, image and natural language processing for multimodal spoken document retrieval
多模态语音文档检索的语音、图像和自然语言处理研究
  • 批准号:
    23K11216
  • 财政年份:
    2023
  • 资助金额:
    $ 18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Research on Safe and Effective Methods to Document Feedback During Classroom Assessment
课堂评估过程中安全有效记录反馈的方法研究
  • 批准号:
    23K02088
  • 财政年份:
    2023
  • 资助金额:
    $ 18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Grammatica of the same period when I finished the database of the old storehouse document of Shinobu Orikuchi and utilized the database
完成折口忍的旧仓库文献的数据库,活用该数据库的同时期的语法
  • 批准号:
    23K00319
  • 财政年份:
    2023
  • 资助金额:
    $ 18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
CRII:RI:Toward Socially-diverse Multi-document Summarization
CRII:RI:走向社会多元化的多文档摘要
  • 批准号:
    2246174
  • 财政年份:
    2023
  • 资助金额:
    $ 18万
  • 项目类别:
    Standard Grant
Genestorian: a web application to document and trace genetic modifications in model organism and cell line collections.
Genestorian:一个网络应用程序,用于记录和追踪模型生物和细胞系集合中的遗传修饰。
  • 批准号:
    EP/Y024591/1
  • 财政年份:
    2023
  • 资助金额:
    $ 18万
  • 项目类别:
    Fellowship
The Religious and Political Factors in the Process of 'Proclamation of Religious Tolerance for the Laos': An Analysis of the Sickles Document
《老挝宣布宗教宽容》过程中的宗教和政治因素:镰刀文件分析
  • 批准号:
    23K00071
  • 财政年份:
    2023
  • 资助金额:
    $ 18万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Doctoral Dissertation Research: Biometric Identification Technologies and the Citizenship Document Validation Process
博士论文研究:生物识别技术和公民身份文件验证过程
  • 批准号:
    2149092
  • 财政年份:
    2022
  • 资助金额:
    $ 18万
  • 项目类别:
    Standard Grant
NHLBI GUIDANCE DOCUMENT SUPPORT
NHLBI 指导文件支持
  • 批准号:
    10881613
  • 财政年份:
    2022
  • 资助金额:
    $ 18万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了