CSR: Small: Large-Scale Web Crawling and Spam Avoidance in Search-Engine Applications

CSR:小:搜索引擎应用中的大规模网络爬行和垃圾邮件避免

基本信息

项目摘要

Search engines and various data-mining applications commonly rely on web crawlers to navigate the web, discover valuable content, and keep it fresh. However, the enormous volume of available information and sophisticated spam techniques commonly used to deceive search engines present significant challenges in web crawling, especially in non-commercial applications such as research. The first part of this project designs efficient real-time graph-manipulation algorithms and builds a high-performance distributed web-crawler architecture that seamlessly couples the various components of Internet-scale networking, information retrieval, and graph theory. The second part creates probabilistic techniques for quick estimation of domain reputation and explores various ranking techniques to achieve better robustness against spam. The third part designs advanced budgeting mechanisms to control the crawl rate of different parts of the web at multiple levels of granularity. The project is expected to engage students at Texas A&M in research-intensive education in cross-disciplinary fields (such as data-intensive computing, networking, graph theory, distributed systems, parallel architectures, and modeling), broaden integration of web research into classroom teaching, attract undergraduate students to REU, extend participation of minority groups in engineering, stimulate collaboration among students and sharing of ideas, and permit web-related research at other institutions through publicly shared outcomes of our work.
搜索引擎和各种数据挖掘应用程序通常依赖于网络爬虫来导航网络,发现有价值的内容并保持新鲜。然而,大量的可用信息和复杂的垃圾邮件技术通常用于欺骗搜索引擎,在网络爬行,特别是在非商业应用,如研究提出了重大挑战。该项目的第一部分设计了高效的实时图形操作算法,并建立了一个高性能的分布式网络爬虫架构,无缝耦合互联网规模的网络,信息检索和图论的各个组件。第二部分创建了快速估计域名信誉的概率技术,并探讨了各种排名技术,以实现更好的鲁棒性,对垃圾邮件。第三部分设计了先进的预算机制,在多个粒度级别上控制Web不同部分的抓取率。该项目预计将使得克萨斯州农工大学的学生&参与跨学科领域的研究密集型教育(如数据密集型计算,网络,图论,分布式系统,并行体系结构和建模),扩大网络研究融入课堂教学,吸引本科生REU,扩大少数群体在工程中的参与,激发学生之间的合作和思想共享,并通过公开分享我们的工作成果,允许其他机构进行与网络相关的研究。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Dmitri Loguinov其他文献

Dmitri Loguinov的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Dmitri Loguinov', 18)}}的其他基金

CSR: Small: Algorithms and Abstractions for Efficient Virtual-Memory Streaming and Big-Data Computing
CSR:小:高效虚拟内存流和大数据计算的算法和抽象
  • 批准号:
    1717982
  • 财政年份:
    2017
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Standard Grant
CSR: Small: Yesterday's News: Theory of Staleness under Data Churn
CSR:小:昨天的新闻:数据搅动下的陈旧理论
  • 批准号:
    1319984
  • 财政年份:
    2013
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Standard Grant
CSR -- SMA: Bridging Analytical and Empirical Understanding of Churn in Decentralized P2P Systems
CSR——SMA:桥接去中心化 P2P 系统中流失的分析和实证理解
  • 批准号:
    0720571
  • 财政年份:
    2007
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Continuing Grant
NeTS-NBD: Distributed Congestion Control for Heterogeneous Networks
NeTS-NBD:异构网络的分布式拥塞控制
  • 批准号:
    0519442
  • 财政年份:
    2005
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Standard Grant
NeTS - NR: Topology Models for Decentralized Random Graphs
NeTS - NR:去中心化随机图的拓扑模型
  • 批准号:
    0434940
  • 财政年份:
    2004
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Standard Grant
Optimal-Diameter Routing and Error Resilience in Peer-to-Peer Networks
对等网络中的最佳直径路由和错误恢复能力
  • 批准号:
    0306246
  • 财政年份:
    2003
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Standard Grant
ITR: Efficient Self-Organizing Content Distribution Network for Scalable Video Streaming Services
ITR:用于可扩展视频流服务的高效自组织内容分发网络
  • 批准号:
    0312461
  • 财政年份:
    2003
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Continuing Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

CSR: Small: Multi-FPGA System for Real-time Fraud Detection with Large-scale Dynamic Graphs
CSR:小型:利用大规模动态图进行实时欺诈检测的多 FPGA 系统
  • 批准号:
    2317251
  • 财政年份:
    2024
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Standard Grant
CSR: Small: Data Parallel Frameworks for Large-scale Machine Learning through Sync-on-the-Fly
CSR:小型:通过即时同步实现大规模机器学习的数据并行框架
  • 批准号:
    1815412
  • 财政年份:
    2018
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Standard Grant
CSR: Small: Cost Effective, High Performance Solutions Using Erasure Codes for Big Data Management in Large Data Centers
CSR:小型:在大型数据中心使用纠删码进行大数据管理的经济高效、高性能解决方案
  • 批准号:
    1700719
  • 财政年份:
    2016
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Standard Grant
CSR: Small: Automatic Storage and Network Contention Management for Large-scale High-performance Computing Systems
CSR:小型:大规模高性能计算系统的自动存储和网络争用管理
  • 批准号:
    1528179
  • 财政年份:
    2015
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Standard Grant
CSR: Small: Diagnosing Performance and Correctness Errors in Parallel Applications at Large Scales
CSR:小:诊断大规模并行应用程序中的性能和正确性错误
  • 批准号:
    1527262
  • 财政年份:
    2015
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Standard Grant
CSR: Small: Collaborative Research: Software Defined Energy Adaptation in Large Scale Data Centers
CSR:小型:协作研究:大型数据中心的软件定义能源适应
  • 批准号:
    1422921
  • 财政年份:
    2014
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Standard Grant
CSR: CC: Small: Collaborative Research: Language and Runtime Support for Large-Scale Data Analytics
CSR:CC:小型:协作研究:大规模数据分析的语言和运行时支持
  • 批准号:
    1460683
  • 财政年份:
    2014
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Standard Grant
CSR: Small: Collaborative Research: Software Defined Energy Adaptation in Large Scale Data Centers
CSR:小型:协作研究:大型数据中心的软件定义能源适应
  • 批准号:
    1421913
  • 财政年份:
    2014
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Standard Grant
SHF: CSR: Small: A Cooperative Framework for Topology Awareness on Large-Scale Systems
SHF:CSR:小型:大型系统拓扑意识的合作框架
  • 批准号:
    1320125
  • 财政年份:
    2013
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Standard Grant
CSR: Small: Cost Effective, High Performance Solutions Using Erasure Codes for Big Data Management in Large Data Centers
CSR:小型:在大型数据中心使用纠删码进行大数据管理的经济高效、高性能解决方案
  • 批准号:
    1218960
  • 财政年份:
    2012
  • 资助金额:
    $ 40.01万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了