Mining Online Social Networks and Hidden Web Data Sources by Sampling

通过采样挖掘在线社交网络和隐藏的网络数据源

基本信息

  • 批准号:
    RGPIN-2014-04463
  • 负责人:
  • 金额:
    $ 2.33万
  • 依托单位:
  • 依托单位国家:
    加拿大
  • 项目类别:
    Discovery Grants Program - Individual
  • 财政年份:
    2015
  • 资助国家:
    加拿大
  • 起止时间:
    2015-01-01 至 2016-12-31
  • 项目状态:
    已结题

项目摘要

Searchable web interfaces in the form of HTML search boxes, programmable web APIs and Web Services are ubiquitous on the web. The data hidden behind search interfaces are collectively called the hidden web or deep web. It can be virtually everything on the web when the search box is the interface to a web search engine such as Google. In other cases, the deep web data can be valuable collections of data in a specialized area, such as an Online Social Network (OSN) site. From these vast and ever increasing data sources that are openly accessible, a question of interests to both data providers and consumers is: what information and patterns can be inferred statistically from a sample. The answer to this question has many applications ranging from business intelligence to criminal group detection. Although our main goal is to uncover the hidden properties, the same techniques can be used by data providers to design the searchable interfaces to protect the data. Our short-term goal focuses on mining OSNs, and the long-term goal is to study the theories and methods that are applicable to other deep web data sources and large local data collections. New challenges arise in mining OSNs, because the data, the way to access the data, and the properties and patterns to be inferred from the data, are different from that of conventional data mining problems. First, the data in its entirety is not available. Instead, only a small portion of the data can be returned by invoking costly remote calls through web APIs. We need to develop sampling methods tailored for the web interfaces. Second, the data sources are huge, often following the power-law distribution with very large variance. This calls for new sampling methods to reduce the variance. Third, some properties to be estimated and patterns to be discovered are beyond the scope of traditional data mining tasks. Social network properties such as the clustering coefficient and various centralities are costly to compute even when we possess the whole data. To overcome these difficulties, we target the following goals: (1) To obtain random samples using web interfaces. Inferencing directly on uncontrolled data returned by web interfaces will result in substantial and unpredictable bias. Web interfaces are restrictive, and vary in the types of the queries they accept, the way they index the content, and the strategy they rank and return the matches. The remote queries are expensive because of network traffic and daily quota imposed by data providers. Our goal is to, by using limited number of queries, maximize the amount of sample data that are useful to infer OSN properties. (2) To design graph sampling methods to reduce variance: Samples are useful when they are selected from certain distributions. Conventional wisdom has it that uniform random samples should be used whenever possible. However, OSNs are large and scale-free, resulting in large variances for many estimators on uniform random samples. Our goal is, in the context of graph sampling that is independent of the web interface, to develop other sampling methods that can increase the accuracy of the inferences. (3) To infer OSN properties: In addition to summarizing statistics, we will develop sampling and estimation methods for metrics in social network studies. Based on these explorations, we will adapt and combine these methods to real OSNs such as Twitter, Facebook , LinkedIn and Weibo to discover their interesting social network properties, phenomena that are unique in OSNs (e.g., robot accounts), and other unsuspected patterns of wide interests.
HTML搜索框、可编程Web API和Web服务形式的可搜索Web界面在Web上无处不在。隐藏在搜索界面后面的数据统称为隐藏网络或深网。 当搜索框是网络搜索引擎(如Google)的界面时,它几乎可以是网络上的一切。 在其他情况下,深网数据可以是专门领域(诸如在线社交网络(OSN)站点)中的有价值的数据集合。 从这些可公开访问的庞大且不断增加的数据源中,数据提供者和消费者都感兴趣的一个问题是:可以从样本中统计推断出哪些信息和模式。这个问题的答案有许多应用,从商业智能到犯罪集团侦查。虽然我们的主要目标是发现隐藏的属性,但数据提供者可以使用相同的技术来设计可搜索的接口以保护数据。 我们的短期目标是挖掘OSN,长期目标是研究适用于其他深网数据源和大型本地数据集的理论和方法。 OSN挖掘面临着新的挑战,因为数据、访问数据的方式以及从数据中推断出的属性和模式与传统的数据挖掘问题不同。首先,没有完整的数据。相反,只有一小部分数据可以通过Web API调用昂贵的远程调用来返回。 我们需要开发为Web界面量身定制的采样方法。第二,数据源庞大,通常遵循具有非常大方差的幂律分布。这就需要新的抽样方法来减少方差。 第三,要估计的一些属性和要发现的模式超出了传统数据挖掘任务的范围。 即使我们拥有全部数据,计算诸如聚类系数和各种中心性之类的社交网络属性也是昂贵的。 为了克服这些困难,我们有以下目标: (1)使用Web界面获取随机样本。 直接对Web接口返回的不受控制的数据进行推理将导致大量和不可预测的偏差。 Web接口是有限制的,并且在它们接受的查询类型、它们索引内容的方式以及它们排名和返回匹配的策略方面有所不同。 由于网络流量和数据提供商强加的每日配额,远程查询是昂贵的。我们的目标是,通过使用有限数量的查询,最大限度地提高样本数据的数量是有用的推断OSN属性。 (2)设计图形抽样方法以减少方差:当从某些分布中选择样本时,样本非常有用。传统观点认为,应尽可能使用统一的随机样本。然而,OSN是大的和无标度的,导致在均匀随机样本的许多估计大的方差。我们的目标是,在独立于Web界面的图形采样的背景下,开发其他可以提高推断准确性的采样方法。 (3)要推断OSN属性,请执行以下操作:除了总结统计数据外,我们还将开发社交网络研究中指标的抽样和估计方法。 在这些探索的基础上,我们将把这些方法改编并联合收割机结合到真实的OSN中,如Twitter、Facebook、LinkedIn和微博,以发现它们有趣的社交网络属性、OSN中特有的现象(例如,机器人账户),以及其他未被怀疑的广泛兴趣模式。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Lu, Jianguo其他文献

Recombinant fusion proteins FPTD-Grb2-SH2 and FPTD-Grb2-SH2M inhibit the proliferation of breast cancer cells in vitro.
重组融合蛋白 FPTD-Grb2-SH2 和 FPTD-Grb2-SH2M 在体外抑制乳腺癌细胞的增殖。
  • DOI:
    10.3892/or.2014.3130
  • 发表时间:
    2014-06
  • 期刊:
  • 影响因子:
    4.2
  • 作者:
    Wang, Qing;Du, Xilin;Wu, Xing'an;Lu, Jianguo
  • 通讯作者:
    Lu, Jianguo
Bacterial, archaeal, and fungal community structure and interrelationships of deep-sea shrimp intestine and the surrounding sediment
深海虾肠及周围沉积物的细菌、古菌和真菌群落结构及相互关系
  • DOI:
    10.1016/j.envres.2021.112461
  • 发表时间:
    2021-12-04
  • 期刊:
  • 影响因子:
    8.3
  • 作者:
    Lin, Genmei;Huang, Junrou;Lu, Jianguo
  • 通讯作者:
    Lu, Jianguo
DupScan: predicting and visualizing vertebrate genome duplication database.
  • DOI:
    10.1093/nar/gkac718
  • 发表时间:
    2023-01-06
  • 期刊:
  • 影响因子:
    14.9
  • 作者:
    Lu, Jianguo;Huang, Peilin;Sun, Jialiang;Liu, Jian
  • 通讯作者:
    Liu, Jian
p-Type conduction in phosphorus-doped ZnO thin films by MOCVD and thermal activation of the dopant
通过 MOCVD 和掺杂剂热激活研究磷掺杂 ZnO 薄膜的 p 型传导
  • DOI:
    10.1016/j.apsusc.2005.10.001
  • 发表时间:
    2006-09
  • 期刊:
  • 影响因子:
    6.7
  • 作者:
    Lu, Jianguo;Ye, Zhizhen;Xu, Weizhong;Zhao, Binghui;Zhu, Liping;Zhou, Xincui;Miao, Yan;Chen, Fugang
  • 通讯作者:
    Chen, Fugang
Two-Dimensional SnSe2/CNTs Hybrid Nanostructures as Anode Materials for High-Performance Lithium-Ion Batteries
  • DOI:
    10.1002/chem.201901487
  • 发表时间:
    2019-07-02
  • 期刊:
  • 影响因子:
    4.3
  • 作者:
    Chen, Hongwen;Jia, Bei-Er;Lu, Jianguo
  • 通讯作者:
    Lu, Jianguo

Lu, Jianguo的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Lu, Jianguo', 18)}}的其他基金

Mining the Deep Web using Sampling and Deep Learning Techniques
使用采样和深度学习技术挖掘深层网络
  • 批准号:
    RGPIN-2019-05350
  • 财政年份:
    2022
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Discovery Grants Program - Individual
Mining the Deep Web using Sampling and Deep Learning Techniques
使用采样和深度学习技术挖掘深层网络
  • 批准号:
    RGPIN-2019-05350
  • 财政年份:
    2021
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Discovery Grants Program - Individual
Mining the Deep Web using Sampling and Deep Learning Techniques
使用采样和深度学习技术挖掘深层网络
  • 批准号:
    RGPIN-2019-05350
  • 财政年份:
    2020
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Discovery Grants Program - Individual
Mining the Deep Web using Sampling and Deep Learning Techniques
使用采样和深度学习技术挖掘深层网络
  • 批准号:
    RGPIN-2019-05350
  • 财政年份:
    2019
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Discovery Grants Program - Individual
Mining Online Social Networks and Hidden Web Data Sources by Sampling
通过采样挖掘在线社交网络和隐藏的网络数据源
  • 批准号:
    RGPIN-2014-04463
  • 财政年份:
    2018
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Discovery Grants Program - Individual
Mining Online Social Networks and Hidden Web Data Sources by Sampling
通过采样挖掘在线社交网络和隐藏的网络数据源
  • 批准号:
    RGPIN-2014-04463
  • 财政年份:
    2017
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Discovery Grants Program - Individual
Mining Online Social Networks and Hidden Web Data Sources by Sampling
通过采样挖掘在线社交网络和隐藏的网络数据源
  • 批准号:
    RGPIN-2014-04463
  • 财政年份:
    2016
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Discovery Grants Program - Individual
Mining Online Social Networks and Hidden Web Data Sources by Sampling
通过采样挖掘在线社交网络和隐藏的网络数据源
  • 批准号:
    RGPIN-2014-04463
  • 财政年份:
    2014
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Discovery Grants Program - Individual
Web service collection, searching and composition
Web服务收集、搜索和组合
  • 批准号:
    262083-2008
  • 财政年份:
    2012
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Discovery Grants Program - Individual
Web service collection, searching and composition
Web服务收集、搜索和组合
  • 批准号:
    262083-2008
  • 财政年份:
    2011
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Discovery Grants Program - Individual

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Data-driven Recommendation System Construction of an Online Medical Platform Based on the Fusion of Information
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    外国青年学者研究基金项目
online SPE/HPLC-ICP-MS多元素形态分析新方法研究荷塘中铬砷镉汞铅的迁移转化规律
  • 批准号:
    21976048
  • 批准年份:
    2019
  • 资助金额:
    65.0 万元
  • 项目类别:
    面上项目
双积分政策下基于Online Review的新能源汽车企业跨链决策优化研究
  • 批准号:
    71964023
  • 批准年份:
    2019
  • 资助金额:
    27.5 万元
  • 项目类别:
    地区科学基金项目
面向Online-to-Offline智能商务的大数据融合与应用
  • 批准号:
    91646204
  • 批准年份:
    2016
  • 资助金额:
    201.0 万元
  • 项目类别:
    重大研究计划
Online-to-Offline商务环境下"切客"一族生活模式挖掘研究
  • 批准号:
    71172046
  • 批准年份:
    2011
  • 资助金额:
    41.0 万元
  • 项目类别:
    面上项目

相似海外基金

The Impact of Online Social Interactions on Adolescent Cognition
在线社交互动对青少年认知的影响
  • 批准号:
    DE240101039
  • 财政年份:
    2024
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Discovery Early Career Researcher Award
Trust-Oriented Data Analytics in Online Social Networks
在线社交网络中面向信任的数据分析
  • 批准号:
    DP230100676
  • 财政年份:
    2023
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Discovery Projects
Algorithmic Hauntings: miscarriage and grief in online social media
算法困扰:在线社交媒体中的流产和悲伤
  • 批准号:
    2890103
  • 财政年份:
    2023
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Studentship
RAPID: SaTC: CORE: Monitoring Social Media for Devising Improved Safeguards Online
RAPID:SaTC:核心:监控社交媒体以制定改进的在线保障措施
  • 批准号:
    2309318
  • 财政年份:
    2023
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Standard Grant
Caregiver as Navigator-Developing Skills Online (CAN-DO): Developing Dementia Family Caregiver Mastery for Navigating Complex Health, Social Service, Legal, Financial, and Family Systems
护理人员作为在线导航员发展技能 (CAN-DO):培养痴呆症家庭护理人员掌握复杂的健康、社会服务、法律、财务和家庭系统的能力
  • 批准号:
    10722672
  • 财政年份:
    2023
  • 资助金额:
    $ 2.33万
  • 项目类别:
Social media as a social mechanism of non-cigarette tobacco use: Engaging young adults to examine tobacco culture online
社交媒体作为非卷烟烟草使用的社会机制:让年轻人在线审视烟草文化
  • 批准号:
    10667700
  • 财政年份:
    2023
  • 资助金额:
    $ 2.33万
  • 项目类别:
Auditing Social Media Algorithmic Pathways to Measure Prevalence of Online Misinformation Related to Opioid Misuse
审核社交媒体算法路径以衡量与阿片类药物滥用相关的在线错误信息的流行程度
  • 批准号:
    10666308
  • 财政年份:
    2023
  • 资助金额:
    $ 2.33万
  • 项目类别:
The SE-Learn Online Professional Development Platform for Enhanced Social Emotional Learning with Students
SE-Learn 在线专业发展平台,增强学生的社交情感学习
  • 批准号:
    10601591
  • 财政年份:
    2023
  • 资助金额:
    $ 2.33万
  • 项目类别:
Multiagent trust modeling for trusted AI and improved online social networks
用于可信人工智能和改进的在线社交网络的多代理信任建模
  • 批准号:
    RGPIN-2021-02389
  • 财政年份:
    2022
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Discovery Grants Program - Individual
EAGER: DCL: SaTC: Enabling Interdisciplinary Collaboration: Deplatforming and Online Hate Speech Across the Social Media Ecology
EAGER:DCL:SaTC:实现跨学科合作:社交媒体生态中的去平台化和在线仇恨言论
  • 批准号:
    2210023
  • 财政年份:
    2022
  • 资助金额:
    $ 2.33万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了