Mining the Deep Web using Sampling and Deep Learning Techniques
使用采样和深度学习技术挖掘深层网络
基本信息
- 批准号:RGPIN-2019-05350
- 负责人:
- 金额:$ 2.04万
- 依托单位:
- 依托单位国家:加拿大
- 项目类别:Discovery Grants Program - Individual
- 财政年份:2021
- 资助国家:加拿大
- 起止时间:2021-01-01 至 2022-12-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
The deep web (or the hidden web) is the web that is hidden behind searchable interfaces. Unlike the surface web where pages can be browsed and hence downloaded in large scale, the access to the deep web is restricted. One common restriction is by queries via programmable Web APIs and web services. Many data sources, such as online social networks (OSNs), are examples of the deep web. They have a vast amount of data, but their access interface is restrictive and limited. Typically, they impose a quota for the queries we can send and data items we can retrieve per IP address. Discovering properties and patterns of the data hidden in the deep web is a challenging problem. Deep learning has been proven an effective approach to data mining tasks. It has been particularly successful in learning embeddings, i.e., short and dense continuous vector representations, for a variety of entities such as words, networks, and documents. Embeddings are essential for downstream data mining and machine learning tasks, such as classification, clustering, and recommendation. Embedding algorithms are data--hungry. Their success hinges on the availability of copious and pertinent training data. With the deep web, the training data are scarce, and may not be representative. We need to develop sampling techniques that can obtain pertinent data, and improve deep learning algorithms that can utilize the limited data. Humans learn not by reading all the text indexed by Google or GoogleScholar. Instead, we learn by sending pertinent queries, reading the returns, and sending new queries. Similarly, deep learning algorithms cannot and should not have all the text from Google or the entire social network from Facebook. Instead, there should be sampling-based deep learning algorithms that will learn from the deep web in an iterative process. The proposed research will approach the problem from two directions 1) Bottom-up from the deep web: we will study the sampling techniques that can be supported from real deep web sites such as Twitter; 2) Top-down from the deep learning: we will select several deep learning algorithms to study whether they can be approximated using samples from the deep web, and what kind of samples can improve the performance. We will start with neural network based representation learning, e.g., the state-of-the-art SN (Skipgram Negative Sampling) for text embedding and DeepWalk for graph embedding. After word embedding and node embedding, we will expand to document, linked document embedding, and author embeddings. The study will be conducted in two stages. In the first stage, we will evaluate our methods on our local academic search engine so that parameters can be controlled and ground truths are available. In the second stage, we will move on to real hidden data sources.
深层网络(或隐藏网络)是隐藏在可搜索界面后面的网络。与页面可以被浏览并因此被大规模下载的表层网络不同,对深层网络的访问是受限制的。一个常见的限制是通过可编程Web API和Web服务进行查询。许多数据源,如在线社交网络(OSN),都是深网的例子。它们有大量的数据,但它们的访问接口是限制性的和有限的。通常情况下,它们会对每个IP地址可以发送的查询和可以检索的数据项施加配额。发现隐藏在深网中的数据的属性和模式是一个具有挑战性的问题。 深度学习已被证明是数据挖掘任务的有效方法。它在学习嵌入方面特别成功,即,短而密集的连续向量表示,用于各种实体,如单词、网络和文档。嵌入对于下游数据挖掘和机器学习任务(如分类、聚类和推荐)至关重要。嵌入式算法是数据饥渴型的。它们的成功取决于是否能获得丰富和相关的培训数据。对于深网,训练数据是稀缺的,并且可能不具有代表性。我们需要开发可以获得相关数据的采样技术,并改进可以利用有限数据的深度学习算法。 人类学习并不是通过阅读谷歌或GoogleScholar索引的所有文本。相反,我们通过发送相关的查询、阅读返回值和发送新的查询来学习。同样,深度学习算法不能也不应该拥有来自谷歌的所有文本或来自Facebook的整个社交网络。相反,应该有基于采样的深度学习算法,这些算法将在迭代过程中从深网中学习。 本研究将从两个方向来探讨这个问题:1)从深网自下而上:我们将研究可以从真实的深网(如Twitter)支持的采样技术; 2)从深度学习自上而下:我们将选择几种深度学习算法来研究它们是否可以使用深网的样本来近似,以及什么样的样本可以提高性能。我们将从基于神经网络的表示学习开始,例如,最先进的SN(Skipgram Negative Sampling)用于文本嵌入,DeepWalk用于图形嵌入。在单词嵌入和节点嵌入之后,我们将扩展到文档、链接文档嵌入和作者嵌入。研究将分两个阶段进行。在第一阶段,我们将在我们当地的学术搜索引擎上评估我们的方法,以便可以控制参数并提供地面实况。在第二阶段,我们将继续讨论真实的隐藏数据源。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Lu, Jianguo其他文献
Recombinant fusion proteins FPTD-Grb2-SH2 and FPTD-Grb2-SH2M inhibit the proliferation of breast cancer cells in vitro.
重组融合蛋白 FPTD-Grb2-SH2 和 FPTD-Grb2-SH2M 在体外抑制乳腺癌细胞的增殖。
- DOI:
10.3892/or.2014.3130 - 发表时间:
2014-06 - 期刊:
- 影响因子:4.2
- 作者:
Wang, Qing;Du, Xilin;Wu, Xing'an;Lu, Jianguo - 通讯作者:
Lu, Jianguo
Bacterial, archaeal, and fungal community structure and interrelationships of deep-sea shrimp intestine and the surrounding sediment
深海虾肠及周围沉积物的细菌、古菌和真菌群落结构及相互关系
- DOI:
10.1016/j.envres.2021.112461 - 发表时间:
2021-12-04 - 期刊:
- 影响因子:8.3
- 作者:
Lin, Genmei;Huang, Junrou;Lu, Jianguo - 通讯作者:
Lu, Jianguo
DupScan: predicting and visualizing vertebrate genome duplication database.
- DOI:
10.1093/nar/gkac718 - 发表时间:
2023-01-06 - 期刊:
- 影响因子:14.9
- 作者:
Lu, Jianguo;Huang, Peilin;Sun, Jialiang;Liu, Jian - 通讯作者:
Liu, Jian
p-Type conduction in phosphorus-doped ZnO thin films by MOCVD and thermal activation of the dopant
通过 MOCVD 和掺杂剂热激活研究磷掺杂 ZnO 薄膜的 p 型传导
- DOI:
10.1016/j.apsusc.2005.10.001 - 发表时间:
2006-09 - 期刊:
- 影响因子:6.7
- 作者:
Lu, Jianguo;Ye, Zhizhen;Xu, Weizhong;Zhao, Binghui;Zhu, Liping;Zhou, Xincui;Miao, Yan;Chen, Fugang - 通讯作者:
Chen, Fugang
Two-Dimensional SnSe2/CNTs Hybrid Nanostructures as Anode Materials for High-Performance Lithium-Ion Batteries
- DOI:
10.1002/chem.201901487 - 发表时间:
2019-07-02 - 期刊:
- 影响因子:4.3
- 作者:
Chen, Hongwen;Jia, Bei-Er;Lu, Jianguo - 通讯作者:
Lu, Jianguo
Lu, Jianguo的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Lu, Jianguo', 18)}}的其他基金
Mining the Deep Web using Sampling and Deep Learning Techniques
使用采样和深度学习技术挖掘深层网络
- 批准号:
RGPIN-2019-05350 - 财政年份:2022
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Mining the Deep Web using Sampling and Deep Learning Techniques
使用采样和深度学习技术挖掘深层网络
- 批准号:
RGPIN-2019-05350 - 财政年份:2020
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Mining the Deep Web using Sampling and Deep Learning Techniques
使用采样和深度学习技术挖掘深层网络
- 批准号:
RGPIN-2019-05350 - 财政年份:2019
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Mining Online Social Networks and Hidden Web Data Sources by Sampling
通过采样挖掘在线社交网络和隐藏的网络数据源
- 批准号:
RGPIN-2014-04463 - 财政年份:2018
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Mining Online Social Networks and Hidden Web Data Sources by Sampling
通过采样挖掘在线社交网络和隐藏的网络数据源
- 批准号:
RGPIN-2014-04463 - 财政年份:2017
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Mining Online Social Networks and Hidden Web Data Sources by Sampling
通过采样挖掘在线社交网络和隐藏的网络数据源
- 批准号:
RGPIN-2014-04463 - 财政年份:2016
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Mining Online Social Networks and Hidden Web Data Sources by Sampling
通过采样挖掘在线社交网络和隐藏的网络数据源
- 批准号:
RGPIN-2014-04463 - 财政年份:2015
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Mining Online Social Networks and Hidden Web Data Sources by Sampling
通过采样挖掘在线社交网络和隐藏的网络数据源
- 批准号:
RGPIN-2014-04463 - 财政年份:2014
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Web service collection, searching and composition
Web服务收集、搜索和组合
- 批准号:
262083-2008 - 财政年份:2012
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Web service collection, searching and composition
Web服务收集、搜索和组合
- 批准号:
262083-2008 - 财政年份:2011
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
相似国自然基金
基于Deep Unrolling的高分辨近红外二区荧光分子断层成像方法研究
- 批准号:12271434
- 批准年份:2022
- 资助金额:46 万元
- 项目类别:面上项目
基于深度森林(Deep Forest)模型的表面增强拉曼光谱分析方法研究
- 批准号:2020A151501709
- 批准年份:2020
- 资助金额:10.0 万元
- 项目类别:省市级项目
面向Deep Web的数据整合关键技术研究
- 批准号:61872168
- 批准年份:2018
- 资助金额:62.0 万元
- 项目类别:面上项目
基于Deep-learning的三江源区冰川监测动态识别技术研究
- 批准号:51769027
- 批准年份:2017
- 资助金额:38.0 万元
- 项目类别:地区科学基金项目
具有时序处理能力的Spiking-Deep Learning(脉冲深度学习)方法研究
- 批准号:61573081
- 批准年份:2015
- 资助金额:64.0 万元
- 项目类别:面上项目
基于语义计算的海量Deep Web知识探索机制研究
- 批准号:61272411
- 批准年份:2012
- 资助金额:80.0 万元
- 项目类别:面上项目
Deep Web数据集成查询结果抽取与整合关键技术研究
- 批准号:61100167
- 批准年份:2011
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
面向Deep Web的大规模知识库自动构建方法研究
- 批准号:61170020
- 批准年份:2011
- 资助金额:57.0 万元
- 项目类别:面上项目
Deep Web敏感聚合信息保护方法研究
- 批准号:61003054
- 批准年份:2010
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
基于逻辑强化学习的Deep Web模式匹配研究
- 批准号:61070122
- 批准年份:2010
- 资助金额:32.0 万元
- 项目类别:面上项目
相似海外基金
Mining the Deep Web using Sampling and Deep Learning Techniques
使用采样和深度学习技术挖掘深层网络
- 批准号:
RGPIN-2019-05350 - 财政年份:2022
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Development of Web System for Detecting Cracks on Wall Surface using Deep Learning
利用深度学习开发墙面裂缝检测网络系统
- 批准号:
20K12083 - 财政年份:2020
- 资助金额:
$ 2.04万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Mining the Deep Web using Sampling and Deep Learning Techniques
使用采样和深度学习技术挖掘深层网络
- 批准号:
RGPIN-2019-05350 - 财政年份:2020
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Mining the Deep Web using Sampling and Deep Learning Techniques
使用采样和深度学习技术挖掘深层网络
- 批准号:
RGPIN-2019-05350 - 财政年份:2019
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Deep Learning Approaches to Extract Information from Web data
从网络数据中提取信息的深度学习方法
- 批准号:
539690-2019 - 财政年份:2019
- 资助金额:
$ 2.04万 - 项目类别:
University Undergraduate Student Research Awards
Deep Learning Approaches to Extract Information from Web data
从网络数据中提取信息的深度学习方法
- 批准号:
525323-2018 - 财政年份:2018
- 资助金额:
$ 2.04万 - 项目类别:
University Undergraduate Student Research Awards
Automatic Food Calorie Estimation from Photos Employing Deep Learning and Food-related Knowledge on the Web
利用深度学习和网络上的食品相关知识,根据照片自动估算食物热量
- 批准号:
17H01745 - 财政年份:2017
- 资助金额:
$ 2.04万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
SaTC: CORE: Small: Securing Web-to-Mobile Interface Through Characterization and Detection of Malicious Deep Links
SaTC:核心:小型:通过恶意深层链接的表征和检测来保护 Web 到移动接口的安全
- 批准号:
1717028 - 财政年份:2017
- 资助金额:
$ 2.04万 - 项目类别:
Standard Grant
Deep Learning Approaches to Extract Information from Web data
从网络数据中提取信息的深度学习方法
- 批准号:
511876-2017 - 财政年份:2017
- 资助金额:
$ 2.04万 - 项目类别:
University Undergraduate Student Research Awards
Deep Learning Approaches to Extract Information from Web data
从网络数据中提取信息的深度学习方法
- 批准号:
496024-2016 - 财政年份:2016
- 资助金额:
$ 2.04万 - 项目类别:
University Undergraduate Student Research Awards