Big data profiling: collecting data about data to support efficient and effective analytics
大数据分析:收集有关数据的数据以支持高效且有效的分析
基本信息
- 批准号:RGPIN-2017-04681
- 负责人:
- 金额:$ 3.06万
- 依托单位:
- 依托单位国家:加拿大
- 项目类别:Discovery Grants Program - Individual
- 财政年份:2020
- 资助国家:加拿大
- 起止时间:2020-01-01 至 2021-12-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Big data are changing the way people and businesses make decisions. However, before investing time and other resources to analyze the vast amounts of available data, it is critical to ask questions such as "Do we have the right data for the task at hand?", "Do we need to clean the data before they are suitable for analysis?", or "Is there structure in the data that can help us do effective and efficient analytics?". These pertinent questions can be answered through data profiling: the activity of collecting metadata, i.e., data about data. Given a dataset, say, in the form of a spreadsheet, useful metadata may include quantitative information such as the number of rows, the number of distinct values and the identities of frequently occurring values, and structural information such as correlations or dependencies among columns.
One could profile a small dataset just by looking at it, but automated techniques are clearly needed for big data: while the amount of data keeps growing, human cognitive processing capacity is fixed. The proposed research program will develop new methods, algorithms and software tools for data profiling, focusing on the technical challenges arising from the three “V”s of big data: Volume (the growing amount of data generated by social media, the internet-of-things, etc.), Velocity (the high speed with which data are generated, e.g., sensor readings or twitter messages) and Variety (business data, numeric data, graph data such as friend/follower relationships in social media, etc.). This research will play a major role in Dr. Golab's long-term research agenda to help individuals and businesses get more value out of big data.
Data profiling tools are urgently needed to make data analytics more accessible to the increasing number of experts and non-experts interested in incorporating big data into their decision-making processes. Such tools will help Canadian governments, utilities, automotive companies, healthcare companies and banks to use big data more effectively and efficiently. The anticipated deliverables will also be of interest Canada's world-renowned database companies such as IBM Toronto and SAP Waterloo: a key to improving the performance of data analytics is to exploit structural relationships in the data. Furthermore, the proposed research will be led by graduate students who will acquire sought-after skills in data science and big data engineering, which will help them to take leadership roles in Canada's increasingly data-driven economy.
大数据正在改变人们和企业的决策方式。然而,在投入时间和其他资源来分析海量的可用数据之前,关键是要问这样的问题:“我们是否有适合手头任务的正确数据?”、“我们是否需要在数据适合分析之前清理它们?”或“数据中是否有结构可以帮助我们进行有效和高效的分析?”这些相关的问题可以通过数据概况来回答:收集元数据的活动,即关于数据的数据。例如,在给定电子表格形式的数据集的情况下,有用的元数据可以包括诸如行数、不同值的数目和频繁出现值的标识之类的定量信息,以及诸如列之间的相关性或相关性之类的结构信息。
人们可以仅仅通过观察一个小的数据集来描述它,但大数据显然需要自动化技术:尽管数据量持续增长,但人类的认知处理能力是固定的。拟议的研究计划将为数据分析开发新的方法、算法和软件工具,重点关注大数据的三个“V”字S带来的技术挑战:数量(社交媒体、物联网等产生的数据量不断增长)、速度(数据生成的高速,例如传感器读数或推特消息)和多样性(商业数据、数字数据、图表数据,如社交媒体上的朋友/关注者关系等)。这项研究将在戈拉布博士帮助个人和企业从大数据中获得更多价值的长期研究议程中发挥重要作用。
迫切需要数据分析工具,使越来越多有兴趣将大数据纳入其决策过程的专家和非专家更容易获得数据分析。这些工具将帮助加拿大政府、公用事业公司、汽车公司、医疗保健公司和银行更有效和高效地使用大数据。预期的可交付成果也将引起加拿大世界知名数据库公司的兴趣,如IBM多伦多和SAP滑铁卢:提高数据分析性能的关键是利用数据中的结构关系。此外,拟议中的研究将由研究生领导,他们将获得数据科学和大数据工程方面的热门技能,这将有助于他们在加拿大日益由数据驱动的经济中发挥领导作用。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Golab, Lukasz其他文献
Profiling relational data: a survey
- DOI:
10.1007/s00778-015-0389-y - 发表时间:
2015-08-01 - 期刊:
- 影响因子:4.2
- 作者:
Abedjan, Ziawasch;Golab, Lukasz;Naumann, Felix - 通讯作者:
Naumann, Felix
Golab, Lukasz的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Golab, Lukasz', 18)}}的其他基金
Big data profiling: collecting data about data to support efficient and effective analytics
大数据分析:收集有关数据的数据以支持高效且有效的分析
- 批准号:
RGPIN-2017-04681 - 财政年份:2022
- 资助金额:
$ 3.06万 - 项目类别:
Discovery Grants Program - Individual
Big data profiling: collecting data about data to support efficient and effective analytics
大数据分析:收集有关数据的数据以支持高效且有效的分析
- 批准号:
RGPIN-2017-04681 - 财政年份:2021
- 资助金额:
$ 3.06万 - 项目类别:
Discovery Grants Program - Individual
Big data profiling: collecting data about data to support efficient and effective analytics
大数据分析:收集有关数据的数据以支持高效且有效的分析
- 批准号:
RGPIN-2017-04681 - 财政年份:2019
- 资助金额:
$ 3.06万 - 项目类别:
Discovery Grants Program - Individual
Data Analytics for Sustainability
可持续发展数据分析
- 批准号:
1000230394-2014 - 财政年份:2019
- 资助金额:
$ 3.06万 - 项目类别:
Canada Research Chairs
Data Analytics for Sustainability
可持续发展数据分析
- 批准号:
1000230394-2014 - 财政年份:2018
- 资助金额:
$ 3.06万 - 项目类别:
Canada Research Chairs
Big data profiling: collecting data about data to support efficient and effective analytics
大数据分析:收集有关数据的数据以支持高效且有效的分析
- 批准号:
RGPIN-2017-04681 - 财政年份:2018
- 资助金额:
$ 3.06万 - 项目类别:
Discovery Grants Program - Individual
相似国自然基金
Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
- 批准号:
- 批准年份:2024
- 资助金额:万元
- 项目类别:合作创新研究团队
Data-driven Recommendation System Construction of an Online Medical Platform Based on the Fusion of Information
- 批准号:
- 批准年份:2024
- 资助金额:万元
- 项目类别:外国青年学者研究基金项目
Development of a Linear Stochastic Model for Wind Field Reconstruction from Limited Measurement Data
- 批准号:
- 批准年份:2020
- 资助金额:40 万元
- 项目类别:
基于高频信息下高维波动率矩阵估计及应用
- 批准号:71901118
- 批准年份:2019
- 资助金额:18.0 万元
- 项目类别:青年科学基金项目
半参数空间自回归面板模型的有效估计与应用研究
- 批准号:71961011
- 批准年份:2019
- 资助金额:16.0 万元
- 项目类别:地区科学基金项目
高频数据波动率统计推断、预测与应用
- 批准号:71971118
- 批准年份:2019
- 资助金额:50.0 万元
- 项目类别:面上项目
基于个体分析的投影式非线性非负张量分解在高维非结构化数据模式分析中的研究
- 批准号:61502059
- 批准年份:2015
- 资助金额:19.0 万元
- 项目类别:青年科学基金项目
基于Linked Open Data的Web服务语义互操作关键技术
- 批准号:61373035
- 批准年份:2013
- 资助金额:77.0 万元
- 项目类别:面上项目
体数据表达与绘制的新方法研究
- 批准号:61170206
- 批准年份:2011
- 资助金额:55.0 万元
- 项目类别:面上项目
一类新Regime-Switching模型及其在金融建模中的应用研究
- 批准号:11061041
- 批准年份:2010
- 资助金额:24.0 万元
- 项目类别:地区科学基金项目
相似海外基金
Big data profiling: collecting data about data to support efficient and effective analytics
大数据分析:收集有关数据的数据以支持高效且有效的分析
- 批准号:
RGPIN-2017-04681 - 财政年份:2022
- 资助金额:
$ 3.06万 - 项目类别:
Discovery Grants Program - Individual
Renter-focused Open Banking Risk-profiling Model Using Big Data and Machine Learning, improving Credit Scores and a 10–20% Reduction in the Poverty Premium
以租户为中心的%20开放%20银行%20风险分析%20模型%20使用%20大%20数据%20和%20机器%20学习,%20改善%20信贷%20分数%20和%20a%2010-20%%20减少%20in%20the%20贫困
- 批准号:
10004498 - 财政年份:2021
- 资助金额:
$ 3.06万 - 项目类别:
Collaborative R&D
Big data profiling: collecting data about data to support efficient and effective analytics
大数据分析:收集有关数据的数据以支持高效且有效的分析
- 批准号:
RGPIN-2017-04681 - 财政年份:2021
- 资助金额:
$ 3.06万 - 项目类别:
Discovery Grants Program - Individual
A Big Data Approach to Identify Epigenetic, Transcriptomic, and Network Dynamics as Immune Dysfunction Drivers Associated with HIV Infection and Substance Use Disorder
利用大数据方法识别表观遗传、转录组和网络动态作为与 HIV 感染和药物滥用障碍相关的免疫功能障碍驱动因素
- 批准号:
10408130 - 财政年份:2020
- 资助金额:
$ 3.06万 - 项目类别:
A Big Data Approach to Identify Epigenetic, Transcriptomic, and Network Dynamics as Immune Dysfunction Drivers Associated with HIV Infection and Substance Use Disorder
利用大数据方法识别表观遗传、转录组和网络动态作为与 HIV 感染和药物滥用障碍相关的免疫功能障碍驱动因素
- 批准号:
10632047 - 财政年份:2020
- 资助金额:
$ 3.06万 - 项目类别:
A Big Data Approach to Identify Epigenetic, Transcriptomic, and Network Dynamics as Immune Dysfunction Drivers Associated with HIV Infection and Substance Use Disorder
利用大数据方法识别表观遗传、转录组和网络动态作为与 HIV 感染和药物滥用障碍相关的免疫功能障碍驱动因素
- 批准号:
10214582 - 财政年份:2020
- 资助金额:
$ 3.06万 - 项目类别:
A big data approach to explore epigenetic heterogeneity and interpret noncoding variants for psychiatric disorders
探索表观遗传异质性并解释精神疾病非编码变异的大数据方法
- 批准号:
10039384 - 财政年份:2020
- 资助金额:
$ 3.06万 - 项目类别:
A Big Data Approach to Identify Epigenetic, Transcriptomic, and Network Dynamics as Immune Dysfunction Drivers Associated with HIV Infection and Substance Use Disorder
利用大数据方法识别表观遗传、转录组和网络动态作为与 HIV 感染和药物滥用障碍相关的免疫功能障碍驱动因素
- 批准号:
10055913 - 财政年份:2020
- 资助金额:
$ 3.06万 - 项目类别:
Big data profiling: collecting data about data to support efficient and effective analytics
大数据分析:收集有关数据的数据以支持高效且有效的分析
- 批准号:
RGPIN-2017-04681 - 财政年份:2019
- 资助金额:
$ 3.06万 - 项目类别:
Discovery Grants Program - Individual
Big data profiling: collecting data about data to support efficient and effective analytics
大数据分析:收集有关数据的数据以支持高效且有效的分析
- 批准号:
RGPIN-2017-04681 - 财政年份:2018
- 资助金额:
$ 3.06万 - 项目类别:
Discovery Grants Program - Individual