SHF: Small: Program Analysis for Data Science
SHF:小型:数据科学程序分析
基本信息
- 批准号:1910850
- 负责人:
- 金额:$ 49.97万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2019
- 资助国家:美国
- 起止时间:2019-10-01 至 2024-09-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Data Science is a discipline that combines computing with statistics with the aim of turning raw data into insights. Data analysis is typically performed by composing a series of discrete tools and libraries into a data-analysis pipeline. Faced with the increased velocity that these tools afford to researchers, one of the open questions we are facing is: can we trust the claimed results? As new studies are produced at an increasingly high rate, and the number of data-science practitioners keeps growing, it is unclear if the community has the resources to validate even a fraction of the research in print. The novelty of this project is to take some of the early steps towards the goal of trustworthy data analysis. The project's impact is to increase trust in the results of data analysis performed with technologies such as R and Spark. The project will also impact the broader community of R and Spark developers, by offering analysis tools that can be used widely within the community. The human impact of this project is in recruitment and retention of minority students to opportunities in data-analysis research, and in helping them prepare for careers in STEM.The first contribution of this project is to curate a corpus of data-analysis pipelines. This corpus will give researchers a window into the activities performed by practitioners. This, in and of itself, will be a valuable addition to the general understanding of data analytics. The second contribution of this project will be a set of dynamic- and static-analysis tools that will be used to find faults in data-analysis pipelines. Dynamic analysis will be used to gather behavioral data about the programs and libraries as well as catch latent bugs. Static-analysis techniques will be used to find coding idioms that are potentially buggy. One of the technical challenges that will be solved is how to analyze incomplete code. This challenge comes from the fact that the languages used to write data-analysis code are often dynamic and can load new code at any time.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
数据科学是一门将计算与统计相结合的学科,旨在将原始数据转化为见解。数据分析通常通过将一系列离散的工具和库组合到数据分析管道中来执行。面对这些工具为研究人员提供的更快的速度,我们面临的一个开放性问题是:我们能相信声称的结果吗?随着新研究的产生速度越来越快,数据科学从业者的数量也在不断增长,目前还不清楚社区是否有足够的资源来验证哪怕是一小部分的印刷研究。该项目的新奇在于采取了一些早期步骤,以实现可信数据分析的目标。该项目的影响是增加对使用R和Spark等技术执行的数据分析结果的信任。该项目还将通过提供可在社区内广泛使用的分析工具,影响更广泛的R和Spark开发人员社区。这个项目的人文影响是在招聘和保留少数民族学生的机会,在数据分析研究,并帮助他们准备在STEM的职业生涯。这个项目的第一个贡献是策划数据分析管道语料库。该语料库将为研究人员提供一个了解从业人员活动的窗口。这本身将是对数据分析的一般理解的一个有价值的补充。该项目的第二个贡献是一套动态和静态分析工具,用于发现数据分析管道中的错误。动态分析将用于收集有关程序和库的行为数据,以及捕获潜在的错误。静态分析技术将被用来发现可能存在错误的编码习惯用法。其中一个将要解决的技术挑战是如何分析不完整的代码。这一挑战来自这样一个事实,即用于编写数据分析代码的语言通常是动态的,并且可以随时加载新代码。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
CodeDJ: Reproducible Queries over Large-Scale Software Repositories
CodeDJ:大规模软件存储库的可重复查询
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Petr Maj, Konrad Siek
- 通讯作者:Petr Maj, Konrad Siek
signatr: A Data-Driven Fuzzing Tool for R
Signatr:R 数据驱动模糊测试工具
- DOI:10.1145/3567512.3567530
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Turcotte, Alexi;Donat-Bouillud, Pierre;Křikava, Filip;Vitek, Jan
- 通讯作者:Vitek, Jan
Designing types for R, empirically
根据经验设计 R 类型
- DOI:10.1145/3428249
- 发表时间:2020
- 期刊:
- 影响因子:0
- 作者:Turcotte, Alexi;Goel, Aviral;Křikava, Filip;Vitek, Jan
- 通讯作者:Vitek, Jan
Julia's Efficient Algorithm for Subtyping Unions and Covariant Tuples
Julia 用于子类型联合和协变元组的高效算法
- DOI:10.4230/lipics.ecoop.2019.24
- 发表时间:2019
- 期刊:
- 影响因子:0
- 作者:Chung, Benjamin;Zappa Nardelli, Francesco;Vitek, Jan
- 通讯作者:Vitek, Jan
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Jan Vitek其他文献
Julia’s efficient algorithm for subtyping unions and covariant tuples (Pearl)
Julia 用于子类型联合和协变元组的高效算法 (Pearl)
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
Benjamin Chung;Francesco Zappa;Nardelli Inria;Jan Vitek;Francesco Zappa Nardelli - 通讯作者:
Francesco Zappa Nardelli
Proceedings of the First International Workshop on Aliasing, Confinement and Ownership in Object-oriented Programming (IWACO)
第一届面向对象编程中的别名、限制和所有权国际研讨会 (IWACO) 论文集
- DOI:
- 发表时间:
2003 - 期刊:
- 影响因子:0
- 作者:
Dave Clarke;Chandrasekhar Boyapati;Robert Lee;Richard Paige;J. Ostroff;Phillip Brooke;James Noble;Robert Biddle;E. Tempero;A. Potanin;Tian Zhao;Jens Palsberg;Jan;Sophia Drosspoulou;Workshop Organisers;Jonathan Aldrich;Doug Lea;Suny Oswego;David Naumann;Queen Mary;Martin Rinard;Jan Vitek;Anindya Banerjee;S. Drossopoulou;Matthew Smith;C. Pierik;Tobias Wrigstad;P. O 'hearn;John Tang Boyland;M. Fähndrich;K. Rustan;M. Leino;Scott F Smith;Mark Thober Discussion - 通讯作者:
Mark Thober Discussion
Scoped types and aspects for real-time Java memory management
- DOI:
10.1007/s11241-007-9024-3 - 发表时间:
2007-05-23 - 期刊:
- 影响因子:1.300
- 作者:
Chris Andreae;Yvonne Coady;Celina Gibbs;James Noble;Jan Vitek;Tian Zhao - 通讯作者:
Tian Zhao
Reusing Just-in-Time Compiled Code
重用即时编译的代码
- DOI:
- 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
Meetesh Kalpesh Mehta;Sebastián Krynski;Hugo Musso Gualandi;Manas Thakur;Jan Vitek - 通讯作者:
Jan Vitek
The JavaSeal Mobile Agent Kernel
- DOI:
10.1023/a:1012715226170 - 发表时间:
2001-12-01 - 期刊:
- 影响因子:2.600
- 作者:
Ciarán Bryce;Jan Vitek - 通讯作者:
Jan Vitek
Jan Vitek的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Jan Vitek', 18)}}的其他基金
SHF: Small: Predictable Performance for Just-in-Time Compilation
SHF:小型:可预测的即时编译性能
- 批准号:
2139612 - 财政年份:2022
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
CCRI: ENS: Collaborative Research: Enhancing R for Scalability and Deployment
CCRI:ENS:协作研究:增强 R 的可扩展性和部署
- 批准号:
1925644 - 财政年份:2019
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
SHF: Small: Collaborative Research: A Rational Reconstruction of the Julia Type System
SHF:小型:协作研究:Julia 类型系统的合理重建
- 批准号:
1908389 - 财政年份:2019
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
NSF Student Travel Grant for 2017 Programming Language Implementation Summer School (PLISS)
NSF 2017 年编程语言实施暑期学校学生旅费补助金 (PLISS)
- 批准号:
1723053 - 财政年份:2017
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
SHF: PROJECT DARWIN_ Towards Principled Language Evolution
SHF:达尔文计划_迈向有原则的语言进化
- 批准号:
1544542 - 财政年份:2016
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
SHF: Small: Foundations of Just-in-Time Compilation
SHF:小型:即时编译的基础
- 批准号:
1618732 - 财政年份:2016
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
European Conference on Object Oriented Programming
欧洲面向对象编程会议
- 批准号:
1521864 - 财政年份:2015
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
CPS: Medium: Robust Distributed Wind Power Engineering
CPS:中:稳健的分布式风电工程
- 批准号:
1523426 - 财政年份:2014
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
CSR: CC: Small: Collaborative Research: Language and Runtime Support for Large-Scale Data Analytics
CSR:CC:小型:协作研究:大规模数据分析的语言和运行时支持
- 批准号:
1460683 - 财政年份:2014
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
相似国自然基金
昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
- 批准号:n/a
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
- 批准号:32000033
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
- 批准号:31972324
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
- 批准号:81900988
- 批准年份:2019
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
- 批准号:31870821
- 批准年份:2018
- 资助金额:56.0 万元
- 项目类别:面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
- 批准号:31802058
- 批准年份:2018
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
- 批准号:31772128
- 批准年份:2017
- 资助金额:60.0 万元
- 项目类别:面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
- 批准号:81704176
- 批准年份:2017
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
- 批准号:91640114
- 批准年份:2016
- 资助金额:85.0 万元
- 项目类别:重大研究计划
相似海外基金
SHF: Small: Practical Dynamic Program Reasoning Across Language Boundaries
SHF:小:跨语言边界的实用动态程序推理
- 批准号:
2146233 - 财政年份:2022
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
SHF: Small: Tackling Mapping and Scheduling Problems for Quantum Program Compilation
SHF:小型:解决量子程序编译的映射和调度问题
- 批准号:
2129872 - 财政年份:2021
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
SHF: Small: Program Analysis for Dependable Clustering
SHF:小型:可靠集群的程序分析
- 批准号:
2007730 - 财政年份:2020
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
SHF: SMALL: Automated Discovery of Cross-Language Program Behavior Inconsistency
SHF:SMALL:跨语言程序行为不一致的自动发现
- 批准号:
2006947 - 财政年份:2020
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
SHF: Small: AI Model Debugging by Analyzing Model Internals with Python Program Analysis
SHF:小:通过 Python 程序分析分析模型内部结构进行 AI 模型调试
- 批准号:
1910300 - 财政年份:2019
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
SHF: Small: Measurable Program Analysis
SHF:小型:可衡量的计划分析
- 批准号:
1901769 - 财政年份:2018
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
SHF: Small: Collaborative Research: Resource-Guided Program Synthesis
SHF:小型:协作研究:资源引导程序综合
- 批准号:
1814358 - 财政年份:2018
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
SHF: Small: The Whole Program Critical Path Approach to Parallelism
SHF:小:整个程序的并行关键路径方法
- 批准号:
1814654 - 财政年份:2018
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
SHF: Small: Scalable Program Synthesis using Counterexample-Guided Abstraction Refinement
SHF:小型:使用反例引导的抽象细化的可扩展程序综合
- 批准号:
1811865 - 财政年份:2018
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant
SHF: Small: Collaborative Research: Resource-Guided Program Synthesis
SHF:小型:协作研究:资源引导程序综合
- 批准号:
1812876 - 财政年份:2018
- 资助金额:
$ 49.97万 - 项目类别:
Standard Grant