CIF21 DIBBs: EI: Continuous Capture of Metadata for Statistical Data
CIF21 DIBB:EI:统计数据元数据的连续捕获
基本信息
- 批准号:1640575
- 负责人:
- 金额:$ 256.56万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2016
- 资助国家:美国
- 起止时间:2016-10-01 至 2021-09-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
As the research community responds to increasing demands for public access to scientific data, the need for improvement in data documentation has become critical. Accurate and complete metadata is essential for data sharing and for interoperability across different data types. However, the process of describing and documenting scientific data has remained a tedious, manual process even when data collection is fully automated. General purpose statistical packages (SPSS, SAS, Stata, R) are fundamental to research in the social and behavioral sciences, environmental sciences, biomedical research, and many other fields, but these packages lack tools for documenting how data are modified and new variables created. By creating tools to capture data transformations from statistical analysis packages, this project creates efficiencies and reduces the costs of data collection, preparation, and re-use. Two research communities with strong metadata standards and heavy reliance on statistical analysis software (social and behavioral sciences and earth observation sciences) are targeted, but the approach is generalizable to other scientific domains.Automating documentation of data transformations involves three main steps. First, the most common data transformation operators are standardized and mapped to the Validation and Transformation Language (VTL), an emerging independent standard for describing operations on data in detail. Second, software parses command scripts for the most widely used statistics packages and translates data transformation operations into VTL. Third, software tools modify metadata files adhering to existing standards to reflect changes to the data. This approach embeds detailed variable-level provenance information into standard metadata, and makes it available for data discovery services and automated data analysis tools. This award by the Advanced Cyberinfrastructure Division is jointly supported by the NSF Directorate for Biological Sciences (Division of Biological Infrastructure), and the NSF Directorate for Social, Behavioral and Economic Sciences (Division of Social and Economic Sciences).
随着研究界对公众获取科学数据的需求日益增加作出反应,改进数据记录的必要性变得至关重要。 准确和完整的元数据对于数据共享和不同数据类型之间的互操作性至关重要。 然而,即使在数据收集完全自动化的情况下,描述和记录科学数据的过程仍然是一个繁琐的手工过程。 通用统计软件包(SPSS,SAS,Stata,R)是社会和行为科学,环境科学,生物医学研究和许多其他领域研究的基础,但这些软件包缺乏记录如何修改数据和创建新变量的工具。 通过创建从统计分析包捕获数据转换的工具,该项目提高了效率,降低了数据收集、准备和重用的成本。 两个研究社区具有强大的元数据标准和严重依赖统计分析软件(社会和行为科学和地球观测科学)的目标,但该方法是推广到其他科学领域。首先,最常见的数据转换操作符被标准化,并映射到验证和转换语言(Validation and Transformation Language,缩写EML),这是一种新兴的独立标准,用于详细描述数据操作。 其次,软件解析最广泛使用的统计数据包的命令脚本,并将数据转换操作转换为XML。 第三,软件工具根据现有标准修改元数据文件,以反映数据的变化。 这种方法将详细的变量级出处信息嵌入到标准元数据中,并使其可用于数据发现服务和自动化数据分析工具。 该奖项由高级网络基础设施部颁发,由NSF生物科学理事会(生物基础设施部)和NSF社会,行为和经济科学理事会(社会和经济科学部)共同支持。
项目成果
期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
C 2 Metadata: Automating the Capture of Data Transformations from Statistical Scripts in Data Documentation
C 2 元数据:从数据文档中的统计脚本自动捕获数据转换
- DOI:10.1145/3299869.3320241
- 发表时间:2019
- 期刊:
- 影响因子:0
- 作者:Song, Jie;Alter, George;Jagadish, H. V.
- 通讯作者:Jagadish, H. V.
SDTA: An Algebra for Statistical Data Transformation
SDTA:统计数据转换的代数
- DOI:10.1145/3468791.3468811
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Song, Jie;Jagadish, H. V.;Alter, George
- 通讯作者:Alter, George
Provenance metadata for statistical data: An introduction to Structured Data Transformation Language (SDTL)
统计数据的来源元数据:结构化数据转换语言 (SDTL) 简介
- DOI:10.29173/iq983
- 发表时间:2020
- 期刊:
- 影响因子:0
- 作者:Alter, George;Donakowski, Darrell;Gager, Jack;Heus, Pascal;Hunter, Carson;Ionescu, Sanda;Iverson, Jeremy;Jagadish, H.V.;Lagoze, Carl;Lyle, Jared
- 通讯作者:Lyle, Jared
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
George Alter其他文献
Introduction: Longitudinal Analysis of Historical-Demographic Data
简介:历史人口统计数据的纵向分析
- DOI:
10.1162/jinh_a_00302 - 发表时间:
2012 - 期刊:
- 影响因子:0.5
- 作者:
George Alter;M. Gutmann;S. H. Leonard;E. Merchant - 通讯作者:
E. Merchant
Automating the Capture of Data Transformation Metadata from Statistical Analysis Software
自动从统计分析软件捕获数据转换元数据
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
George Alter;Darrell Donakowski;J. Gager;P. Heus;Carson Hunter;Sanda Ionescu;J. Iverson;H. V. Jagadish;C. Lagoze;Jared Lyle;Alexander Mueller;Sigbjørn Revheim;M. Richardson;Ørnulf Risnes;Karunakara Seelam;Dan J. Smith;T. Smith;Jie Song;Y. Vaidya;Ole Voldsater - 通讯作者:
Ole Voldsater
Data Access and Research Transparency in the Quantitative Tradition
定量传统中的数据访问和研究透明度
- DOI:
- 发表时间:
2013 - 期刊:
- 影响因子:0
- 作者:
A. Lupia;George Alter - 通讯作者:
George Alter
Casting spells: database concepts for event history analysis.
施法咒语:用于事件历史分析的数据库概念。
- DOI:
10.1080/01615449909598938 - 发表时间:
1999 - 期刊:
- 影响因子:0
- 作者:
George Alter;M. Gutmann - 通讯作者:
M. Gutmann
Computing Statistics from Private Data
从私人数据计算统计数据
- DOI:
10.5334/dsj-2018-031 - 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
George Alter;B. Falk;Steve Lu;R. Ostrovsky - 通讯作者:
R. Ostrovsky
George Alter的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('George Alter', 18)}}的其他基金
Collaborative Research: Metadata Portal for the Social Sciences
合作研究:社会科学元数据门户
- 批准号:
1229957 - 财政年份:2012
- 资助金额:
$ 256.56万 - 项目类别:
Standard Grant
Quantitative Social Science Digital Library Pathway (QSSDL)
定量社会科学数字图书馆途径(QSSDL)
- 批准号:
0840642 - 财政年份:2008
- 资助金额:
$ 256.56万 - 项目类别:
Continuing Grant
相似海外基金
CIF21 DIBBs: EI: Virtual Data Collaboratory: A Regional Cyberinfrastructure for Collaborative Data Intensive Science
CIF21 DIBB:EI:虚拟数据协作:协作数据密集型科学的区域网络基础设施
- 批准号:
2220826 - 财政年份:2021
- 资助金额:
$ 256.56万 - 项目类别:
Standard Grant
CIF21 DIBBs: EI: Creating a Digital Environment for Enabling Data-Driven Science (DEEDS)
CIF21 DIBB:EI:创建数字环境以实现数据驱动科学 (DEEDS)
- 批准号:
1724728 - 财政年份:2017
- 资助金额:
$ 256.56万 - 项目类别:
Standard Grant
CIF21 DIBBs: EI: North East Storage Exchange
CIF21 DIBB:EI:东北存储交易所
- 批准号:
1753840 - 财政年份:2017
- 资助金额:
$ 256.56万 - 项目类别:
Standard Grant
CIF21 DIBBs: EI: SLATE and the Mobility of Capability
CIF21 DIBB:EI:SLATE 和能力流动性
- 批准号:
1724821 - 财政年份:2017
- 资助金额:
$ 256.56万 - 项目类别:
Continuing Grant
CIF21 DIBBs: EI: Integrated Platform for Applied Network Data Analysis (PANDA)
CIF21 DIBB:EI:应用网络数据分析集成平台 (PANDA)
- 批准号:
1724853 - 财政年份:2017
- 资助金额:
$ 256.56万 - 项目类别:
Standard Grant
CIF21 DIBBs: EI: Vizier, Streamlined Data Curation
CIF21 DIBB:EI:Vizier,简化的数据管理
- 批准号:
1640864 - 财政年份:2017
- 资助金额:
$ 256.56万 - 项目类别:
Standard Grant
CIF21 DIBBS: EI: The Local Spectroscopy Data Infrastructure (LSDI)
CIF21 DIBBS:EI:本地光谱数据基础设施 (LSDI)
- 批准号:
1640899 - 财政年份:2016
- 资助金额:
$ 256.56万 - 项目类别:
Standard Grant
CIF21 DIBBs: EI: Virtual Data Collaboratory: A Regional Cyberinfrastructure for Collaborative Data Intensive Science
CIF21 DIBB:EI:虚拟数据协作:协作数据密集型科学的区域网络基础设施
- 批准号:
1640834 - 财政年份:2016
- 资助金额:
$ 256.56万 - 项目类别:
Standard Grant
CIF21 DIBBs: EI: North East Storage Exchange
CIF21 DIBB:EI:东北存储交易所
- 批准号:
1640831 - 财政年份:2016
- 资助金额:
$ 256.56万 - 项目类别:
Standard Grant
CIF21 DIBBs: EI: mProv: Provence-Based Data Analytics Cyberinfrastructure for High-frequency Mobile Sensor Data
CIF21 DIBB:EI:mProv:基于普罗旺斯的高频移动传感器数据数据分析网络基础设施
- 批准号:
1640813 - 财政年份:2016
- 资助金额:
$ 256.56万 - 项目类别:
Standard Grant