EAGER: DCL: SaTC: Enabling Interdisciplinary Collaboration: Efficient Human-in-the-Loop Redaction of Language Development Corpora
EAGER:DCL:SaTC:实现跨学科协作:语言开发语料库的高效人机交互编辑
基本信息
- 批准号:2210193
- 负责人:
- 金额:$ 30万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2022
- 资助国家:美国
- 起止时间:2022-07-01 至 2024-06-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
At great effort and expense, and with the cooperation of hundreds of parents, teachers, and children, researchers have collected conversation transcripts to study topics like children's language development. The data most useful for science are longitudinal and naturalistic, such as data collected periodically over time in children's homes. Unfortunately, the longitudinal, naturalistic corpora most likely to advance knowledge may contain information that renders participants identifiable. For this reason, naturalistic corpora are rarely shared with other researchers, hindering science. Sharing requires careful redaction--the removal of potentially identifying information. Currently, naturalistic corpora are often too large for manual redaction, and current automated tools both miss critical redactions and over-redact important information. To enable such data to be shared, this project seeks to develop novel computational methods for redaction.This project's aim is to develop initially automated, human-in-the-loop redaction of identifying information in unstructured text data. First, to better understand key challenges around what aspects of transcripts make participants identifiable, the researchers are conducting interviews with social and behavioral science researchers and members of ethics boards. From these insights, the researchers are developing novel models for predicting what language may need to be redacted and they are designing novel user interactions for leveraging human expertise in redaction decisions. The unique characteristics of conversation transcripts require modeling novel features of language, drawing from natural language processing, psychology, privacy engineering, and linguistics. Because automated methods lack human insights into conversational context for making complex redaction decisions, the researchers are designing user interfaces that summarize how marked language, or tokens, appear longitudinally in transcripts, enabling human coders to quickly make redaction decisions. As a case study, the researchers are applying these techniques to the Language Development Project, a longitudinal corpus of 100 diverse children's development of language. The project is also training students in multidisciplinary research across the computational and social sciences.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
付出了很大的努力和费用,在数百名父母,老师和孩子的合作下,研究人员收集了对话笔录,以研究儿童语言发展等主题。对科学最有用的数据是纵向和自然主义的,例如随着时间的流逝,在儿童家中定期收集的数据。不幸的是,最有可能促进知识的纵向,自然主义的语料库可能包含可识别参与者的信息。因此,自然主义的语料库很少与其他研究人员共享阻碍科学。共享需要仔细的修订 - 删除潜在的识别信息。目前,自然主义的语料库通常对于手动修复而言太大,并且当前的自动化工具既错过关键的修订又错过了重要的重要信息。为了共享此类数据,该项目旨在开发用于修订的新型计算方法。该项目的目的是开发最初自动化的,人类的人类在非组织文本数据中的识别信息。首先,为了更好地了解成绩单的哪些方面使参与者可以识别的主要挑战,研究人员正在与社会和行为科学研究人员和道德委员会成员进行访谈。从这些见解中,研究人员正在开发新型模型,以预测可能需要编辑的语言,并正在设计新颖的用户互动,以利用人类在修订决策方面的专业知识。对话成绩单的独特特征需要对语言的新颖特征进行建模,这是自然语言处理,心理学,隐私工程和语言学的汲取的。由于自动化方法缺乏人类对做出复杂修订决策的对话环境的见解,因此研究人员正在设计用户界面,这些用户界面总结了标记的语言或令牌,在成绩单中纵向出现,使人类编码能够快速做出重新决策。作为案例研究,研究人员将这些技术应用于语言发展项目,该项目是100个不同儿童语言发展的纵向语料库。该项目还正在培训学生在整个计算和社会科学方面的多学科研究。该奖项反映了NSF的法定使命,并使用基金会的知识分子优点和更广泛的影响标准,认为值得通过评估来获得支持。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Blase Ur其他文献
Forgotten But Not Gone: Identifying the Need for Longitudinal Data Management in Cloud Storage
被遗忘但并未消失:确定云存储中纵向数据管理的需求
- DOI:
10.1145/3173574.3174117 - 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
Mohammad Taha Khan;Maria Hyun;Chris Kanich;Blase Ur - 通讯作者:
Blase Ur
Evaluating the Security Risks of Freedom on Social Networking Websites
评估社交网站上自由的安全风险
- DOI:
10.7282/t30v8h8j - 发表时间:
2009 - 期刊:
- 影响因子:0
- 作者:
Blase Ur;Crystal Maung;V. Ganapathy - 通讯作者:
V. Ganapathy
Measuring the Effectiveness of Privacy Tools for Limiting Behavioral Advertising
衡量限制行为广告的隐私工具的有效性
- DOI:
- 发表时间:
2012 - 期刊:
- 影响因子:0
- 作者:
Rebecca Balebako;P. Leon;Richard Shay;Blase Ur;Yang Wang - 通讯作者:
Yang Wang
Watching Them Watching Me: Browser Extensions Impact on User Privacy Awareness and Concern
看着他们看着我:浏览器扩展对用户隐私意识和担忧的影响
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
F. Schaub;A. Marella;Pranshu Kalvani;Blase Ur;Chao Pan;Emily Forney;L. Cranor - 通讯作者:
L. Cranor
Towards Supporting and Documenting Algorithmic Fairness in the Data Science Workflow
致力于支持和记录数据科学工作流程中的算法公平性
- DOI:
- 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
Galen Harrison;Julia Hanson;Blase Ur - 通讯作者:
Blase Ur
Blase Ur的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Blase Ur', 18)}}的其他基金
Collaborative Research: Conference: 2024 Aspiring PIs in Secure and Trustworthy Cyberspace
协作研究:会议:2024 年安全可信网络空间中的有抱负的 PI
- 批准号:
2404950 - 财政年份:2024
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
Collaborative Research: SaTC: CORE: Medium: Methods and Tools for Effective, Auditable, and Interpretable Online Ad Transparency
协作研究:SaTC:核心:媒介:有效、可审核和可解释的在线广告透明度的方法和工具
- 批准号:
2149680 - 财政年份:2022
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
CAREER: Usable, Data-Driven Transparency and Access for Consumer Privacy
职业:可用、数据驱动的透明度和消费者隐私访问
- 批准号:
2047827 - 财政年份:2021
- 资助金额:
$ 30万 - 项目类别:
Continuing Grant
FMitF: Collaborative Research: User-Centered Verification and Repair of Trigger-Action Programs
FMITF:协作研究:以用户为中心的触发操作程序验证和修复
- 批准号:
1837120 - 财政年份:2018
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
SaTC: CORE: Medium: Collaborative: Enabling Long-Term Security and Privacy through Retrospective Data Management
SaTC:核心:媒介:协作:通过回顾性数据管理实现长期安全和隐私
- 批准号:
1801663 - 财政年份:2018
- 资助金额:
$ 30万 - 项目类别:
Continuing Grant
CRII: SaTC: Multi-User Authentication and Access Control in the Internet of Things
CRII:SaTC:物联网中的多用户身份验证和访问控制
- 批准号:
1756011 - 财政年份:2018
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
相似国自然基金
OH+HCl/DCl↔H2O/HOD+Cl态-态反应的全维微分截面研究
- 批准号:
- 批准年份:2022
- 资助金额:54 万元
- 项目类别:面上项目
番茄抗病毒基因DCL2b受病毒诱导调控的分子机理
- 批准号:32272744
- 批准年份:2022
- 资助金额:54.00 万元
- 项目类别:面上项目
番茄抗病毒基因DCL2b受病毒诱导调控的分子机理
- 批准号:
- 批准年份:2022
- 资助金额:54 万元
- 项目类别:面上项目
OH+HCl/DCl↔H2O/HOD+Cl态-态反应的全维微分截面研究
- 批准号:22273104
- 批准年份:2022
- 资助金额:54.00 万元
- 项目类别:面上项目
RNAi介导的转S1基因大豆对SMV广谱抗性启动机制的解析
- 批准号:31801388
- 批准年份:2018
- 资助金额:25.0 万元
- 项目类别:青年科学基金项目
相似海外基金
EAGER: DCL: SaTC: Enabling Interdisciplinary Collaboration: Deplatforming and Online Hate Speech Across the Social Media Ecology
EAGER:DCL:SaTC:实现跨学科合作:社交媒体生态中的去平台化和在线仇恨言论
- 批准号:
2210023 - 财政年份:2022
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
EAGER: DCL: SaTC: Enabling Interdisciplinary Collaboration: Using NLP to Identify Suspicious Transactions in Omnichannel Online C2C Marketplaces
EAGER:DCL:SaTC:实现跨学科协作:使用 NLP 识别全渠道在线 C2C 市场中的可疑交易
- 批准号:
2210091 - 财政年份:2022
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
EAGER: DCL: SaTC: Enabling Interdisciplinary Collaboration: Space Cybersecurity, Policy, and Risks
EAGER:DCL:SaTC:实现跨学科合作:空间网络安全、政策和风险
- 批准号:
2208458 - 财政年份:2022
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
EAGER: DCL: SaTC: Enabling Interdisciplinary Collaboration: Adapting Economic Games to Personalize Privacy and Security Nudges
EAGER:DCL:SaTC:实现跨学科合作:调整经济游戏以个性化隐私和安全推动
- 批准号:
2209507 - 财政年份:2022
- 资助金额:
$ 30万 - 项目类别:
Standard Grant
EAGER: DCL: SaTC: Enabling Interdisciplinary Collaboration: Improving Human Discernment of Audio Deepfakes via Multi-level Information Augmentation
EAGER:DCL:SaTC:实现跨学科合作:通过多级信息增强提高人类对音频深赝品的识别能力
- 批准号:
2210011 - 财政年份:2022
- 资助金额:
$ 30万 - 项目类别:
Standard Grant