TC:Large:Collaborative Research:Anonymizing Textual Data and its Impact on Utility
TC:大型:协作研究:匿名文本数据及其对实用性的影响
基本信息
- 批准号:1012081
- 负责人:
- 金额:$ 57.44万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2010
- 资助国家:美国
- 起止时间:2010-09-01 至 2016-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Data Protection laws that exempt data that is not individuallyidentifiable have led to an explosion in anonymization research.Unfortunately, how well current de-identification and anonymizationtechniques control risks to privacy and confidentiality is not wellunderstood. Neither is the usefulness of anonymized data for real-worldapplications. The project addresses anonymization on three fronts:1) Textual data, even when explicit identifiers are removed (names,dates, locations), can contain highly identifiable information. Forexample, a sample of chief complaint fields from the Indiana Networkfor Patient Care (INPC) found several instances of "phantom limbpain". Amputees can be visually identifiable, but the HIPAA SafeHarbor rules do not list this as "identifying information". Anypolicy explicitly listing all types of identifying data is likely tofail. Through a joint effort with computer science and linguistics,the project is developing new methods to remove specific details fromtext while preserving meaning, eliminating such highly identifiableinformation without a priori knowledge of what would be identifying.2) Current anonymization research is based on unproven measures ofidentifiability. Through a re-identification challenge on syntheticdata (but based on real healthcare data), the project is evaluatingthe efficacy of these measures. Interdisciplinary teams of studentsare given challenge problems - anonymized data with hypotheticalhealthcare data - and asked to make (hypothetical) inferences abouthealth information of individuals. The results can be used tocalibrate the effectiveness of different anonymization measures.3) The utility of anonymized data has been a concern among research:Does anonymized data provide credible research results? By partneringwith healthcare studies at the Kinsey Institute and Purdue UniversitySchool of Nursing, the project is comparing analyses on original datawith analyses on anonymized data, and evaluating the impact of typesof anonymization on research results. A related issue is determiningthe impact on data collection: Are individuals more candid in theirresponses if they know data will be anonymized? Outcomes are broadeningthe scope of research that can be performed on anonymized data, whileensuring that researchers know when access to individually identifiabledata (with attendant restrictions and safeguards) is needed.Through these tasks, the project is advancing our ability to utilizethe wealth of data we now collect for the benefit of society, whileensuring individual privacy is protected.For further information see the project web site at the URL:http://projects.cerias.purdue.edu/TextAnon
数据保护法豁免了无法识别个人身份的数据,这导致了匿名化研究的爆炸式增长。不幸的是,目前的去身份化和匿名化技术在多大程度上控制了隐私和保密风险,人们对此并不了解。 匿名数据对于现实世界的应用也没有用处。 该项目在三个方面解决了匿名化问题:1)文本数据,即使删除了显式标识符(姓名,日期,位置),也可能包含高度可识别的信息。 例如,来自印第安纳州病人护理网络(INPC)的一个主要投诉领域的样本发现了几个“幻肢痛”的例子。 截肢者可以在视觉上识别,但HIPAA安全港规则没有将其列为“识别信息”。 任何明确列出所有类型识别数据的策略都可能失败。 通过与计算机科学和语言学的共同努力,该项目正在开发新的方法来删除文本中的特定细节,同时保留意义,消除这种高度可识别的信息,而无需先验知识来识别。 通过对合成数据(但基于真实的医疗保健数据)的重新识别挑战,该项目正在评估这些措施的有效性。 跨学科的学生团队被赋予挑战性的问题-匿名数据与hypothicalhealthcare数据-并要求作出(假设)推断个人的健康信息。 研究结果可以用来校准不同匿名化措施的有效性。3)匿名化数据的效用一直是研究中的一个关注点:匿名化数据是否提供可信的研究结果? 该项目与金赛研究所和普渡大学护理学院的医疗保健研究合作,将原始数据分析与匿名数据分析进行比较,并评估匿名类型对研究结果的影响。 一个相关的问题是确定对数据收集的影响:如果个人知道数据将被匿名化,他们的反应是否会更加坦率? 这些成果扩大了可以对匿名数据进行研究的范围,同时确保研究人员知道何时需要访问个人身份数据(附带限制和保护措施)。通过这些任务,该项目正在提高我们利用我们现在收集的大量数据造福社会的能力,同时确保个人隐私得到保护。欲了解更多信息,请访问该项目网站,网址为:http://projects.cerias.purdue.edu/TextAnon
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Raquel Hill其他文献
Raquel Hill的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Raquel Hill', 18)}}的其他基金
Collaborative Proposal: SaTC: Frontiers: Center for Distributed Confidential Computing (CDCC)
协作提案:SaTC:前沿:分布式机密计算中心 (CDCC)
- 批准号:
2207218 - 财政年份:2022
- 资助金额:
$ 57.44万 - 项目类别:
Continuing Grant
EAGER: Leveling the Digital Playing Field for the Job Seeker
EAGER:为求职者打造公平的数字竞争环境
- 批准号:
1537768 - 财政年份:2015
- 资助金额:
$ 57.44万 - 项目类别:
Standard Grant
相似国自然基金
水稻穗粒数调控关键因子LARGE6的分子遗传网络解析
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
量子自旋液体中拓扑拟粒子的性质:量子蒙特卡罗和新的large-N理论
- 批准号:
- 批准年份:2020
- 资助金额:62 万元
- 项目类别:面上项目
甘蓝型油菜Large Grain基因调控粒重的分子机制研究
- 批准号:31972875
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
Large PB/PB小鼠 视网膜新生血管模型的研究
- 批准号:30971650
- 批准年份:2009
- 资助金额:8.0 万元
- 项目类别:面上项目
基因discs large在果蝇卵母细胞的后端定位及其体轴极性形成中的作用机制
- 批准号:30800648
- 批准年份:2008
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
LARGE基因对口腔癌细胞中α-DG糖基化及表达的分子调控
- 批准号:30772435
- 批准年份:2007
- 资助金额:29.0 万元
- 项目类别:面上项目
相似海外基金
TC: Large: Collaborative Research: Facilitating Free and Open Access to Information on the Internet
TC:大型:合作研究:促进互联网上信息的自由和开放获取
- 批准号:
1540066 - 财政年份:2015
- 资助金额:
$ 57.44万 - 项目类别:
Continuing Grant
TC: Large: Collaborative Research: Facilitating Free and Open Access to Information on the Internet
TC:大型:合作研究:促进互联网上信息的自由和开放获取
- 批准号:
1111734 - 财政年份:2012
- 资助金额:
$ 57.44万 - 项目类别:
Continuing Grant
TC: Large: Collaborative Research: Facilitating Free and Open Access to Information on the Internet
TC:大型:合作研究:促进互联网上信息的自由和开放获取
- 批准号:
1111539 - 财政年份:2012
- 资助金额:
$ 57.44万 - 项目类别:
Continuing Grant
TC: Large: Collaborative Research: Facilitating Free and Open Access to Information on the Internet
TC:大型:合作研究:促进互联网上信息的自由和开放获取
- 批准号:
1111723 - 财政年份:2012
- 资助金额:
$ 57.44万 - 项目类别:
Continuing Grant
TC: Large: Collaborative Research: Practical Secure Two-Party Computation: Techniques, Tools, and Applications
TC:大型:协作研究:实用安全两方计算:技术、工具和应用
- 批准号:
1111781 - 财政年份:2011
- 资助金额:
$ 57.44万 - 项目类别:
Continuing Grant
TC: Large: Collaborative Research: Privacy-Enhanced Secure Data Provenance
TC:大型:协作研究:隐私增强的安全数据来源
- 批准号:
1111512 - 财政年份:2011
- 资助金额:
$ 57.44万 - 项目类别:
Continuing Grant
TC: Large: Collaborative Research: Privacy-Enhanced Secure Data Provenance
TC:大型:协作研究:隐私增强的安全数据来源
- 批准号:
1111529 - 财政年份:2011
- 资助金额:
$ 57.44万 - 项目类别:
Continuing Grant
TC: Large: Collaborative Research: High-Level Language Support for Trustworthy Networks
TC:大型:协作研究:对可信赖网络的高级语言支持
- 批准号:
1111520 - 财政年份:2011
- 资助金额:
$ 57.44万 - 项目类别:
Standard Grant
TC: Large: Collaborative Research: Practical Secure Two-Party Computation: Techniques, Tools, and Applications
TC:大型:协作研究:实用安全两方计算:技术、工具和应用
- 批准号:
1111599 - 财政年份:2011
- 资助金额:
$ 57.44万 - 项目类别:
Continuing Grant
TC: Large: Collaborative Research: Privacy-Enhanced Secure Data Provenance
TC:大型:协作研究:隐私增强的安全数据来源
- 批准号:
1111925 - 财政年份:2011
- 资助金额:
$ 57.44万 - 项目类别:
Continuing Grant