SCISIPBIO: A data-science approach to evaluating the likelihood of fraud and error in published studies

SCISIPBIO:一种评估已发表研究中欺诈和错误可能性的数据科学方法

基本信息

  • 批准号:
    1956338
  • 负责人:
  • 金额:
    $ 35万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-09-01 至 2022-08-31
  • 项目状态:
    已结题

项目摘要

Scientific literature servers several important roles. Within the sciences it can inform future research, can pave the way toward new discoveries, and guide the future plans of individual scientists and how they spend their own time and careers. Outside of the sciences, scientific literature too serves several roles, such as informing policies or guiding individual judicial decisions. For all of these reasons, maintaining the integrity of the scientific literature is of uttermost importance for scientists, the broad public, and ultimately the public’s perception of individual scientific fields. Yet, identifying non-trustworthy scientific literature even remains difficult for scientists and editors of scientific journals. This project seeks to identify suspicious scientific manuscripts before they are publicized, using a data-scientific approach in which we capture many distinct traits of scientific manuscripts and their content, as well as information about the authors. The outcome of the project will include a programmatic and web-based interface that allowed third parties such as policy makers and scientific journals to scan manuscripts for signs of scientific fraud and error. The project will focus on the biomedical sciences. The system beneath this interface includes 81 distinct databases that have been aggregated, annotated (e.g., with the chemical and biological properties of included genes), and linked through publication metadata (e.g., references, authorship, funding). These data will be matched with a database on fraudulent and erroneous publications (using retractionwatch and a manually curated database). Features of fraudulent and non-fraudulent publications will be conditioned on these databases, with additional features based on network-properties of genes and authors. The project will employ distinct machine learning approaches, such as Gradient Boosting and auto-learners, whose performance will be evaluated out-of-sample. Forth, to improve interpretability, and better understand scientific fraud and error, and possibly improve the robustness of models, the project will regularize and simplify the models to reduce their predictive capabilities to a small set of the information. Lastly, the project will create a REST-based interface that will allow the import from custom manuscripts. The proposed work is unique for conditioning manuscripts on highly distinct properties of manuscripts including content and world-leading training data. This will provide a data-driven tool for policy makers and scientific editors to identify suspicious manuscripts before they enter the published scientific record.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
科学文献有几个重要的作用。在科学中,它可以为未来的研究提供信息,为新的发现铺平道路,并指导科学家个人的未来计划以及他们如何度过自己的时间和职业生涯。在科学之外,科学文献也扮演着多种角色,例如为政策提供信息或指导个人司法决定。由于所有这些原因,维护科学文献的完整性对科学家、广大公众以及最终公众对各个科学领域的看法至关重要。然而,对于科学家和科学期刊的编辑来说,识别不可信的科学文献仍然很困难。该项目旨在使用数据科学方法在公开之前识别可疑的科学手稿,其中我们捕获了科学手稿及其内容的许多独特特征,以及有关作者的信息。该项目的成果将包括一个基于网络的程序界面,使决策者和科学期刊等第三方能够扫描手稿,以寻找科学欺诈和错误的迹象。该项目将侧重于生物医学科学。该界面下的系统包括81个不同的数据库,这些数据库已经被聚合、注释(例如,具有所包括基因的化学和生物学性质),并通过出版物元数据(例如,参考文献、作者、资金)。这些数据将与关于欺诈性和错误出版物的数据库进行匹配(使用RetractionWatch和人工管理的数据库)。欺诈性和非欺诈性出版物的特征将以这些数据库为条件,并具有基于基因和作者的网络属性的附加特征。该项目将采用不同的机器学习方法,如梯度提升和自动学习器,其性能将在样本外进行评估。第四,为了提高可解释性,更好地理解科学欺诈和错误,并可能提高模型的鲁棒性,该项目将规范和简化模型,将其预测能力降低到一小部分信息。最后,该项目将创建一个基于REST的接口,允许从自定义手稿导入。拟议的工作是独一无二的,可以根据手稿的高度不同属性来调节手稿,包括内容和世界领先的培训数据。这将为政策制定者和科学编辑提供一个数据驱动的工具,以便在可疑手稿进入已发表的科学记录之前识别它们。该奖项反映了NSF的法定使命,并被认为值得通过使用基金会的知识价值和更广泛的影响审查标准进行评估来支持。

项目成果

期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
The characteristics of early-stage research into human genes are substantially different from subsequent research.
  • DOI:
    10.1371/journal.pbio.3001520
  • 发表时间:
    2022-01
  • 期刊:
  • 影响因子:
    9.8
  • 作者:
    Stoeger T;Nunes Amaral LA
  • 通讯作者:
    Nunes Amaral LA
A cautionary tale from the machine scientist
机器科学家的警示故事
  • DOI:
    10.1038/s42256-022-00491-7
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    23.8
  • 作者:
    Amaral, Luís A.
  • 通讯作者:
    Amaral, Luís A.
Protection of the human gene research literature from contract cheating organizations known as research paper mills.
  • DOI:
    10.1093/nar/gkac1139
  • 发表时间:
    2022-11-28
  • 期刊:
  • 影响因子:
    14.9
  • 作者:
    Byrne, Jennifer A.;Park, Yasunori;Richardson, Reese A. K.;Pathmendra, Pranujan;Sun, Mengyi;Stoeger, Thomas
  • 通讯作者:
    Stoeger, Thomas
COVID-19 research risks ignoring important host genes due to pre-established research patterns.
  • DOI:
    10.7554/elife.61981
  • 发表时间:
    2020-11-24
  • 期刊:
  • 影响因子:
    7.7
  • 作者:
    Stoeger T;Nunes Amaral LA
  • 通讯作者:
    Nunes Amaral LA
Identification of human gene research articles with wrongly identified nucleotide sequences.
  • DOI:
    10.26508/lsa.202101203
  • 发表时间:
    2022-04
  • 期刊:
  • 影响因子:
    4.4
  • 作者:
    Park Y;West RA;Pathmendra P;Favier B;Stoeger T;Capes-Davis A;Cabanac G;Labbé C;Byrne JA
  • 通讯作者:
    Byrne JA
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Luis Amaral其他文献

CERIF – Is the Standard Helping to Improve CRIS?
  • DOI:
    10.1016/j.procs.2014.06.013
  • 发表时间:
    2014-01-01
  • 期刊:
  • 影响因子:
  • 作者:
    Carlos Sousa Pinto;Cláudia Simões;Luis Amaral
  • 通讯作者:
    Luis Amaral
Adrenaline auto-injector prescription and patients’ administration proficiency
  • DOI:
    10.1186/2045-7022-5-s3-p12
  • 发表时间:
    2015-03-30
  • 期刊:
  • 影响因子:
    4.000
  • 作者:
    Luis Amaral;Alice Coimbra;Jose Luis Placido
  • 通讯作者:
    Jose Luis Placido
Network inference approach to extract information from protein molecular dynamics
  • DOI:
    10.1016/j.bpj.2021.11.1067
  • 发表时间:
    2022-02-11
  • 期刊:
  • 影响因子:
  • 作者:
    Jenny Liu;Luis Amaral;Sinan Keten
  • 通讯作者:
    Sinan Keten
The Role of Backbone and Sidechain Dynamics on FimH Allostery
  • DOI:
    10.1016/j.bpj.2019.11.2859
  • 发表时间:
    2020-02-07
  • 期刊:
  • 影响因子:
  • 作者:
    Jenny Liu;Kerim Dansuk;Sinan Keten;Luis Amaral
  • 通讯作者:
    Luis Amaral
DELIVERABLE 2.2 Monitoring of Electromagnetic fields
可交付成果 2.2 电磁场监测
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Alessandra Imperadore;WavEC;Luis Amaral;Florian Tanguy;Rtsys;Yann Gregoire
  • 通讯作者:
    Yann Gregoire

Luis Amaral的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Luis Amaral', 18)}}的其他基金

A1: Systematic Content Analysis of Litigation Events (SCALES) Open Knowledge Network to Enable Transparency and Access to Court Records
A1:诉讼事件的系统内容分析 (SCALES) 开放知识网络,以实现法庭记录的透明度和访问
  • 批准号:
    2033604
  • 财政年份:
    2020
  • 资助金额:
    $ 35万
  • 项目类别:
    Cooperative Agreement
Convergence Accelerator Phase I (RAISE): Northwestern Open Access to Court Records Initiative
融合加速器第一阶段 (RAISE):西北大学法庭记录开放获取计划
  • 批准号:
    1937123
  • 财政年份:
    2019
  • 资助金额:
    $ 35万
  • 项目类别:
    Standard Grant
TLS: Early prediction of the impact of research through large-scale analysis and modeling citation dynamics
TLS:通过大规模分析和引用动态建模来早期预测研究的影响
  • 批准号:
    0830388
  • 财政年份:
    2008
  • 资助金额:
    $ 35万
  • 项目类别:
    Standard Grant

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Data-driven Recommendation System Construction of an Online Medical Platform Based on the Fusion of Information
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    外国青年学者研究基金项目
Development of a Linear Stochastic Model for Wind Field Reconstruction from Limited Measurement Data
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    40 万元
  • 项目类别:
基于高频信息下高维波动率矩阵估计及应用
  • 批准号:
    71901118
  • 批准年份:
    2019
  • 资助金额:
    18.0 万元
  • 项目类别:
    青年科学基金项目
半参数空间自回归面板模型的有效估计与应用研究
  • 批准号:
    71961011
  • 批准年份:
    2019
  • 资助金额:
    16.0 万元
  • 项目类别:
    地区科学基金项目
高频数据波动率统计推断、预测与应用
  • 批准号:
    71971118
  • 批准年份:
    2019
  • 资助金额:
    50.0 万元
  • 项目类别:
    面上项目
基于个体分析的投影式非线性非负张量分解在高维非结构化数据模式分析中的研究
  • 批准号:
    61502059
  • 批准年份:
    2015
  • 资助金额:
    19.0 万元
  • 项目类别:
    青年科学基金项目
基于Linked Open Data的Web服务语义互操作关键技术
  • 批准号:
    61373035
  • 批准年份:
    2013
  • 资助金额:
    77.0 万元
  • 项目类别:
    面上项目
体数据表达与绘制的新方法研究
  • 批准号:
    61170206
  • 批准年份:
    2011
  • 资助金额:
    55.0 万元
  • 项目类别:
    面上项目
一类新Regime-Switching模型及其在金融建模中的应用研究
  • 批准号:
    11061041
  • 批准年份:
    2010
  • 资助金额:
    24.0 万元
  • 项目类别:
    地区科学基金项目

相似海外基金

Opening Spaces and Places for the Inclusion of Indigenous Knowledge, Voice and Identity: Moving Indigenous People out of the Margins
为包容土著知识、声音和身份提供开放的空间和场所:使土著人民走出边缘
  • 批准号:
    477924
  • 财政年份:
    2024
  • 资助金额:
    $ 35万
  • 项目类别:
    Salary Programs
Data Science Course Hub: ボトムアップアプローチによるデータサイエンス教育の改善
数据科学课程中心:通过自下而上的方法改进数据科学教育
  • 批准号:
    24K15234
  • 财政年份:
    2024
  • 资助金额:
    $ 35万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
The role of nigrostriatal and striatal cell subtype signaling in behavioral impairments related to schizophrenia
黑质纹状体和纹状体细胞亚型信号传导在精神分裂症相关行为障碍中的作用
  • 批准号:
    10751224
  • 财政年份:
    2024
  • 资助金额:
    $ 35万
  • 项目类别:
CAREER: Leveraging Data Science & Policy to Promote Sustainable Development Via Resource Recovery
职业:利用数据科学
  • 批准号:
    2339025
  • 财政年份:
    2024
  • 资助金额:
    $ 35万
  • 项目类别:
    Continuing Grant
CREST HBCU-RISE: Advancing Theoretical Artificial Intelligence Infrastructure for Modern Data Science Challenges
CREST HBCU-RISE:推进理论人工智能基础设施应对现代数据科学挑战
  • 批准号:
    2409093
  • 财政年份:
    2024
  • 资助金额:
    $ 35万
  • 项目类别:
    Continuing Grant
Conference: SDSU Data Science Symposium
会议:SDSU 数据科学研讨会
  • 批准号:
    2409890
  • 财政年份:
    2024
  • 资助金额:
    $ 35万
  • 项目类别:
    Standard Grant
CC* Networking Infrastructure: Enhancing network connectivity for data-intensive, multi-institution collaborative science
CC* 网络基础设施:增强数据密集型、多机构协作科学的网络连接
  • 批准号:
    2346718
  • 财政年份:
    2024
  • 资助金额:
    $ 35万
  • 项目类别:
    Standard Grant
Overcoming Programming Barriers for Non-Computing Majors in Data Science
克服数据科学非计算专业的编程障碍
  • 批准号:
    2336929
  • 财政年份:
    2024
  • 资助金额:
    $ 35万
  • 项目类别:
    Standard Grant
Arlene George F32
阿琳·乔治 F32
  • 批准号:
    10722238
  • 财政年份:
    2024
  • 资助金额:
    $ 35万
  • 项目类别:
Role of Natural Antibodies and B1 cells in Fibroproliferative Lung Disease
天然抗体和 B1 细胞在纤维增生性肺病中的作用
  • 批准号:
    10752129
  • 财政年份:
    2024
  • 资助金额:
    $ 35万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了