CybercrimeNLP (CC-NLP): A natural language processing toolkit for the interdisciplinary analysis of underground online forums

Cyber​​crimeNLP (CC-NLP):用于地下在线论坛跨学科分析的自然语言处理工具包

基本信息

  • 批准号:
    ES/T008466/1
  • 负责人:
  • 金额:
    $ 30.91万
  • 依托单位:
  • 依托单位国家:
    英国
  • 项目类别:
    Research Grant
  • 财政年份:
    2020
  • 资助国家:
    英国
  • 起止时间:
    2020 至 无数据
  • 项目状态:
    已结题

项目摘要

Online and electronic crime now account for about half of all property crime, in all countries for which we have good victimisation data. A significant number of other offences, including harassment, also happen online. It is therefore essential for criminologists, lawyers, social scientists, psychologists and others to be able to study online crime and work out what's going on.We are starting to have some really good sources of data, including more than 70 million messages scraped from underground crime forums in the CrimeBB database. There forums are where cyber-crooks meet up, trade tools and techniques, and sell each other services. They are a gold mine for criminologists studying how young people get drawn into crime; social scientists studying the evolution of political ideology, racism and homophobia; lawyers interested in criminal business models and how they respond to police interventions; and many others.The missing link at present is this: that scholars in the humanities and social sciences do not at present have the tools to deal with such large bodies of text. In the pre-Internet era, researchers might have interviewed a few dozen criminals, coded up the interviews by hand and analysed them using a statistics package; but dealing with millions of messages requires new approaches.This project will draw upon the discipline of natural-language processing to build tools that will enable scholars in the humanities and social sciences deal with these large volumes of text using modern techniques of artificial intelligence and machine learning (AI/ML). They will help researchers find topics of interest, identify the types of crime being discussed, search for messages that are similar in various ways to those already identified, track trends, and match users across forums. Users will be able to look for indicators that identify users who are just starting out (and might therefore be targeted with primary prevention approaches) as well as those who are becoming influential (and might therefore be worth more aggressive interventions). Our tools will also enable researchers to measure the effect of both crime-prevention initiatives and policing action, so that policymakers can gather evidence of what works and what doesn't.The tools we build will start to do for research with large text corpora drawn from crime forums, what search engines have done for the Internet -- namely making such resources accessible to researchers who do not have either technical skills or technical assistance. They will therefore enable much more use to be made of existing data resources, starting with the CrimeBB database (which was funded in a previous project funded by ESRC and EPSRC), but not limited to it. Their use by researchers in diverse disciplines will also enable us to learn about how NLP tools, and more generally AI/ML tools, can be used robustly. This is of independent importance given the current rush to use AI/ML techniques and the concern that some of these techniques may simply reflect the bias in their training data, leading naive researchers to just measure their own ruler. It's not enough just to invent new tools; we also have to figure out how to use them properly, and for that, it's vital to work with a community of scholars from multiple disciplines in the humanities and social sciences on a shared problem, using shared data, and where we have some access eventually to ground truth.
在线和电子犯罪现在约占所有财产犯罪的一半,在我们拥有良好的犯罪数据的所有国家中。包括骚扰在内的大量其他罪行也发生在网上。因此,对于犯罪学家、律师、社会科学家、心理学家和其他人来说,能够研究网络犯罪并弄清楚发生了什么是至关重要的。我们开始有一些非常好的数据来源,包括CrimeBB数据库中从地下犯罪论坛收集的7000多万条信息。这些论坛是网络骗子聚会的地方,交易工具和技术,并相互出售服务。对于研究年轻人如何被卷入犯罪的犯罪学家、研究政治意识形态、种族主义和同性恋恐惧症演变的社会科学家、对犯罪商业模式以及他们如何应对警方干预感兴趣的律师以及其他许多人来说,它们是一座金矿。目前缺失的一环是:人文和社会科学领域的学者目前没有处理如此大量文本的工具。在前互联网时代,研究人员可能会采访几十名罪犯,手工编码采访,并使用统计软件包进行分析;但处理数以百万计的信息需要新的方法。这个项目将借鉴自然学科-语言处理,以建立工具,使学者在人文和社会科学处理这些大量的文本使用现代技术的人工智能和机器学习(AI/ML)。它们将帮助研究人员找到感兴趣的主题,识别正在讨论的犯罪类型,搜索与已经确定的信息相似的各种信息,跟踪趋势,并在论坛上匹配用户。使用者将能够寻找指标,以确定哪些使用者刚刚起步(因此可能成为初级预防办法的目标),哪些使用者正在变得有影响力(因此可能值得采取更积极的干预措施)。我们的工具还将使研究人员能够衡量预防犯罪举措和警务行动的效果,以便政策制定者能够收集证据,证明哪些有效,哪些无效。我们构建的工具将开始用于研究来自犯罪论坛的大型文本语料库,搜索引擎为互联网做了什么--也就是说,使那些既没有技术技能也没有技术援助的研究人员能够获得这些资源。因此,它们将使我们能够更多地利用现有的数据资源,从CrimeBB数据库开始(该数据库是由ESRC和EPSRC资助的先前项目资助的),但不限于此。不同学科的研究人员使用它们也将使我们能够了解如何稳健地使用NLP工具,以及更普遍的AI/ML工具。考虑到目前急于使用AI/ML技术,以及担心其中一些技术可能只是反映了其训练数据中的偏差,导致天真的研究人员只是测量自己的标尺,这一点具有独立的重要性。仅仅发明新工具是不够的;我们还必须弄清楚如何正确使用它们,为此,与来自人文和社会科学多学科的学者社区合作,使用共享数据,解决共同的问题,以及我们最终获得地面真相的地方,这一点至关重要。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Detecting Trending Terms in Cybersecurity Forum Discussions
  • DOI:
    10.18653/v1/2020.wnut-1.15
  • 发表时间:
    2020-11
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jack Hughes;S. Aycock;Andrew Caines;P. Buttery;Alice Hutchings
  • 通讯作者:
    Jack Hughes;S. Aycock;Andrew Caines;P. Buttery;Alice Hutchings
Follow the money: The relationship between currency exchange and illicit behaviour in an underground forum
追随金钱:货币兑换与地下论坛非法行为之间的关系
  • DOI:
    10.1109/eurospw54576.2021.00027
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Siu G
  • 通讯作者:
    Siu G
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Alice Hutchings其他文献

Autism Disclosures and Cybercrime Discourse on a Large Underground Forum
大型地下论坛上的自闭症披露和网络犯罪讨论
Breaking the Ice: Using Transparency to Overcome the Cold Start Problem in an Underground Market
破冰:利用透明度克服地下市场的冷启动问题
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Tina Marjanov;Konstantinos Ioannidis;Tom Hyndman;Nicolas Seyedzadeh;Alice Hutchings
  • 通讯作者:
    Alice Hutchings
The Amplification of Online Deviancy Through the Language of Violent Crime, War, and Aggression
暴力犯罪、战争和侵略等语言加剧了网络异常现象
  • DOI:
    10.1109/msec.2024.3353428
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    1.9
  • 作者:
    Alice Hutchings;Yasemin Acar;Jens Grossklags;Julie Haney;H. Lipford
  • 通讯作者:
    H. Lipford
Hacker's Paradise: Analysing Music in a Cybercrime Forum
黑客天堂:分析网络犯罪论坛中的音乐
Edinburgh Research Explorer International comparison of bank fraud reimbursement: customer perceptions and contractual terms
爱丁堡研究探索者银行欺诈报销的国际比较:客户认知和合同条款
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ingolf Becker;Alice Hutchings;Ruba Abu;Ross Anderson;Nicholas Bohm;S. Murdoch;M. A. Sasse;Gianluca Stringhini
  • 通讯作者:
    Gianluca Stringhini

Alice Hutchings的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

哌啶醇衍生物4CC2靶向Miz1-BTB调节巨 噬细胞激活在甲型流感病毒感染中的作 用与机制研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
CC16通过抑制PM2.5诱导的哮喘小鼠气道上皮细胞铁死亡减轻气道炎症的机制研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
钙调磷酸酶亚基PPP3CC在调控Th17/Treg平衡和实验性自身免疫性 脑脊髓炎中的作用和机制研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
CC17型高毒力无乳链球菌来源的膜囊泡对脑膜炎的促进作用及机制研究
  • 批准号:
    82301539
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
Zn2Cys6转录因子CC11170在真菌互作中调控灰盖鬼伞漆酶Lcc9表达机制
  • 批准号:
    32370133
  • 批准年份:
    2023
  • 资助金额:
    50.00 万元
  • 项目类别:
    面上项目
抗肿瘤抗生素CC-1065中环丙基药效团形成的酶学机制研究
  • 批准号:
    22377141
  • 批准年份:
    2023
  • 资助金额:
    50.00 万元
  • 项目类别:
    面上项目
肥厚型心肌病新机制:RB1CC1调控NDP52促线粒体自噬
  • 批准号:
    2023JJ40579
  • 批准年份:
    2023
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
利用CC-ABPP技术鉴定青藤碱抑制结直肠癌的靶蛋白及其机制研究
  • 批准号:
    LQ23B020007
  • 批准年份:
    2023
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
CC16通过LVD结合方式调控肺泡上皮细胞焦亡治疗ARDS的机制研究
  • 批准号:
    82302462
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
木薯CC类谷氧还蛋白MeGRXC3修饰Catalase1蛋白调控过氧化氢酶活性的分子机制
  • 批准号:
    32360458
  • 批准年份:
    2023
  • 资助金额:
    32.00 万元
  • 项目类别:
    地区科学基金项目

相似海外基金

Research Infrastructure: CC* Data Storage: Foundational Campus Research Storage for Digital Transformation
研究基础设施:CC* 数据存储:数字化转型的基础校园研究存储
  • 批准号:
    2346636
  • 财政年份:
    2024
  • 资助金额:
    $ 30.91万
  • 项目类别:
    Standard Grant
CC* Networking Infrastructure: YinzerNet: A Multi-Site Data and AI Driven Research Network
CC* 网络基础设施:YinzerNet:多站点数据和人工智能驱动的研究网络
  • 批准号:
    2346707
  • 财政年份:
    2024
  • 资助金额:
    $ 30.91万
  • 项目类别:
    Standard Grant
CC* Campus Compute: UTEP Cyberinfrastructure for Scientific and Machine Learning Applications
CC* 校园计算:用于科学和机器学习应用的 UTEP 网络基础设施
  • 批准号:
    2346717
  • 财政年份:
    2024
  • 资助金额:
    $ 30.91万
  • 项目类别:
    Standard Grant
CC* Planning: Strengthening Central Michigan University's Cyberinfrastructure
CC* 规划:加强中央密歇根大学的网络基础设施
  • 批准号:
    2345749
  • 财政年份:
    2024
  • 资助金额:
    $ 30.91万
  • 项目类别:
    Standard Grant
CC* Networking Infrastructure: Building a Scalable and Polymorphic Cyberinfrastructure for Diverse Research and Education Needs at Illinois State University
CC* 网络基础设施:为伊利诺伊州立大学的多样化研究和教育需求构建可扩展和多态的网络基础设施
  • 批准号:
    2346712
  • 财政年份:
    2024
  • 资助金额:
    $ 30.91万
  • 项目类别:
    Standard Grant
CC* Networking Infrastructure: Enhancing network connectivity for data-intensive, multi-institution collaborative science
CC* 网络基础设施:增强数据密集型、多机构协作科学的网络连接
  • 批准号:
    2346718
  • 财政年份:
    2024
  • 资助金额:
    $ 30.91万
  • 项目类别:
    Standard Grant
CC* CIRA: Bridging the Digital Chasm HPC for ALL
CC* CIRA:为所有人弥合数字鸿沟 HPC
  • 批准号:
    2346713
  • 财政年份:
    2024
  • 资助金额:
    $ 30.91万
  • 项目类别:
    Standard Grant
CC* Networking Infrastructure: Enabling Big Science and Big Data Projects at the University of Massachusetts
CC* 网络基础设施:支持马萨诸塞大学的大科学和大数据项目
  • 批准号:
    2346286
  • 财政年份:
    2024
  • 资助金额:
    $ 30.91万
  • 项目类别:
    Standard Grant
CC*Integration-Large: Programmable Network Testbed for 400 Gbps Science DMZ
CC*Integration-Large:400 Gbps Science DMZ 的可编程网络测试台
  • 批准号:
    2346605
  • 财政年份:
    2024
  • 资助金额:
    $ 30.91万
  • 项目类别:
    Standard Grant
CC* Regional Networking: Connecting Colorado's Western Slope Small Institutions of Higher Education to the Front Range GigaPoP Regional R&E Infrastructure
CC* 区域网络:将科罗拉多州西坡小型高等教育机构与前沿 GigaPoP 区域 R 连接起来
  • 批准号:
    2346635
  • 财政年份:
    2024
  • 资助金额:
    $ 30.91万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了