Exploiting Semantic Analysis of Documents

利用文档语义分析

基本信息

  • 批准号:
    RGPIN-2015-06183
  • 负责人:
  • 金额:
    $ 3.13万
  • 依托单位:
  • 依托单位国家:
    加拿大
  • 项目类别:
    Discovery Grants Program - Individual
  • 财政年份:
    2019
  • 资助国家:
    加拿大
  • 起止时间:
    2019-01-01 至 2020-12-31
  • 项目状态:
    已结题

项目摘要

Consider the tasks of organizing a collection of research papers for the purpose of writing a thesis; organizing the set of accepted papers at a conference into meaningful and coherent sessions; looking up a corpus of incident reports in customer service to locate the most relevant cases and their resolution to the new case on hand; or discovering novel treatments for diseases through implicit connections in the biomedical literature.  ***A core problem underlying such tasks is that of semantic relatedness of documents. Semantic relatedness of documents should not be limited to the sharing of words, as two documents may be about the same topic, but using different vocabulary (for example a medical document for experts versus a medical document for the layperson). Given a domain-specific corpus, topic models have been fit to documents and terms, leading to the representation of documents as instances of generative probabilistic models of mixtures of topics. Topic models require corpora and documents of sufficient size to be robust. In real life, documents may be short (e.g. titles or abstracts) and document corpora may contain a small number of documents (tens or hundreds instead of thousands), rendering topic models unreliable. The proposed research program will investigate semantic relatedness measures that are applicable to any domain and rely on readily available external knowledge sources, such as the Google n-gram corpus and Wikipedia. ****Organizing document collections into semantically coherent clusters has typically relied on bag-of-word document representations, with a focus more on mathematical sophistication than the interpretability of the document representation by the user. In the proposed research program we will seek algorithms and processes that support the human user in her sense making process, providing support to her in interactively steering the document representation and clustering process to fit her objectives. ***In collaboration with industrial partners, we will test the proposed methods in different applications of practical significance, such as interactive clustering of corporate document sets, automatic ranking of resumes against job ads, expertise mapping and matchmaking, paper referee assignment, and content-based recommendation of news to digital newspaper subscribers. A long term objective is to support document-based discovery in the majority of scientific fields that lack the sophistication of terminological and ontological resources currently available in the biomedical field. **
考虑为撰写论文的目的组织一系列研究论文的任务;在会议上组织一组公认的论文,以进行有意义的和连贯的会议;查找客户服务中事件报告的语料库,以找到最相关的案例及其对新案件的决议;或通过生物医学文献中的隐式联系来发现疾病的新疗法。 ***此类任务基础的核心问题是文档的语义相关性。文档的语义相关性不应仅限于单词的共享,因为两个文档可能与同一主题有关,而应使用不同的词汇(例如,专家医疗文件与外行医疗文件的医疗文件)。鉴于特定于领域的语料库,主题模型已适合文档和术语,从而导致文档的表示形式是主题混合物的通用概率模型的实例。主题模型需要语料库和*****英语的文档:足够大的尺寸以实现稳健。在现实生活中,文档可能简短(例如标题或摘要),并且文档Corpora可能包含少量文档(数十或数百个而不是数千个),这使主题模型不可靠。拟议的研究计划将研究适用于任何领域的语义相关性措施,并依靠可用的外部知识来源,例如Google N-Gram语料库和Wikipedia。 ****将文档集合组织成半固结的连贯群集通常依赖于单词袋的文档表示形式,而不是用户对文档表示的解释性更关注数学社交。在拟议的研究计划中,我们将寻求算法和流程,以在她的意义上为人类用户提供支持,从而为她提供互动指导文档表示和聚类过程以适合其目标的支持。 ***与工业合作伙伴合作,我们将在具有实际意义的不同应用中测试所提出的方法,例如公司文档集的互动聚类,对工作广告的简历自动排名,专家映射和对接会,纸质裁判分配分配以及基于内容的新闻建议对数字报纸订阅者的建议。一个长期目标是在大多数科学领域中支持基于文档的发现,这些科学领域缺乏目前在生物医学领域可用的复杂术语和本体论资源。 **

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Milios, Evangelos其他文献

Information retrieval by semantic similarity
Causal graph extraction from news: a comparative study of time-series causality learning techniques.
  • DOI:
    10.7717/peerj-cs.1066
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    3.8
  • 作者:
    Maisonnave, Mariano;Delbianco, Fernando;Tohme, Fernando;Milios, Evangelos;Maguitman, Ana G.
  • 通讯作者:
    Maguitman, Ana G.
Text similarity using google tri-grams
Toward Understanding How Users Respond to Rumours in Social Media
Improving Short Text Clustering by Similarity Matrix Sparsification

Milios, Evangelos的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Milios, Evangelos', 18)}}的其他基金

Semantic Representations for Interactive Text Mining
交互式文本挖掘的语义表示
  • 批准号:
    RGPIN-2020-04834
  • 财政年份:
    2022
  • 资助金额:
    $ 3.13万
  • 项目类别:
    Discovery Grants Program - Individual
Semantic Representations for Interactive Text Mining
交互式文本挖掘的语义表示
  • 批准号:
    RGPIN-2020-04834
  • 财政年份:
    2021
  • 资助金额:
    $ 3.13万
  • 项目类别:
    Discovery Grants Program - Individual
How is Canadians' mental health affected by COVID-19: visual analytics of social media text
COVID-19 对加拿大人的心理健康有何影响:社交媒体文本的可视化分析
  • 批准号:
    554657-2020
  • 财政年份:
    2020
  • 资助金额:
    $ 3.13万
  • 项目类别:
    Alliance Grants
Semantic Representations for Interactive Text Mining
交互式文本挖掘的语义表示
  • 批准号:
    RGPIN-2020-04834
  • 财政年份:
    2020
  • 资助金额:
    $ 3.13万
  • 项目类别:
    Discovery Grants Program - Individual
Semantic search using deep networks****
使用深度网络进行语义搜索****
  • 批准号:
    531051-2018
  • 财政年份:
    2018
  • 资助金额:
    $ 3.13万
  • 项目类别:
    Engage Grants Program
Exploiting Semantic Analysis of Documents
利用文档语义分析
  • 批准号:
    RGPIN-2015-06183
  • 财政年份:
    2018
  • 资助金额:
    $ 3.13万
  • 项目类别:
    Discovery Grants Program - Individual
Visual text analytics for total recall information retrieval in large noisy text datasets
用于大型噪声文本数据集中的总召回信息检索的视觉文本分析
  • 批准号:
    499941-2016
  • 财政年份:
    2017
  • 资助金额:
    $ 3.13万
  • 项目类别:
    Collaborative Research and Development Grants
Exploiting Semantic Analysis of Documents
利用文档语义分析
  • 批准号:
    RGPIN-2015-06183
  • 财政年份:
    2017
  • 资助金额:
    $ 3.13万
  • 项目类别:
    Discovery Grants Program - Individual
Trajectory-based localization using WiFi signal strength
使用 WiFi 信号强度进行基于轨迹的定位
  • 批准号:
    507295-2016
  • 财政年份:
    2016
  • 资助金额:
    $ 3.13万
  • 项目类别:
    Engage Grants Program
Automation and Evaluation of Business Intelligence
商业智能的自动化和评估
  • 批准号:
    492547-2015
  • 财政年份:
    2016
  • 资助金额:
    $ 3.13万
  • 项目类别:
    Engage Grants Program

相似国自然基金

基于语义分析的多链多域金融衍生品风险高效检测方法
  • 批准号:
    62372050
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
时空-环境多层语义认知地图构建及履带运粮车复杂环境可行驶性分析
  • 批准号:
    52302495
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
融合语义和空间信息的跨模态城市地理空间场景相似性度量研究
  • 批准号:
    42301495
  • 批准年份:
    2023
  • 资助金额:
    30.00 万元
  • 项目类别:
    青年科学基金项目
因果驱动的文本语义无偏表示与情感分析应用研究
  • 批准号:
    62376086
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于语义解耦和提示的高效监控视频编码与分析方法研究
  • 批准号:
    62302246
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Exploiting Semantic Analysis of Documents
利用文档语义分析
  • 批准号:
    RGPIN-2015-06183
  • 财政年份:
    2018
  • 资助金额:
    $ 3.13万
  • 项目类别:
    Discovery Grants Program - Individual
Exploiting Semantic Analysis of Documents
利用文档语义分析
  • 批准号:
    RGPIN-2015-06183
  • 财政年份:
    2017
  • 资助金额:
    $ 3.13万
  • 项目类别:
    Discovery Grants Program - Individual
Exploiting 3D information for an automated semantic analysis of underwater images
利用 3D 信息对水下图像进行自动语义分析
  • 批准号:
    398534188
  • 财政年份:
    2017
  • 资助金额:
    $ 3.13万
  • 项目类别:
    Research Fellowships
Exploiting Semantic Analysis of Documents
利用文档语义分析
  • 批准号:
    RGPIN-2015-06183
  • 财政年份:
    2016
  • 资助金额:
    $ 3.13万
  • 项目类别:
    Discovery Grants Program - Individual
Exploiting Semantic Analysis of Documents
利用文档语义分析
  • 批准号:
    RGPIN-2015-06183
  • 财政年份:
    2015
  • 资助金额:
    $ 3.13万
  • 项目类别:
    Discovery Grants Program - Individual
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了