Mining and parsing information from e-commerce websites

电子商务网站信息的挖掘和解析

基本信息

  • 批准号:
    461800-2013
  • 负责人:
  • 金额:
    $ 1.82万
  • 依托单位:
  • 依托单位国家:
    加拿大
  • 项目类别:
    Engage Grants Program
  • 财政年份:
    2013
  • 资助国家:
    加拿大
  • 起止时间:
    2013-01-01 至 2014-12-31
  • 项目状态:
    已结题

项目摘要

There are many e-commerce websites on the market, but none of them use the same format. Traditionally, it has been very difficult to get the information from each of the popular e-commerce vendors and parse that information to a usable format. It remains a challenge to analyze the price change by time in the same ecommerce website or compare the price of the same products in different e-commerce websites. In addition, for many e-commerce websites key information is protected using image, which does not have any impact from user views. However, web crawler cannot parse image. This project is proposing to develop an algorithm which takes in a URL of a product page from any e-commerce website and is able to parse common information and recognize the information protected by image. The algorithm should analyse the pages and pick out the information and strip all the unnecessary information. The innovation of the proposed research lies in two perspectives. Firstly, this project will propose the optimal feature extraction and classification methods for image recognition in order to improve the image recognition accuracy and computational efficiency. The proposed method will have greatly enhanced recognition power and accuracy and exhibit a great modeling capability in handling image data. Secondly, aimed at Procurify's specific situation (image data), a practical solution will be provided which includes page analysis, information parsing algorithm, image data extraction and data storage. Time efficiency is often considered.
市场上有很多电子商务网站,但没有一个使用相同的格式。传统上,从每个流行的电子商务供应商获取信息并将该信息解析为可用的格式非常困难。分析同一电子商务网站中随时间的价格变化或比较相同产品在不同电子商务网站中的价格仍然是一个挑战。另外,很多电商网站的关键信息都是通过图片来保护的,不会对用户浏览造成任何影响。然而,网络爬虫无法解析图像。该项目提议开发一种算法,可以从任何电子商务网站获取产品页面的 URL,并能够解析常见信息并识别受图像保护的信息。该算法应该分析页面并挑选出信息并去除所有不必要的信息。本研究的创新之处在于两个方面。首先,该项目将提出图像识别的最佳特征提取和分类方法,以提高图像识别的准确性和计算效率。所提出的方法将大大增强识别能力和准确性,并在处理图像数据时表现出强大的建模能力。其次,针对Procurify的具体情况(图像数据),提供实用的解决方案,包括页面分析、信息解析算法、图像数据提取和数据存储。时间效率常常被考虑。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Yang, Zijiang, Cynthia其他文献

Yang, Zijiang, Cynthia的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Yang, Zijiang, Cynthia', 18)}}的其他基金

"Integrating Data Envelopment Analysis, Partial Least Squares and Artificial Intelligence Approaches for Risk Management in Financial Decision Domains"
“整合数据包络分析、偏最小二乘法和人工智能方法进行财务决策领域的风险管理”
  • 批准号:
    261426-2012
  • 财政年份:
    2017
  • 资助金额:
    $ 1.82万
  • 项目类别:
    Discovery Grants Program - Individual
"Integrating Data Envelopment Analysis, Partial Least Squares and Artificial Intelligence Approaches for Risk Management in Financial Decision Domains"
“整合数据包络分析、偏最小二乘法和人工智能方法进行财务决策领域的风险管理”
  • 批准号:
    261426-2012
  • 财政年份:
    2015
  • 资助金额:
    $ 1.82万
  • 项目类别:
    Discovery Grants Program - Individual
Building a novel interactive platform and recommendation system for creative learning
构建新颖的创意学习互动平台和推荐系统
  • 批准号:
    477713-2014
  • 财政年份:
    2014
  • 资助金额:
    $ 1.82万
  • 项目类别:
    Engage Grants Program
Assessing and predicting health science projects and collaboration
评估和预测健康科学项目和合作
  • 批准号:
    470156-2014
  • 财政年份:
    2014
  • 资助金额:
    $ 1.82万
  • 项目类别:
    Engage Grants Program
"Integrating Data Envelopment Analysis, Partial Least Squares and Artificial Intelligence Approaches for Risk Management in Financial Decision Domains"
“整合数据包络分析、偏最小二乘法和人工智能方法进行财务决策领域的风险管理”
  • 批准号:
    261426-2012
  • 财政年份:
    2014
  • 资助金额:
    $ 1.82万
  • 项目类别:
    Discovery Grants Program - Individual
"Integrating Data Envelopment Analysis, Partial Least Squares and Artificial Intelligence Approaches for Risk Management in Financial Decision Domains"
“整合数据包络分析、偏最小二乘法和人工智能方法进行财务决策领域的风险管理”
  • 批准号:
    261426-2012
  • 财政年份:
    2013
  • 资助金额:
    $ 1.82万
  • 项目类别:
    Discovery Grants Program - Individual
Content recommendations in a live customer environment
实时客户环境中的内容推荐
  • 批准号:
    453511-2013
  • 财政年份:
    2013
  • 资助金额:
    $ 1.82万
  • 项目类别:
    Engage Grants Program
"Integrating Data Envelopment Analysis, Partial Least Squares and Artificial Intelligence Approaches for Risk Management in Financial Decision Domains"
“整合数据包络分析、偏最小二乘法和人工智能方法进行财务决策领域的风险管理”
  • 批准号:
    261426-2012
  • 财政年份:
    2012
  • 资助金额:
    $ 1.82万
  • 项目类别:
    Discovery Grants Program - Individual

相似国自然基金

基于儿童心理分析的图解式汉语口语自动解析方法研究
  • 批准号:
    60175012
  • 批准年份:
    2001
  • 资助金额:
    18.0 万元
  • 项目类别:
    面上项目

相似海外基金

The Relationship between the Parsing of Prepositional Phrases and Non-syntactical Information: The Perspective of Japanese EFL Learners' Working Memory Capacity
介词短语解析与非句法信息的关系:日本英语学习者工作记忆能力的视角
  • 批准号:
    24720266
  • 财政年份:
    2012
  • 资助金额:
    $ 1.82万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Combining Contextual Information Sources for Disambiguation in Parsing and Choice in Generation (D02)
结合上下文信息源进行解析消歧和生成选择(D02)
  • 批准号:
    28546557
  • 财政年份:
    2006
  • 资助金额:
    $ 1.82万
  • 项目类别:
    Collaborative Research Centres
Context:sensitivity/bias/parsing phonetic information
上下文:敏感性/偏差/解析语音信息
  • 批准号:
    6912759
  • 财政年份:
    2004
  • 资助金额:
    $ 1.82万
  • 项目类别:
Context:sensitivity/bias/parsing phonetic information
上下文:敏感性/偏差/解析语音信息
  • 批准号:
    7086399
  • 财政年份:
    2004
  • 资助金额:
    $ 1.82万
  • 项目类别:
Context:sensitivity/bias/parsing phonetic information
上下文:敏感性/偏差/解析语音信息
  • 批准号:
    6821834
  • 财政年份:
    2004
  • 资助金额:
    $ 1.82万
  • 项目类别:
SBIR Phase I: Cross-language Information Retrieval Using Deep Syntax Parsing
SBIR 第一阶段:使用深度语法分析进行跨语言信息检索
  • 批准号:
    0233050
  • 财政年份:
    2003
  • 资助金额:
    $ 1.82万
  • 项目类别:
    Standard Grant
ITR/SY(CISE) Learning Syntactic/Semantic Information for Parsing
ITR/SY(CISE) 学习用于解析的句法/语义信息
  • 批准号:
    0112435
  • 财政年份:
    2001
  • 资助金额:
    $ 1.82万
  • 项目类别:
    Standard Grant
PARSING CONTEXTUAL INSENSITIVITY IN SCHIZOPHRENIA
解析精神分裂症的情境不敏感性
  • 批准号:
    6132676
  • 财政年份:
    2000
  • 资助金额:
    $ 1.82万
  • 项目类别:
PARSING CONTEXTUAL INSENSITIVITY IN SCHIZOPHRENIA
解析精神分裂症的情境不敏感性
  • 批准号:
    6392557
  • 财政年份:
    2000
  • 资助金额:
    $ 1.82万
  • 项目类别:
PARSING BREAST CANCER INFORMATION ON THE INTERNET
解析互联网上的乳腺癌信息
  • 批准号:
    2114395
  • 财政年份:
    1995
  • 资助金额:
    $ 1.82万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了