分かり易さ向上のためのテキストコンテンツ変換に関する研究

文本内容转换以提高可理解性的研究

基本信息

  • 批准号:
    16016215
  • 负责人:
  • 金额:
    $ 5.57万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
  • 财政年份:
    2004
  • 资助国家:
    日本
  • 起止时间:
    2004 至 2005
  • 项目状态:
    已结题

项目摘要

本年度の研究では,特定領域研究初年度から続けて収集しているWeb新聞記事と携帯端末向け新聞記事の対応付けコーパスを対象にし,携帯端末向け新聞記事で頻繁に使われる短縮された簡潔な表現をWeb新聞記事から生成するための言い換えパターンの抽出の研究を進展させた.Step:1 携帯文の文末表現(2形態素以内で意味のとれる表現)の候補集合の作成Step:2 Step1の候補集合の表現を文末に含む携帯文とそれに対応するWeb文集合を抽出Step:3 Step2で作成した各Web文集合において,形態素解析した結果を文末からの形態素列マッチングによって、言い換えパターンを抽出した。Step:4 Step3の結果を形態素列sのスコア:W(s)として次の式を用いた.W(s)=BackBranch(s)×頻度(s)×log(長さ(s)-1)BackBranch(s)はsの直ぐ左に接続する形態素の種類数,長さ(s)はsを構成する形態素数である.この結果、上位200位程度の順位までの表現に対する言い換えでスコアW(s)が第1位のものは,70%程度の正解率、上位3位までの言い換えでは50%強の正解率の平均である.昨年の結果では,サ変名詞の上位10位までの言い換えは90%に近い正解率であり,100位までみると80%強の正解率であった.また,700位程度までは50%の正解率であるが,それ以降,正解率は漸減する.この結果,我々が使用した3年間にわたって収集した88333文対のデータで機械的に取り出せ,スクリーニングにかかる人手が小さい言い換え候補は,大雑把に言って1000種類程度の文末表現に対応するものと考えられる.なお、これ以外にもカタカナ異表記の自動抽出、Webからの用例検索システム、図書抄録の縮約方式、XML文書への情報ハイディングなどの研究を行い、成果を得た。
This year の research で は, specific field of research at the beginning of the annual か ら 続 け て 収 set し て い る Web news chronicle と with 帯 end to け news chronicle の 応 seaborne pay け コ ー パ ス を like に seaborne し, carrying 帯 end to け news chronicle で に frequently make わ れ る shortening さ れ た concise な performance を Web news chronicle か ら generated す る た め い の words in え パ タ ー ン の spare の research Investigate を progress さ せ た. Step: 1 with 帯 の performance at the end of the article (2 form a reputation within で mean の と れ る) の alternate collection の done Step: 2 Step1 の alternate collection を の performance at the end of the article contains に む with 帯 article と そ れ に 応 seaborne す る Web corpus and を take Step: 3 Step2 で made し た each Web corpus and に お い て, morpheme analytic し を た results at the end of the article か ら の morpheme column マ ッ チ ン グ に よ っ て い, words in え パ タ ー ン を spare し た. Step:4 Step3 の results を morpheme column s の ス コ ア : W (s) と し の type を て times with い た. W (s) = BackBranch (s) * log frequency (s) (long さ (s) - 1) BackBranch (s) は s の ぐ left に up 続 す る morpheme の species number, long さ (s) は s を constitute す る primes で form あ る. こ の results, the sequence of the upper 200 degree の ま で の performance に す seaborne い る words in え で ス コ ア W (s) 1 が の も の は, positive の solution rate 70%, upper three ま で い の words in え で は 50% average rate of strong positive の solution の で あ る. Yesterday in の results で は, サ - noun の upper 10 ま で い の words in え は に nearly 90% い positive solution rate で あ り, 100 ま で み る と 80% strong positive の solution rate で あ っ た. ま た, 700 degree ま で は 50% positive の solution rate で あ る が, そ れ, rate of positive solution は degression す る. こ の as a result, I 々 が use し た 3 years に わ た っ て 収 Set し た 88333 article の seaborne デ ー タ で mechanical に take り せ, ス ク リ ー ニ ン グ に か か る が small hands さ い い words in え alternate は, big 雑 に said っ て performance at the end of the 1000 species degree の に 応 seaborne す る も の と exam え ら れ る. な お, こ れ outside に も カ タ カ ナ different mark whatever の automatic extraction, Web か ら の cases 検 cable シ ス テ ム, The methods of document transcription and reduction, XML documents へ <s:1> intelligence ハ ディ ディ <e:1> グな <s:1> research を fields た, achievements を た.

项目成果

期刊论文数量(24)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Abstract of Abstract : A New Summarizing Method based on Document Frequency and Clause Length
摘要中的摘要:一种基于文档频率和子句长度的摘要方法
Specification Retrieval - How to Find Attribute-Value Information on the Web
规范检索 - 如何在 Web 上查找属性值信息
Terminal Device Oriented Comparable Corpora and its Alignment -- Towards Extracting Paraphrasing Patterns --
面向终端设备的可比语料库及其对齐——面向抽取释义模式——
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hiroshi Nakagawa;Hideaka Masuda;Dai Sato
  • 通讯作者:
    Dai Sato
Webと携帯端末向けの新聞記事の対応コーパスからの文末言い換え抽出
从网络和移动设备的相应报纸文章语料库中提取句尾释义
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    岩越守孝;増田英孝;中川裕志
  • 通讯作者:
    中川裕志
Chinese Term Extraction from Web Pages Based on Compound word Productivity
基于复合词生产率的网页中文术语抽取
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

中川 裕志其他文献

裏側から視るAI
从后面看到的人工智能
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    土屋俊監修;大谷卓史編著;中川 裕志
  • 通讯作者:
    中川 裕志
Dynamic Scheduling for Multiprocessor Systems with Static Priority lists
具有静态优先级列表的多处理器系统的动态调度
個人データの利用に対する許容度に関する社会調査
关于个人数据使用容忍度的社会调查
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    中川 裕志;菊池 浩明
  • 通讯作者:
    菊池 浩明
機械学習工学
机器学习工程
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    石川 冬樹;丸山 宏;柿沼 太一;竹内 広宜;土橋 昌;中川 裕志;原 聡;堀内 新吾;鷲崎 弘宜
  • 通讯作者:
    鷲崎 弘宜
A Study about Cybernetic Avatar after the Death of the Master Person
大师死后的控制论化身研究
  • DOI:
    10.7210/jrsj.41.9
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Atsuko Kanematsu;Ryota Ando;Shun Hirano;Mamoru Endo;Takatoshi Naka;Masashi Yamada;Shinya Miyazaki;安藤亮太,平野隼,兼松篤子,遠藤守,中貴俊,山田雅之,宮崎慎也;中川 裕志;Nakagawa Hiroshi
  • 通讯作者:
    Nakagawa Hiroshi

中川 裕志的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('中川 裕志', 18)}}的其他基金

多言語Webテキストからの知識マイニング関する研究
多语言网络文本知识挖掘研究
  • 批准号:
    19024014
  • 财政年份:
    2007
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
多言語Webテキストからの知識マイニングに関する研究
多语言网络文本知识挖掘研究
  • 批准号:
    18049011
  • 财政年份:
    2006
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
分かり易さ向上のためのテキストコンテンツ変換に関する研究
文本内容转换以提高可理解性的研究
  • 批准号:
    15017217
  • 财政年份:
    2003
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
モバイル環境における理解容易なテキスト生成のための自然言語処理に関する研究
移动环境中易于理解的文本生成的自然语言处理研究
  • 批准号:
    14019017
  • 财政年份:
    2002
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
モバイル環境向けコンテンツ開発のための自然言語処理に関する研究
移动环境内容开发的自然语言处理研究
  • 批准号:
    13224019
  • 财政年份:
    2001
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (C)
述語の意味による日本語談話理解システム
基于谓语意义的日语语篇理解系统
  • 批准号:
    08837008
  • 财政年份:
    1996
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
接続助詞の関係的意味に基づく日本語談話理解システムに関する研究
基于连词关系意义的日语语篇理解系统研究
  • 批准号:
    07221206
  • 财政年份:
    1995
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
接続助詞の関係的意味に基づく日本語談話理解システムに関する研究
基于连词关系意义的日语语篇理解系统研究
  • 批准号:
    06232207
  • 财政年份:
    1994
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
助動詞・助詞の関係的意味に基づく日本語談話理解システムに関する研究
基于助动词和助词关系意义的日语语篇理解系统研究
  • 批准号:
    05241205
  • 财政年份:
    1993
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
確定節で表された知識ベースの無矛盾性維持に関する研究
定语从句表达的知识库一致性维护研究
  • 批准号:
    63633508
  • 财政年份:
    1988
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas

相似国自然基金

WWW多媒体内容安全模型与算法研究
  • 批准号:
    60472082
  • 批准年份:
    2004
  • 资助金额:
    24.0 万元
  • 项目类别:
    面上项目
基于页-对象视图的WWW上信息集成技术的研究
  • 批准号:
    69803004
  • 批准年份:
    1998
  • 资助金额:
    12.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

https://www-kofu.jsps.go.jp/kofu1/shinsei/shoriKanri/kadaiKanriList.do
https://www-kofu.jsps.go.jp/kofu1/shinsei/shoriKanri/kadaiKanriList.do
  • 批准号:
    22K08059
  • 财政年份:
    2022
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
NUM - efficient, privacy-focused alternative to WWW for storing & retrieving structured data
NUM - 高效、注重隐私的 WWW 存储替代方案
  • 批准号:
    54162
  • 财政年份:
    2020
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Study
Analysis of lifestyle and health texts on the WWW consisting of text and numeric data.
对 WWW 上由文本和数字数据组成的生活方式和健康文本的分析。
  • 批准号:
    18K11549
  • 财政年份:
    2018
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
A development of an innohttps://www-kofu.jsps.go.jp/kofu1/shinsei/shoriKanri/kadaiKanriList.dovative technology to identify key odorants from complex volatile mixtures
开发了一种 innohttps://www-kofu.jsps.go.jp/kofu1/shinsei/shoriKanri/kadaiKanriList.dovative 技术,用于从复杂的挥发性混合物中识别关键气味剂
  • 批准号:
    17K19215
  • 财政年份:
    2017
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
Integrated Media Analysis for Medical/Health Information Matching on WWW
WWW 医疗/健康信息匹配的综合媒体分析
  • 批准号:
    15K00425
  • 财政年份:
    2015
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Integrated Development of Japanese linguistics by WWW searching
WWW检索的日语语言学综合发展
  • 批准号:
    26370551
  • 财政年份:
    2014
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Research and Development about Support for Safe and Secure by Visualization of WWW information using Augmented Reality
通过使用增强现实技术可视化 WWW 信息来支持安全可靠的研究和开发
  • 批准号:
    25870576
  • 财政年份:
    2013
  • 资助金额:
    $ 5.57万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Groupware Performance Library for the WWW
WWW 的群件性能库
  • 批准号:
    449403-2013
  • 财政年份:
    2013
  • 资助金额:
    $ 5.57万
  • 项目类别:
    University Undergraduate Student Research Awards
RepServer: Antigen Receptor Repertoire Analysis Pipelines via the WWW
RepServer:通过 WWW 的抗原受体库分析管道
  • 批准号:
    8822801
  • 财政年份:
    2012
  • 资助金额:
    $ 5.57万
  • 项目类别:
RepServer: Antigen Receptor Repertoire Analysis Pipelines via the WWW
RepServer:通过 WWW 的抗原受体库分析管道
  • 批准号:
    8636990
  • 财政年份:
    2012
  • 资助金额:
    $ 5.57万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了