日中機械翻訳の実用化を目指した対訳資源の段階的自動構築
日汉机器翻译实用双语资源逐步自动构建
基本信息
- 批准号:14J02353
- 负责人:
- 金额:$ 1.09万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for JSPS Fellows
- 财政年份:2014
- 资助国家:日本
- 起止时间:2014-04-25 至 2016-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
統計的機械翻訳(SMT)では対訳コーパスから翻訳知識を獲得するため、翻訳の精度は対訳コーパスの量と質に依存する。しかしながら、大規模かつ高品質な対訳コーパスが存在する言語対やドメインは少ない。この問題を解決するために、コンパラブルコーパスを利用することが考えられる。コンパラブルコーパスは各言語独立に、特定の話題について記述された文書対である。コンパラブルコーパスには単語、単語列(フラグメント)、文の三種類の対訳データが数多く存在する。この一年間、これらの対訳データを統合的に抽出するフレームワークを研究し、翻訳の精度を向上させた。得られた主要な成果は以下の通りである。1. 対訳単語対抽出において、トピックと文脈知識を用いた反復的抽出手法を提案した。提案手法は種となる事前知識(対訳辞書など)が不要で、抽出の性能が反復的に改善できる。日英、中英、日中のWikipediaデータでの実験により、提案手法の有効性を示した。また、抽出した対訳単語対は後の対訳フラグメントおよび対訳文抽出に使用した。2. Wikipediaデータから日中対訳コーパスを構築するための堅牢な対訳文抽出システムを提案した。提案システムは主に対訳文候補のフィルタおよび対訳文であるかどうかを識別する分類器から構成されている。実験では、対訳文抽出の性能と翻訳精度向上の2つの観点から、提案システムの有効性を示した。3. 単語アライメントモデルにより抽出された対訳フラグメント候補を、すでに抽出されている対訳単語対を用いてフィルタリングすることにより、高精度に対訳フラグメントを抽出するシステムを提案した。日中コンパラブルコーパスで行われた実験の結果、提案システムが対訳フラグメントを正確に抽出し、これを利用することで翻訳の精度も向上することを確認した。
Statistical mechanical translation (SMT) is based on the acquisition of knowledge, the accuracy of translation, and the dependence of quantity and quality.しかしながら, large-scale かつ high-quality な対訳コーパスが existence する语対やドメインは小ない.このproblemをsolvedするために、コンパラブルコーパスをutilizationすることが考えられる. Each language is independent and each language is independent, and a specific topic is described in a document. There are three types of コンパラブルコーパスには単语, 単语组 (フラグメント), and 文のの対データが多く.この年, これらの対訳データをintegrated にdraw out するフレームワークを research し, 訳のprecision をUPさせた. The main results obtained are as follows. 1. 対訳単対出において、トピックと contextual knowledge を用いた Repeated extraction techniques をProposal した. The proposal method is based on prior knowledge (対訳dictionary) and is unnecessary, and the performance extracted is repeated and improved. Japanese-English, Chinese-English, Japanese-Chinese Wikipediaデータでの実験により, the effectiveness of the proposal method is shown.また, draw out した対訳単语対は后の対訳フラグメントおよび対訳文 draw out した. 2. Wikipedia データから日中対訳コーパスをconstruct するための强な対訳文 Draw システムを proposal した. Proposal システムは main に対訳文 candidate のフィルタおよび対訳文 であるかどうかをidentification するclassifier から constitute されている.実験では, the performance of the text extraction and translation accuracy are improved, and the effectiveness of the proposal is shown. 3.単语アライメントモデルにより出された対訳フラグメント candidate を、すでにdraw out されている対娳単対Use the high-precision いてフィルタリングすることにより, high-precision に対訳フラグメントを to extract the するシステムを proposal. The results and proposals of the Japanese and Chinese コンパラブルコーパスで行われた実験のThe correct extraction method is used, and the accurate extraction method is confirmed using the accurate translation method.
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Large-scale Japanese-Chinese Scientific Dictionary Construction via Pivot-based Statistical Machine Translation
基于枢轴的统计机器翻译构建大规模日汉科学词典
- DOI:
- 发表时间:2015
- 期刊:
- 影响因子:0
- 作者:Chenhui Chu;Raj Dabre;Toshiaki Nakazawa and Sadao Kurohashi
- 通讯作者:Toshiaki Nakazawa and Sadao Kurohashi
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
チョ シンキ其他文献
チョ シンキ的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('チョ シンキ', 18)}}的其他基金
意図を的確に伝える音声対話翻訳の基盤技術の創出
创造准确传达意图的语音对话翻译基础技术
- 批准号:
23K28144 - 财政年份:2024
- 资助金额:
$ 1.09万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
意図を的確に伝える音声対話翻訳の基盤技術の創出
创造准确传达意图的语音对话翻译基础技术
- 批准号:
23H03454 - 财政年份:2023
- 资助金额:
$ 1.09万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
相似海外基金
Automatic Construction of a Sense-disambiguated Multilingual Dictionary
语义消歧多语言词典的自动构建
- 批准号:
22300032 - 财政年份:2010
- 资助金额:
$ 1.09万 - 项目类别:
Grant-in-Aid for Scientific Research (B)














{{item.name}}会员




