良質な用例を大規模なコーパスから自動的に抽出できるモデルの構築および試作版の開発

构建模型并开发原型,可以从大型语料库中自动提取高质量的示例

基本信息

项目摘要

The aim of this project was to develop a model for selecting pedagogically valid Japanese example sentences from a general corpus, by investigating automatically measurable criteria of readability, typicality and informativity. We collected example sentences from learners' dictionaries, reference works, graded readers and learner corpora, and constructed a graded corpus of example sentences, to be used as a data set for verifying the usabililty of existing readability formulas on single sentences or short usage examples for learners of Japanese as a foreign language. We experimented using existing readability formulas on these graded example sentences, and found that while the formulas work well for longer texts, they are not applicable to single sentences.We further annotated a set of sentences extracted from a web corpus, manually scoring their readability and informativity for learners of Japanese as a foreign language, to investigate measurable criteria of readable and informative sentences. The analysis of these criteria is still in progress. We are currently exploring possible interfaces to the corpus of constructed single example sentences and the annotated set of sentences extracted from texts to be used by learners, teachers and lexicographers of Japanese as a foreign language.
该项目的目的是开发一个模型,通过自动调查可读性、典型性和信息性的可测量标准,从一般语料库中选择教学上有效的日语例句。我们从学习者的字典、参考书、分级读本和学习者语料库中收集例句,构建了分级例句语料库,作为验证现有可读性公式对日语作为外语学习者的单句或短用法例句可用性的数据集。我们使用现有的可读性公式对这些分级例句进行了实验,发现虽然这些公式对较长的文本效果很好,但不适用于单句。我们进一步注释了一组从网络语料库中提取的句子,为日语作为外语的学习者手动评分它们的可读性和信息性,以研究可读和信息性句子的可测量标准。对这些标准的分析仍在进行中。我们目前正在探索与构建的单个例句语料库和从文本中提取的注释句子集的可能接口,以供学习者,教师和作为外语的日语词典编纂者使用。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
日本語非母語話者の読解コーパス」から見える 非漢字圏日本語学習者の辞書使用
从非日语母语者的阅读理解语料库看非汉字地区日语学习者的词典使用情况
Makrostruktura predmodernih japonskih slovarjev: kitajski vzori in japonske inovacije
Makrostruktura predmodernih japonskih slovarjev: japonske inovacije 中的kitajski vzori
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

PARDESHI P.V.其他文献

PARDESHI P.V.的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('PARDESHI P.V.', 18)}}的其他基金

学習者のニーズを反映した大規模な動詞用法データベースとオンライン教材の開発と公開
开发并出版反映学习者需求的大型动词用法数据库和在线教材
  • 批准号:
    22H00672
  • 财政年份:
    2022
  • 资助金额:
    $ 0.45万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了