Inductive re-construction of Japanese grammar and its application to Japanese language education based on the large scale extraction of Japanese formulaic sequences and its structural analyses
基于大规模日语公式序列提取及其结构分析的日语语法归纳重构及其在日语教育中的应用
基本信息
- 批准号:20H00096
- 负责人:
- 金额:$ 27.21万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (A)
- 财政年份:2020
- 资助国家:日本
- 起止时间:2020-04-01 至 2025-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
15億語以上の大規模話し言葉コーパスを構築するとともに、日本語話し言葉における定形表現の自動抽出を、N-gramを、一文から単語単位で全N-gramを生成し、その文脈を行IDリストとして扱う独自の統合文脈単語N-gram分析をMapReduceで実現した。この独自分析法をリスト抽象化及び文字単位に拡張し、統合文脈文字N-gram分析及び隣接行列による構造分析によって、実際の言語運用に基盤を置く帰納的日本語究へと革新するとともに、この帰納的日本語理解をもとにした大規模コーパスからの日本語教材開発を目指した。システム・評価班では,MapReduceを用いた統合文脈N-gram分析にリスト抽象化を組み込むことによって、ビッグデータ処理のためのシステム構築を行うとともに、アイデア段階であるリスト抽象化の実証を行った。また、定形表現の抽出では同一文脈に関しては最長表現を取り出す処理を行っていることから、特定の定形表現をより短い定形表現を最長一致法で分割することにより、複合定形表現と含まれる定形表現が存在しない原子定形表現とに分析した(定形表現分析)。また、定形表現の前後の連接頻度からなる定形表現隣接頻度行列を生成した。日本語教育班では,システム・評価班が生成する基礎データである定形表現分析及び定形表現隣接頻度行列の基礎データをKey phraseとしての検討を行った。また、教材素材取り出しシステムを利用して、検証用日本語教材の開発を行った。【問い1】昨年度はRubyからPythonへ変更を行った。今年度は、従来の単語単位から、文字単位へ統合文脈N-gram分析を拡張した。【問い2】昨年度の定形表現分割の一つずつの定形表現を中に含まれるより短い単位への分割を行い構造分析につなげた。【問い3】については、海外での日本語教育におけるニーズ調査を行う。
し said more than 1.5 billion language の mass words leaves コ ー パ ス を build す る と と も に, Japan YuHua し said leaf に お け る setting performance の automatic extraction を, N - "gramm を, penny か ら 単 language 単 a で all N -" gramm を generated し, そ の context を row ids リ ス ト と し て Cha う の alone integration language context 単 N - "gramm analysis を MapRedu ceで appears in た. こ の analysis alone を リ ス ト abstraction and text び 単 に company, zhang し, integration context text N - "gramm analysis and び 隣 after procession に よ る tectonic analysis に よ っ て, be interstate の に base plate of language use を buy く 帰 of Japanese investigate へ と innovation す る と と も に, こ の 帰 of Japanese understanding を も と に し た large-scale コ ー パ ス か ら の in Japanese language teaching materials To を means to た. シ ス テ ム · review class 価 で は, graphs を with い た integration context N - "gramm analysis に リ ス ト abstraction を group み 込 む こ と に よ っ て, ビ ッ グ デ ー タ 処 Richard の た め の シ ス テ ム line build を う と と も に, ア イ デ ア Duan Jie で あ る リ ス ト abstraction の line card be を っ た. Pump, setting performance の ま た で は same context に masato し て は を take り maximum performance out of す 処 Richard を line っ て い る こ と か ら, specific の setting performance を よ り short い setting performance を longest consensus method で す segmentation る こ と に よ り, composite setting performance と ま れ る setting performance が exist し な い atomic setting performance と に analysis し た analysis (setting). Youdaoplaceholder0, the frequency of the connection before and after the <s:1> in the shape representation また, the frequency of the connection 隣 in the shape representation 隣 in the frequency column を to generate <s:1> た. Japanese education classes で は, シ ス テ ム · review class 価 が generated す る based デ ー タ で あ る setting performance analysis and び setting 隣 pick frequency ranks based デ の ー タ を Key phrase と し て の 検 line for を っ た. Youdaoplaceholder0, take out システムを from the teaching materials, use て て, 検 certificate, and publish を lines った in the Japanese textbook. 【 Question: ら 1】 Last year, ら Ruby らPythonへ changed to を lines った. This year, 従 and 従 will conduct a comprehensive N-gram analysis of the 単 language 単 position ら ら and the 単 writing position へ to integrate the context of を拡 zhang た. Yesterday asked い 2 】 【 annual の setting performance segmentation の a つ ず つ の に contain in setting performance を ま れ る よ り short い 単 a へ の line segmentation を い tectonic analysis に つ な げ た. Question 3: に に に て て う, overseas で <s:1> Japanese language education におけるニ ズ ズ survey を field う.
项目成果
期刊论文数量(27)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Extracting Japanese Sentence-Ending Expressions using Formulaic Sequences with Consolidated Contextualized N-gram Analysis
使用公式序列和综合上下文 N 元语法分析提取日语句尾表达式
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Hajime Mochizuki;Kohji Shibano
- 通讯作者:Kohji Shibano
Mining Formulaic Sequences from a Spoken Japanese Based on Consolidated Contextualized N-gram Analyses and Its Verification with Key Phrases in Japanese Language Textbooks
基于综合语境化N-gram分析的日语口语公式序列挖掘及其与日语教科书关键短语的验证
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Hajime Mochizuki;Kohji Shibano
- 通讯作者:Kohji Shibano
Recommendations for Capturing Learning in the Cognitive, Affective, and Psychomotor Domains : Clarifying Can-do Descriptors in Japanese Language Education
捕捉认知、情感和精神运动领域学习的建议:澄清日语教育中的“可以做”描述
- DOI:10.15084/00003514
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:能勢正仁;池内有為;浅川達人;清水千弘;Yuji Utsumi;鈴木美加
- 通讯作者:鈴木美加
『漫才ワークショップ』による学生の学び ―言語を相対的に捉えるネタ作りと即興創作体験―
学生通过“万在工坊”学习 - 创作与语言相关的故事和即兴创作体验 -
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Mika Suzuki;Manabu Shimaoka
- 通讯作者:Manabu Shimaoka
日中対訳小説からみる文末名詞文の使用と説明のメカニズム―ノダ文と中心に―
日汉双语小说中句尾名词句的使用机制及解释 - 以野田句为中心 -
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Okubo Ryo;Yoshioka Takashi;Nakaya Tomoki;Hanibuchi Tomoya;Okano Hiroki;Ikezawa Satoru;Tsuno Kanami;Murayama Hiroshi;Tabuchi Takahiro;高 甜,佐野洋
- 通讯作者:高 甜,佐野洋
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
芝野 耕司其他文献
芝野 耕司的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('芝野 耕司', 18)}}的其他基金
Development of Multilingual, Language e-Leaning OSS Using AJAX Based Direct Manipulation
使用基于 AJAX 的直接操作开发多语言、语言电子学习 OSS
- 批准号:
19200053 - 财政年份:2007
- 资助金额:
$ 27.21万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
相似海外基金
コーパス言語学と実験言語学の統合:敬語の確率的構文交替を事例に
整合语料库语言学和实验语言学:敬语概率句法交替的案例研究
- 批准号:
22K00507 - 财政年份:2022
- 资助金额:
$ 27.21万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
英語史における言語変化の速度感:コーパス言語学と言語使用者の意識の視座から
英语史上语言变迁的速度:从语料库语言学和语言使用者意识的角度
- 批准号:
22K00602 - 财政年份:2022
- 资助金额:
$ 27.21万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Research on the Memory of Repatriation in Postwar Japanese Literature: With Special Emphasis on New Developments in English-Language Studies
战后日本文学中的遣返记忆研究——以英语研究的新进展为重点
- 批准号:
19K23041 - 财政年份:2019
- 资助金额:
$ 27.21万 - 项目类别:
Grant-in-Aid for Research Activity Start-up
Basic Research for the Development of "Language Education" Linking Japanese and Foreign Language Activities/Foreign Language Studies
日语与外语活动/外语研究相结合的“语言教育”的发展基础研究
- 批准号:
19K23296 - 财政年份:2019
- 资助金额:
$ 27.21万 - 项目类别:
Grant-in-Aid for Research Activity Start-up
コーパス言語学を用いた数式の分析に基づく数式の意味解釈
基于语料库语言学数学表达式分析的数学表达式语义解释
- 批准号:
14J02758 - 财政年份:2014
- 资助金额:
$ 27.21万 - 项目类别:
Grant-in-Aid for JSPS Fellows
On the Reliability and Validity of the Use of Corpus Data as Evidence for I-Language Studies
论使用语料库数据作为 I 语言研究证据的可靠性和有效性
- 批准号:
25370549 - 财政年份:2013
- 资助金额:
$ 27.21万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Basic research for the language studies based on language view in the Japanese textbooks
基于日语教科书语言观的语言研究基础研究
- 批准号:
24730731 - 财政年份:2012
- 资助金额:
$ 27.21万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
18,19世紀におけるドイツ語語順のコーパス言語学的・社会言語学的研究
18、19世纪德语词序语料库语言学和社会语言学研究
- 批准号:
15720088 - 财政年份:2003
- 资助金额:
$ 27.21万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
コーパス言語学に基づくイギリスの上院判例における語法の歴史的研究
基于语料库语言学的英国上议院案件使用历史研究
- 批准号:
15652025 - 财政年份:2003
- 资助金额:
$ 27.21万 - 项目类别:
Grant-in-Aid for Exploratory Research
コーパス言語学的手法に基づくディケンズの文体研究のためのデータベース構築と応用
基于语料库语言学方法研究狄更斯风格的数据库构建及应用
- 批准号:
10710229 - 财政年份:1998
- 资助金额:
$ 27.21万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)