文書の自動難易度判定に関する研究
文档难度自动判定研究
基本信息
- 批准号:20650018
- 负责人:
- 金额:$ 2.11万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Challenging Exploratory Research
- 财政年份:2008
- 资助国家:日本
- 起止时间:2008 至 2010
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究では、機械学習に基づく文書難易度判定の新しい手法を提案し、ある文書をユーザが与えると、その文書と難易度的に類似する文書を主要新聞記事サイトから獲得し、ユーザに提示するweb上のシステムを作ることを目的とした。既存研究としては、分類、あるいは回帰によるモデル化が行われてきたが、これでは、学習に必要な正解データを多言語で十分に確保することは難しい。本研究では、文書集合が与えられたときに、その集合に順序構造を導入することで難易度判定を行うことを提案した。検証は英日両方で行い、実際のシステムは英語、日本語で稼働させ、さらに中国語やスペイン語での構築を試みた。アイデアの根本部分については、有効性が十分検証され、言語処理分野の世界的な最高峰の英文論文誌Computational Linguisticsの論文として、採録となり、分野においてこれ以上の学術的な成果はないと考える。最終年度は、アイデアに関わる付随問題の検討に費やされた。まず、提案手法をより広い視野としての機械学習手法、語学学習の中で位置付け、この点を上記論文に加筆し、論文は6月に出版された。また、素性に相対頻度以外の統計量を追加し、アイデアの検証を行った。その背景には、本研究のための基礎研究があり、それらはいずれも雑誌論文として最終年度に出版するに至ったものである。第一は、莫大量のデータで計測された単語頻度が単語の難易度とどの程度相関するかを検証した。第二に、文書の複雑さを表す指標について研究を行った。これら二種類の指標と、文法的特性に関する指標などを追加して根幹アイデアを再検証し、実際に精度が向上することが示された。プロトタイプシステムは、実用に向けての再実装を行ったが、公開するには至っていない。というのも、検索対象として想定していたのは新聞で日々クロールされ集められるが、その難易度は均質にすぎ、検索対象としてのデータとして十分に難易度が異なるものではなかったのである。つまり、検索の対象とするデータが十分に得られないという予想外の問題が起きたため、システムは公開には至らなかった。この点は、たとえばユーザが文書を提供し合うなどソーシャルな枠組みなどを新たに考案する必要があるであろう。本研究は最初の2年間で最も重要な研究部分を終え、三年目は実用化のための機器類以外にはさほど費用を必要としなかった。このため、最終年度は残余分を返却するが、研究成果としては十二分に挙がったと自負している。最後に、3年間ご支援いただいた、本科研に関わる審査員や事務の皆様に、心より感謝申し上げます。
This study proposes a new method for determining the difficulty of a document based on mechanical learning, and the purpose of determining the difficulty of a document based on mechanical learning. Existing research, classification, and analysis are necessary to ensure that In this paper, the author proposes to introduce the difficulty of determining the order structure of the set of documents English, Japanese, Chinese, English, Chinese, Chinese, English, Chinese, Spanish, Spanish, The fundamental part of speech processing is the highest peak in the world of Computational Linguistics. The final year is due to the payment of fees due to the issue. The paper was published in June. Statistics other than the frequency of primes are added to the test results. The background of this study is to publish the paper in the final year. The first is to measure the frequency of a single language and the degree of difficulty of the language. Second, the document and the index are used for research. The two types of indicators, syntax characteristics of the indicators, add the root cause of failure, the actual accuracy of the upward indication The most important thing is that the government should take measures to protect the interests of the people. In the middle of the day, the search object is determined, and the difficulty of the search object is uniform. The question of whether the search should be open to the public This is the first time I have ever seen such a thing. The most important part of this study is the end of the first two years, and the third year is the end of the machine. The results of this research are as follows: In the last three years, we have received support from all the reviewers involved in this research, and we are grateful to you for your support.
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
文書量に不変な定数:YuleのK、GolcherのVM
与文档体积无关的常数:Yules K、Golchers VM
- DOI:
- 发表时间:2011
- 期刊:
- 影响因子:0
- 作者:木村大翼;田中久美子
- 通讯作者:田中久美子
こころと言葉 言語の文節に普遍的に観察される統計的性質 音素から形態素へ、単語へ、そして句
心灵和语言 语言段落中普遍观察到的统计特性 从音素到语素到单词到短语
- DOI:
- 发表时间:2008
- 期刊:
- 影响因子:0
- 作者:手塚智史;寺田博視;田中久美子;田中久美子 長谷川寿一監修
- 通讯作者:田中久美子 長谷川寿一監修
Word familiarity and frequency
单词熟悉度和频率
- DOI:
- 发表时间:2011
- 期刊:
- 影响因子:0.6
- 作者:義久智樹;高橋真喜人;藤田直生;塚本昌彦;Tomohiro Okuyama;Kumiko Tanaka-Ishii and Hiroshi Terada
- 通讯作者:Kumiko Tanaka-Ishii and Hiroshi Terada
Sorting by Readability
按可读性排序
- DOI:
- 发表时间:2010
- 期刊:
- 影响因子:9.3
- 作者:Tanaka-Ishii;Kumiko;Tezuka;Satoshi;Terada;Hiroshi
- 通讯作者:Hiroshi
相対的観点に基づく類似難易度文書検索システムの構築
基于相对观点的相似难点文献检索系统的构建
- DOI:
- 发表时间:2009
- 期刊:
- 影响因子:0
- 作者:Wen JI;Yata ABE;Takeshi IKENAGA;Satoshi GOTO;河口洋一郎;宮崎大介;手塚智史,寺田博視,田中久美子
- 通讯作者:手塚智史,寺田博視,田中久美子
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
石井 久美子其他文献
N型遊離糖鎖の代謝におけるオートファジーの役割について
自噬在N型游离糖链代谢中的作用
- DOI:
- 发表时间:
2011 - 期刊:
- 影响因子:0
- 作者:
清野 淳一;王 麗;石井 久美子;水島 昇;鈴木 匡 - 通讯作者:
鈴木 匡
抗体や毒素を用いた糖脂質膜マイクロドメインの構造と機能解析について
使用抗体和毒素对糖脂膜微域进行结构和功能分析
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
岩渕和久;玉木友樹;増田浩美;岩原知博;松本亮;中山仁志;小林俊秀;石井 久美子;早川智広;小川秀興;髙森建二 - 通讯作者:
髙森建二
石井 久美子的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('石井 久美子', 18)}}的其他基金
価格と文書に基づく経済対象のベクトル表現とその応用
基于价格和单据的经济对象矢量表示及其应用
- 批准号:
23K21694 - 财政年份:2024
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Study on embedding representations of financial entities based on price and texts
基于价格和文本的金融实体嵌入表示研究
- 批准号:
21H03493 - 财政年份:2021
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
少年雑誌にみる外来語の総合的研究
青少年杂志中外来词的综合研究
- 批准号:
21K13013 - 财政年份:2021
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
冪則の観点からの高度技術の評価方法に関する研究
幂律视角下先进技术评价方法研究
- 批准号:
20K20492 - 财政年份:2020
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Challenging Research (Pioneering)
相似海外基金
仮想現実を用いた語学学習におけるスピーキング能力向上効果の解明
阐明利用虚拟现实提高语言学习中口语能力的有效性
- 批准号:
22K00829 - 财政年份:2022
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
語学学習・ジェンダー・言語イデオロギー―フィリピン系スカイプ英会話をめぐって―
语言学习、性别和语言意识形态:关于菲律宾人 Skype 英语对话
- 批准号:
19K13287 - 财政年份:2019
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
拡張サフィックス・アレイを用いた語学学習用作文支援システムに関する研究
基于扩展后缀数组的语言学习写作支持系统研究
- 批准号:
20650143 - 财政年份:2008
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Challenging Exploratory Research
音声字幕システムとノートテイクを統合した聴覚障害学生の語学学習支援システムの開発
为听障学生开发集成音频字幕系统和笔记的语言学习支持系统
- 批准号:
18730560 - 财政年份:2006
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
発音の明瞭性に着眼した発音構造の包括的記述とその語学学習への応用に関する研究
以发音清晰度为核心的发音结构综合描述及其在语言学习中的应用研究
- 批准号:
15652033 - 财政年份:2003
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Exploratory Research
会話映像の添削による語学学習支援システム
通过纠正对话视频的语言学习支持系统
- 批准号:
02J04123 - 财政年份:2002
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for JSPS Fellows
字幕付きテレビニュース放送からの語学学習教材自動作成システムの開発
开发带字幕电视新闻广播语言学习材料自动制作系统
- 批准号:
14580420 - 财政年份:2002
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
3次元仮想空間を利用した知的語学学習支援システムの研究
基于3D虚拟空间的智能语言学习支持系统研究
- 批准号:
13780122 - 财政年份:2001
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
音声言語処理技術と学習者モデルを用いた語学学習システムの研究
利用口语处理技术和学习者模型的语言学习系统研究
- 批准号:
12040104 - 财政年份:2000
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
日本人学生の英語読解メカニズム研究:英語読解力と語学学習スタイルの関係について
日本学生英语阅读理解机制研究——兼论英语阅读理解与语言学习方式的关系
- 批准号:
09710092 - 财政年份:1997
- 资助金额:
$ 2.11万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)














{{item.name}}会员




