Development of quasi-balanced ultra large-scale Japanese corpus and its high-speed search tool

准平衡超大规模日语语料库及其高速搜索工具开发

基本信息

  • 批准号:
    18H03575
  • 负责人:
  • 金额:
    $ 27.71万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
  • 财政年份:
    2018
  • 资助国家:
    日本
  • 起止时间:
    2018-04-01 至 2020-03-31
  • 项目状态:
    已结题

项目摘要

超大規模コーパス構築のため、前年度に作成したクローラーを用いて、ウェブページの収集を継続して行った。その結果、約8100万ファイルのウェブページの収集を行うことができた。当初予定の1億ファイルには届かなかったものの、それに近い数の収集ができた。続いて、データクリーニングを行った。収集したデータには、head要素、script要素、タグなどの、コーパスには不要な情報が含まれているので、それらの情報を削除した。その上でテキストを抽出し、エンコーディングをすべてUTF-8にした。さらにテキストには、広告やリンクなどの当該ウエブページの本文とは言えない情報が含まれているので、それらを除去した。得られたテキストに対して、UniDic(辞書)を使用して形態素分析を行い、その結果得られた形態素(語彙素)に対して、品詞や活用などの情報を付与するアノテーション作業を実施した。コーパスの検索時に用いる、機能語・機能表現のリストを作成した。既存の機能語を扱った複数の辞書やリスト(機能語用例データベース「はごろも」、『日本語文型辞典』など)を用い、それらで扱われている見出し項目をすべて収集することによって、第一次候補としての機能語・機能表現の項目が最大になるリストを準備した。このリストを精査して、最終的なリストにしていく作業が残されている。この作業を通して得られた成果・知見は、『日本語文型バンク』(国立国語研究所)に提供され、その構築に寄与した。また、その成果を教科書開発に生かす方法についても考察した。
The super-large size is very large, and the previous year has been used in the first year, and the previous year has been completed. The results show that about 81 million percent of the data are collected. At the beginning, it was scheduled that there would be a total of 100 million dollars in the current year. I'm sorry, I'm sorry, I'm sorry. Set, head, script, and so on, do not have any information on them, and cut them out. On the computer, pull out, pull out, pick up the UTF-8. Please tell me that if you want to read this article, please tell me that there is something wrong with you, and that you should delete it. In this paper, we use the method of UniDic to analyze the data, and the results of the analysis show that the results of the analysis are correct, and the results show that the results of the analysis are effective. In order to make a system, the system is made by using the computer, the machine and the machine to display the system. The existing machine can register the copy number lexicon. The existing machine can use the existing machine to record the complexity of the lexicography. the existing machine can register the copy number of the existing computer, and the existing machine can save the number of copies of the lexicography. the existing machine can record the number of copies of the dictionary dictionary, the existing machine can read the number of words, and the number of items. There is a lot of work, and the most important thing is that there is a problem with the operation. You will be informed of the results of the training program, and the "Japanese language training Program" (National Institute of National Institute) will provide you with information and information about how to send it to you. The teaching of the results of the study and the teaching of the results of the examination and study of the methods of medical students and students.

项目成果

期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
日本語教育に役立つコーパスの使い方
如何利用语料库辅助日语教育
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Koizumi;R.;In’nami;Y.;Fukazawa;M.;Ishida H.;Susumu Nakatsuji;小澤清男・片岡太郎・鹿納晴尚・上様信彦・小林和貴・佐々木理・佐々木由香・鈴木三男・永嶋正春・能城修一・バンダリ スダルシャン;川添和暁・佐々木由香・米田恭子・バンダリ スダルシャン;白井恭弘;小澤毅;矢野桂司;鈴木康之;近藤成一 他;小島泰雄;砂川有里子
  • 通讯作者:
    砂川有里子
What are the tasks? :Development of task-based Japanese beginner's textbook
任务是什么?
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Li Wenxin;Reiko Sakata;Shingo Imai
  • 通讯作者:
    Shingo Imai
新・日本語教育のためのコーパス調査入門
新日语教育语料库研究简介
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    李在鎬;石川慎一郎
  • 通讯作者:
    石川慎一郎
日本語教育と研究に役立つコーパス調査の方法
对日语教育和研究有用的语料库研究方法
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Masaru Tsuchida;Hirotaka Sato;Takahito Kawanishi;Kunio Kashino;and Keiji Yano;砂川有里子
  • 通讯作者:
    砂川有里子
日本語文型バンク
日语句型库
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

今井 新悟其他文献

指示詞におけ類像性 : きこえの階層に関して
指示词中的图像相似性:关于听觉的层次结构
従属節「〜とき」の時制
从句“~toki”的时态
日本語コーパス活用入門: NINJAL-LWP実践ガイド
日语语料库运用简介:NINJAL-LWP实用指南
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    赤瀬川 史朗;プラシャント・パルデシ;今井 新悟
  • 通讯作者:
    今井 新悟
指示詞における類像性:きこえの階層に関して
指示词中的图像相似性:关于听觉的层次结构
  • DOI:
  • 发表时间:
    2004
  • 期刊:
  • 影响因子:
    0
  • 作者:
    加賀美常美代;大渕憲一;Mitsuru Maeda;五味政信ほか;加賀美常美代;井上 優;今井 新悟
  • 通讯作者:
    今井 新悟

今井 新悟的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似海外基金

超大規模データから流体制御に有意な因果関係を導くデータ駆動科学的手法の構築
建立数据驱动的科学方法,从超大规模数据中得出流体控制中的重要因果关系
  • 批准号:
    24K17443
  • 财政年份:
    2024
  • 资助金额:
    $ 27.71万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
超大規模行列補完のための分散核ノルム最小化手法の確立と大規模テンソル補完への展開
超大规模矩阵补全分布式核范数最小化方法的建立及其向大规模张量补全的扩展
  • 批准号:
    24K14845
  • 财政年份:
    2024
  • 资助金额:
    $ 27.71万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
スケーラブルな超大規模長期時系列グラフニューラルネットワークの研究
可扩展超大规模长期时间序列图神经网络研究
  • 批准号:
    23K28098
  • 财政年份:
    2024
  • 资助金额:
    $ 27.71万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Si結晶上のIn原子層における共有結合型のモアレ超構造:超大規模第一原理計算で実証
硅晶体上 In 原子层中的共价莫尔超结构:通过超大规模第一原理计算证明
  • 批准号:
    24K08251
  • 财政年份:
    2024
  • 资助金额:
    $ 27.71万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
超大規模シミュレーションとデータ科学の融合による焼結ミクロ組織制御因子の特定
超大规模模拟与数据科学相结合识别烧结微观结构的控制因素
  • 批准号:
    24K17179
  • 财政年份:
    2024
  • 资助金额:
    $ 27.71万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
イネの光合成・物質生産過程の超大規模解析基盤の構築と有用遺伝資源の探索
搭建水稻光合作用和物质生产过程超大规模分析平台,寻找有用的遗传资源
  • 批准号:
    24K01741
  • 财政年份:
    2024
  • 资助金额:
    $ 27.71万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
超大規模群制御の構造を組み込んだ確率分布制御理論の開拓
发展结合超大规模群控制结构的概率分布控制理论
  • 批准号:
    23K19117
  • 财政年份:
    2023
  • 资助金额:
    $ 27.71万
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
圧縮性乱流の普遍性解明のための3軸並列による超大規模直接数値計算コードの開発
开发利用三轴并行的超大规模直接数值计算代码来阐明可压缩湍流的普遍性
  • 批准号:
    23K19958
  • 财政年份:
    2023
  • 资助金额:
    $ 27.71万
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
超大規模三次元形態計測による矯正力感知時の歯周組織細胞変化の解明
使用超大规模三维形态测量法检测正畸力时牙周组织细胞的变化
  • 批准号:
    23K16183
  • 财政年份:
    2023
  • 资助金额:
    $ 27.71万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
スケーラブルな超大規模長期時系列グラフニューラルネットワークの研究
可扩展超大规模长期时间序列图神经网络研究
  • 批准号:
    23H03408
  • 财政年份:
    2023
  • 资助金额:
    $ 27.71万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了