アカデミック・ライティング研究のための日本語学術論文コーパス構築

建立用于学术写作研究的日本学术论文语料库

基本信息

  • 批准号:
    21K00554
  • 负责人:
  • 金额:
    $ 2.75万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2021
  • 资助国家:
    日本
  • 起止时间:
    2021-04-01 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

本研究は大学初年次のアカデミック・ライティング研究のために、多分野を横断した日本語論文コーパスを構築することを目的としている。コーパス化する論文は収集の容易さと多分野性の観点から大学リポジトリで公開されている紀要論文を中心とし、テキストコーパスとして構築した後、XMLタグによる文書構造のアノテーション、形態素解析・係り受け解析などを予定している。昨年度以来、論文のインデクス作成、論文PDF収集の自動化やOCRなどについて検討を進めているが、本年度は既にテキストが埋め込まれているPDFを対象として、PDFファイルからテキストデータを抽出・整形する方法について検討した。PDFをテキストファイルに変換するツールとしてはpdftotextなどのコマンドラインツールがあるが、出力されるデータは断片化されたテキストの羅列であるため、構造化されたテキストとして整形するためには相当の作業量が必要になる。PDFからのテキスト抽出を目的とした商用ソフトにはGUIでテキストブロックを特定した上で抽出処理を行えるものもあるが、多数のファイルを処理することを考えるとスクリプト処理で自動化できることが望ましい。現状、有力な選択肢はPythonのPDFminerライブラリであり、行の認識が直感に合い、テキストブロックの座標情報も出力されるため、座標やインデントを手がかりとした整形処理の自動化が期待できる。別の有望な選択肢としてはGPTなどの言語モデルの利用であり、ChatGPTを用いたごく限定的なテストでは、タイトル、著者、見出し、段落などの認識をよい精度で行えるようである。現在は、これらのツールを利用して構造化されたテキストファイルの生成の自動化を試行しているところである。
This study は university early time の ア カ デ ミ ッ ク · ラ イ テ ィ ン グ research の た め に, eset を transection し た Japanese paper コ ー パ ス を build す る こ と を purpose と し て い る. コ ー パ ス change す る paper は 収 set の easy さ と over wild の 観 point か ら university リ ポ ジ ト リ で public さ れ て い る summary paper を center と し, テ キ ス ト コ ー パ ス と し て build し た after, XML タ グ に よ る document structure の ア ノ テ ー シ ョ ン, form is analytical, り け parsing な ど を designated し て い る. Since last year, the thesis の イ ン デ ク ス done, paper PDF 収 set の automation や OCR な ど に つ い て beg を 検 into め て い る が, this year's は に テ キ ス ト が buried め 込 ま れ て い る PDF を like と seaborne し て, PDF フ ァ イ ル か ら テ キ ス ト デ ー タ を extraction, plastic す る method に つ い て beg し 検 た. PDF を テ キ ス ト フ ァ イ ル に variations in す る ツ ー ル と し て は pdftotext な ど の コ マ ン ド ラ イ ン ツ ー ル が あ る が, output さ れ る デ ー タ は fragment the さ れ た テ キ ス ト の listed で あ る た め, construct さ れ た テ キ ス ト と し て plastic す る た め に は quite の work が necessary に な る. PDF か ら の テ キ ス ト spare を purpose と し た commercial ソ フ ト に は GUI で テ キ ス ト ブ ロ ッ ク を specific し た で drew 処 を cut line え る も の も あ る が, most の フ ァ イ ル を 処 Richard す る こ と を exam え る と ス ク リ プ ト 処 Richard で automation で き る こ と が hope ま し い. Present situation, the powerful な sentaku limb は Python の PDFminer ラ イ ブ ラ リ で あ り に い, towards, line の が テ キ ス ト ブ ロ ッ ク の coordinates intelligence も output さ れ る た め, coordinates や イ ン デ ン ト を hand が か り と し た plastic 処 Richard の automation が expect で き る. Don't の is expected to be な sentaku limb と し て は GPT な ど の words モ デ ル の using で あ り, ChatGPT を with い た ご く qualified な テ ス ト で は, タ イ ト ル, author, see し, paragraphs な ど の know を よ い precision line で え る よ う で あ る. Now は, こ れ ら の ツ ー ル を using し て structured さ れ た テ キ ス ト フ ァ イ ル の generated の automation を trial し て い る と こ ろ で あ る.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

今田 水穂其他文献

子どもの意見を聴くこと・それを活かすこと―子どもたちの生きる現場から―
倾听孩子们的意见并加以利用 - 来自孩子们居住的地方 -
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    那須 昭夫;今田 水穂;文 昶允;田川 拓海;宋 恵媛;池上嘉彦;越門勝彦;西成彦;高橋義人;西槇偉(共著);崔 チョンア;山口善成;Akiko Manabe;宋恵媛;高橋義人;生駒夏美;西成彦;Nasu Akio;Yoshihiko IKEGAMI;石巻市子どもセンターらいつセンター長 荒木裕美(聴き手:安部芳絵)
  • 通讯作者:
    石巻市子どもセンターらいつセンター長 荒木裕美(聴き手:安部芳絵)
崔, チョンア
崔正儿
  • DOI:
    10.24517/00061564
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    那須 昭夫;今田 水穂;文 昶允;田川 拓海;宋 恵媛;池上嘉彦;越門勝彦;西成彦;高橋義人;西槇偉(共著);崔 チョンア
  • 通讯作者:
    崔 チョンア
歌人から小説家へー尹紫遠の“戦後文学”
从诗人到小说家:恽子媛的“战后文学”
見えない友と生きる時代のためのハーマン・メルヴィル『詐欺師』
赫尔曼·梅尔维尔的《欺骗者》讲述了我们与隐形朋友生活在一起的时代
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    那須 昭夫;今田 水穂;文 昶允;田川 拓海;宋 恵媛;池上嘉彦;越門勝彦;西成彦;高橋義人;西槇偉(共著);崔 チョンア;山口善成
  • 通讯作者:
    山口善成
ホロコースト文学は誰が担うのか?
谁负责大屠杀文学?
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    那須 昭夫;今田 水穂;文 昶允;田川 拓海;宋 恵媛;池上嘉彦;越門勝彦;西成彦;高橋義人;西槇偉(共著);崔 チョンア;山口善成;Akiko Manabe;宋恵媛;高橋義人;生駒夏美;西成彦
  • 通讯作者:
    西成彦

今田 水穂的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('今田 水穂', 18)}}的其他基金

大規模児童作文コーパスにおける埋め込み節の発達の計量的分析
大规模儿童作文语料库中嵌入子句发展的定量分析。
  • 批准号:
    19K23068
  • 财政年份:
    2019
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
名詞述語文コーパスの改訂と名詞結合価の研究
名词谓语句语料库修订及名词价研究
  • 批准号:
    17H00009
  • 财政年份:
    2017
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Encouragement of Scientists
発達段階と到達目標を考慮した学齢別漢字重要度評価法の開発
考虑发展阶段和成就目标,开发按学龄评估汉字重要性的方法
  • 批准号:
    16H00011
  • 财政年份:
    2016
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Encouragement of Scientists
教科書文法コーパスの構築と利用
教材语法语料库的构建与使用
  • 批准号:
    15H00014
  • 财政年份:
    2015
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Encouragement of Scientists
大規模日本語コーパスを対象とした情報構造アノテーションとその利用
大规模日语语料库的信息结构标注及其应用
  • 批准号:
    26770167
  • 财政年份:
    2014
  • 资助金额:
    $ 2.75万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了