アカデミック・ライティング研究のための日本語学術論文コーパス構築
建立用于学术写作研究的日本学术论文语料库
基本信息
- 批准号:21K00554
- 负责人:
- 金额:$ 2.75万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (C)
- 财政年份:2021
- 资助国家:日本
- 起止时间:2021-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究は大学初年次のアカデミック・ライティング研究のために、多分野を横断した日本語論文コーパスを構築することを目的としている。コーパス化する論文は収集の容易さと多分野性の観点から大学リポジトリで公開されている紀要論文を中心とし、テキストコーパスとして構築した後、XMLタグによる文書構造のアノテーション、形態素解析・係り受け解析などを予定している。昨年度以来、論文のインデクス作成、論文PDF収集の自動化やOCRなどについて検討を進めているが、本年度は既にテキストが埋め込まれているPDFを対象として、PDFファイルからテキストデータを抽出・整形する方法について検討した。PDFをテキストファイルに変換するツールとしてはpdftotextなどのコマンドラインツールがあるが、出力されるデータは断片化されたテキストの羅列であるため、構造化されたテキストとして整形するためには相当の作業量が必要になる。PDFからのテキスト抽出を目的とした商用ソフトにはGUIでテキストブロックを特定した上で抽出処理を行えるものもあるが、多数のファイルを処理することを考えるとスクリプト処理で自動化できることが望ましい。現状、有力な選択肢はPythonのPDFminerライブラリであり、行の認識が直感に合い、テキストブロックの座標情報も出力されるため、座標やインデントを手がかりとした整形処理の自動化が期待できる。別の有望な選択肢としてはGPTなどの言語モデルの利用であり、ChatGPTを用いたごく限定的なテストでは、タイトル、著者、見出し、段落などの認識をよい精度で行えるようである。現在は、これらのツールを利用して構造化されたテキストファイルの生成の自動化を試行しているところである。
这项研究旨在在大学第一年的学术写作研究中构建一个多学科的日本论文语料库。 The corpused papers will focus on the papers published in the university repository from the viewpoint of ease of collection and multidisciplinary nature, and after constructing them as text corpus, they will be annotated by document structures using XML tags, morphological analysis and association analysis, etc. Since last year, we have been considering paper indexing, automating paper PDF collection, and OCR, but this year we have considered ways to extract and shape text data from PDF files,定位已经嵌入文本的PDF。有命令行工具,例如pdftotext,可以将PDF转换为文本文件,但是由于输出数据是零散的文本的集合,因此将其格式化为结构化文本需要大量工作。一些旨在从PDF中提取文本的商业软件可用于在执行提取处理之前使用GUI识别文本块,但是考虑到大量文件的处理,希望能够通过脚本处理使它们自动化。当前,最受欢迎的选项是Python的PDFMiner库,该库允许直觉识别行和输出文本块的坐标信息,因此可以预期,使用坐标和压痕作为线索,可以自动化成型过程的自动化。另一个有前途的选择是使用诸如GPT之类的语言模型,在使用ChatGpt的非常有限的测试中,似乎可以以很高的精度来实现标题,作者,标题,段落等的识别。当前,我们正在尝试使用这些工具来自动化结构化文本文件的生成。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
今田 水穂其他文献
子どもの意見を聴くこと・それを活かすこと―子どもたちの生きる現場から―
倾听孩子们的意见并加以利用 - 来自孩子们居住的地方 -
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
那須 昭夫;今田 水穂;文 昶允;田川 拓海;宋 恵媛;池上嘉彦;越門勝彦;西成彦;高橋義人;西槇偉(共著);崔 チョンア;山口善成;Akiko Manabe;宋恵媛;高橋義人;生駒夏美;西成彦;Nasu Akio;Yoshihiko IKEGAMI;石巻市子どもセンターらいつセンター長 荒木裕美(聴き手:安部芳絵) - 通讯作者:
石巻市子どもセンターらいつセンター長 荒木裕美(聴き手:安部芳絵)
崔, チョンア
崔正儿
- DOI:
10.24517/00061564 - 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
那須 昭夫;今田 水穂;文 昶允;田川 拓海;宋 恵媛;池上嘉彦;越門勝彦;西成彦;高橋義人;西槇偉(共著);崔 チョンア - 通讯作者:
崔 チョンア
見えない友と生きる時代のためのハーマン・メルヴィル『詐欺師』
赫尔曼·梅尔维尔的《欺骗者》讲述了我们与隐形朋友生活在一起的时代
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
那須 昭夫;今田 水穂;文 昶允;田川 拓海;宋 恵媛;池上嘉彦;越門勝彦;西成彦;高橋義人;西槇偉(共著);崔 チョンア;山口善成 - 通讯作者:
山口善成
ホロコースト文学は誰が担うのか?
谁负责大屠杀文学?
- DOI:
- 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
那須 昭夫;今田 水穂;文 昶允;田川 拓海;宋 恵媛;池上嘉彦;越門勝彦;西成彦;高橋義人;西槇偉(共著);崔 チョンア;山口善成;Akiko Manabe;宋恵媛;高橋義人;生駒夏美;西成彦 - 通讯作者:
西成彦
今田 水穂的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('今田 水穂', 18)}}的其他基金
大規模児童作文コーパスにおける埋め込み節の発達の計量的分析
大规模儿童作文语料库中嵌入子句发展的定量分析。
- 批准号:
19K23068 - 财政年份:2019
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Research Activity Start-up
名詞述語文コーパスの改訂と名詞結合価の研究
名词谓语句语料库修订及名词价研究
- 批准号:
17H00009 - 财政年份:2017
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Encouragement of Scientists
発達段階と到達目標を考慮した学齢別漢字重要度評価法の開発
考虑发展阶段和成就目标,开发按学龄评估汉字重要性的方法
- 批准号:
16H00011 - 财政年份:2016
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Encouragement of Scientists
教科書文法コーパスの構築と利用
教材语法语料库的构建与使用
- 批准号:
15H00014 - 财政年份:2015
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Encouragement of Scientists
大規模日本語コーパスを対象とした情報構造アノテーションとその利用
大规模日语语料库的信息结构标注及其应用
- 批准号:
26770167 - 财政年份:2014
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
相似海外基金
Study of Language Layers in Vedic Literature for the Development of a Program for Age Estimation
研究吠陀文学中的语言层以开发年龄估计程序
- 批准号:
21KK0004 - 财政年份:2021
- 资助金额:
$ 2.75万 - 项目类别:
Fund for the Promotion of Joint International Research (Fostering Joint International Research (B))
Construction of Database for Quantitative Analysis of Language with a View to Clarify the Process of Composition of the Ancient Indian Literature
构建语言定量分析数据库以厘清古印度文学的创作过程
- 批准号:
20K20697 - 财政年份:2020
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)
Examining English Classroom Discourse Through Compiling an English Classroom Video Corpus to Assist Non-native English Teachers in Elementary, Junior High, and Senior High School in Japan
通过编制英语课堂视频语料库来检验英语课堂话语,以协助日本中小学和高中非英语教师
- 批准号:
15K02778 - 财政年份:2015
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
A Study on Construction of Linguistic Resources in Heian Period
平安时代语言资源建设研究
- 批准号:
25284086 - 财政年份:2013
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Quantitative Study of Polite Expressions and Personal Pronouns with Advanced Tagging and Morphological Annotation of Modern Japanese Corpora
现代日语语料库的礼貌用语和人称代词的高级标注和形态注释的定量研究
- 批准号:
23720242 - 财政年份:2011
- 资助金额:
$ 2.75万 - 项目类别:
Grant-in-Aid for Young Scientists (B)