Development of a platform for automatic data science by using text information in metadata

利用元数据中的文本信息开发自动数据科学平台

基本信息

  • 批准号:
    22K21288
  • 负责人:
  • 金额:
    $ 1.83万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
  • 财政年份:
    2022
  • 资助国家:
    日本
  • 起止时间:
    2022-08-31 至 2024-03-31
  • 项目状态:
    已结题

项目摘要

膨大なデータから新たな知見を得る分析はデータサイエンスと呼ばれ、現在その普及は社会的に重要となっている。データサイエンスの主な作業は、(1)データの前処理、(2)分析精度の向上を目的としたデータの特徴量の抽出(特徴量エンジニアリングと言う)、(3)分析のための機械学習モデルの適用から成り、普及を促進する上でこれらの作業の自動化は極めて重要と考えられる。しかしながら、現在もデータサイエンス作業はエキスパートの経験に頼り自動化は進んでいない。本研究では、データサイエンスの作業ステップでより経験が必要とされ自動化の効果が大きい(2)データの特徴量の抽出に着目し、データ項目名やデータ記述など、いわゆるメタデータのテキスト情報から特徴量抽出を自動化する新たな仕組みの開発を目的としている。具体的には、既存のデータサイエンスにおけるデータ記述およびソースコードに対して、自然言語処理やソースコード分析技術を利用し、時系列データの特徴量を抽出が可能な形で再利用する技術を開発する。本年度は、データのテキスト情報から特徴量を抽出する技術の開発を行った。既存のデータサイエンスにおけるソースコードとして、University California San Diego Library Digital Collectionsにある約125万個のjupyter notbook形式のソースコードを用い、時系列(datetime)データを取り扱う命令文を抽出し、「datetime知識データベース」(DTKB)を作成した。また、このDTKBを用い、新たに与えられるデータ項目に対する時系列データ特徴量推薦システムを開発し有効性を確認した。これらの成果を論文にまとめ、国際学会の27th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES 2023)に投稿した。
The expansion of new knowledge and analysis of new knowledge and understanding of social development is important. (1) Pre-processing of data processing;(2) Extraction of feature quantity of data processing;(3) Mechanical learning of data processing;(4) Application of data processing;(5) Promotion of data processing;(6) Automation of data processing. Now you can do it automatically. This study aims at the development of a new system for automatic feature extraction from data item names and data description. Specifically, the development of technologies for the utilization and possible reuse of features of existing data sets, data description and data analysis technologies for natural speech processing and data analysis. This year, the development of technology for the extraction of information and features About 1,250,000 existing data sets in the University California San Diego Library Digital Collections are available in the form of Jupyter Notbook, datetime series, datetime knowledge sets (DTKB), and command texts are extracted. This is the first time that a person's name has been used. 27th International Conference on Knowledge-Based and Intelligent Information & Engineering Systems (KES 2023)

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

増田 聡其他文献

パルス圧力付加オリフィス噴射法によるゲルマニウム半導体球形粒子の作製と組織評価
脉冲压力孔板注射法制备半导体球形颗粒及其结构评价
防災型土地利用規制の社会的受容・実施に関わるアジェンダ形成の検討^ -活断層研究者らの提言と長町-利府線を有する仙台市住民の意識調査を踏まえて-
讨论制定与防灾用地规定的社会接受度和实施相关的议程^ -根据活断层研究人员的建议和对长町利府线所在的仙台市居民的认识调查-
  • DOI:
  • 发表时间:
    1998
  • 期刊:
  • 影响因子:
    0
  • 作者:
    増田 聡;村山 良之
  • 通讯作者:
    村山 良之
大震災・原発事故以後の農水産物・食品輸出
大地震和核事故后农水产品和食品出口
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    増田 聡;中村 哲也;石塚 哉史
  • 通讯作者:
    石塚 哉史

増田 聡的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('増田 聡', 18)}}的其他基金

Evaluation of the Recovery from the Great East Japan Earthquake for Theory Building and Practices
东日本大地震恢复评估的理论构建和实践
  • 批准号:
    21K12378
  • 财政年份:
    2021
  • 资助金额:
    $ 1.83万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
現代日本ポピュラー音楽のナショナリズム動向―「愛国ソング」の調査と分析
日本当代流行音乐中的民族主义倾向:“爱国歌曲”的调查与分析
  • 批准号:
    20K00152
  • 财政年份:
    2020
  • 资助金额:
    $ 1.83万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
紫外共鳴ラマン分光法によるメリチンのトリプトファン側鎖の構造解析の研究
紫外共振拉曼光谱法分析蜂毒肽色氨酸侧链结构研究
  • 批准号:
    11740307
  • 财政年份:
    1999
  • 资助金额:
    $ 1.83万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了