Vision and language cross-modal for training conditional GANs with long-tail data.
使用长尾数据训练条件 GAN 的视觉和语言跨模式。
基本信息
- 批准号:22K17947
- 负责人:
- 金额:$ 1.66万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Early-Career Scientists
- 财政年份:2022
- 资助国家:日本
- 起止时间:2022-04-01 至 2024-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
We learn the cross-modality between vision and language spaces. We obtained three achievements:1.We collected a set of objects' names and definitions from the open dictionary Wiktionary and used the pre-trained BERT model to embed the definitions. We incorporated this external knowledge into an image captioning model, outperforming other methods in novel object captioning task. It was published at CVPR 2022.2.We proposed a new training scheme for GANs by using flipped and non-flipped non-saturating losses. It was published in the IEEE Access journal (IF 3.476).3.We created a new dataset for story evaluation, consisting of 100k story ranking data and 46k aspect rating and reasoning collected through the Reddit website and crowd-sourcing annotation process. It was published at EMNLP 2022.
我们学习视觉和语言空间之间的交叉情态。我们取得了三方面的成果:1.从开放词典维基词典中收集了一组对象的名称和定义,并使用预先训练好的BERT模型来嵌入这些定义。我们将这种外部知识融入到图像字幕模型中,在新的对象字幕任务中表现出了比其他方法更好的性能。它发表在CVPR 20222上。我们提出了一种新的GANS训练方案,使用翻转和非翻转非饱和损失。3.我们创建了一个新的故事评价数据集,包括通过Reddit网站和众包注释过程收集的10万个故事排名数据和46k个方面评级和推理。它是在EMNLP 2022上发表的。
项目成果
期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Stochastically Flipping Labels of Discriminator’s Outputs for Training Generative Adversarial Networks
- DOI:10.1109/access.2022.3210130
- 发表时间:2022
- 期刊:
- 影响因子:3.9
- 作者:Rui Yang;Duc Minh Vo;Hideki Nakayama
- 通讯作者:Rui Yang;Duc Minh Vo;Hideki Nakayama
NOC-REK: Novel Object Captioning with Retrieved Vocabulary from External Knowledge
NOC-REK:从外部知识检索词汇的新颖对象描述
- DOI:10.1109/cvpr52688.2022.01747
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Duc Minh Vo;Hong Chen;Akihiro Sugimoto;Hideki Nakayama
- 通讯作者:Hideki Nakayama
StoryER: Automatic Story Evaluation via Ranking, Rating and Reasoning
- DOI:10.48550/arxiv.2210.08459
- 发表时间:2022-10
- 期刊:
- 影响因子:0
- 作者:Hong Chen;Duc Minh Vo;Hiroya Takamura;Yusuke Miyao;Hideki Nakayama
- 通讯作者:Hong Chen;Duc Minh Vo;Hiroya Takamura;Yusuke Miyao;Hideki Nakayama
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
ヴォ ミンデュク其他文献
ヴォ ミンデュク的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('ヴォ ミンデュク', 18)}}的其他基金
Unifying Object Detection and Image Captioning using Vision-Language Knowledge Base for Open-World Comprehension
使用视觉语言知识库统一对象检测和图像描述以实现开放世界理解
- 批准号:
24K20830 - 财政年份:2024
- 资助金额:
$ 1.66万 - 项目类别:
Grant-in-Aid for Early-Career Scientists