×
img

应用扩散模型进行图像字幕的多模态数据增强【英文版】

69
2023-05-06
2 MB 16 页
人工智能(AI)
文件列表:
应用扩散模型进行图像字幕的多模态数据增强【英文版】.pdf
下载文档
英文标题:Multimodal Data Augmentation for Image Captioning using Diffusion Models中文摘要:本研究提出了一种基于多模态数据增强技术的图像字幕生成方法,旨在解决图像字幕对齐困难的问题。实验证明,本方法可以通过高质量生成图像 - 字幕对来扩充训练数据集,从而提高模型的训练效率和预测准确性。英文摘要:Image captioning, an important vision-language task, often requires atremendous number of finely labeled image-caption pairs for learning theunderlying alignment between images and texts. In this paper, we proposed amultimodal data augmentation method, leveraging a recent text-to-image modelcalled Stable Diffusion,

加载中...

已阅读到文档的结尾了

下载文档

网友评论>

开通智库会员享超值特权
专享文档
免费下载
免广告
更多特权
立即开通

发布机构

更多>>
VIP会员特权:
阅读时无遮挡广告;尊享专属客服;... 了解更多