多模态介绍及当前研究方向

  • 什么是多模态?
  • 多模态的任务和数据集有哪些?
  • 多种模态融合的方式有哪些?
  • 多模态任务的研究方向有哪些?
  • 参考资料

什么是多模态?

什么是多模态?多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。顾名思义,多模态研究的就是这些不同类型的数据的融合的问题

目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。这就涉及到图像和文本领域的内容。

多模态的任务和数据集有哪些?

多模态研究的是视觉语言问题,其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。
【AI理论学习】多模态介绍及当前研究方向
例如给定一张图片,可以完成以下任务:

  1. VQA(Visual Question Answering)视觉问答
    输入:一张图片、一个自然语言描述的问题
    输出:答案(单词或短语)
  2. Image Caption 图像字幕
    输入:一张图片
    输出:图片的自然语言描述(一个句子)
  3. Referring Expression Comprehension 指代表达
    输入:一张图片、一个自然语言描述的句子
    输出:判断句子描述的内容(正确或错误)
  4. Visual Dialogue 视觉对话
    输入:一张图片
    输出:两个角色进行多次交互、对话
  5. VCR (Visual Commonsense Reasoning) 视觉常识推理
    输入:1个问题,4个备选答案,4个理由
    输出:正确答案,和理由
    【AI理论学习】多模态介绍及当前研究方向
  6. NLVR(Natural Language for Visual Reasoning)自然语言视觉推理
    输入:2张图片,一个分布
    输出:true或false
    【AI理论学习】多模态介绍及当前研究方向
  7. Visual Entailment 视觉蕴含
    输入:图像、文本
    输出:3种label的概率。(entailment、neutral、contradiction)蕴含、中性、矛盾
    【AI理论学习】多模态介绍及当前研究方向
  8. Image-Text Retrieval 图文检索
    有3种方式。
    1)以图搜文。输入图片,输出文本
    2)以文搜图。输入文本,输出图片
    3)以图搜图,输入图片,输出图片
    【AI理论学习】多模态介绍及当前研究方向

多种模态融合的方式有哪些?

通过NLP的预训练模型,可以得到文本的嵌入表示;再结合图像和视觉领域的预训练模型,可以得到图像的嵌入表示;那么,如何将两者融合起来,来完成以上的各种任务呢?常用的多模态交叉的方式有两种:

  1. 点乘或者直接追加
    此种方式将文本和图像分别进行Embedding,之后将各自的向量进行追加或者点乘。好处是简单方便,计算成本也比较低。
    【AI理论学习】多模态介绍及当前研究方向【AI理论学习】多模态介绍及当前研究方向
  2. 另外一种模态交叉的方式是最近用得比较多的Transformer。
    其好处是利用了Transformer架构,能够更好地进行图像特征和文本特征的表示。缺点是占用空间大,计算成本较高。
    【AI理论学习】多模态介绍及当前研究方向

多模态任务的研究方向有哪些?

  1. 多模态的表示学习(multimodal representation):利用多模态的互补性和冗余的方式来表示和总结多模态数据。
  1. 模态对齐(alignment)
  1. 多模态融合(multimodal fusion):两种分类方法
  1. 协同学习(co-learning)
    协同学习有助于解决某种模态下资源匮乏型的模型训练,提取一种模态数据的信息来协助另一种模态数据的训练。针对不同的数据资源类型可以将协同学习分为以下3中。

参考资料

[1] https://zhuanlan.zhihu.com/p/473760099
[2] https://zhuanlan.zhihu.com/p/351048130

发表回复