让梦想从这里开始

因为有了梦想,我们才能拥有奋斗的目标,而这些目标凝结成希望的萌芽,在汗水与泪水浇灌下,绽放成功之花。

  • 用 GNN 做 CV 三大任务的新骨干,同计算成本性能不输 CNN、ViT 与 MLP

  • 发布日期:2022-06-11 20:38    点击次数:111

    用图神经网络 ( GNN ) 做 CV 的研究有不少,但通常是围绕点云数据做文章,少有直接处理图像数据的。

    其实与 CNN 把一张图片看成一个网格、Transformer 把图片拉直成一个序列相比,图方法更适合学习不规则和复杂物体的特征。

    现在,中科院与华为诺亚方舟实验室等提出一种全新的骨干网络,把图片表示成图结构数据,让 GNN 也能完成经典 CV 三大任务。

    论文一出,立即引起 GNN 学者广泛关注。

    有人认为 GNN 领域积累多年的技巧都将涌入这一新方向,带来一波研究热潮。

    该来的总要来的。

    新架构ViG命名上致敬了 ViT,论文标题也采用同一句式,点出了核心思想:

    An Image is Worth Graph of Nodes

    在研究团队看来,图结构是一种更通用的数据结构。甚至网格和序列可以当作图结构的特例,用图结构来做视觉感知会更加灵活。

    图数据由节点和边组成,如果把每个像素都看作节点计算难度过于大了,因此研究团队采用了切块 ( patch ) 方法。

    对于 224x224 分辨率的图像,每 16x16 像素为一个 Patch,也就是图数据中的一个节点,总共有 196 个节点。

    对每个节点搜索他们距离最近的节点构成边,边的数量随网络深度而增加。

    接下来,网络架构分为两部分:

    一个图卷积网络 ( GCN ) ,负责处理图数据、聚合相邻节点中的特征。

    一个前馈神经网络 ( FFN ) ,结构比较简单是两个全连接层的 MLP,负责特征的转换。

    传统 GCN 会出现过度平滑现象,为解决这个问题,团队在图卷积层前后各增加一个线性层,图卷积层后再增加一个激活函数。

    实验表明,用上新方法,当层数较多时 ViG 学习到的特征会比传统 ResGCN 更为多样。

    同算力成本下不输 CNN 和 ViT

    为了更准确评估 ViG 的性能,研究团队设计了 ViT 常用的同质结构 ( isotropic ) 和 CNN 常用的金字塔结构 ( Pyramid ) 两种 ViG 网络,来分别做对比实验。

    同质架构 ViG 分为下面三种规格。

    与常见的同质结构 CNN、ViT 与 MLP 网络相比,ViG 在同等算力成本下 ImageNet 图像分类的表现更好。

    金字塔结构的 ViG 网络具体设置如下。

    同等算力成本下,ViG 也与最先进的 CNN、ViT 和 MLP 相比,性能也能超越或表现相当。

    在目标检测和实例分割测试上,ViG 表现也与同等规模的 Swin Transformer 相当。

    最后,研究团队希望这项工作能作为 GNN 在通用视觉任务上的基础架构,Pytorch版本和Mindspore版本代码都会分别开源。

    论文地址:

    http://arxiv.org/abs/2206.00272

    开源地址:

    https://github.com/huawei-noah/CV-Backbones

    https://gitee.com/mindspore/models