AI浏览器工具

颜水成团队开源VOLO：无需额外数据，首次在ImageNet上达到87.1%的精度

2025-07-13 11:24:01 作者：啊哈哈哈

自打Transformer横空出世以来，它在CV领域就取得了很多不俗的效果。

比如采用纯Transformer架构的ViT在很多图像分类任务中表现都不输最先进的CNN。

但在没有额外数据的情况下，Transformer的性能仍然比不过它们。

不过，Transformer并不服气。

这不，最近一个叫做VOLO的Transformer变体，自称打破了这个僵局：

无需任何额外训练数据，就在ImageNet数据集上达到了87.1%的top-1精度，打破了基于CNN的SOTA模型（NFnet ）此前保持的86.5％的最好记录！

Transformer因此又扬眉吐气了：我们真的不比CNN差。

那它是如何做到的呢？

引入outlook注意力

这个基于自注意力的图像分类模型VOLO，出自颜水成领导的Sea AI Lab团队与新加坡国立大学。

他们在研究中发现，ViT在ImageNet图像分类上的性能受到限制的主要因素是：在将精细级（fine-level ）的特征编码为token的表示过程中比较低效。

为了解决这个问题，他们引入了一种新的outlook注意力，并提出了一个简单而通用的架构，称为Vision outlooker ，也就是VOLO。

与专注于全局依赖粗略建模的自注意力不同，outlook注意力可以有效地将更精细级别的特征和上下文编码为token。

因此，VOLO采用两阶段架构设计，同时考虑了更具细粒度的token表示编码和全局信息聚合。

第一阶段由一堆Outlookers组成，用于生成精细级别的token表示。

第二阶段部署一系列transformer blocks来聚合全局信息。

在每个阶段的开始，使用一个图像块嵌入模块（patch embedding module）将图像输入映射到期望形状的token表示。

下面就着重说一下这里面的核心：Outlooker。

其组成包括：用于空间信息编码的outlook注意力层，以及用于通道间信息交互的多层感知器(MLP)。

其中，通过reshape操作（绿框），可以从具有线性层的中心token简单生成大小为K×K的局部窗口的Outlook注意力矩阵。

由于注意力权值是从中心token生成并作用于邻居token及其本身（如黑框），因此研究人员将这些操作命名为outlook注意力。

小编推荐

颜水成团队开源VOLO：无需额外数据，首次在ImageNet上达到87.1%的精度 AI教程资讯
华为云发布乌兰察布汽车专区和自动驾驶开发平台，加速汽车产业数智升级 AI教程资讯
微软10亿美元砸入OpenAI：明为AGI，暗争谷歌，被指云计算换投资 AI教程资讯
当大模型时代到来，如何借助 AI 驱动生命科学与医药创新 AI教程资讯
加速AI推理，探索英特尔® 至强® 可扩展处理器OCR应用落地方面实践 AI教程资讯
盗版DALL·E成梗图之王？日产5万张图像，挤爆抱抱脸服务器，OpenAI勒令改名 AI教程资讯
MEET2020 | 滴滴AI负责人叶杰平：你的每一次出行，都已有AI落地的助力 AI教程资讯
Nature文章明年起可免费下载，不过前提是作者得交7.4万元 AI教程资讯
博士学位真的那么重要吗？上交大博士亲述科研心路，获4万高赞 AI教程资讯
拍照手抖有救了！DeblurGAN消除运动模糊效果惊人｜附论文+代码 AI教程资讯

排行榜

AI软件排行最新上榜

PaperRed
2025-02-12

智能网页抓取

详情
Aibiye – AI毕业
2025-01-22

智能网页抓取

详情
宙语Cosmos
2025-02-27

智能网页抓取

详情
WritePass官网
2025-02-12

智能网页抓取

详情
万能小in一键论文
2025-01-22

智能网页抓取

详情
酷虎AI写作
2025-01-26

智能网页抓取

详情
小鱼AI写作
2025-02-27

智能网页抓取

详情
思默回答
2025-02-27

智能网页抓取

详情
墨鱼AI_ai写作神器
2025-01-28

智能网页抓取

详情
墨鱼Aigc公文写作
2025-02-26

智能网页抓取

详情

点击查看更多