ayx爱游戏小扎亲自官宣Meta视觉大模型自监督学习无需微调儿童玩具

栏目：Bwin必赢发布时间：2023-04-27 22:11:51

　　在语义分割、实例分割ayx爱游戏、深度估计和图像检索等任务中，这个名叫DINOv2的视觉大模型均取得了非常不错的效果。

　　虽然此前Meta就发布过自监督学习视觉大模型DINO，不过这次AI识别图像特征的能力显然更进一步，准确分割出了视频中的主体：

　　可别以为DINOv2通过自监督学会的只有图片分割。事实上，它已经能根据不同类别、不同场景下的照片，准确识别出同种物体（狗）的头部、身体和四肢长在哪：

　　目前Meta官方不仅已经放出了开源代码，而且还给了网页版Demo试玩。有网友内涵：

　　这个模型参数量是10亿级，也仍然是视觉Transformer架构（ViT），但与DINO不太一样的是，这次DINOv2在数据集上经过了精心挑选。

　　具体来说，DINOv2构建了一个数据筛选pipeline，将内容相 ayx爱游戏似的图片精心筛选出来，同时排除掉相同的图片：

　　最终呈现给DINOv2的训练数据图片虽然没有文字标签，但这些图片的特征确实是相似的。

　　这是DINOv2在8个视觉任务上的表现，包括语义分割、分类、深度估计等，其中橙色是自监督方法的效果，深粉色是弱监督方法的效果。

　　可以看见，经过自监督学习的视觉模型，表现上已经与经过弱监督学习的模型性能相当。

　　实际效果也不错，即便在一系列照片中，相同物体的画风并不相似，DINOv2也能准确识别它们的特征，并分到相似的列表中。

　　如（a）组中都具有翅膀的鸟和飞机、（b）组中的大象和大象雕塑、（c）组中的汽车和汽车玩具模型、（d）组中的马和涂鸦版马：

　　而且从PCA（主成分分析）图像效果来看，DINOv2不仅能准确分类，还能用不同颜色标出它们“相同”的部分，例如象鼻都是绿色、车轮都是红色、马的尾巴是黄色等。

　　换而言之，DINOv2能理解这些图像中的相似之处，就像人会形容飞机“看起来像一只鸟”一样。

　　据Meta介绍，这几个任务中，DINOv2在大多数基准上超过了目前开源视觉模型中表现最好的OpenCLIP。

　　值得一提的是，在效果更好的情况下，DINOv2运行的速度也比iBOT更快，相同硬件下只需三分之一的内存ayx爱游戏，运行速度就能比DINOv2快上2倍多。

　　我们用这张版新宝岛试一下，看起来还不错儿童玩具，即使是高糊图片也能比较好地估计出深度：

　　这里也给出OpenCLIP和DINOv2的对比，中间的图片是OpenCLIP的效果，右边是DINOv2分割的效果：

　　我们也用一张办公室的图片试了一下，看起来DINOv2还是能比较准确地分割人体、物体的，但在细节上会有一些噪点：

　　官网上给出的图片效果还是挺不错的，输入铁塔照片，可以生成不少含铁塔的相似艺术图片：

　　从Meta给出的视频来看，目前有一些比较环保的用途，例如用于估计全球各地的树木高度：

　　除此之外，如同扎克伯格所说，DINOv2还能被用于改善医学成像、粮食作物生长等。当然这里小扎还进一步强调：

　　原标题：《小扎亲ayx爱游戏自官宣Meta视觉大模型！自监督学习无需微调，多任务效果超OpenCLIP丨开源》

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

友情链接 :

扫一扫

关注Bwin必赢

TOP