Segment Anything Model (SAM) 是一种改变游戏规则的图像分割技术。SAM 是由 Meta AI 的 FAIR 团队开发的一种快速分割模型,可用于各种任务。本文将简要概述该模型、其体系结构、它应对的挑战、潜在的用例,并简要说明它是如何实现的。
分段任何模型(SAM)
SAM 是一种用于分割图像中任何对象的模型。它是一种可提示的分段模型,这意味着它可以通过使用提示来执行某些任务。该模型旨在处理各种视觉数据,例如模拟、绘画、水下照片、显微镜图像、驾驶数据、立体图像和鱼眼图像。
SAM 解决了哪些问题
SAM解决的首要问题是图像分割。图像分割是计算机视觉中的一个关键过程,需要将图像分成许多片段或像素集。图像中的这些片段可以表示各种对象或对象的部分。SAM 旨在高效且有效地完成此任务,即使在它以前从未见过该任务的零镜头设置中也是如此。
SAM(Segment Anything Model)的结构
SAM 的结构由三个主要部分组成:
图像编码器:处理输入图像并生成图像嵌入的大型组件。然后可以使用各种输入提示来查询此嵌入以生成对象掩码。
提示编码器: 该组件旨在处理两种类型的提示:稀疏(点、框、文本)和密集(掩码)。点和框由位置编码和每种提示类型的学习嵌入表示。现成的文本编码器用于处理文本。密集提示(掩码)使用卷积嵌入,并与图片嵌入逐元素求和。
Mask Decoder:该组件将图片嵌入、提示嵌入和输出标记转换为掩码。它采用 Transformer 解码器块修改,然后是动态掩码预测头。为了更新所有的嵌入,解码器块在两个方向上使用了提示自注意力和交叉注意力(提示图像嵌入,反之亦然)。运行两个块后,图片嵌入未采样,MLP 将输出标记传输到动态线性分类器,该分类器计算每个图像点的蒙版前景概率。
实例探究
SAM 旨在用于需要基于提示的分段的任何活动。调查的用例包括:
从一个点分割对象:可以请求 SAM 从图像中的给定点分割特定项目。
边缘检测: SAM 可用于边缘检测任务,例如识别图像内对象的边界。
Segmenting All Objects:分割所有对象:可以要求 SAM 分割图像中的所有对象。
分割检测到的对象: SAM 可用于分割图像中已识别的对象。
Segmenting Objects from Text: Segmenting things from Text:SAM 可以与其他视觉模型一起根据文本描述来分割事物。
安装命令
代码要求Python>=3.8,以及Pytorch>=1.7和Torchvision>=0.8。请按照此处的步骤安装 PyTorch 和 TorchVision 要求。强烈建议安装支持 CUDA 的 PyTorch 和 TorchVision。
安装段任何东西:
pip install git+https://github.com/facebookresearch/segment-anything.git
以高质量分割任何内容
在我的技术研究过程中,我发现 Sam 发布了其最新版本,称为 HQ Sam。以下信息概述了我的发现的详细信息:
HQ Sam 是 Sam 的最新版本,它经历了重大发展。这个更新版本展示了一系列增强的特性和功能。有了 HQ Sam,用户可以期待更先进、更高效的体验。对 HQ Sam 所做的改进包括多个方面。用户界面已经过改进以提供更直观和无缝的交互。此外,底层技术已经升级,以提高性能、响应能力和准确性。
SAM 与 HQ-SAM 的视觉对比
最近发布的 Segment Anything Model (SAM) 标志着在扩展分割模型方面取得了重大进展,实现了强大的零样本功能和可定制的提示。尽管已经接受了 11 亿个掩码的训练,但 SAM 的掩码预测质量在许多情况下仍不尽人意,尤其是在处理具有复杂架构的对象时。HQ -SAM,它赋予 SAM 精确分割任何对象的能力,同时保留了 SAM 原有的可推广设计、效率和零样本泛化能力。
我们细致的方法重用并保留了 SAM 的预训练模型权重,同时仅引入了一些额外的参数和计算。我们设计了一个可学习的高质量输出令牌,它被注入到 SAM 的掩码解码器中,并负责预测高质量掩码。我们不只是将其用于掩码解码器功能,而是将其与早期和最终 ViT 功能融合以改善掩码细节。
我们创建了一个来自各种来源的 44K 细粒度掩码数据集,以训练我们引入的可学习参数。引入的 44k masks 数据集用于训练 HQ-SAM,在 8 个 GPU 上仅需 4 小时。我们在跨多个下游任务的一组 9 个不同分割数据集中说明了 HQ-SAM 的功效,其中 7 个在零样本传输方法中进行了测试。
SAM与HQ-SAM的比较
注意:对于框提示评估,我们输入 SAM 和我们的 HQ-SAM 相同的图像/视频边界框,并使用 SAM 的单掩码输出模式。
COCO 上的各种 ViT 主干
注意:对于 COCO 数据集,我们使用在 COCO 数据集上训练的 SOTA 检测器 FocalNet-DINO 作为我们的框提示生成器。
YTVIS和HQ-YTVIS
注意:使用 ViT-L 主干。作为我们的视频框提示生成器,我们使用在 YouTube VIS 2019 数据集上训练的 SOTA 检测器 Mask2Former,同时重用其对象关联预测。
戴维斯
注意:使用 ViT-L 主干。作为我们的视频框提示生成器,我们使用 SOTA 模型 XMem,同时重用其对象关联预测。
使用几个点比较交互式分割
注意:使用 ViT-L 主干。在高级 COIFT(零射击)和 DIS val 集上。
结论
总之,Segment Anything Model (SAM) 是一种创新和变革性的图像分割技术,在准确分割各种对象方面提供了前所未有的能力。此外,借助称为 HQ-SAM(高质量分割任何内容)的 SAM 更新版本,用户现在可以获得更高质量的分割结果,同时保留 SAM 的原始优势,例如其可推广的设计、效率和零-投篮泛化能力。这一进步将 SAM 的潜力提升到新的高度,使其成为需要卓越质量和精度的图像分割任务的卓越工具。请随时在下面的评论部分分享您的想法和反馈。
原创文章,作者:网贝WebBay,如若转载,请注明出处:https://www.webbay.cn/sam-and-hq-sam-a-new-generation-of-image-segmentation-models