使用Pytorch实现对比学习SimCLR 进行自监督预训练

PHP中文网 • 2025年2月26日 21:13:26 • 编程技术 • 阅读 3

SimCLR（Simple Framework for Contrastive Learning of Representations）是一种学习图像表示的自监督技术。与传统的监督学习方法不同，SimCLR 不依赖标记数据来学习有用的表示。它利用对比学习框架来学习一组有用的特征，这些特征可以从未标记的图像中捕获高级语义信息。

SimCLR 已被证明在各种图像分类基准上优于最先进的无监督学习方法。并且它学习到的表示可以很容易地转移到下游任务，例如对象检测、语义分割和小样本学习，只需在较小的标记数据集上进行最少的微调。

SimCLR 主要思想是通过增强模块 T 将图像与同一图像的其他增强版本进行对比，从而学习图像的良好表示。这是通过通过编码器网络 f(.) 映射图像，然后进行投影来完成的。 head g(.) 将学习到的特征映射到低维空间。然后在同一图像的两个增强版本的表示之间计算对比损失，以鼓励对同一图像的相似表示和对不同图像的不同表示。

本文我们将深入研究 SimCLR 框架并探索该算法的关键组件，包括数据增强、对比损失函数以及编码器和投影的head 架构。

我们这里使用来自 Kaggle 的垃圾分类数据集来进行实验

增强模块

SimCLR 中最重要的就是转换图像的增强模块。 SimCLR 论文的作者建议，强大的数据增强对于无监督学习很有用。因此，我们将遵循论文中推荐的方法。

调整大小的随机裁剪50% 概率的随机水平翻转随机颜色失真（颜色抖动概率为 80%，颜色下降概率为 20%）50% 概率为随机高斯模糊

def get_complete_transform(output_shape, kernel_size, s=1.0): """Color distortion transform Args:s: Strength parameter Returns:A color distortion transform""" rnd_crop = RandomResizedCrop(output_shape) rnd_flip = RandomHorizontalFlip(p=0.5)  color_jitter = ColorJitter(0.8*s, 0.8*s, 0.8*s, 0.2*s) rnd_color_jitter = RandomApply([color_jitter], p=0.8)  rnd_gray = RandomGrayscale(p=0.2) gaussian_blur = GaussianBlur(kernel_size=kernel_size) rnd_gaussian_blur = RandomApply([gaussian_blur], p=0.5) to_tensor = ToTensor() image_transform = Compose([ to_tensor, rnd_crop, rnd_flip, rnd_color_jitter, rnd_gray, rnd_gaussian_blur,]) return image_transform  class ContrastiveLearningViewGenerator(object): """Take 2 random crops of 1 image as the query and key.""" def __init__(self, base_transform, n_views=2): self.base_transform = base_transform self.n_views = n_views  def __call__(self, x): views = [self.base_transform(x) for i in range(self.n_views)] return views

登录后复制

下一步就是定义一个PyTorch 的 Dataset 。

class CustomDataset(Dataset): def __init__(self, list_images, transform=None): """Args:list_images (list): List of all the imagestransform (callable, optional): Optional transform to be applied on a sample.""" self.list_images = list_images self.transform = transform  def __len__(self): return len(self.list_images)  def __getitem__(self, idx): if torch.is_tensor(idx): idx = idx.tolist()  img_name = self.list_images[idx] image = io.imread(img_name) if self.transform: image = self.transform(image)  return image

登录后复制

作为样例，我们使用比较小的模型 ResNet18 作为主干，所以他的输入是 224×224 图像，我们按照要求设置一些参数并生成dataloader

out_shape = [224, 224] kernel_size = [21, 21] # 10% of out_shape  # Custom transform base_transforms = get_complete_transform(output_shape=out_shape, kernel_size=kernel_size, s=1.0) custom_transform = ContrastiveLearningViewGenerator(base_transform=base_transforms)  garbage_ds = CustomDataset( list_images=glob.glob("/kaggle/input/garbage-classification/garbage_classification/*/*.jpg"), transform=custom_transform )  BATCH_SZ = 128  # Build DataLoader train_dl = torch.utils.data.DataLoader( garbage_ds, batch_size=BATCH_SZ, shuffle=True, drop_last=True, pin_memory=True)

登录后复制

SimCLR

我们已经准备好了数据，开始对模型进行复现。上面的增强模块提供了图像的两个增强视图，它们通过编码器前向传递以获得相应的表示。 SimCLR 的目标是通过鼓励模型从两个不同的增强视图中学习对象的一般表示来最大化这些不同学习表示之间的相似性。

编码器网络的选择不受限制，可以是任何架构。上面已经说了，为了简单演示，我们使用 ResNet18。编码器模型学习到的表示决定了相似性系数，为了提高这些表示的质量，SimCLR 使用投影头将编码向量投影到更丰富的潜在空间中。这里我们将ResNet18的512维度的特征投影到256的空间中，看着很复杂，其实就是加了一个带relu的mlp。

class Identity(nn.Module): def __init__(self): super(Identity, self).__init__() def forward(self, x): return x  class SimCLR(nn.Module): def __init__(self, linear_eval=False): super().__init__() self.linear_eval = linear_eval resnet18 = models.resnet18(pretrained=False) resnet18.fc = Identity() self.encoder = resnet18 self.projection = nn.Sequential( nn.Linear(512, 512), nn.ReLU(), nn.Linear(512, 256)) def forward(self, x): if not self.linear_eval: x = torch.cat(x, dim=0) encoding = self.encoder(x) projection = self.projection(encoding) return projection

登录后复制

对比损失

对比损失函数，也称为归一化温度标度交叉熵损失 (NT-Xent)，是 SimCLR 的一个关键组成部分，它鼓励模型学习相同图像的相似表示和不同图像的不同表示。

NT-Xent 损失是使用一对通过编码器网络传递的图像的增强视图来计算的，以获得它们相应的表示。对比损失的目标是鼓励同一图像的两个增强视图的表示相似，同时迫使不同图像的表示不相似。

NT-Xent 将 softmax 函数应用于增强视图表示的成对相似性。 softmax 函数应用于小批量内的所有表示对，得到每个图像的相似性概率分布。温度参数temperature 用于在应用 softmax 函数之前缩放成对相似性，这有助于在优化过程中获得更好的梯度。

在获得相似性的概率分布后，通过最大化同一图像的匹配表示的对数似然和最小化不同图像的不匹配表示的对数似然来计算 NT-Xent 损失。

LABELS = torch.cat([torch.arange(BATCH_SZ) for i in range(2)], dim=0) LABELS = (LABELS.unsqueeze(0) == LABELS.unsqueeze(1)).float() #one-hot representations LABELS = LABELS.to(DEVICE)  def ntxent_loss(features, temp): """NT-Xent Loss. Args:z1: The learned representations from first branch of projection headz2: The learned representations from second branch of projection headReturns:Loss""" similarity_matrix = torch.matmul(features, features.T) mask = torch.eye(LABELS.shape[0], dtype=torch.bool).to(DEVICE) labels = LABELS[~mask].view(LABELS.shape[0], -1) similarity_matrix = similarity_matrix[~mask].view(similarity_matrix.shape[0], -1)  positives = similarity_matrix[labels.bool()].view(labels.shape[0], -1)  negatives = similarity_matrix[~labels.bool()].view(similarity_matrix.shape[0], -1)  logits = torch.cat([positives, negatives], dim=1) labels = torch.zeros(logits.shape[0], dtype=torch.long).to(DEVICE)  logits = logits / temp return logits, labels

登录后复制

所有的准备都完成了，让我们训练 SimCLR 看看效果！

simclr_model = SimCLR().to(DEVICE) criterion = nn.CrossEntropyLoss().to(DEVICE) optimizer = torch.optim.Adam(simclr_model.parameters())  epochs = 10 with tqdm(total=epochs) as pbar: for epoch in range(epochs): t0 = time.time() running_loss = 0.0 for i, views in enumerate(train_dl): projections = simclr_model([view.to(DEVICE) for view in views]) logits, labels = ntxent_loss(projections, temp=2) loss = criterion(logits, labels) optimizer.zero_grad() loss.backward() optimizer.step()  # print stats running_loss += loss.item() if i%10 == 9: # print every 10 mini-batches print(f"Epoch: {epoch+1} Batch: {i+1} Loss: {(running_loss/100):.4f}") running_loss = 0.0 pbar.update(1) print(f"Time taken: {((time.time()-t0)/60):.3f} mins")

登录后复制

上面代码训练了10轮，假设我们已经完成了预训练过程，可以将预训练的编码器用于我们想要的下游任务。这可以通过下面的代码来完成。

from torchvision.transforms import Resize, CenterCrop resize = Resize(255) ccrop = CenterCrop(224) ttensor = ToTensor()  custom_transform = Compose([ resize, ccrop, ttensor, ])  garbage_ds = ImageFolder( root="/kaggle/input/garbage-classification/garbage_classification/", transform=custom_transform )  classes = len(garbage_ds.classes)  BATCH_SZ = 128  train_dl = torch.utils.data.DataLoader( garbage_ds, batch_size=BATCH_SZ, shuffle=True, drop_last=True, pin_memory=True, )  class Identity(nn.Module): def __init__(self): super(Identity, self).__init__() def forward(self, x): return x  class LinearEvaluation(nn.Module): def __init__(self, model, classes): super().__init__() simclr = model simclr.linear_eval=True simclr.projection = Identity() self.simclr = simclr for param in self.simclr.parameters(): param.requires_grad = False self.linear = nn.Linear(512, classes) def forward(self, x): encoding = self.simclr(x) pred = self.linear(encoding) return pred  eval_model = LinearEvaluation(simclr_model, classes).to(DEVICE) criterion = nn.CrossEntropyLoss().to(DEVICE) optimizer = torch.optim.Adam(eval_model.parameters())  preds, labels = [], [] correct, total = 0, 0  with torch.no_grad(): t0 = time.time() for img, gt in tqdm(train_dl): image = img.to(DEVICE) label = gt.to(DEVICE) pred = eval_model(image) _, pred = torch.max(pred.data, 1) total += label.size(0) correct += (pred == label).float().sum().item()  print(f"Time taken: {((time.time()-t0)/60):.3f} mins")  print( "Accuracy of the network on the {} Train images: {} %".format( total, 100 * correct / total))

登录后复制

上面的代码最主要的部分就是读取刚刚训练的simclr模型，然后冻结所有的权重，然后再创建一个分类头self.linear ，进行下游的分类任务

总结

本文介绍了SimCLR框架，并使用它来预训练随机初始化权重的ResNet18。预训练是深度学习中使用的一种强大的技术，用于在大型数据集上训练模型，学习可以转移到其他任务中的有用特征。SimCLR论文认为，批量越大，性能越好。我们的实现只使用128个批大小，只训练10个epoch。所以这不是模型的最佳性能，如果需要性能对比还需要进一步的训练。

下图是论文作者给出的性能结论：

以上就是使用Pytorch实现对比学习SimCLR 进行自监督预训练的详细内容，更多请关注【创想鸟】其它相关文章！

发布者：PHP中文网，转转请注明出处：https://www.chuangxiangniao.com/p/2243365.html

0 0

关于作者

PHP中文网签约作者

559.6K 文章

0 评论

1 粉丝

php中文网提供大量免费、原创、高清的php视频教程，并定期举行公益php培训！可边学习边在线修改示例代码，查看执行效果！php从入门到精通，一站式php自学平台！

2023 年度 JavaScript 框架和技术排行榜

上一篇 2025年2月26日 21:13:14

Python的基本语法与数据类型详解

下一篇 2025年2月26日 21:13:33

编程技术

分享一个跟前端相关算法题

下面说一个跟前端有点相关并且有点趣的一道算法题。题目：平面上有若干个不特定的形状，如下图所示。请写程序求出物体的个数，以及每个不同物体的面积。分析想要知道有多少个图形，想到的就是先获取图片中的每一个像素点然后判获取像素点的背景颜…

PHP中文网
2025年4月1日
2000
编程技术

JavaScript递归遍历和非递归遍历

这篇文章主要介绍了javascript实现多叉树的递归遍历和非递归遍历算法,结合实例形式详细分析了javascript多叉树针对json节点的递归与非递归遍历相关操作技巧,需要的朋友可以参考下本文实例讲述了JavaScript实现多叉树的…

PHP中文网
2025年3月31日
1000
编程技术

JS在合并多个数组时如何去重

这次给大家带来JS在合并多个数组时如何去重，JS在合并多个数组时去重的注意事项有哪些，下面就是实战案例，一起来看一下。 var arr1 = [‘a’,’b’];var arr2 = [‘a’,’c’,’d’];var arr3 = [1,…

PHP中文网
2025年3月31日
1000
编程技术

使用JavaScript如何实现贝塞尔曲线算法（详细教程）

这篇文章主要介绍了javascript实现的贝塞尔曲线算法,结合简单实例形式分析了基于javascript的贝塞尔曲线算法的相关实现技巧,需要的朋友可以参考下本文实例讲述了JavaScript实现的贝塞尔曲线算法。分享给大家供大家参考，具…

PHP中文网
2025年3月31日
1000
介绍一些经典算法的js实现方案

题目描述在一个二维数组中，每一行都按照从左到右递增的顺序排序，每一列都按照从上到下递增的顺序排序。请完成一个函数，输入这样的一个二维数组和一个整数，判断数组中是否含有该整数。 function Find(target,array){ …

PHP中文网
编程技术 2025年3月31日
1000
Linux下PyTorch安装的方法是什么

一、PyTorch简介 pytorch是一个开源的python机器学习库，基于torch，用于自然语言处理等应用程序。2017年1月，由facebook人工智能研究院（fair）基于torch推出pytorch。pytorch的前身是tor…

PHP中文网
2025年3月30日 • 编程技术
1000
页面置换算法_html/css_WEB-ITnose

最佳(Optimal)置换算法最佳置换算法是一种理想化的算法，它具有最好的性能，但实际上（目前）是无法实现的。最佳置换算法是由Belady于1966年提出的一种理论上的算法。其所选择的被淘汰页面，将是以后永不使用的，或许是在最长(未来)…

PHP中文网
编程技术 2025年3月28日
1000
编程技术

Vue开发注意事项：如何处理复杂数据结构和算法

在Vue开发中，我们经常会遇到处理复杂数据结构和算法的情况。这些问题可能涉及大量的数据操作、数据同步、性能优化等方面。本文将介绍一些处理复杂数据结构和算法的注意事项和技巧，帮助开发者更好地应对这些挑战。一、数据结构的选择在处理复杂数据结…

PHP中文网
2025年3月13日
2000
常用的JS排序算法

这次给大家带来常用的JS排序算法，使用JS排序算法的注意事项有哪些，下面就是实战案例，一起来看一下。 1.冒泡排序 var bubbleSort = function(arr) { for (var i = 0, len = arr.len…

PHP中文网
编程技术 2025年3月8日
4000
常见的前端JS算法总结

本篇文章给大家分享的内容是常见的前端JS算法总结，有着一定的参考价值，有需要的朋友可以参考一下排序算法 1、冒泡排序 function bubbleSort(arr){ var i = 0, j = 0; for(i=…

PHP中文网
编程技术 2025年3月8日
2000

发表回复

登录后才能评论

使用Pytorch实现对比学习SimCLR 进行自监督预训练

增强模块

SimCLR

对比损失

总结

关于作者

AD推荐 黄金广告位招租... 更多推荐

相关推荐

发表回复

分享到:

请登录

AD推荐黄金广告位招租... 更多推荐