Home

【论文阅读】为OCT图像的层分割任务设计基础模型

前几篇博客中已经介绍了ViT、MAE两个模型,最近看到一篇和笔者研究方向相关的基础模型的论文——基于ViT使用OCT图像进行层分割的基础模型,这个任务可以简单理解为从OCT的B扫描图像中分割出不同的层结构(在医学中有明确的定义),层结构的分割结果可以为疾病诊断提供见解(一些眼底疾病会导致层结构出现明显的变形),而笔者认为任务难点主要有: 朴素的语义分割方法难以获得明确的层次结构,在不确定性大的区域会出现层断裂等结果,导致无法获得连续的层结构; 面对疾病样本的分割效果很差,可能是病变少样本的原因; 而最近看到一篇2024年发表在DAGM German Conference on Pattern Recognition上的论文《Foundation Models Permi...

Read more

【论文阅读】MAE:Masked Auto-Encoder(简介+代码+面经)

这篇博客我们来看一下何凯明老师的掩码自编码器这篇工作,正式介绍之前先回顾一下上一篇介绍ViT的博客。之前提到ViT将原始的Transformer不作过多的修改、直接应用到视觉任务中,原论文中使用图像分类作为目标任务,其中详细描述了怎样对图像进行处理从而匹配Tranformer模型,在文章的最后作者提出了几个观点,值得注意的有两点,一是当时的工作只讨论了图像分类任务,而视觉中的分割、检测任务还没有被探索,二是作者简单尝试了自监督预训练策略,虽然比其他自监督方法更好,但效果不如监督学习策略,考虑到图像标签数据的规模有限,未来还是应当探索ViT用于自监督预训练。而MAE(Masked AutoEncoder)就相当于回答了ViT论文中最后提出的这两个问题,使用自监督预训练方法完成目标检测和分...

Read more

【论文阅读】ViT-Vision Transformer(简介+代码+面经)

上一篇论文已经对Transformer模型进行了比较详尽的介绍,之后在NLP领域又相当多的有名的工作出现,例如Bert、GPT等,但是在计算机视觉领域中,怎样合理地把图像数据输入Transformer结构中仍然是是一个未确定的问题。 在正式介绍论文内容之前,先来看一下视觉任务中使用Transformer模型的难点,Transformer可以实现高度并行的一个重要原因是多头自注意力机制将训练从RNN的串行变为并行,其中QKV的计算均通过矩阵乘法进行,底层GPU会进行相当多的优化,那么训练效率会进一步提升。 而视觉任务中,如果将图像中每个像素看作token,使用注意力机制学习所有像素之间的注意力,会受到显存容量的限制(例如一张128*128的图像,共有16,384个元素,那么两两计算全...

Read more

【论文阅读】Transformer-Attention is all you need(简介+代码)

最近在看自己小方向的两篇基础模型的论文,都是在MAE(Masked AutoEncoder)上开展的工作,所以沿着MAE -> ViT -> Transformer的路线又回顾了一下这几个经典的工作,也对之前学习中模糊的地方进行了重新思考,所以打算把这几个经典的工作都写一下博客。和之前的论文阅读系列不同,我会修改一下论文的介绍顺序(参考李沐老师论文阅读方法,顺序为Abstract-Introdution-Conclusion-Background-Method-Results),尝试深入浅出梳理论文的思路,并加入代码介绍的部分。下面就一起来看下这篇DL领域不可不读的论文,如果有误或有问题,欢迎交流~ 前言 这篇工作是Google在2017年发布的,其首次完全利用自注意力...

Read more

【论文阅读】多模态分割网络MMNet(CBAM的应用)

在介绍CBAM(Convolutional Block Attention Module)之后,我们来看一下这个模块在多模态任务中的一个应用:《MM-UNet: A multimodality brain tumor segmentation network in MRI images》(2区),面向脑部肿瘤分割的多模态网络——MMNet。 本文重点讨论CBAM模块如何添加到网络中,对其作用进行简要分析。论文的主要任务是给定4种模态的MRI图像,设计了MMNet(多编码器、单解码器架构),最终预测得到4类别的分割结果。 值得注意的是,和之前博客中的讨论一致,CBAM模块在网络中起到通道注意和空间注意的作用(也就是让网络学习关注什么、关注哪里),而没有多模态数据融合的作用(论文中的多...

Read more

【论文阅读】非局部神经网络浅读(简介+代码)

卷积和循环神经网络中每个时刻只能捕捉相邻位置元素的关系,而作者受到非局部均值滤波去噪算法的启发,设计了一个非局部网络块用来建模任意位置元素的关系,是自注意力应用于视觉任务的扩展,本质也可以看作“加权平均求和”。作者提出的通用的非局部网络块可以灵活地处理图像、序列、视频等多种任务,且可以放在网络的任意位置,在多个视觉任务中均使得模型效果提升。 卷积网络通过卷积核对相邻位置的元素进行建模(局部操作),如果需要建模远距离位置的话需要堆叠多个卷积核;而循环神经网络需要堆叠RNN块,依赖上一时刻的隐状态来预测当前时刻的输出(局部操作),从而对相邻位置的元素进行建模。这两种网络的“局部”操作带来的问题主要有: 计算低效,当两个元素的位置很远时,需要堆叠很多操作才能建立两者之间的联系; ...

Read more

【论文阅读】SENet和CBAM浅读(简介+代码)

最近阅读和自己研究方向比较相近的几篇论文时,其中均使用了SENet和CBAM中的模块,分别是Momenta与牛津大学的《Squeeze-and-Excitation Networks》和韩国科学技术院的《CBAM: Convolutional Block Attention Module》,这两篇工作的思路都比较清晰直观,并且后者是对前者的改进。这两项工作的核心都是一个“即插即用”的模块,因此笔者对两篇工作进行简单地总结和分析,尽可能在原论文的基础上加入自己的理解。 SENet CNN中的卷积块提取特征时,融合了空间和通道中的信息,是一种“局部感受野”。这篇工作中,作者更加关注不同通道之间的关系,因此设计了全新的网络块——Sequeeze-and-Excitation Block(...

Read more

【杂记】Ubuntu系统挂载U盘

今天写工作汇报PPT时发现服务器网线有问题,为了把网络的测试信息和结果从服务器中拿出来,尝试使用U盘。把U盘插上服务器后,直接将数据copy到U盘的目录下,结果发现再打开U盘时,U盘变成RAW没办法打开了!下面记录了正确的使用方法。(RAW状态下要先把U盘格式化) 查看U盘设备地址(通常情况下为:/dev/sdb1: sudo fdisk -l 接着在Ubuntu系统中创建目录作为挂载点,常用的是 /mnt/usb,挂载指令: sudo umount /dev/sdb1 sudo mount -t exfat /dev/sdb1 /mnt/usb 挂载之前要把默认的卸载掉,特别注意需要指定文件系统类型(在U盘的属性可以查看),如果不一致会导致U盘损坏。文件传输结束后需要卸...

Read more