Self-Supervised Learning has become an exciting direction in AI community.

Jitendra Malik: “Supervision is the opium of the AI researcher”
Alyosha Efros: “The AI revolution will not be supervised”
Yann LeCun: “self-supervised learning is the cake, supervised learning is the icing on the cake, reinforcement learning is the cherry on the cake”

So, this blog is about the classic algorithm in self-supervised learning before 2019.

(Not finished)

常常在论文的相关工作里面可以看到这些讨论，还是需要去了解一下的。~~基本思路还是在变换图片的简单信息然后恢复原样，或者变换与未变换之间关联起来。~~

Unsupervised learning of visual representations by solving jigsaw puzzles(2016)

将图片 $I$ 首先分成9个不重叠的正方形小块，然后用N-way Siamese卷积网络（N-way之间共享网络参数）得到特征表示，然后将这些特征表示连结合并起来，判断它们之间的顺序关系。由于顺序的选择有 $N!$ 个，为了简化将选择的范围缩小到它的子集 $P$ 个，这样就变成了P分类问题了。

N-way shot：从元数据集中随机抽取n类（way）样本

Siamese network：就是Siamese给出输入的两张图片的相似性，Siamese不同于传统的分类网络给出类别，而是一个特征表示向量。具体来说就是，对于人脸识别中同一个人的向量距离很小，不同人的向量距离很大。（这个距离可以用欧式距离来评价）

Colorful image colorization(2016)

图片的光照版本lightness作为输入，预测ab channel。在构建训练数据时，将每个像素的a，b量化到Z个（论文中313）区间，每一个区间有一个中心(a, b)。量化方法是：将待量化的a，b与每个区间的中心(a, b)计算距离，选取K（论文中10）个距离最近的区间（k近邻问题），对这10个区间的距离的平方做类似softmax的处理变成概率。对于每个位置输出Z个概率，实验发现如果直接用模型输出的概率计算颜色，颜色饱和度会比较低；如果只选取最大的概率的区间所表示的颜色，整个图片会不连续。于是通过公式来调整模型输出的概率，然后用改变后的概率对区间中心加权求和得到最终的颜色。

评价标准是让志愿者（人）来指出哪个是真实的图片，哪个是生成的图片。

Deep InfoMax(Hjelm et al.2018)

Deep InfoMax 通过利用图像中的局部结构来学习图像表示，这个方法中的对比任务是对一对图像中的全局特征和局部特征进行分类。全局特征是CNN的最终输出（平面向量，Y），局部特征是编码器中的中间层的输出（M x M特征图）

Contrastive Predictive Coding (Oord et al., 2018)

Contrastive Predictive Coding (CPC) 是一个可以适用于文本、语音、视频、图像等任何形式数据的对比方法（图像可以看作为由像素或者图像块组成的序列）。

CPC通过对多个时间点共享的信息进行编码来学习特征表达，同时丢弃局部信息。这些特征被称为“慢特征”：随时间不会快速变化的特征。比如说：视频中讲话者的身份，视频中的活动，图像中的对象等。

转载请注明出处，谢谢。

愿我是你的小太阳