Unsupervised Feature Learning via Non-Parametric Instance Discrimination Introduction 本文基于样本分类和噪声对比估计提出了一个无监督表示学习算法。下图展示了一个Intuition Example: 对于一个有监督的分类器,输入一张图片,作者观察到分类器的Softmax Response中较高的那些类都是在视觉上看起来比较接近的(美洲豹Leopard,美洲虎Jaguar,印度豹Cheetah),也就是说网络捕捉到了类间的视觉相似性,不过这是在有标签的 2020-09-23 Research Self-supervised Learning Representation Learning Self-supervised Learning
Representation Learning with Contrastive Predictive Coding Introduction 这篇文章算是Contrastive Learning的开山之作之一了,本文提出了表示学习框架:Contrastive Predictive Coding(CPC)和InfoNCE Loss。 原文 Proposed Method Contrastive Predictive Coding N-pair Loss: \[ \mathcal L=-\log\fra 2020-09-17 Research Self-supervised Learning Deep Learning Contrastive Learning Self-supervised Learning
Model Selection and Evaluation: Machine Learning Basics Overfitting 我们将模型输出与真实值之间的差异称为误差,如对于分类问题,我们可以使用模型分类错误的样本数量占总样本数的比例。模型在训练集(我们收集到的数据)上的误差称作是训练误差 (training error),而在新样本(这里指的是新的样本而不是测试集,训练集测试集是从我们收集到的数据上人为划分出来的)上的误差称作是泛化误差 (generalization error)。对于机器学 2020-09-09 Technical Notes Machine Learning Overfitting Bias Variance
Machine Learning Classification Algorithms: Decision Trees Introduction (PS:本文内容是学习高级树模型(GBDT,XGBoost)的基础,强烈建议在看那些内容之前先了解本文的内容!) 本文主要是介绍常用的三种决策树模型:ID3、C4.5和CART。决策树(Decision Tree)是一种有监督分类模型(稍加改造可进行回归任务)。 比如我们要判断一个瓜是不是好瓜,对于人来说,要判断一个瓜是不是好瓜,可能会先去看看色泽,然后看看根蒂,然 2020-09-02 Technical Notes Machine Learning ID3 C4.5 CART
Machine Learning Classification Algorithms: Support Vector Machine Introduction Still working on it😅... blog Hyperplane 超平面可以从代数和几何两方面来理解。超平面的代数定义可以看作是方程: \[ a_1x_1+\cdots+a_nx_n=d \] 的所有解形成的集合,其中\(a_1,\cdots,a_n\)为不全为\(0\)的实数,\(d\)也是实数。 从几何上来说,超平面可以看作是除空间\(R 2020-08-26 Technical Notes Machine Learning SVM
Machine Learning Ensemble Algorithms: GBDT and XGBoost Introduction 本文主要介绍GBDT和XGBoost,在学习本文内容之前建议先学习决策树相关内容。 下面是一些有用的参考链接: XGBoost Documentation AdaBoost blog GBDT blog slide 陈天奇slide blog blog Preliminaries 实际上,GBDT和梯度下降、XGBoost和牛顿法之间是存在密切关系的 2020-08-26 Technical Notes Machine Learning GBDT XGBoost
Unsupervised Representation Learning by Predicting Random Distances Introduction 针对高维表格数据的表示学习,作者提出了基于预测预计变换后的距离的无监督表示学习框架RDP,并进行了理论上的讨论。To be finished... 论文地址 代码地址 Proposed Method Random Distance Prediction Model 对于很多下游任务来说,高维数据对模型效率和性能都很大,所以学习低维的有意义(能够最大限度保存原始空 2020-08-24 Research Representation Learning Anomaly Detection Representation Learning
Effective End-to-end Unsupervised Outlier Detection via Linear Priority of Discriminative Network Introduction 本文针对无监督异常检测提出了\(E^3\space{Outlier}\)。作者使用自监督学习的方法,通过构建有监督任务在没有标签的情况下学习高层语义特征。PS:这篇文章的方法和NIPS18上的Deep Anomaly Detection Using Geometric Transformations(后面简称GEOM)颇为相似,但是不知为啥没有在实验中进行比较。后面我会 2020-07-14 Research Anomaly Detection Self-Supervised Learning
Probability Distributions - Binary and Multinomial Variables Overview 本文主要是介绍一些机器学习中常用的分布,内容主要来自PRML (Pattern Recognition and Machine Learning) 第二章Probability Distributions笔记的第一部分,主要包括2.1. Binary Variables和2.2. Multinomial Variables这两节。 Probability Distributi 2020-06-22 Research Notes Statistics Probability
Time2Graph: Revisiting Time Series Modeling with Dynamic Shapelets Introduction 本文旨在提供一种可解释的高效的时间序列建模(表示学习)方法来更好地服务分类任务。Shapelet在时间序列分类任务上体现了良好的可解释性。不过传统的基于Shapelet的方法忽略了Shapelet在不同时间片段上的动态性,即整个时间维度上不同的时间片段可能适合用不同的Shapelet。作者基于此设计了动态的time-aware shapelet,并且定义了shapele 2020-06-13 Research Time Series Modeling Time Series Shapelet