逻辑回归整理

发表于 2017-10-03 | 分类于机器学习

逻辑回归是一种思想简单但是非常实用的算法，主要用来处理数据规模庞大、维度较高且对实时性有一定要求的分类问题。目前我知道的逻辑回归在工业界的应用主要有点击率预估、用户分群；在较为复杂的分类或者回归问题中逻辑回归可以用来当作stage1的分类算法，对初始数据进行一个预分类保证用于训练的数据足够干净；此外，其估计函数sigmoid函数也广泛应用于xgboost和神经网络这类较为复杂的算法，作为数据划分和神经元中的非线性函数（我认为主要是因为sigmoid函数的数据归一化能力和损失函数求导比较方便）。

基本思想

目标估计函数为sigmoid函数：
$$
P(y=1|x,\theta)=\frac{1}{1+e^{-\theta{x}}}
$$

$$
P(y=0|x,\theta)=\frac{e^{-\theta{x}}}{1+e^{-\theta{x}}}
$$
以\(\theta{x}\)为横坐标，\(P(y=1|x,\theta)\)为纵坐标，其图形是一条以\((0,0.5)\)为中心对称的S形曲线，如下图所示。这条曲线在中心附近增速较快，两端增速较慢，使得在用梯度下降法训练模型时，分类边界点附近的数据对模型的作用较大，而越趋于两端的数据对模型的作用就越小。这种做法在一定程度上避免了异常值对模型的作用过大，起一个归一化作用，提升模型的抗干扰能力。

模型的损失函数采用对数似然函数：
$$
\prod_{i=1}^N{[P(y=1|x_i,\theta)]}^{y_i}{[P(y=0|x_i,\theta)]}^{1-y_i}
$$

优化算法

技巧

新的理解方式（待定）