逻辑回归算法,本质上属于分类算法,可以用来预测某事件发生的概率。怎么理解逻辑回归算法呢?本文便做了基本原理、应用场景和优缺点等方面的拆解,一起来看一下吧。
上篇文章我们介绍了线性回归算法,今天我们来学习逻辑回归(LR,Logistic Regression)算法。
大家应该还记得,我们在找出薅羊毛用户的文章里提到过,当时使用的算法就是逻辑回归算法。
虽然名字里有“回归”两字,但实际上它却是一个分类算法,用来预测某事件发生的概率。
一、基本原理
在找出薅羊毛用户的时候,我们发现影响结果的条件主要有用户夜间活动比例、操作频率等。
如果我们用线性回归算法解决该问题的话,可以得到用户属于薅羊毛的一个指标:a1*夜间活动比例+a2*操作频率+…+b。
这个指标越大,属于薅羊毛用户的嫌疑也就越大,再找出几个阈值,就可以把用户分为正常、疑似、高危三类。
我们用线性回归算法貌似也能很顺利的完成任务。
但是如果存在几条比较离谱的异常数据,线性回归的那条线就会产生很大的偏移,导致预测结果不准确。
这个时候,我们可以用逻辑回归来解决这个问题。
逻辑回归的思路是使用平滑函数(如sigmod函数)将线性回归预测的具体值,转化成0到1之间的概率值,以减少极端值对整体分布的影响。
逻辑回归得到的输出值就是事件发生的概率,如果输出概率>0.5,说明大概率是薅羊毛用户,否则大概率是正常用户。
我们也可以看出线性回归和逻辑回归的区别:
逻辑回归一般采用交叉熵函数作为损失函数的评估目标。
交叉熵损失函数一般用来度量实际输出与期望输出之间的距离,交叉熵值越小,说明预测的误差越小,模型效果也就越好。
二、应用场景
逻辑回归是一种常用的分类算法,适用于许多不同的应用场景:
逻辑回归的优点:
逻辑回归的缺点:
本文我们介绍了逻辑回归的原理、应用场景和优缺点,逻辑回归是在线性回归的基础上,将预测值转化为事件的概率,用来解决分类问题。
下篇文章,我们来聊一聊决策树和随机森林算法,敬请期待。
本文由 @AI小当家 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 Unsplash,基于 CC0 协议