深入解读逻辑回归LogisticRegression:适用于初学者 您所在的位置:网站首页 回归分析相关系数r表达式 深入解读逻辑回归LogisticRegression:适用于初学者

深入解读逻辑回归LogisticRegression:适用于初学者

2023-12-28 12:54| 来源: 网络整理| 查看: 265

深入解读Logistic回归及其结果:回归系数,OR,odds

声明:本文并非原创,大部分整理自网络,有部分自己修改。

参考文献: 1、原文网址:http://blog.sina.com.cn/s/blog_44befaf60102vznn.html 2、原文大量参考网址:http://www.ats.ucla.edu/stat/mult_pkg/faq/general/odds_ratio.htm 3、https://www.jianshu.com/p/11ea30121a79 4、 阿里天池龙珠计划寒假训练营

逻辑回归简介

Logistic回归虽然名字叫”回归” ,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。 逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热,但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。

而对于逻辑回归而且,最为突出的两点就是其模型简单和模型的可解释性强。

逻辑回归模型的优劣势:

优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;缺点:容易欠拟合,分类精度可能不高 逻辑回归的应用 逻辑回归模型广泛用于各个领域,包括机器学习,大多数医学领域和社会科学。例如,最初由Boyd 等人开发的创伤和损伤严重度评分(TRISS)被广泛用于预测受伤患者的死亡率,使用逻辑回归 基于观察到的患者特征(年龄,性别,体重指数,各种血液检查的结果等)分析预测发生特定疾病(例如糖尿病,冠心病)的风险。逻辑回归模型也用于预测在给定的过程中,系统或产品的故障的可能性。还用于市场营销应用程序,例如预测客户购买产品或中止订购的倾向等。在经济学中它可以用来预测一个人选择进入劳动力市场的可能性,而商业应用则可以用来预测房主拖欠抵押贷款的可能性。条件随机字段是逻辑回归到顺序数据的扩展,用于自然语言处理。

逻辑回归模型现在同样是很多分类算法的基础组件,比如 分类任务中基于GBDT算法+LR逻辑回归实现的信用卡交易反欺诈,CTR(点击通过率)预估等,其好处在于输出值自然地落在0到1之间,并且有概率意义。模型清晰,有对应的概率学理论基础。它拟合出来的参数就代表了每一个特征(feature)对结果的影响。也是一个理解数据的好工具。但同时由于其本质上是一个线性的分类器,所以不能应对较为复杂的数据情况。很多时候我们也会拿逻辑回归模型去做一些任务尝试的基线(基础水平)。

一 从线性回归到Logistic回归

线性回归和Logistic回归都是广义线性模型的特例。

假设有一个因变量y和一组自变量x1, x2, x3, … , xn,其中y为连续变量,我们可以拟合一个线性方程:

y =β0 +β1x1 +β2x2 +β3x3 +…+βnxn

并通过最小二乘法估计各个β系数的值。

如果y为二分类变量,只能取值0或1,那么线性回归方程就会遇到困难: 方程右侧是一个连续的值,取值为负无穷到正无穷,而左侧只能取值[0,1],无法对应。为了继续使用线性回归的思想,统计学家想到了一个变换方法,就是将方程右边的取值变换为[0,1]。最后选中了Logistic函数:

y = 1 / (1+e-x)

这是一个S型函数,值域为(0,1),能将任何数值映射到(0,1),且具有无限阶可导等优良数学性质。

我们将线性回归方程改写为:

y = 1 / (1+e-z),

其中,z =β0 +β1x1 +β2x2 +β3x3 +…+βnxn

此时方程两边的取值都在0和1之间。

进一步数学变换,可以写为:

Ln(y/(1-y)) =β0 +β1x1 +β2x2 +β3x3 +…+βnxn

Ln(y/(1-y))称为Logit变换。我们再将y视为y取值为1的概率p(y=1),因此,1-y就是y取值为0的概率p(y=0),所以上式改写为:

p(y=1) = ez/(1+ez)​,

p(y=0) = 1/(1+ez),

其中,z =β0 +β1x1 +β2x2 +β3x3 +…+βnxn.

接下来就可以使用”最大似然法”估计出各个系数β。

二 odds与OR复习

odds: 称为几率、比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。用p表示事件发生的概率,则:odds = p/(1-p)。

OR(Odds Ratio):几率比或者风险比,在有些参考资料上也叫优势比、比值比。为实验组的事件发生几率(odds1)/对照组的事件发生几率(odds2)。

例如:OR 在流行病学中的应用 OR常用于流行病学中病例-对照研究资料,表示病例组和对照组的暴露比例与非暴露比例之比。

当odds1>odds2时,OR>1,说明疾病的危险度因暴露而增加,暴露与疾病之间为“正”关联。

当odds1



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有