机器学习之「二分类算法」 您所在的位置:网站首页 电话营销的主要目的是 机器学习之「二分类算法」

机器学习之「二分类算法」

2024-06-09 23:05| 来源: 网络整理| 查看: 265

背景

数据共41188条,选自UCI机器学习库中的「银行营销数据集(Bank Marketing Data Set)」,这些数据与葡萄牙银行机构的营销活动相关。这些营销活动以电话为基础,一般,银行的客服人员需要联系客户至少一次,以此确认客户是否将认购该银行的产品(定期存款)。 通过与葡萄牙银行机构的直销活动(电话)有关的一些数据,预测客户是否会订阅定期存款(变量Y)。这对于实际生产有着巨大作用,可以通过这个预测结果对未来的工作进行一个初步规划,同时也可以对某些用户是否会订阅定期存款提供一个参照等;

数据说明

客户信息: Age:年龄 Job:工作,工作类型(分类:“行政管理”、“蓝领”、“企业家”、“女佣”、“管理”、 “退休”、“个体户”、“服务”、“学生”、“技术员”、“失业”、“未知”) Marital:婚姻,婚姻状况(分类:离婚,已婚,单身,未知)(注:“离婚”指离婚或丧偶) Education:教育(分类:‘基本.4y’,‘Basy.6y’,‘Basy.9y’’,‘Health.学校’,‘文盲’,‘专业’课程,‘大学学位’,‘未知’) Default:违约,信用违约吗?(分类:“不”,“是”,“不知道”) Housing:房,有住房贷款吗?(分类:“不”,“是”,“不知道”) Loan:贷款,有个人贷款吗?((分类:“不”,“是”,“不知道”)

预测相关的其他数据: Contact:接触方式(分类:“移动电话”,“固定电话”) Month:月,最后一个联系月份(分类:‘MAR’,…,‘NOV’,’DEC’) Day_of_week:每周的天数,最后一周的联系日(分类):“Mon”、“Tee”、“We”、“TUU”、“FRI” Duration:持续时间,最后的接触持续时间,以秒为单位 Campaign:在这次战役和这个客户联系的执行人数量 Pdays:客户上次从上次活动中联系过去之后的天数(数字;999表示以前没有联系过客户) Previous:本次活动之前和本客户端的联系人数(数字) Proutcome:前一次营销活动的结果(分类:失败,不存在,成功)

社会和经济背景属性 EMP.var.rate:就业变化率-季度指标(数字) cons.price.idx:消费者价格指数-月度指标(数字) cons.conf.idx:消费者信心指数-月度指标(数字) euribor3m::欧元同业拆借利率3个月利率-每日指标(数字) nr.employed:员工人数-季度指标(数字)

输出变量: Y -客户是否会定期存款?“是”、“否”

数据预处理 删除用户ID 缺失值处理,观察数据可以得知,数值型变量没有缺失,非数值型变量可能存在unknown值。 (1)删除 “unknown” (2)缺失值分析 (3)采用随机森林对缺失值进行插补 在这里插入图片描述 可以看到部分数据中缺失值的情况还是比较严重的,直接删除会对预测结果有较大影响,采取效果较好的随机森林插补缺失值的方法。在数据量较大的情况下,插补时间较长。 #随机森林插补缺失值 > library(missForest) > data=missForest(mydata) missForest iteration 1 in progress...done! missForest iteration 2 in progress...done! missForest iteration 3 in progress...done! missForest iteration 4 in progress...done! > intact=data$ximp > md.pattern(intact) job marital education default housing loan contact month day_of_week


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有