Feature Engineering

#Feature Engineering| 来源: 网络整理| 查看: 265

特征工程

特征变量缺失值处理

Feature Engineering模块-Missing Features

丢弃特征变量缺失值

单击Drop Missing Fearures按钮，上传.csv文件之后，可以在Drop Missing Features功能下拉动Missing Threshold进度条，选择丢弃的缺失值特征的阈值，点击download可下载处理之后的数据。

填补特征变量缺失值

单击Fill Missing Features按钮，上传.csv文件之后，可以在Fill Missing Features功能下进行缺失值数据填补。fill method 选择填补方法，missing feature选择填补的特征，可以选择多个特征。 fill method-fill in normal method中可以选择mean, constant, median, most frequent特征均值、常数（默认为0），中位数和众数四种填补方式。

fill method-fill in RandomForestRegression中使用随机森林算法进行所有特征的空缺值填补，其中mean, constant, median, most frequent表示随机森林训练时填补特征的方式。点击download可下载处理之后的数据。

特征变量唯一值处理

在Feature Engineering模块- Drop Nunique Features模块下:

单击Drop Nuniqe Fearures按钮，上传.csv文件之后，在Drop Nunqiue Features功能下拉动drop unique counts进度条，选择丢弃的数值唯一性的特征的阈值，count=1代表丢弃数值在所有样本中都相同的特征，count=2代表丢弃数值在所有样本中只有两个值的特征，依次类推count=3...，在drop unique counts进度条下方的nunqiue表格中显示特征唯一值的统计数量。右侧表格显示处理之后的数据，点击download可下载。 Plot扩展栏中绘制了特征数据唯一值数量统计直方图，可调节图像的颜色、字体、标题和刻度大小

特征变量与目标变量相关性

在Feature Engineering模块- Correlation of Features vs Targets模块下: 点击Drop Low Correlation Features vs Target按钮，上传.csv文件之后，在Drop Low Correlation Features vs Target功能下choose target选择目标变量，显示特征与所选择目标的相关性横向直方图。correlation method中选择相关性方法中选择pearson,spearman,kendall,MIR 皮尔森相关性系数、斯皮尔曼相关性系数、肯德尔相关性系数（类别变量）、互信息方法。corr thershold f_t进度条中选择特征数据和目标的相关性阈值，低于阈值的特征将被丢弃。Processed Data中可点击download下载处理之后的数据。

特征变量与特征变量相关性

在Feature Engineering模块- Correlation of Features vs Features模块下:

点击Drop Collinear Features按钮，上传.csv文件之后，在Drop Collinear Features功能下choose target选择目标变量，显示特征与所选择目标的相关性系数热力图。correlation method中选择相关性方法中选择pearson,spearman,kendall, 皮尔森相关性系数、斯皮尔曼相关性系数、肯德尔相关性系数（类别变量）。在correlation threshold进度条中选择特征数据和特征数据之间的相关性阈值，高于阈值的两个特征将被筛选出来，丢弃其中与目标相关性更低的特征。在Processed Data中可点击download下载处理之后的数据。is mask功能选择是否将热力图进行掩码展示。drop features中显示丢弃的特征。Processed Data中可点击download下载处理之后的数据。

类别特征变量one-hot编码

在Feature Engineering模块- One-hot Encoding Features模块下: 点击One-hot Encoding按钮，上传.csv文件之后，在One-hot encoding Features中将会显示one-hot编码之后的数据，如类别特征Sex中值female和male将被转换为0,1和1,0，并删除旧特征Sex，创建新特征Sex_female和Sex_male添加到数据集中。Processed Data中可点击download下载处理之后的数据。

特征变量重要性排序

在Feature Engineering模块- Features Importance模块下: 点击Feature Importance按钮，上传.csv文件之后，在Choose Target功能下选择目标特征。在Selector功能下选择model，其中RandomForestClassifier负责分类目标数据的特征重要性排序。LassoRegressor, LinearRegressor,RandomForestRegressor, RidgeRegressor负责连续目标数据的特征重要性排序。Hyper Parameters中选择不同算法的超参数，cumulative importance选择按照特征重要性从大到小排列加和的阈值，舍弃阈值之后的特征。点击Embedded method将使用嵌入法按照特征从到小的顺序依次添加训练模型，可视化不同重要性的特征对模型的影响，cv可选择交叉验证的折数。点击train按钮，根据所选择的算法和超参数进行特征重要性排序，给出特征重要性计算表格，并绘制特征重要性直方图。Processed Data中可下载经过dropped zero importance的数据和经过dropped low importance的数据。

【本文地址】

公司简介

联系我们