Traditional_machine_learning_tutorial

1. 数据预处理

1.1 数据清洗

常见问题：

缺失值（NaN）
异常值（Outliers）
重复样本
不一样格式（如YES/yes/Y）

缺失值的处理：删除和填充异常值检测与处理

1.2 缺失值的处理

import pandas as pd
import numpy as np
df = pd.DataFrame({
'A': [1, 2, np.nan, 4],
'B': [5, np.nan, np.nan, 8],
'C': [9, 10, 11, 12],
'D':['','','','']
})

删除含有任何缺失值的行

df_dropped = df.dropna()
print("删除后:\n",df_dropped)

删除包含Na的列

df_dropped_col = df.dropna(axis=1)
print(df_dropped_col)

删除所有值都是Na的列

df_dropped_all_col = df.dropna(axis=1,how="all")
print(df_dropped_all_col)

填充缺失值

使用SimpleImputer填充

#引入SimpleImputer填充模块
from sklearn.impute import SimpleImputer
imputer_num = SimpleImputer(strategy='mean') #均值
imputer_cat = SimpleImputer(strategy='most_frequent') #众数
#df['A'] = imputer_num.fit_transform(df[['A']]) #对某1列进行均值填充
df_fill=pd.DataFrame(imputer_num.fit_transform(df),columns=df.columns) #对整个数据框进行均值填充
print(df_fill)

KNN或插值（时间序列）

from sklearn.impute import KNNImputer
#基于相似特征K紧邻填充
imputer_knn = KNNImputer(n_neighbors=2)
df_filled = pd.DataFrame(imputer_knn.fit_transform(df),columns=df.columns) #这里是使用knn对整个数据框进行填充

填充时的注意事项：

fit() 用于训练数据生成学习模型参数
transform() 从fit()方法生成的参数，应用于模型以生成转换数据集
fit_transform() 在同一个数据集上组合fit()和transform()

实际使用时，需要先对训练集进行fit(),然后在测试集上transform(),以避免数据泄露。

import sklearn
from sklearn.datasets import load_iris #内置的数据集
from sklearn.model_selection import train_test_split #数据分割模型
iris = load_iris()

1.3 异常值检测与处理

IQR四分位距法（适用于数值型） ``` #定义一个函数，传入数据框和列名，输出使用IQR过滤后的数据框 def remove_outliners_iqr(df,col): Q1 = df[col].quantile(0.25) Q3 = df[col].quantile(0.75) IQR = Q3 - Q1 lower = Q1 - 1.5 * IQR upper = Q3 + 1.5 *IQR return df[(df[col]>=lower) & (df[col]<=upper)]

#使用这个函数 df_clean = remove_outliners_iqr(df,’A’) #移除数据框df的A列中的异常值 print(df_clean)

- 使用IsolationForest(无监督异常检测)

from sklearn.ensemble import IsolationForest iso_forest = IsolationForest(contamination=0.1,random_state=100) outliers = iso_forest.fit_predict(df[[‘A’,’B’]]) #-1表示异常 df[‘is_outlier’]=outliers #新增1列，即为-1和1的值，1是正常，-1是异常 df_clean=df[df[‘is_outlier’]==1] #筛选出正常的值的行 ```

This site is open source. Improve this page.