首页 > 资讯 > 后端开发 > Python >Kaggle实战入门：泰坦尼克号生还预测（进阶版）

171

分享到

Kaggle实战入门：泰坦尼克号生还预测（进阶版）

机器学习 python 人工智能数据挖掘 2023-08-31 22:08:23 171人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

Kaggle实战入门：泰坦尼克号生还预测 1. 加载数据2. 特征工程3. 模型训练4. 模型部署 Kaggle实战入门：泰坦尼克号生还预测（基础版）对机器学习的全流程进行了总体介绍。本文

Kaggle实战入门：泰坦尼克号生还预测

1. 加载数据
2. 特征工程
3. 模型训练
4. 模型部署

Kaggle实战入门：泰坦尼克号生还预测（基础版）对机器学习的全流程进行了总体介绍。本文继续以泰坦尼克号生还预测为例，对机器学习中的特征工程、模型构建进行深入解读。

数据集及代码下载

1. 加载数据

由于针对训练数据集、测试数据集均要做空值填充、编码转换、离散化、归一化等处理，因此可以加载训练数据集、测试数据集对其统一进行处理。

train_file = r'datasets/train.csv'test_file  = r'datasets/test.csv'data = pd.read_csv(train_file,index_col='PassengerId')data_sub = pd.read_csv(test_file,index_col='PassengerId') data_copy = data.copy()del data_copy['Survived']data_all = pd.concat([data_copy,data_sub]) #数据合并

data_all.info() #查看数据情况

输出

Int64Index: 1309 entries, 1 to 1309
Data columns (total 10 columns):
Pclass 1309 non-null int64
Name 1309 non-null object
Sex 1309 non-null object
Age 1046 non-null float64
SibSp 1309 non-null int64
Parch 1309 non-null int64
Ticket 1309 non-null object
Fare 1308 non-null float64
Cabin 295 non-null object
Embarked 1307 non-null object
dtypes: float64(2), int64(3), object(5)
memory usage: 112.5+ KB

2. 特征工程

（1）填充空值

需要填充空值的字段包括：Age、Fare、Embarked 三个字段，其中使用众数填充Embarked``Age的空值，使用均值填充Fare``Age的空值。

由于Name里有Mr,Mrs,Miss等称谓，可使用称谓对应的年龄的均值来填充Age的空值。

#填充Fare与Embark空值Embarked_mode = data_all.Embarked.mode()[0] #计算众数data_all.Embarked=data_all.Embarked.fillna(Embarked_mode) #众数填充Fare_mean = data_all[data_all.Pclass == 3].Fare.mean() #计算均值data_all.Fare=data_all.Fare.fillna(Fare_mean) #均值填充#根据Title填充Age空值def get_title(name):    title_search = re.search("([A-Za-z]+)\.",name)    if title_search:        return title_search.group(1)    return ""data_all['Title'] = data_all.Name.apply(get_title)for title in data_all[data_all.Age.isnull()].Title.unique():    title_age_mean = data_all[data_all.Title == title].Age.mean()    data_all.loc[data_all.Age.isnull()*data_all.Title == title,'Age'] = title_age_mean

（2）Age空值离散化

#年龄离散化bins=[0,14,30,45,60,80]cats=pd.cut(data_all.Age.as_matrix(),bins) data_all.Age=cats.codes

（3）Fare归一化

使用StandardScaler方法对Fare归一化处理

scaler=StandardScaler()data_all.Fare=scaler.fit_transfORM(data_all.Fare.values.reshape(-1,1))

(4)形成新属性FamilySize

data_all['FamilySize'] = data_all.Parch + data_all.SibSp

（5）One-Hot Encoding

针对Embarked(‘S’, ‘C’, 'Q’三个取值)、Pclass(1,2,3三个取值)字段，若简单的将其映射为数值 $0, 1, 2$ ，训练时模型会认为该属性的数据具有线性特征。

机器学习中，一般将离散型特征（标称属性、序数属性）的每个取值都看成一种状态，若该特征中有 $N$ 个不相同的取值，可通过One-Hot Encoding（独热编码），将其转换为 $N$ 个状态，只有一个状态位值为 $1$ ，其他状态位都是 $0$ ，即将其转换为 $N$ 个二元特征。使得模型具有较强的非线性能力。

对于Sex、Pclass、Embarked属性使用pd.get_dummies方法，将其转换为One-hot向量，如将Embarked转换为 $[1, 0, 0], [0, 1, 0], [0, 0, 1]$ ，

对于Cabin，将其展开为两个属性：数据中Cabin值为空的Cabin_null取值为1，Cabin_nnull取值为0；Cabin值不为空的Cabin_null取值为1，Cabin_nnull取值为0。

Sex_dummies = pd.get_dummies(data_all.Sex, prefix= 'Sex')Pclass_dummies = pd.get_dummies(data_all.Pclass,prefix= 'Pclass')Embarked_dummies = pd.get_dummies(data_all.Embarked,prefix= 'Embarked')data_all['Cabin_null'] = np.array(data_all.Cabin.isnull()).astype(np.int32)data_all['Cabin_nnull'] = np.array(data_all.Cabin.notnull()).astype(np.int32)

各个特征（属性）的处理总结如下

属性名	处理方式
Pclass	形成One-Hot向量
Name	未处理
Sex	形成One-Hot向量
Age	根据称谓填充空值后，离散化
SibSp	形成新属性FamilySize
Parch
Ticket	未处理
Fare	归一化
Cabin	形成One-Hot向量
Embarked	形成One-Hot向量

构建训练数据：

data_all = pd.concat([data_all, Sex_dummies, Pclass_dummies,Embarked_dummies], axis=1)feature = [ 'Age','Fare','FamilySize','Cabin_null','Cabin_nnull','Sex_female','Sex_male','Pclass_1','Pclass_2','Pclass_3','Embarked_C','Embarked_Q','Embarked_S']X = data_all.loc[data.index][feature] y = data.Survived

3. 模型训练

（1）组合分类器

组合分类器将多个不同类型的分类器（例如逻辑回归，SVM，随机森林）的预测结果进行组合，将多数分类器输出的结果作为最终的预测结果（hard voting classifier）。如果所有的分类器都能够预测类别的概率（拥有predict_proba方法），可将平均概率最高的结果作为最终的预测结果（soft voting classifier）通常比hard voting classifier效果好。

（2）参数优化

机器学习中的一项主要工作是参数优化（俗称“调参”）。sklearn提供了GridSearchCV方法，它网格式的自动遍历提供的参数组合，通过交叉验证确定最优化结果的参数（可通过best_params_属性查看）。

本文使用的分类器包括：随机森林、支持向量机、GBDT和神经网络。

from sklearn.model_selection import GridSearchCV, StratifiedKFoldkfold = StratifiedKFold(n_splits=10)clf_RF = RF()rf_param_grid = {"max_depth": [None],              "max_features": [1, 3, 10],              "min_samples_split": [2, 3, 10],              "min_samples_leaf": [1, 3, 10],              "bootstrap": [False],              "n_estimators" :[100,300,500],              "criterion": ["gini"]}gsRF = GridSearchCV(clf_RF,param_grid = rf_param_grid, cv=kfold,scoring="accuracy", n_jobs= 4, verbose = 1)gsRF.fit(X,y)rf_best = gsRF.best_estimator_clf_SVC = SVC(probability=True)svc_param_grid = {'kernel': ['rbf'],                   'gamma': [ 0.001, 0.01, 0.1, 1],                  'C': [1, 10, 50, 100,200,300, 1000]}gsSVC = GridSearchCV(clf_SVC,param_grid = svc_param_grid, cv=kfold, scoring="accuracy", n_jobs= 4, verbose = 1)gsSVC.fit(X,y)svm_best = gsSVC.best_estimator_clf_GB = GB()gb_param_grid = {'loss' : ['deviance'],              'n_estimators' : [100,300,500],              'learning_rate': [0.1, 0.05, 0.01],              'max_depth': [4, 8],              'min_samples_leaf': [100,150],              'max_features': [0.3, 0.1]}gsGB = GridSearchCV(clf_GB,param_grid = gb_param_grid, cv=kfold, scoring="accuracy", n_jobs= 4, verbose = 1)gsGB.fit(X,y)gb_best = gsGB.best_estimator_clf_MLP = MLP()mlp_param_grid = {'hidden_layer_sizes' : [100,200,300,400,500],              'activation' : ['relu'],              'solver' : ['adam'],              'learning_rate_init': [0.01, 0.001],              'max_iter': [5000]}gsMLP = GridSearchCV(clf_MLP,param_grid = mlp_param_grid, cv=kfold, scoring="accuracy", n_jobs= 4, verbose = 1)gsMLP.fit(X,y)mlp_best = gsMLP.best_estimator_votinGC = VotingClassifier(estimators=[('clf_GB', gb_best),  ('clf_RF', rf_best),('clf_SVC', svm_best),('clf_MLP',mlp_best)],voting='soft', n_jobs=4)votingC = votingC.fit(X, y)

4. 模型部署

使用predict方法预测，将生成的结果文件在Kaggle页面点击Submit Predictions进行提交，Kaggle会给出准确率和排名。

X_sub = data_all.loc[data_sub.index][feature]  #提取测试数据特征y_sub = votingC.predict(X_sub) #使用模型预测数据标签result = pd.DataFrame({'PassengerId':data_sub.index,'Survived':y_sub})result.to_csv(r'D:\[DataSet]\1_Titanic\submission.csv', index=False)

来源地址：https://blog.csdn.net/apr15/article/details/129697048

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Kaggle实战入门：泰坦尼克号生还预测（进阶版）

本文链接: https://www.lsjlt.com/news/387135.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Kaggle实战入门：泰坦尼克号生还预测（进阶版）

Kaggle实战入门：泰坦尼克号生还预测 1. 加载数据2. 特征工程3. 模型训练4. 模型部署 Kaggle实战入门：泰坦尼克号生还预测（基础版）对机器学习的全流程进行了总体介绍。本文...

99+

2023-08-31

机器学习 python 人工智能数据挖掘
使用python对泰坦尼克号幸存者进行数据分析与预测

目录引言数据获取数据初步观察与处理数据观察数据清理4C原则缺失值处理（Completing）Embarked的处理Age的处理Cabin的处理异常值的检测与处理（Correcting...

99+

2023-03-22

python泰坦尼克幸存者分析 python数据分析
如何使用python对泰坦尼克号幸存者进行数据分析与预测

本篇内容主要讲解“如何使用python对泰坦尼克号幸存者进行数据分析与预测”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“如何使用python对泰坦尼克号幸存者进行数据分析与预测”吧!数据获取当我...

99+

2023-07-05
【机器学习实战】基于python对泰坦尼克幸存者进行数据分析与预测

📚引言 🙋‍♂️作者简介：生鱼同学，大数据科学与技术专业硕士在读👨‍🎓，曾获得华为杯数学建模国家二等奖🏆，Matho...

99+

2023-09-02

python 机器学习数据分析