iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >用Python做一个房价预测小工具!
  • 871
分享到

用Python做一个房价预测小工具!

工具Python房价 2023-05-14 20:05:13 871人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

哈喽,大家好。这是一个房价预测的案例,来源于 Kaggle 网站,是很多算法初学者的第一道竞赛题目。该案例有着解机器学习问题的完整流程,包含EDA、特征工程、模型训练、模型融合等。房价预测流程下面跟着我,来学习一下该案例。没有啰嗦的文字,没

用Python做一个房价预测小工具!

哈喽,大家好。

这是一个房价预测的案例,来源于 Kaggle 网站,是很多算法初学者的第一道竞赛题目。

该案例有着解机器学习问题的完整流程,包含EDA、特征工程、模型训练、模型融合等。

用Python做一个房价预测小工具!

房价预测流程

下面跟着我,来学习一下该案例。

没有啰嗦的文字,没有多余的代码,只有通俗的讲解。

一. EDA

探索性数据分析(Exploratory Data Analysis,简称EDA) 的目的是让我们对数据集有充分的了解。在这一步,我们探索的内容如下:

用Python做一个房价预测小工具!

EDA内容

1.1 输入数据集

train = pd.read_csv('./data/train.csv')
test = pd.read_csv('./data/test.csv')

用Python做一个房价预测小工具!

训练样本

train和test分别是训练集和测试集,分别有 1460 个样本,80 个特征。

SalePrice列代表房价,是我们要预测的。

1.2 房价分布

因为我们任务是预测房价,所以在数据集中核心要关注的就是房价(SalePrice) 一列的取值分布。

sns.distplot(train['SalePrice']);

用Python做一个房价预测小工具!

房价取值分布

从图上可以看出,SalePrice列峰值比较陡,并且峰值向左偏。

也可以直接调用skew()和kurt()函数计算SalePrice具体的偏度和峰度值。

对于偏度和峰度都比较大的情况,建议对SalePrice列取log()进行平滑。

1.3 与房价相关的特征

了解完SalePrice的分布后,我们可以计算 80 个特征与SalePrice的相关关系。

重点关注与SalePrice相关性最强的 10 个特征。

# 计算列之间相关性
corrmat = train.corr()
# 取 top10
k = 10
cols = corrmat.nlargest(k, 'SalePrice')['SalePrice'].index
# 绘图
cm = np.corrcoef(train[cols].values.T)
sns.set(font_scale=1.25)
hm = sns.heatmap(cm, cbar=True, annot=True, square=True, fmt='.2f', annot_kws={'size': 10}, yticklabels=cols.values, xticklabels=cols.values)
plt.show()

用Python做一个房价预测小工具!

与SalePrice高度相关的特征

OverallQual(房子材料和装饰)、GrLivArea(地上居住面积)、GarageCars(车库容量)和 TotalBsmtSF(地下室面积)跟SalePrice有很强的相关性。

这些特征在后面做特征工程时也会重点关注。

1.4 剔除离群样本

由于数据集样本量很少,离群点不利于我们后面训练模型。

所以需要计算每个数值特性的离群点,剔除掉离群次数最多的样本。

# 获取数值型特征
numeric_features = train.dtypes[train.dtypes != 'object'].index
# 计算每个特征的离群样本
for feature in numeric_features:
outs = detect_outliers(train[feature], train['SalePrice'],top=5, plot=False)
all_outliers.extend(outs)
# 输出离群次数最多的样本
print(Counter(all_outliers).most_common())
# 剔除离群样本
train = train.drop(train.index[outliers])

detect_outliers()是自定义函数,用sklearn库的LocalOutlierFactor算法计算离群点。

到这里, EDA 就完成了。最后,将训练集和测试集合并,进行下面的特征工程。

y = train.SalePrice.reset_index(drop=True)
train_features = train.drop(['SalePrice'], axis=1)
test_features = test
features = pd.concat([train_features, test_features]).reset_index(drop=True)

features合并了训练集和测试集的特征,是我们下面要处理的数据。

二. 特征工程

用Python做一个房价预测小工具!

特征工程

2.1 校正特征类型

MSSubClass(房屋类型)、YrSold(销售年份)和MoSold(销售月份)是类别型特征,只不过用数字来表示,需要将它们转成文本特征。

features['MSSubClass'] = features['MSSubClass'].apply(str)
features['YrSold'] = features['YrSold'].astype(str)
features['MoSold'] = features['MoSold'].astype(str)

2.2 填充特征缺失值

填充缺失值没有统一的标准,需要根据不同的特征来决定按照什么样的方式来填充。

# Functional:文档提供了典型值 Typ
features['Functional'] = features['Functional'].fillna('Typ') #Typ 是典型值
# 分组填充需要按照相似的特征分组,取众数或中位数
# MSZoning(房屋区域)按照 MSSubClass(房屋)类型分组填充众数
features['MSZoning'] = features.groupby('MSSubClass')['MSZoning'].transfORM(lambda x: x.fillna(x.mode()[0]))
#LotFrontage(到接到举例)按Neighborhood分组填充中位数
features['LotFrontage'] = features.groupby('Neighborhood')['LotFrontage'].transform(lambda x: x.fillna(x.median()))
# 车库相关的数值型特征,空代表无,使用0填充空值。
for col in ('GarageYrBlt', 'GarageArea', 'GarageCars'):
features[col] = features[col].fillna(0)

2.3 偏度校正

跟探索SalePrice列类似,对偏度高的特征进行平滑。

# skew()方法,计算特征的偏度(skewness)。
skew_features = features[numeric_features].apply(lambda x: skew(x)).sort_values(ascending=False)
# 取偏度大于 0.15 的特征
high_skew = skew_features[skew_features > 0.15]
skew_index = high_skew.index
# 处理高偏度特征,将其转化为正态分布,也可以使用简单的log变换
for i in skew_index:
features[i] = boxcox1p(features[i], boxcox_normmax(features[i] + 1))

2.4 特征删除和新增

对于几乎都是缺失值,或单一取值占比高(99.94%)的特征可以直接删除。

features = features.drop(['Utilities', 'Street', 'PoolQC',], axis=1)

同时,可以融合多个特征,生成新特征。

有时候模型很难学习到特征之间的关系,手动融合特征可以降低模型学习难度,提升效果。

# 将原施工日期和改造日期融合
features['YrBltAndRemod']=features['YearBuilt']+features['YearRemodAdd']
# 将地下室面积、1楼、2楼面积融合
features['TotalSF']=features['TotalBsmtSF'] + features['1stFlrSF'] + features['2ndFlrSF']

可以发现,我们融合的特征都是与SalePrice强相关的特征。

最后简化特征,对分布单调的特征(如:100个数据中有99个的数值是0.9,另1个是0.1),进行01处理。

features['haspool'] = features['PoolArea'].apply(lambda x: 1 if x > 0 else 0)
features['has2ndfloor'] = features['2ndFlrSF'].apply(lambda x: 1 if x > 0 else 0)

2.6 生成最终训练数据

到这里特征工程就做完了, 我们需要从features中将训练集和测试集重新分离出来,构造最终的训练数据。

X = features.iloc[:len(y), :]
X_sub = features.iloc[len(y):, :]
X = np.array(X.copy())
y = np.array(y)
X_sub = np.array(X_sub.copy())

三. 模型训练

因为SalePrice是数值型且是连续的,所以需要训练一个回归模型。

3.1 单一模型

首先以岭回归(Ridge) 为例,构造一个k折交叉验证模型。

from sklearn.linear_model import RidgeCV
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import KFold
kfolds = KFold(n_splits=10, shuffle=True, random_state=42)
alphas_alt = [14.5, 14.6, 14.7, 14.8, 14.9, 15, 15.1, 15.2, 15.3, 15.4, 15.5]
ridge = make_pipeline(RobustScaler(), RidgeCV(alphas=alphas_alt, cv=kfolds))

岭回归模型有一个超参数alpha,而RidgeCV的参数名是alphas,代表输入一个超参数alpha数组。在拟合模型时,会从alpha数组中选择表现较好某个取值。

由于现在只有一个模型,无法确定岭回归是不是最佳模型。所以我们可以找一些出场率高的模型多试试。

# lasso
lasso = make_pipeline(
RobustScaler(),
LassoCV(max_iter=1e7, alphas=alphas2, random_state=42, cv=kfolds))
#elastic net
elasticnet = make_pipeline(
RobustScaler(),
ElasticNetCV(max_iter=1e7, alphas=e_alphas, cv=kfolds, l1_ratio=e_l1ratio))
#svm
svr = make_pipeline(RobustScaler(), SVR(
C=20,
epsilon=0.008,
gamma=0.0003,
))
#GradientBoosting(展开到一阶导数)
gbr = GradientBoostingRegressor(...)
#lightgbm
lightgbm = LGBMRegressor(...)
#xgboost(展开到二阶导数)
xgboost = XGBRegressor(...)

有了多个模型,我们可以再定义一个得分函数,对模型评分。

#模型评分函数
def cv_rmse(model, X=X):
rmse = np.sqrt(-cross_val_score(model, X, y, scoring="neg_mean_squared_error", cv=kfolds))
return (rmse)

以岭回归为例,计算模型得分。

score = cv_rmse(ridge)
print("Ridge score: {:.4f} ({:.4f})n".format(score.mean(), score.std()), datetime.now(), ) #0.1024

运行其他模型发现得分都差不多。

这时候我们可以任选一个模型,拟合,预测,提交训练结果。还是以岭回归为例

# 训练模型
ridge.fit(X, y)
# 模型预测
submission.iloc[:,1] = np.floor(np.expm1(ridge.predict(X_sub)))
# 输出测试结果
submission = pd.read_csv("./data/sample_submission.csv")
submission.to_csv("submission_single.csv", index=False)

submission_single.csv是岭回归预测的房价,我们可以把这个结果上传到 Kaggle 网站查看结果的得分和排名。

3.2 模型融合-stacking

有时候为了发挥多个模型的作用,我们会将多个模型融合,这种方式又被称为集成学习。

stacking 是一种常见的集成学习方法。简单来说,它会定义个元模型,其他模型的输出作为元模型的输入特征,元模型的输出将作为最终的预测结果。

用Python做一个房价预测小工具!

stacking

这里,我们用mlextend库中的StackinGCVRegressor模块,对模型做stacking。

stack_gen =
StackingCVRegressor(
regressors=(ridge, lasso, elasticnet, gbr, xgboost, lightgbm),
meta_regressor=xgboost,
use_features_in_secondary=True)

训练、预测的过程与上面一样,这里不再赘述。

3.3 模型融合-线性融合

多模型线性融合的思想很简单,给每个模型分配一个权重(权重加和=1),最终的预测结果取各模型的加权平均值。

# 训练单个模型
ridge_model_full_data = ridge.fit(X, y)
lasso_model_full_data = lasso.fit(X, y)
elastic_model_full_data = elasticnet.fit(X, y)
gbr_model_full_data = gbr.fit(X, y)
xgb_model_full_data = xgboost.fit(X, y)
lgb_model_full_data = lightgbm.fit(X, y)
svr_model_full_data = svr.fit(X, y)
models = [
ridge_model_full_data, lasso_model_full_data, elastic_model_full_data,
gbr_model_full_data, xgb_model_full_data, lgb_model_full_data,
svr_model_full_data, stack_gen_model
]
# 分配模型权重
public_coefs = [0.1, 0.1, 0.1, 0.1, 0.15, 0.1, 0.1, 0.25]
# 线性融合,取加权平均
def linear_blend_models_predict(data_x,models,coefs, bias):
tmp=[model.predict(data_x) for model in models]
tmp = [c*d for c,d in zip(coefs,tmp)]
pres=np.array(tmp).swapaxes(0,1)
pres=np.sum(pres,axis=1)
return pres

到这里,房价预测的案例我们就讲解完了,大家可以自己运行一下,看看不同方式训练出来的模型效果。

回顾整个案例会发现,我们在数据预处理和特征工程上花费了很大心思,虽然机器学习问题模型原理比较难学,但实际过程中往往特征工程花费的心思最多。

以上就是用python做一个房价预测小工具!的详细内容,更多请关注编程网其它相关文章!

--结束END--

本文标题: 用Python做一个房价预测小工具!

本文链接: https://www.lsjlt.com/news/205413.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 用Python做一个房价预测小工具!
    哈喽,大家好。这是一个房价预测的案例,来源于 Kaggle 网站,是很多算法初学者的第一道竞赛题目。该案例有着解机器学习问题的完整流程,包含EDA、特征工程、模型训练、模型融合等。房价预测流程下面跟着我,来学习一下该案例。没有啰嗦的文字,没...
    99+
    2023-05-14
    工具 Python 房价
  • 用Pytorch搭建一个房价预测模型
    本文参加新星计划人工智能(Pytorch)赛道:https://bbs.csdn.net/topics/613989052 目录 一、项目介绍 二、准备工作 三、实验过程 3.1数据预处理 3.2拆分数据集 3.3构建PyTorch模型 3...
    99+
    2023-09-03
    机器学习 神经网络 人工智能 python 深度学习
  • 怎么用Pytorch搭建一个房价预测模型
    本篇内容主要讲解“怎么用Pytorch搭建一个房价预测模型”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么用Pytorch搭建一个房价预测模型”吧!一、项目介绍  &nbs...
    99+
    2023-07-05
  • 怎么用Python预测房价走势
    这篇文章主要介绍“怎么用Python预测房价走势”,在日常操作中,相信很多人在怎么用Python预测房价走势问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用Python预测房价走势”的疑惑有所帮助!接下来...
    99+
    2023-06-16
  • 利用Python做一个电脑通知小工具
    目录序言效果展示代码实战序言 Windows不是有个消息通知功能,挺喜欢这个功能的,但是不太方便使用,也懒得去研究,于是准备用Python自己写一个,通过设定通知的间隔时间来实现类似...
    99+
    2022-12-29
    Python电脑通知工具 Python电脑通知 Python 通知工具
  • 怎么用Python制作一个数据预处理小工具
    这篇文章主要讲解了“怎么用Python制作一个数据预处理小工具”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么用Python制作一个数据预处理小工具”吧!在我们平常使用Python进行数据...
    99+
    2023-06-15
  • Python中怎么实现一个数据预测集成工具
    这篇文章给大家介绍Python中怎么实现一个数据预测集成工具,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。数据的训练和训练的GUI窗口经过算法比较,发现这里我们选择使用sklearn简单的多元回归进行拟合数据可以达到比...
    99+
    2023-06-16
  • 基于C#实现一个温湿度监测小工具
    目录概述安装插件包修改界面,增加曲线显示修改代码增加曲线初始化增加曲线刷新修改load函数,增加曲线初始化修改定时器函数,增加曲线实时刷新测试概述 这一章节,我们主要实现的功能是为软...
    99+
    2023-01-12
    C#温湿度监测工具 C#监测工具 C#监测
  • 怎么用Python制作一个文件去重小工具
    这篇文章主要讲解了“怎么用Python制作一个文件去重小工具”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么用Python制作一个文件去重小工具”吧!前言常常在下载网络素材时有很多的重复文...
    99+
    2023-06-29
  • 怎么用Python设计一个多功能办公小工具
    这篇文章主要讲解了“怎么用Python设计一个多功能办公小工具”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么用Python设计一个多功能办公小工具”吧!UI排版布局主页通过分页栏来划分不...
    99+
    2023-06-21
  • 教你用Java Swing做一个定时提醒工具
    前言 因为上下班的时候,老是忘记打卡(其实这不是重点,因为可以补卡嘛),重点是下班走的时候总是忘记关空调(谁最后走忘记关空调,罚100。。。) 我一开始的做法是,在主机上贴个便签,写...
    99+
    2024-04-02
  • 基于Python制作一个文件去重小工具
    目录前言实现步骤补充前言 常常在下载网络素材时有很多的重复文件乱七八糟的,于是想实现一个去重的操作。 主要实现思路就是遍历出某个文件夹包括其子文件夹下面的所有文件,最后,将所有文件...
    99+
    2024-04-02
  • 用Python实现一个打字速度测试工具来测试你的手速
    目录一、程序解读二、文本内容的显示三、文本的输入检查四、结果计算和显示五、完整代码一、程序解读 本次程序中,我们使用的python库完全是python的内置库,其中界面的制作是利用t...
    99+
    2024-04-02
  • Python利用PaddleOCR制作个搜题小工具
    目录介绍安装安装PaddlePaddle飞桨框架安装PaddleOCR代码使用搜题小工具安装ADB截图并保存题目区域图片OCR识别,获取题目打开浏览器搜索完整代码介绍 PaddleO...
    99+
    2024-04-02
  • 基于Python自制一个文件解压缩小工具
    经常在办公的过程中会遇到各种各样的压缩文件处理,但是呢每个压缩软件支持的格式又是不同的。 没有可以一种可以同时多种格式的并且免费的文件解压缩工具,于是我使用python的PyQt5开...
    99+
    2023-02-06
    Python文件解压缩工具 Python文件解压缩
  • 用python实现一个文件搜索工具
    目录前言步骤操作如下:完整代码:总结前言 经常使用电脑自带的搜索很慢很卡,今天做一个搜索工具,可以搜索到隐藏的文件,而且速度也很快 步骤 导入模块 import os 检测一下输入的...
    99+
    2024-04-02
  • Python实战之设计一个多功能办公小工具
    目录UI排版布局图形界面的设计思想实现步骤界面布局“直达”函数“天气”函数UI排版布局 主页通过分页栏来划分不同的界面,以及窗体最小化,最大化,关闭功能。 应用、网页直达页由简单的按...
    99+
    2024-04-02
  • 利用JavaScript差集实现一个对比小工具
    前言 在工作中需要每周统计人员提交材料情况又不想一个一个复制黏贴查找只好写一个小工具帮自己查找谁没提交材料 先把页面搞一搞 <!DOCTYPE html> <h...
    99+
    2024-04-02
  • 用python编写一个图片拼接工具
    目录前言代码展示效果展示总结前言 故事要从上面这张表情包开始讲起,看到这张表情包之后,我突发奇想,觉得可以将室友上班摸鱼的照片拼接起来,做成表情包叫他起床 激励他学习!!!于是我马...
    99+
    2024-04-02
  • 如何使用PyQT5制作一个敏感词检测工具
    小编给大家分享一下如何使用PyQT5制作一个敏感词检测工具,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!设计思路:根据敏感词库文件筛选,查看输入的文本中是否包含敏感词汇。从而过滤出相关的敏感词。导入应用相关的模块。impo...
    99+
    2023-06-29
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作