机器学习-波士顿房价预测

机器学习人工智能 paddlepaddle 回归 2023-09-05 06:09:23 489人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

目录一.数据处理读入数据数据形状变换数据集划分数据归一化处理将上面封装成load data函数二. 模型设计完整封装运行代码：根据loss值进行梯度计算控制部分变量的变化图像：

目录

一.数据处理

读入数据

数据形状变换

数据集划分

数据归一化处理

将上面封装成load data函数

二. 模型设计

完整封装运行代码：

根据loss值进行梯度计算

控制部分变量的变化图像：

一.数据处理

读入数据

# 导入需要用到的package

import numpy as np

import JSON

# 读入训练数据

datafile = './work/housing.data'

data = np.fromfile(datafile, sep=' ')//这个函数用于从文件 datafile 中读取数据。它将文件中的数据按照给定的分隔符 sep=' ' 进行分割，并将分割后的数据加载到一个 NumPy 数组中。

数据形状变换

# 读入之后的数据被转化成1维array，其中array的第0-13项是第一条数据，第14-27项是第二条数据，以此类推.... # 这里对原始数据做reshape，变成N x 14的形式feature_names = [ 'CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE','DIS',                  'RAD', 'TAX', 'PTRATio', 'B', 'LSTAT', 'MEDV' ]feature_num = len(feature_names)data = data.reshape([data.shape[0] // feature_num, feature_num])//data.shape[0]返回数据矩阵data的行数，而feature_num代表每个样本的特征数。通过将数据矩阵的总行数除以特征数，可以得到样本的数量。然后将矩阵data重塑为新的形状，其中每行包含feature_num个特征。//data原本是个以空格分割的一维数组，现在变成了一个data.shape[0] // feature_num个行，feature_num个列的二位数组  形如：                //   样本1的特征0   样本1的特征1 ...样本1的特征m                 //  样本2的特征0  ...                  // 样本3的特征0  ...        ...                 //  样本N的特征0  ...

注：

x = data[0]//含义：第一个样本的所有数据，data数组的第一行print(x.shape)print(x)

数据集划分

ratio = 0.8offset = int(data.shape[0] * ratio)training_data = data[:offset]training_data.shape//(404, 14)

数据归一化处理

对每个特征进行归一化处理，使得每个特征的取值缩放到0~1之间。这样做有两个好处：一是模型训练更高效，在本节的后半部分会详细说明；二是特征前的权重大小可以代表该变量对预测结果的贡献度（因为每个特征值本身的范围相同）
# 计算train数据集的最大值，最小值maximums, minimums = \                     training_data.max(axis=0), \                     training_data.min(axis=0)//通过使用max和min函数来计算训练数据集每个特征的最大值和最小值。axis=0表示沿着列的方向进行计算。# 对数据进行归一化处理for i in range(feature_num):    data[:, i] = (data[:, i] - minimums[i]) / (maximums[i] - minimums[i])//data[:, i]表示选取数据集中的第i个特征//首先，通过减去最小值，将数据转化为相对范围。然后，除以最大值和最小值之间的差，将数据缩放到0到1之间。这样可以确保不同特征的值在相同的尺度上进行比较。

将上面封装成load data函数

def load_data():    # 从文件导入数据    datafile = './work/housing.data'    data = np.fromfile(datafile, sep=' ')    # 每条数据包括14项，其中前面13项是影响因素，第14项是相应的房屋价格中位数    feature_names = [ 'CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', \                      'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV' ]    feature_num = len(feature_names)    # 将原始数据进行Reshape，变成[N, 14]这样的形状    data = data.reshape([data.shape[0] // feature_num, feature_num])    # 将原数据集拆分成训练集和测试集    # 这里使用80%的数据做训练，20%的数据做测试    # 测试集和训练集必须是没有交集的    ratio = 0.8    offset = int(data.shape[0] * ratio)    training_data = data[:offset]    # 计算训练集的最大值，最小值    maximums, minimums = training_data.max(axis=0), training_data.min(axis=0)    # 对数据进行归一化处理    for i in range(feature_num):        data[:, i] = (data[:, i] - minimums[i]) / (maximums[i] - minimums[i])    # 训练集和测试集的划分比例    training_data = data[:offset]    test_data = data[offset:]    return training_data, test_data

# 获取数据training_data, test_data = load_data()x = training_data[:, :-1]y = training_data[:, -1:]

# 查看数据print(x[0])print(y[0])

二. 模型设计

完整封装运行代码：

class Network(object):    def __init__(self, num_of_weights):        # 随机产生w的初始值        # 为了保持程序每次运行结果的一致性，此处设置固定的随机数种子        np.random.seed(0)        self.w = np.random.randn(num_of_weights, 1)//num_of_weights表示权重的数量,函数生成形状为(num_of_weights, 1)的随机权重数组       self.w[5] = -100.       self.w[9] = -100.       self.b = 0.//将self.b初始化为0，表示偏置项。            def forward(self, x)://前向传播        z = np.dot(x, self.w) + self.b        return z        def loss(self, z, y):        error = z - y        cost = error * error        cost = np.mean(cost)        return cost         def gradient(self, x, y):        z = self.forward(x)        gradient_w = (z-y)*x        gradient_w = np.mean(gradient_w, axis=0)//# axis = 0 表示把每一行做相加然后再除以总的行数,mean算平均数        gradient_w = gradient_w[:, np.newaxis]//使用NumPy的矩阵操作方便地完成了gradient的计算，但引入了一个问题，gradient_w的形状是(13,)，而www的维度是(13, 1)。导致该问题的原因是使用np.mean函数时消除了第0维。为了加减乘除等计算方便，gradient_w和www必须保持一致的形状。因此我们将gradient_w的维度也设置为(13,1)        gradient_b = (z - y)        gradient_b = np.mean(gradient_b)        return gradient_w, gradient_b                def update(self, gradient_w5, gradient_w9, eta=0.01):        net.w[5] = net.w[5] - eta * gradient_w5        net.w[9] = net.w[9] - eta * gradient_w9                def train(self, x, y, iterations=100, eta=0.01):        points = []        losses = []        for i in range(iterations):            points.append([net.w[5][0], net.w[9][0]])            z = self.forward(x)            L = self.loss(z, y)            gradient_w, gradient_b = self.gradient(x, y)            gradient_w5 = gradient_w[5][0]            gradient_w9 = gradient_w[9][0]            self.update(gradient_w5, gradient_w9, eta)            losses.append(L)            if i % 50 == 0:                print('iter {}, point {}, loss {}'.fORMat(i, [net.w[5][0], net.w[9][0]], L))        return points, losses# 获取数据train_data, test_data = load_data()x = train_data[:, :-1]y = train_data[:, -1:]# 创建网络net = Network(13)num_iterations=2000# 启动训练points, losses = net.train(x, y, iterations=num_iterations, eta=0.01)# 画出损失函数的变化趋势plot_x = np.arange(num_iterations)plot_y = np.array(losses)plt.plot(plot_x, plot_y)plt.show()

根据loss值进行梯度计算

控制部分变量的变化图像：

net = Network(13)# 此处可以一次性计算多个样本的预测值和损失函数x1 = x[0:3]y1 = y[0:3]z = net.forward(x1)print('predict: ', z)loss = net.loss(z, y1)print('loss:', loss)

这里将w0,w1,...,w12w_0, w_1, ..., w_{12}w0,w1,...,w12中除w5,w9w_5, w_9w5,w9之外的参数和bbb都固定下来，可以用图画出L(w5,w9)L(w_5, w_9)L(w5,w9)的形式，并在三维空间中画出损失函数随参数变化的曲面图。

net = Network(13)losses = []#只画出参数w5和w9在区间[-160, 160]的曲线部分，以及包含损失函数的极值w5 = np.arange(-160.0, 160.0, 1.0)w9 = np.arange(-160.0, 160.0, 1.0)losses = np.zeros([len(w5), len(w9)])#计算设定区域内每个参数取值所对应的Lossfor i in range(len(w5)):    for j in range(len(w9)):        net.w[5] = w5[i]        net.w[9] = w9[j]        z = net.forward(x)        loss = net.loss(z, y)        losses[i, j] = loss# 使用matplotlib将两个变量和对应的Loss作3D图import matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3Dfig = plt.figure()# 如果您使用较新版本的matplotlib无法出图，可以替换为ax = fig.add_axes(Axes3D(fig))ax = Axes3D(fig)w5, w9 = np.meshgrid(w5, w9)ax.plot_surface(w5, w9, losses, rstride=1, cstride=1, cmap='rainbow')plt.show()

来源地址：https://blog.csdn.net/Che_Che_/article/details/132675426

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 机器学习-波士顿房价预测

本文链接: https://www.lsjlt.com/news/394793.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

机器学习-波士顿房价预测

目录一.数据处理读入数据数据形状变换数据集划分数据归一化处理将上面封装成load data函数二. 模型设计完整封装运行代码：根据loss值进行梯度计算控制部分变量的变化图像： ...

99+

2023-09-05

机器学习人工智能 paddlepaddle 回归
利用机器学习预测房价

项目介绍背景： DC竞赛比赛项目，运用回归模型进行房价预测。数据介绍：数据主要包括2014年5月至2015年5月美国King County的房屋销售价格以及房屋的基本信息。其...

99+

2024-04-02
Python人工智能之波士顿房价数据分析

目录1.数据概览分析1.1 数据概览1.2 数据分析2. 项目总体思路2.1 数据读取2.2 模型预处理（1）数据离群点处理（2）数据归一化处理2.3. 特征工程2.4. 模型选择2...

99+

2024-04-02
波士顿房价数据集进行数据预处理和模型训练（Python）

目录前言一、数据预处理定义二、波士顿房价数据进行数据预处理 2.1 下载波士顿房价数据集 2.2 查看数据集的描述、特征及数据条数、特征数量 2.3 将数据读入pandas的DataFrame并转存到csv文件 2.4 查看数据...

99+

2023-10-08

python 人工智能 scikit-learn 数据预处理
Python人工智能中波士顿房价数据分析的案例

这篇文章主要为大家展示了“Python人工智能中波士顿房价数据分析的案例”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“Python人工智能中波士顿房价数据分析的案例”这篇文章吧。1.数据概览分析...

99+

2023-06-25
机器学习之支持向量回归（SVR）预测房价—基于python

大家好，我是带我去滑雪！本期使用爬取到的有关房价数据集data.csv，使用支持向量回归（SVR）方法预测房价。该数据集中“y1”为响应变量，为房屋总价，而x1-x9为特征变量，依次表示房屋的卧室数量、客厅数量、面...

99+

2023-09-15

python 机器学习支持向量机
Python机器学习之预测黄金价格

目录读取黄金 ETF 数据定义解释变量定义因变量将数据拆分为训练和测试数据集创建线性回归模型预测黄金ETF价格绘制累积收益预测每日价格读取黄金 ETF 数据本文使用机器学习方法来预...

99+

2024-04-02
机器学习：基于Python 机器学习进行医疗保险价格预测

机器学习：基于Python 机器学习进行医疗保险价格预测作者：i阿极作者简介：数据分析领域优质创作者、多项比赛获奖者：博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习，可以点赞👍收藏...

99+

2023-09-02

机器学习 python 人工智能原力计划
机器学习实验——单变量线性回归（披萨价格预测问题）

实验内容假设某披萨店的披萨价格和披萨直径之间有下列数据关系：训练样本直径（英寸）价格（美元）1672893101341417.551818 根据上面的训练数据，预测12英寸的披萨的可能售价。 1、...

99+

2023-09-30

机器学习线性回归 python
利用机器学习提升 PHP 函数性能预测

利用机器学习提升 php 函数性能预测：数据准备：使用 php 内置函数收集函数执行时间，生成输入特征和执行时间数据集。模型构建和训练：使用 scikit-learn 构建随机森林回归器...

99+

2024-04-11

机器学习 php python
机器学习：异常检测

问题定义 anomaly，outlier， novelty， exceptions 不同的方法使用不同的名词定义这类问题。应用二分类假如只有正常的数据，而异常的数据的范围非常广的话（无...

99+

2023-09-16

机器学习异常检测
机器学习——异常检测

异常点检测(Outlier detection)，⼜称为离群点检测，是找出与预期对象的⾏为差异较⼤的对象的⼀个检测过程。这些被检测出的对象被称为异常点或者离群点。异常点（outlier）是⼀个数据对象，它明显不同于其他的数据对象。异常点检测...

99+

2023-08-23

机器学习人工智能
Python机器学习应用之支持向量机的分类预测篇

目录1、Question2、Answer！——SVM3、软间隔4、超平面支持向量机常用于数据分类，也可以用于数据的回归预测 1、Question 我们经常会遇...

99+

2024-04-02
怎么用机器学习技术预测和防御DDoS攻击

要使用机器学习技术预测和防御DDoS攻击，可以按照以下步骤进行：数据收集：首先，需要收集大量关于网络流量和DDoS攻击样本的数...

99+

2024-04-22

DDoS攻击机器学习
Python使用机器学习模型实现温度预测详解

目录温度预测回归分析温度预测随机森林 Python 写法使用 Python 可以使用机器学习模型进行温度预测。常用的模型有回归分析、随机森林等。使用前需要准备足够的历史数据并进行...

99+

2023-01-31

Python机器学习温度预测 Python温度预测 Python 预测
Python机器学习应用之基于LightGBM的分类预测篇解读

目录一、Introduction1 LightGBM的优点2 LightGBM的缺点二、实现过程1 数据集介绍2 Coding三、KeysLightGBM的重要参数基本参数调整针对训...

99+

2024-04-02
Python机器学习之手写KNN算法预测城市空气质量

目录一、KNN算法简介二、KNN算法实现思路三、KNN算法预测城市空气质量1. 获取数据2. 生成测试集和训练集3. 实现KNN算法一、KNN算法简介 KNN（K-Nearest N...

99+

2024-04-02
如何利用机器学习模型对PySpark流数据进行预测

这篇文章将为大家详细讲解有关如何利用机器学习模型对PySpark流数据进行预测，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。概述流数据是机器学习领域的一个新兴概念学习如何使用机器学习模型（如...

99+

2023-06-19
Python机器学习应用之基于决策树算法的分类预测篇

目录一、决策树的特点 1.优点 2.缺点二、决策树的适用场景三、demo一、决策树的特点 1.优点具有很好的解释性，模型可以生成可以理解的规则。可以发现特征的重要程度。模型...

99+

2024-04-02
Python机器学习应用之基于BP神经网络的预测篇详解

目录一、Introduction1 BP神经网络的优点2 BP神经网络的缺点二、实现过程1 Demo2 基于BP神经网络的乳腺癌分类预测三、Keys一、Introduction 1 ...

99+

2024-04-02