iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python机器学习Sklearn实战adaboost算法示例详解
  • 472
分享到

python机器学习Sklearn实战adaboost算法示例详解

2024-04-02 19:04:59 472人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

目录pandas批量处理体测成绩adaboostadaboost原理案例举例弱分类器合并成强分类器pandas批量处理体测成绩 import numpy as np import

pandas批量处理体测成绩


import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
data = pd.read_excel("/Users/zhucan/Desktop/18级高一体测成绩汇总.xls")

cond = data["班级"] != "班级"
data = data[cond]
 
data.fillna(0,inplace=True)
data.isnull().any()   #没有空数据了

结果:

班级       False

性别       False

姓名       False

1000米    False

50米      False

跳远       False

体前屈      False

引体       False

肺活量      False

身高       False

体重       False

dtype: bool


data.head()


#1000米成绩有string 有int
def convert(x):
    if isinstance(x,str):
        minute,second = x.split("'")
        int(minute)
        minute = int(minute)
        second = int(second)
        return minute + second/100.0
    else:
        return x
data["1000米"] = data["1000米"].map(convert)


score = pd.read_excel("/Users/zhucan/Desktop/体侧成绩评分表.xls",header=[0,1])
score


def convert(item):
    m,s = item.strip('"').split("'")
    m,s =int(m),int(s)
    return m+s/100.0
score.iloc[:,-4] = score.iloc[:,-4].map(convert) 
def convert(item):
    m,s = item.strip('"').split("'")
    m,s =int(m),int(s)
    return m+s/100.0    
score.iloc[:,-2] = score.iloc[:,-2].map(convert)
score


data.columns = ['班级', '性别', '姓名', '男1000', '男50米跑', '跳远', '体前屈', '引体', '肺活量', '身高', '体重']

data["男50米跑"] = data["男50米跑"].astype(np.float)
for col in ["男1000","男50米跑"]:
    #获取成绩的标准
    s = score[col]
    def convert(x):
        for i in range(len(s)):
            if x<=s["成绩"].iloc[0]:
                if x == 0:
                    return 0 #没有参加这个项目
                return 100
            elif x>s["成绩"].iloc[-1]:
                return 0  #跑的太慢
            elif (x>s["成绩"].iloc[i-1]) and (x<=s["成绩"].iloc[i]):
                return s["分数"].iloc[i]
    data[col + "成绩"] = data[col].map(convert)


for col in ['跳远', '体前屈', '引体', '肺活量']:
    s = score["男"+col]
    def convert(x):
        for i in range(len(s)):
            if x>s["成绩"].iloc[i]:
                return s["分数"].iloc[i]
        return 0
    data[col+"成绩"] = data[col].map(convert)


data.columns

 结果:


Index(['班级', '性别', '姓名', '男1000', '男50米跑', '跳远', '体前屈', '引体', '肺活量', '身高',
       '体重', '男1000成绩', '男50米跑成绩', '跳远成绩', '体前屈成绩', '引体成绩', '肺活量成绩'],
      dtype='object')

#根据索引的顺序,去data取值
cols = ['班级', '性别', '姓名', '男1000','男1000成绩','男50米跑','男50米跑成绩','跳远','跳远成绩','体前屈','体前屈成绩','引体','引体成绩', '肺活量','肺活量成绩','身高','体重']
data[cols]


#计算BMI
data["BMI"] = data["体重"]/data["身高"]
def convert(x):
    if x>100:
        return x/100
    else:
        return x
data["身高"] = data["身高"].map(convert)
data["BMI"] = data["体重"]/(data["身高"])**2

def convert_bmi(x):
    if x >= 26.4:
        return 60
    elif (x <= 16.4) or (x > 23.3 and x <= 26.3):
        return 80
    elif x >= 16.5 and x <= 23.2:
        return 100
    else:
        return 0
data["BMI_score"] = data["BMI"].map(convert_bmi)

#统计分析
data["BMI_score"].value_counts().plot(kind = "pie",autopct = "%0.2f%%")
#统计分析
data["BMI_score"].value_counts().plot(kind = "bar")


data.groupby(["男1000成绩"])["BMI_score"].count().plot(kind = "bar")

adaboost

 

 值

越大,特征越明显,越被容易分开;越后面的学习器,权重越大

梯度提升树没有修改原来的数据,使用的是残差,最终结果就是最后一棵树

上面的图不是GBDT

Boosting与Bagging模型相比,Boosting可以同时降低偏差和方差,Bagging只能降低模型的方差。在实际应用中,Boosting算法也还是存在明显的高方差问题,也就是过拟合。 


import numpy as np
y = np.array([0,1]*5)
y_ = np.array([0,0,0,0,0,0,0,1,0,1])
w = 0.1*(y != y_).sum()
round(w,1)

结果:

0.3


0.5*np.log((1-0.3)/0.3)
round((0.5*np.log((1-0.3)/0.3)),2)

 结果:

0.42

adaboost原理案例举例


from sklearn.ensemble import AdaBoostClassifier
from sklearn import tree
import matplotlib.pyplot as plt
X = np.arange(10).reshape(-1,1)
y = np.array([1,1,1,-1,-1,-1,1,1,1,-1])
ada = AdaBoostClassifier(n_estimators=3)
ada.fit(X,y)

plt.figure(figsize = (9,6))
_ = tree.plot_tree(ada[0])


y_ = ada[0].predict(X),4
y_

结果:


array([ 1,  1,  1, -1, -1, -1, -1, -1, -1, -1])

#误差率
e1 = np.round(0.1*(y != y_).sum(),4)
e1

结果:

0.3


#计算第一棵树权重
#随机森林中每棵树的权重是一样的
#adaboost提升树中每棵树的权重不同
a1 = np.round(1/2*np.log((1-e1)/e1),4)
a1

结果:

0.4236


#样本预测准确:更新的权重
w2 = 0.1*np.e**(-a1*y*y_)
w2 = w2/w2.sum()
np.round(w2,4)

结果:


array([0.0714, 0.0714, 0.0714, 0.0714, 0.0714, 0.0714, 0.1667, 0.1667,
       0.1667, 0.0714])

#样本预测准确:更新的权重
w2 = 0.1*np.e**(-a1*y*y_)
w2 = w2/w2.sum()
np.round(w2,4)

结果:


array([0.0714, 0.0714, 0.0714, 0.0714, 0.0714, 0.0714, 0.1667, 0.1667,
       0.1667, 0.0714])

从上述第一轮的整个迭代过程可以看出:被误分类样本的权值之和影响误差率,误差率影响基本分类器在最终分类器中所占的权重

分类函数 f1(x)= a1*G1(x)= 0.4236G1(x)


plt.figure(figsize = (9,6))
_ = tree.plot_tree(ada[1])


e2 = 0.0714*3
e2

结果:

0.2142


a2 = np.round(1/2*np.log((1-e2)/e2),4)
a2

 结果:

0.6499


y_ = ada[1].predict(X)
#样本预测准确:更新的权重
w3 = w2*np.e**(-a2*y*y_)
w3 = w3/w3.sum()
np.round(w3,4)

结果:


array([0.0454, 0.0454, 0.0454, 0.1667, 0.1667, 0.1667, 0.106 , 0.106 ,
       0.106 , 0.0454])

plt.figure(figsize = (9,6))
_ = tree.plot_tree(ada[2])

树划分按照gini系数;结果和按照误差率是一致的~ 


y_ = ada[2].predict(X)
e3 = (w3*(y_ != y)).sum()
a3 = 1/2*np.log((1-e3)/e3)
a3
#样本预测准确:更新的权重
w4 = w3*np.e**(-a3*y*y_)
w4 = w4/w4.sum()
np.round(w4,4)

结果:


array([0.125 , 0.125 , 0.125 , 0.1019, 0.1019, 0.1019, 0.0648, 0.0648,
       0.0648, 0.125 ])

display(a1,a2,a3)

 结果:

0.4236

0.6498960745553556

0.7521752700597043

弱分类器合并成强分类器

综上,将上面计算得到的a1、a2、a3各值代入G(x)中

G(x) = sign[f3(x)] = sign[ a1 * G1(x) + a2 * G2(x) + a3 * G3(x) ]

得到最终的分类器为:

G(x) = sign[f3(x)] = sign[ 0.4236G1(x) + 0.6496G2(x)+0.7514G3(x) ]


ada.predict(X)

结果:


array([ 1,  1,  1, -1, -1, -1,  1,  1,  1, -1])

y_predict = a1*ada[0].predict(X) +  a2*ada[1].predict(X) +a3*ada[2].predict(X)
y_predict
np.sign(y_predict).astype(np.int)

array([ 1,  1,  1, -1, -1, -1,  1,  1,  1, -1])

以上就是python机器学习Sklearn实战adaboost算法示例详解的详细内容,更多关于机器学习Sklearn实战adaboost算法的资料请关注编程网其它相关文章!

--结束END--

本文标题: python机器学习Sklearn实战adaboost算法示例详解

本文链接: https://www.lsjlt.com/news/158591.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python机器学习Sklearn实战adaboost算法示例详解
    目录pandas批量处理体测成绩adaboostadaboost原理案例举例弱分类器合并成强分类器pandas批量处理体测成绩 import numpy as np import...
    99+
    2024-04-02
  • python机器学习Sklearn中adaboost算法的示例分析
    这篇文章主要为大家展示了“python机器学习Sklearn中adaboost算法的示例分析”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“python机器学习Sklearn中adaboost算法...
    99+
    2023-06-21
  • Python机器学习之AdaBoost算法的示例分析
    这篇文章将为大家详细讲解有关Python机器学习之AdaBoost算法的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。一、算法概述AdaBoost 是英文 Adaptive Boosting(自适...
    99+
    2023-06-15
  • opencv3机器学习之EM算法示例详解
    目录引言一、opencv3.0中自带的例子二、trainEM实现自动聚类进行图片目标检测引言 不同于其它的机器学习模型,EM算法是一种非监督的学习算法,它的输入数据事先不需要进行标注...
    99+
    2024-04-02
  • 详解Python AdaBoost算法的实现
    目录1. AdaBoost 算法简介2. AdaBoost算法 逻辑详解2.1 数据2.2 带权错误率2.3 损失函数 与 确定样本权重2.4 确定模型权重2.5 输出模型3.Ada...
    99+
    2024-04-02
  • Python学习教程:决策树算法(三)sklearn决策树实战
    前面有跟大家出过两期关于决策树算法的Python学习教程,伙伴们学了学了,今天来点实际的吧,实践一把!做个巩固!Python有一个著名的机器学习框架,叫sklearn。我们可以用sklearn来运行前面说到的赖床的例子。不过在这之前,我们需...
    99+
    2023-06-02
  • 机器学习:LightGBM算法原理(附案例实战)
    机器学习:LightGBM算法原理(附案例实战) 作者:i阿极 作者简介:Python领域新星作者、多项比赛获奖者:博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论...
    99+
    2023-09-13
    机器学习 算法 python LightGBM 开发语言
  • 机器学习:基于AdaBoost算法对信用卡精准营销建立模型(附案例实战)
    机器学习:基于AdaBoosts算法对信用卡精准营销建立模型 作者:i阿极 作者简介:Python领域新星作者、多项比赛获奖者:博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞...
    99+
    2023-09-04
    机器学习 python 开发语言 AdaBoots
  • python机器学习sklearn实现识别数字
    目录简介数据集数据处理数据分离训练数据数据可视化完整代码简介 本文主要简述如何通过sklearn模块来进行预测和学习,最后再以图表这种更加直观的方式展现出来 数据集 学习数据 预测数...
    99+
    2024-04-02
  • Python机器学习从ResNet到DenseNet示例详解
    目录从ResNet到DenseNet稠密块体过渡层DenseNet模型训练模型从ResNet到DenseNet 上图中,左边是ResNet,右边是DenseNet,它们在跨层上的...
    99+
    2024-04-02
  • Python机器学习实战之k-近邻算法的实现
    目录K-近邻算法概述工作原理实施KNN算法示例:手写识别系统K-近邻算法概述 简单地说, k-近邻算法采用测量不同特征值之间的距离方法进行分类。 k-近邻算法 优点:精度高...
    99+
    2024-04-02
  • python机器学习实战(一)
    原文链接:www.cnblogs.com/fydeblog/p/7140974.html 前言 这篇notebook是关于机器学习中监督学习的k近邻算法,将介绍2个实例,分别是使用k-近邻算法改进约会网站的效果和手写识别系统.操作系统:u...
    99+
    2023-01-31
    实战 机器 python
  • python机器学习实战(三)
    原文链接:www.cnblogs.com/fydeblog/p/7277205.html 前言 这篇博客是关于机器学习中基于概率论的分类方法--朴素贝叶斯,内容包括朴素贝叶斯分类器,垃圾邮件的分类,解析RSS源数据以及用朴素贝叶斯来分析不...
    99+
    2023-01-31
    实战 机器 python
  • Python机器学习实战教程
    Python机器学习实战教程分享网盘地址——https://pan.baidu.com/s/1miIb4og 密码: wtiw课程真心不错,分享给大家机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计...
    99+
    2023-01-31
    实战 机器 教程
  • Python深度学习实战PyQt5布局管理项目示例详解
    目录1. 从绝对定位到布局管理1.1 什么是布局管理1.2 Qt 中的布局管理方法2. 水平布局(Horizontal Layout)3. 垂直布局(Vertical Layout)...
    99+
    2024-04-02
  • Vue3中Vuex状态管理学习实战示例详解
    目录引言一、目录结构二、版本依赖三、配置Vuex四、使用Vuex引言 Vuex 是 Vue 全家桶重要组成之一,专为 Vue.js 应用程序开发的 状态管理模式 + 库 ,它采用集中...
    99+
    2024-04-02
  • Python机器学习之PCA降维算法的示例分析
    小编给大家分享一下Python机器学习之PCA降维算法的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、算法概述主成分分析 (Principal Com...
    99+
    2023-06-15
  • python机器学习sklearn怎么实现识别数字
    这篇文章主要介绍了python机器学习sklearn怎么实现识别数字的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇python机器学习sklearn怎么实现识别数字文章都会有所收获,下面我们一起来看看吧。数据处...
    99+
    2023-06-29
  • python机器学习基础K近邻算法详解KNN
    目录一、k-近邻算法原理及API1.k-近邻算法原理2.k-近邻算法API3.k-近邻算法特点二、k-近邻算法案例分析案例信息概述第一部分:处理数据1.数据量缩小2.处理时间3.进一...
    99+
    2024-04-02
  • python机器学习基础特征工程算法详解
    目录一、机器学习概述二、数据集的构成1.数据集存储2.可用的数据集3.常用数据集的结构三、特征工程1.字典数据特征抽取2.文本特征抽取3.文本特征抽取:tf-idf4.特征预处理:归...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作