iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >简单且有用的Python数据分析和机器学习代码
  • 670
分享到

简单且有用的Python数据分析和机器学习代码

2024-04-02 19:04:59 670人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

为什么选择python进行数据分析? Python是一门动态的、面向对象的脚本语言,同时也是一门简约,通俗易懂的编程语言。Python入门简单,代码可读性强,一段好的Python代码

为什么选择python进行数据分析

Python是一门动态的、面向对象的脚本语言,同时也是一门简约,通俗易懂的编程语言Python入门简单,代码可读性强,一段好的Python代码,阅读起来像是在读一篇外语文章。Python这种特性称为“伪代码”,它可以使你只关心完成什么样的工作任务,而不是纠结于Python的语法。

另外,Python是开源的,它拥有非常多优秀的库,可以用于数据分析及其他领域。更重要的是,Python与最受欢迎的开源大数据平台hadoop具有很好的兼容性。因此,学习Python对于有志于向大数据分析岗位发展的数据分析师来说,是一件非常节省学习成本的事。

Python的众多优点让它成为最受欢迎的程序设计语言之一,国内外许多公司也已经在使用Python,例YouTube,Google,阿里云等等。

简单且有用的Python数据分析和机器学习代码

经过这个月的python数据分析和机器学习,总结了一些经验,同时也收获了一些大佬的优秀博客,感兴趣的可以观看我的收藏夹,废话不多说,直接进入正题。

数据分析大致分为数据处理,模型建立,模型测试这3部,这篇文章主要是讲解对数据进行处理

为了对数据进行分析,首先要了解学习python的熊猫库pandas,下面是一些基础简单的操作方法,python调用方法如下


import pandas as pd

python通过pandas读取csv文件的方法


df= pd.read_csv("xxx.csv")
#输出文件内容前五列
print(df.head())
#输出csv所有内容
print(df)

查看csv某列数据的方法


pandas.read_csv(‘file_name.csv', usecols = [0,1,2,3]) 
#简单方法
df["属性列名称"]

pandas删除csv数据某些列的方法


droplabels= ['x_cat4','x_cat5','x_cat8','x_cat9']
data=df.drop(droplabels,axis=1)

pandas对NAN数据清洗的方法


#将表格中含有nan数值的列进行删除,返回非空数据和索引值的Series
df.dropna()
'''
dropna(axis=0,how='any',thresh=None),how参数可选的值为any或者all.all仅在切片元素全为NA时才抛弃该行(列)。thresh为整数类型,eg:thresh=3,那么一行当中至少有三个NA值时才将其保留。
'''
data.fillna(0)                      #将nan替换为0
print(data.fillna(data.mean()))     ### 用每列特征的均值填充缺失数据
print(data.fillna(data.median()))    ### 用每列特征的中位数填充缺失数据
print(data.fillna(method='bfill'))   ### 用相邻后面(back)特征填充前面空值
print(data.fillna(method='pad'))     ### 用相邻前面特征填充后面空值
#参考博客:https://blog.csdn.net/qq_21840201/article/details/81008566

pandas对csv文件数据的更改的方法


#更改某列属性数值和类型
df = df[df['涨跌幅']!='None']
df['涨跌幅'] = df['涨跌幅'].astype(np.float64)
df = pd.DataFrame(a, dtype='float') #数据类型转化
#参考链接:Http://www.45fan.com/article.PHP?aid=19070771581800099094144284
#对数据全部遍历读取并更改,参考如下
for i in df.index:
    df["id1"][i]=1

pandas的iloc的使用方法和作用


X = df.iloc[:, data.columns != 'label']  # 取出不包括 label其他的列

df.iloc[:3, :2]           #使用.iloc ,我们只选择了.iloc的前3行和2列

计算某列元素数量的方法


sum= len(data[data.label == 'BENIGN']) #计算BENIGN的数量
len(df)       

pandas对文件进行保存的方法


#df为要保存的数据,xxx.csv为保存的文件
df.to_csv('xxx.csv', index=False, sep=',')

以上是pandas对数据进行处理的简单功能,其中含有一些参考学习的博客,感兴趣的同学可以观看学习。有了这些基础知识,我们才能对数据集进行处理,接下来就是如何使用的问题了,下面讲解简单的套路。

1.首先观察数据,通过代码检测每一列的数据类型再进行考察,检测是否存在NAN值,可以删除该列,也可根据情况进行数值的变动。

2.数据集中可能存在部分列属性为time属性,一般不要直接将该列删除,可通过将其转化为浮点类型

3.字符串类型向数值类型的转换,部分字符串需要进行转换,这个就视情况而定了。

总结

到此这篇关于Python数据分析和机器学习代码的文章就介绍到这了,更多相关Python数据分析代码内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: 简单且有用的Python数据分析和机器学习代码

本文链接: https://www.lsjlt.com/news/129655.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 简单且有用的Python数据分析和机器学习代码
    为什么选择Python进行数据分析? Python是一门动态的、面向对象的脚本语言,同时也是一门简约,通俗易懂的编程语言。Python入门简单,代码可读性强,一段好的Python代码...
    99+
    2022-11-12
  • Python数据分析和机器学习如何学
    今天就跟大家聊聊有关人工智能浪潮前,Python数据分析和机器学习如何学?,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。如同互联网发展的浪潮,AI正在创造一个全新的世界。面对AI发展...
    99+
    2023-06-02
  • python机器学习算法与数据降维的示例分析
    这篇文章主要介绍python机器学习算法与数据降维的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一、数据降维机器学习中的维度就是特征的数量,降维即减少特征数量。降维方式有:特征选择、主成分分析。1.特征选择...
    99+
    2023-06-25
  • Pandas在数据分析和机器学习中的应用及优势
    目录DataFrame的应用创建DataFrame查看DataFrame索引和切片统计计算数据清洗缺失值处理重复值处理异常值处理预处理特征选择特征缩放总结Pandas是Python语...
    99+
    2023-05-18
    Pandas数据分析应用 Pandas机器学习应用
  • Python机器学习应用之工业蒸汽数据分析篇详解
    目录一、数据集二、数据分析1 数据导入2 数据特征探索(数据可视化)三、特征优化四、对特征构造后的训练集和测试集进行主成分分析五、使用LightGBM模型进行训练和预测一、数据集 1...
    99+
    2022-11-12
  • 租用阿里云GPU服务器的公司实现高效的数据分析和机器学习
    随着大数据和人工智能的不断发展,GPU服务器的需求日益增长。作为中国最大的云服务提供商,阿里云的GPU服务器已经成为许多公司进行高效数据分析和机器学习的首选。本文将详细介绍租用阿里云GPU服务器的公司及其优势。 阿里云GPU服务器:实现高效...
    99+
    2023-10-30
    高效 阿里 机器
  • Python中的实时数据类型在机器学习中有何应用?
    随着人工智能和机器学习技术的不断发展,实时数据处理成为了机器学习领域中一个非常重要的概念。Python作为一门非常流行的编程语言,在实时数据处理和机器学习领域中也扮演着非常重要的角色。本文将讨论Python中的实时数据类型在机器学习中的应...
    99+
    2023-10-23
    对象 实时 数据类型
  • 分享python机器学习中应用所产生的聚类数据集方法
    目录01直接生成一、基础类型1、月牙形数据集合2、方形数据集3、螺旋形数据集合02样本生成器一、基础数据集1、点簇形数据集合2、线簇形数据集合3、环形数据集合4、月牙数据集合测试结论...
    99+
    2022-11-12
  • 用Python代码实现5种最好的、简单的数据可视化分别是怎样的
    这篇文章给大家介绍用Python代码实现5种最好的、简单的数据可视化分别是怎样的,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。数据可视化是数据科学家工作的重要组成部分。在项目的早期阶段,您通常会进行探索性数据分析(ED...
    99+
    2023-06-02
  • Python机器学习应用之基于天气数据集的XGBoost分类篇解读
    目录一、XGBoost1 XGBoost的优点2 XGBoost的缺点二、实现过程1 数据集2 实现三、KeysXGBoost的重要参数一、XGBoost XGBoost并不是一种模...
    99+
    2022-11-12
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作