广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python的三大开源数据分析工具是什么
  • 902
分享到

Python的三大开源数据分析工具是什么

2023-06-02 23:06:10 902人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

本文小编为大家详细介绍“python的三大开源数据分析工具是什么”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python的三大开源数据分析工具是什么”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。在大数据库领域

本文小编为大家详细介绍“python的三大开源数据分析工具是什么”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python的三大开源数据分析工具是什么”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。

大数据库领域,Python是最常被使用的编程语言,因此了解与其相关的数据分析工具是很有必要的。如果你正在使用virtualenv、pyenv或其他变体在自己的环境中运行Python,那么,可以尝试本文推荐的三大开源工具。

(注:本文示例使用IPython,如果感兴趣,请确保已经安装)

$ mkdir python-big-data
$ cd python-big-data
$ virtualenv ../venvs/python-big-data
$ source ../venvs/python-big-data/bin/activate
$ pip install ipython
$ pip install pandas
$ pip install pyspark
$ pip install scikit-learn
$ pip install scipy

本文选取的示例数据是最近几天从某网站获取的实际生产日志数据,从技术层面来看,这些数据并不能算作是大数据,因为它的大小只有大约2Mb,但就演示来说已经足够了。

如果你想获取这些示例数据,可以使用git从作者的公共GitHub存储库中下载:admintome / access-log-data

$ git clone https://github.com/admintome/access-log-data.git

数据是一个简单的CSV文件,因此每行代表一个单独的日志,字段用逗号分隔:

2018-08-01 17:10,'www2','www_access','172.68.133.49 - - [01/Aug/2018:17:10:15 +0000] "GET /wp-content/uploads/2018/07/spark-mesos-job-complete-1024x634.png Http/1.0" 200 151587 "https://dzone.com/" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/67.0.3396.99 Safari/537.36"'

以下是日志行架构

Python的三大开源数据分析工具是什么

由于对数据可执行的操作的复杂性不确定,因此本文重点选取加载数据和获取数据样本两个操作来讲解三个工具。

1、Python Pandas

我们讨论的第一个工具是Python Pandas。正如它的网站所述,Pandas是一个开源的Python数据分析库。它最初由AQR Capital Management于2008年4月开发,并于2009年底开源,目前由专注于Python数据包开发的PyData开发团队继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 

首先,启动IPython并对示例数据进行一些操作。(因为pandas是python的第三方库所以使用前需要安装一下,直接使用pip install pandas 就会自动安装pandas以及相关组件)

Python的三大开源数据分析工具是什么

import pandas as pdheaders = ["datetime", "source", "type", "log"]df = pd.read_csv('access_logs_parsed.csv', quotechar="'", names=headers)

大约一秒后,我们会收到如下回复:

[6844 rows x 4 columns]In [3]:

如上所见,我们有大约7000行数据,它从中找到了四个与上述模式匹配的列。

Pandas自动创建了一个表示CSV文件的DataFrame对象,Pandas中的DataFrame数据既可以存储在sql数据库中,也可以直接存储在CSV文件中。接下来我们使用head()函数导入数据样本。

In [11]: df.head()Out[11]:           datetime source        type                                                log0  2018-08-01 17:10   www2  www_access  172.68.133.49 - - [01/Aug/2018:17:10:15 +0000]...1  2018-08-01 17:10   www2  www_access  162.158.255.185 - - [01/Aug/2018:17:10:15 +000...2  2018-08-01 17:10   www2  www_access  108.162.238.234 - - [01/Aug/2018:17:10:22 +000...3  2018-08-01 17:10   www2  www_access  172.68.47.211 - - [01/Aug/2018:17:10:50 +0000]...4  2018-08-01 17:11   www2  www_access  141.101.96.28 - - [01/Aug/2018:17:11:11 +0000]...

使用Python Pandas可以做很多事情, 数据科学家通常将Python Pandas与IPython一起使用,以交互方式分析大量数据集,并从该数据中获取有意义的商业智能。

2、PySpark

我们讨论的第二个工具是PySpark,该工具来自Apache Spark项目的大数据分析库。

PySpark提供了许多用于在Python中分析大数据的功能,它自带shell,用户可以从命令行运行。

$ pyspark

这会加载pyspark shell:

(python-big-data)[email protected]:~/Development/access-log-data$ pyspark Python 3.6.5 (default, Apr 1 2018, 05:46:30) [GCC 7.3.0] on linux Type "help", "copyright", "credits" or "license" for more infORMation. 2018-08-03 18:13:38 WARN Utils:66 - Your hostname, admintome resolves to a loopback address: 127.0.1.1; using 192.168.1.153 instead (on interface enp0s3) 2018-08-03 18:13:38 WARN Utils:66 - Set SPARK_LOCAL_IP if you need to bind to another address 2018-08-03 18:13:39 WARN NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.3.1 /_/ Using Python version 3.6.5 (default, Apr 1 2018 05:46:30) SparkSession available as 'spark'. >>>

当你启动shell时,你会得到一个Web GUI查看你的工作状态,只需浏览到http:// localhost:4040即可获得PySpark Web GUI。

让我们使用PySpark Shell加载示例数据:

dataframe = spark.read.format("csv").option("header","false").option("mode","DROPMALFORMED").option("quote","'").load("access_logs.csv")dataframe.show()

PySpark提供了已创建的DataFrame示例:

>>> dataframe2.show()+----------------+----+----------+--------------------+|             _c0| _c1|       _c2|                 _c3|+----------------+----+----------+--------------------+|2018-08-01 17:10|www2|www_access|172.68.133.49 - -...||2018-08-01 17:10|www2|www_access|162.158.255.185 -...||2018-08-01 17:10|www2|www_access|108.162.238.234 -...||2018-08-01 17:10|www2|www_access|172.68.47.211 - -...||2018-08-01 17:11|www2|www_access|141.101.96.28 - -...||2018-08-01 17:11|www2|www_access|141.101.96.28 - -...||2018-08-01 17:11|www2|www_access|162.158.50.89 - -...||2018-08-01 17:12|www2|www_access|192.168.1.7 - - [...||2018-08-01 17:12|www2|www_access|172.68.47.151 - -...||2018-08-01 17:12|www2|www_access|192.168.1.7 - - [...||2018-08-01 17:12|www2|www_access|141.101.76.83 - -...||2018-08-01 17:14|www2|www_access|172.68.218.41 - -...||2018-08-01 17:14|www2|www_access|172.68.218.47 - -...||2018-08-01 17:14|www2|www_access|172.69.70.72 - - ...||2018-08-01 17:15|www2|www_access|172.68.63.24 - - ...||2018-08-01 17:18|www2|www_access|192.168.1.7 - - [...||2018-08-01 17:18|www2|www_access|141.101.99.138 - ...||2018-08-01 17:19|www2|www_access|192.168.1.7 - - [...||2018-08-01 17:19|www2|www_access|162.158.89.74 - -...||2018-08-01 17:19|www2|www_access|172.68.54.35 - - ...|+----------------+----+----------+--------------------+only showing top 20 rows

我们再次看到DataFrame中有四列与我们的模式匹配,DataFrame此处可以被视为数据库表或excel电子表格。

3、Python SciKit-Learn

任何关于大数据的讨论都会引发关于机器学习的讨论,幸运的是,python开发人员有很多选择来使用机器学习算法

在没有详细介绍机器学习的情况下,我们需要获得一些执行机器学习的数据,我在本文中提供的示例数据不能正常工作,因为它不是数字类型的数据。我们需要操纵数据并将其呈现为数字格式,这超出了本文的范围,例如,我们可以按时间映射日志以获得具有两列的DataFrame:一分钟内的日志数和当前时间:

+------------------+---+| 2018-08-01 17:10 | 4 |+------------------+---+| 2018-08-01 17:11 | 1 |+------------------+---+

通过这种形式的数据,我们可以执行机器学习算法来预测未来可能获得的访客数量,SciKit-Learn附带了一些样本数据集,我们可以加载一些示例数据,来看一下具体如何运作。

In [1]: from sklearn import datasetsIn [2]: iris = datasets.load_iris()In [3]: digits = datasets.load_digits()In [4]: print(digits.data)[[ 0.  0.  5. ...  0.  0.  0.] [ 0.  0.  0. ... 10.  0.  0.] [ 0.  0.  0. ... 16.  9.  0.] ... [ 0.  0.  1. ...  6.  0.  0.] [ 0.  0.  2. ... 12.  0.  0.] [ 0.  0. 10. ... 12.  1.  0.]]

这将加载两个用于机器学习分类的算法,用于对数据进行分类。

读到这里,这篇“Python的三大开源数据分析工具是什么”文章已经介绍完毕,想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会,如果想了解更多相关内容的文章,欢迎关注编程网Python频道。

--结束END--

本文标题: Python的三大开源数据分析工具是什么

本文链接: https://www.lsjlt.com/news/231600.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python的三大开源数据分析工具是什么
    本文小编为大家详细介绍“Python的三大开源数据分析工具是什么”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python的三大开源数据分析工具是什么”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。在大数据库领域...
    99+
    2023-06-02
  • Python数据分析需要解答的三大问题是什么
    本篇文章给大家分享的是有关Python数据分析需要解答的三大问题是什么,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。Windows系统并没有自带Python工具,需要我们自己搭...
    99+
    2023-06-02
  • Linux开发的五大必备工具分别是什么
    这篇文章跟大家分析一下“Linux开发的五大必备工具分别是什么”。内容详细易懂,对“Linux开发的五大必备工具分别是什么”感兴趣的朋友可以跟着小编的思路慢慢深入来阅读一下,希望阅读后能够对大家有所帮助。下面跟着小编一起深入学习“Linux...
    99+
    2023-06-28
  • 强大的数据分析工具——Pandas操作、易错点、知识点三万字详解
    一、 Pandas数据结构 1.Series 2.DataFrame 3.从DataFrame中查询出Series DataFrame: 二维数据、整个表格、多行多列 Series:一维数据,一行或者一列  import pandas ...
    99+
    2023-09-07
    pandas python 数据分析
  • 大数据中五种开源处理技术分别是什么
    大数据中五种开源处理技术分别是什么,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。你知道么,在现在的市场上超过25万个开源技术出现了。围绕在我们...
    99+
    2022-10-19
  • 让Linux成为理想的工作站的3个开源工具分别是什么
    让Linux成为理想的工作站的3个开源工具分别是什么,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Linux 不但拥有你认为所需的一切,还有更多可以让你高效工作...
    99+
    2023-06-15
  • python数据分析指的是什么
    这篇文章给大家分享的是有关python数据分析指的是什么的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。python有哪些常用库python常用的库:1.requesuts;2.scrapy;3.pillow;4....
    99+
    2023-06-14
  • Python进行数据相关性分析的三种方式是什么
    本文小编为大家详细介绍“Python进行数据相关性分析的三种方式是什么”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python进行数据相关性分析的三种方式是什么”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。相...
    99+
    2023-06-30
  • 大数据分析的常见思路是什么
    大数据分析的常见思路是什么,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。数据分析的常见思路,是具有指导意义的方法论,可以指导读者往哪些方向分析数据。但不限于数据分析,这些思路,...
    99+
    2023-06-19
  • Python数据分析的方法是什么
    本篇内容介绍了“Python数据分析的方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!01 指标拆解TGI计算公式中,有三个关键点需...
    99+
    2023-06-16
  • 最常用的三大中文数据库分别是什么
    这篇文章主要介绍最常用的三大中文数据库分别是什么,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!最常用的三大中文数据库是:“MySQL”、“SQL Server”、“Oracle”。“...
    99+
    2022-10-18
  • 7个管理和优化网站资源的Python工具分别是什么呢
    7个管理和优化网站资源的Python工具分别是什么呢,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。汇总一些管理、压缩、缩小网站资源的工具在这里供大家各取所需。1️⃣django...
    99+
    2023-06-02
  • 为什么 Python 对象和 Apache 是大数据分析的完美组合?
    Python 是目前最流行的编程语言之一,而 Apache Hadoop 和 Apache Spark 则是大数据处理和分析领域中最流行的开源软件之一。将 Python 和 Apache 软件结合起来,可以形成一种强大的大数据分析工具。本文...
    99+
    2023-07-06
    对象 apache numy
  • 大数据分析平台系统开发思路及步骤是什么
    这篇文章给大家介绍大数据分析平台系统开发思路及步骤是什么,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。1、搭建大数据平台离不开BI。在大数据之前,BI就已经存在很久了,简单把大数据等同于BI,明显是不恰当的。但两者又是...
    99+
    2023-06-19
  • 搭建大数据分析平台的必要性是什么
    这篇文章将为大家详细讲解有关搭建大数据分析平台的必要性是什么,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。  大数据时代,几乎每一个企业都对数据分析平台趋之若鹜,尤其是在今年疫情爆发之后,更...
    99+
    2023-06-02
  • 搭建大数据分析系统的4个层级分别是什么
    搭建大数据分析系统的4个层级分别是什么,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。关于企业的大数据体系构建,可以分为4个层级,每个层级之间可以是递进的关系,虽然业务主导不...
    99+
    2023-06-02
  • 如何使用Python中的数据分析库和可视化工具对大规模数据进行处理和展示
    如何使用Python中的数据分析库和可视化工具对大规模数据进行处理和展示,需要具体代码示例数据分析和可视化是现代科学和商业决策的关键工具。Python是一种功能强大且易于使用的编程语言,具有丰富的数据分析库和可视化工具,如NumPy、Pan...
    99+
    2023-10-22
    可视化 Python 数据分析
  • 大数据报表工具中动态参数的使用方法和场景是什么
    这篇文章将为大家详细讲解有关大数据报表工具中动态参数的使用方法和场景是什么,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。报表开发过程中,有的时候我们会觉得普通参数很难满足一些业务需求,比如第...
    99+
    2023-06-04
  • python可以美化表格数据输出结果的工具是什么
    本文小编为大家详细介绍“python可以美化表格数据输出结果的工具是什么”,内容详细,步骤清晰,细节处理妥当,希望这篇“python可以美化表格数据输出结果的工具是什么”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧...
    99+
    2023-07-02
  • 【数据分析入门】人工智能、数据分析和深度学习是什么关系?如何快速入门 Python Pandas?
    目录 一、前言二、数据分析和深度学习的区别三、人工智能四、深度学习五、Pandas六、Pandas数据结构6.1 Series - 序列6.2 DataFrame - 数据框 七、输入、输...
    99+
    2023-08-31
    数据分析 python pandas 人工智能 机器学习 数据挖掘 深度学习
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作