iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python海量数据处理之_Hadoop
  • 730
分享到

Python海量数据处理之_Hadoop

数据处理海量Python 2023-01-31 05:01:55 730人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

1. 说明  前两篇分别介绍了hadoop的配置方法和基本原理,本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的,它不仅支持Java,还支持c++,python等程序的分布计算。下面以Pyth

1. 说明

 前两篇分别介绍了hadoop的配置方法和基本原理,本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的,它不仅支持Java,还支持c++python等程序的分布计算。下面以Python为例介绍如何使用Hadoop的mapReduce功能。

2. 工作过程

 在原理部分介绍过,Hadoop分为两部分,一部分是存储,一部分是运算,而各个部分又可分为主控和局部实现。这里忽略细节,主要说明运算的主控部分是如何运作的。
 从程序调用的角度看,程序员首先需要把待处理的文件复制到hdfs文件系统之中,然后调Hadoop提供的java程序执行分布计算,具体需要执行的python代码用参数的形式提供;最后在HDFS生成输出文件,程序员再将其拷回本地即可。
 这里的分布计算主要指MapReduce,MapReduce框架将输入数据分割成数据块,传给Mapper,然后Map任务在各个服务器上以完全并行的方式处理,接着MapReduce框架对Map任务的输出进行排序,并将结果做为Reduce任务的输入,最后由Reduce任务输出最终的结果。请注意,在Map和Reduce中有个排序的过程,因为必须完成所有map后才能reduce,这也局限了MapReduce的工作场景。
 MapReduce的核心数据是<key,value>键值对,Mapper处理完数据输出的是键值对(如果不输出,则起到了过滤的作用),框架对键值对排序(后面在具体例子中介绍排序的原因),再输出给Reducer继续处理。Mapper的数量由输入文件的大小确定,Reducer的数量由程序员指定.

3. HDFS文件系统操作

 Hadoop集群中的服务器处理的是HDFS中的数据,因此需要在本地和HDFS之间复制文件,常用命令如下:

$ hadoop fs -mkdir /tmp/input # 建立目录
$ hadoop fs -ls /tmp/ # 查看目录中文件
$ hadoop fs -copyFromLocal /tmp/test_items.txt /tmp/input/ # 复制本地文件到HDFS
$ hadoop fs -cat /tmp/input/test_items.txt # 查看文件内容
$ hadoop fs -copyToLocal /tmp/input . # 将HDFS中文件夹复制到本地

 更多命令见:Http://hadoop.apache.org/docs/r1.0.4/file_system_shell.html

4. 例程

1) 实现功能

 统计文件中单词出现的次数。

2) 程序mapper.py

 注意将程序设置为可执行权限

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import sys

for line in sys.stdin:  # 从标准输入中按行读数据
    
    line = line.strip()  # 将行尾行首的空格去除
    Words = line.split()  #按空格将句子分割成单个单词
    for word in words:
        print '%s\t%s' %(word, 1) # 输出键值对,每单词出现1次

3) 程序reducer.py

 注意将程序设置为可执行权限

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import sys

current_word = None  # 当前单词
current_count = 0  # 当前单词频数
word = None

for line in sys.stdin:
    words = line.strip() 
    word, count = words.split('\t')  # 按照制表符分隔单词和数量
    
    try:
        count = int(count)  # 将字符串类型的‘1’转换为整型1
    except ValueError:
        continue

    if current_word == word:  # 如果当前的单词等于读入的单词
        current_count += count  # 单词频数加1
    else:
        if current_word:  # 如果当前的单词不为空则打印其单词和频数
            print '%s\t%s' %(current_word, current_count)  
        current_count = count  # 否则将读入的单词赋值给当前单词,且更新频数
        current_word = word

if current_word == word:
    print '%s\t%s' %(current_word, current_count)

4) 在本地实验

 程序在Hadoop上运行前,先在本地运行,以保证其正确性,运行命令:


$ echo "Dear Bear River Car Car River Dear Car Bear" | ./mapper.py | sort -k 1,1 | ./reducer.py


 可以看到命令用管道的方式将map,reduce和数据连接到了一起,中间还有sort命令用于排序,排序原因从reducer.py程序中可以看到。也可参见下图:

 Hadoop将三行数据分成三份,mapper.py处理后如第三列所示,排序后变为第四列,它把同样的单词都放在一起了,使得在reducer.py在处理时只要判断连续单词是否相同,而无需从头到尾搜索单词。

5) Hadoop实验

$ hadoop jar /home/hadoop/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.7.5.jar  -files ./mapper.py,./reducer.py -mapper ./mapper.py -reducer ./reducer.py -input /tmp/input/*.txt -output /tmp/output/


 这里py文件被指定了两次,files指定的是上传两个py文件,这里还可以上传配置文件等,后面是分别指定作为mapper和reducer的程序,然后是指定输入输出。非常简单,甚至不需要在python文件中加任何的支持库,只要读写输入输出却可。

5. 应用场景

 Hadoop主要是针对海量数据处理的,试想当数据以TB,PB计量的时候,我们不可能用单机一次性打开所有数据。Hadoop方式可用多台便宜PC组合的方式处理海量数据。
 看了一些典型的Hadoop应用场景,觉得现在使用Hadoop主要以HDFS加数据库的共享数据为主,更多的时候是被其它上层工具封装后调用。


技术文章定时推送
请关注公众号:算法学习分享

--结束END--

本文标题: Python海量数据处理之_Hadoop

本文链接: https://www.lsjlt.com/news/188439.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python海量数据处理之_Hadoop
    1. 说明  前两篇分别介绍了Hadoop的配置方法和基本原理,本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的,它不仅支持Java,还支持C++,Python等程序的分布计算。下面以Pyth...
    99+
    2023-01-31
    数据处理 海量 Python
  • Python与大数据:如何处理海量数据?
    在当今信息化时代,数据已经成为了企业和个人获取竞争优势的重要手段。随着数据量的不断增加,数据的处理也变得越来越复杂。这时候,Python作为一种高级编程语言,可以帮助我们处理海量数据,并且使数据分析变得更加简单和高效。 Python处理大...
    99+
    2023-09-11
    二维码 大数据 数组
  • Java高频面试题之海量数据处理分析
    目录前言1.1 哈希算法1.2 位图法1.3 Bloom Filter1.4 数据库优化1.5 倒排索引法1.6 外排序法1.7 字典树2. 经典问题分析2.1 top k问题2.2...
    99+
    2022-11-13
    Java 海量数据处理 Java 数据处理
  • 如何用 NumPy 处理海量数据?
    NumPy 是 Python 语言中的一个重要库,它提供了很多高效的数值计算工具,特别适合处理海量数据。在本文中,我们将介绍如何使用 NumPy 来处理海量数据。 一、NumPy 的基本概念 NumPy 是 Numerical Python...
    99+
    2023-07-29
    大数据 numy 自然语言处理
  • 如何利用Python处理海量自然语言数据?
    自然语言处理(NLP)是人工智能领域中的一个重要分支,它涉及到计算机如何处理和分析人类语言。在现代社会中,海量的自然语言数据被广泛应用于各个领域,如搜索引擎、社交媒体、自然语言对话系统等。因此,处理海量自然语言数据是一个重要的挑战。本文将...
    99+
    2023-10-13
    大数据 自然语言处理 同步
  • 大数据量与海量数据的处理方法有哪些
    这篇文章主要讲解了“大数据量与海量数据的处理方法有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“大数据量与海量数据的处理方法有哪些”吧!1.Bloom ...
    99+
    2022-10-18
  • 用Python如何实现海量大数据的快速处理?
    随着大数据时代的到来,数据的规模和复杂度也在不断增加。如何快速、高效地处理这些海量数据,成为了很多企业和个人所面临的问题。Python作为一门高效、易学的编程语言,在海量数据处理方面也具有很大的优势。本文将详细介绍如何使用Python实现海...
    99+
    2023-09-11
    二维码 大数据 数组
  • 处理海量数据的首选工具:Python 接口简介
    处理海量数据已经成为当今世界的一项重要任务。在这个任务中,Python 成为了首选工具之一。Python 可以通过其强大的数据处理能力、易于学习的语法以及广泛的支持社区来快速处理海量数据。Python 还提供了许多库和接口,使得数据处理更加...
    99+
    2023-07-28
    接口 大数据 实时
  • 分布式索引如何帮助Python数组处理海量数据?
    在现代数据处理中,海量数据的处理已经成为了一项非常关键的任务。而Python语言作为一种广泛使用的编程语言,自然也需要一些高效的工具来处理大规模数据。这时候,分布式索引就成为了一个非常有用的工具。 在本文中,我们将探讨分布式索引如何帮助P...
    99+
    2023-10-08
    数组 分布式 索引
  • 如何利用Go语言处理海量数据?
    随着互联网的发展,数据量越来越大,如何高效地处理海量数据成为了一个重要的问题。Go语言是一种高效且易于使用的编程语言,它具有并发处理能力和内存管理优势,使得它成为处理海量数据的优秀选择。 本文将介绍如何利用Go语言处理海量数据,包括数据分片...
    99+
    2023-08-17
    大数据 开发技术 http
  • 如何利用Unix系统处理海量数据?
    Unix系统是一种广泛使用的操作系统,其强大的命令行工具和优秀的文件处理能力使其成为处理海量数据的理想选择。本文将介绍如何利用Unix系统处理海量数据。 一、使用find命令查找文件 在处理海量数据的过程中,需要快速地查找到所需的文件。U...
    99+
    2023-09-24
    大数据 unix 关键字
  • 如何在 Python API 中使用自然语言处理对象处理海量数据?
    自然语言处理是一项涉及到大量文本数据处理的技术,Python API 中的自然语言处理对象可以帮助我们在处理海量数据时更加高效地进行数据的处理和分析。在本文中,我们将介绍如何在 Python API 中使用自然语言处理对象处理海量数据。 一...
    99+
    2023-09-09
    api 自然语言处理 对象
  • 学习 Python 框架 numpy:如何利用它来处理海量数据?
    Python 作为一种高级编程语言,已经成为了数据科学和机器学习领域的主流语言。而 numpy 是 Python 中最重要的数据科学库之一,它可以轻松地处理大量的数据。 numpy 提供了一个强大的 N 维数组对象,它可以进行高效的数学运算...
    99+
    2023-10-23
    框架 学习笔记 numpy
  • 分布式架构下Java如何处理海量数据?
    随着互联网技术的发展,数据量的爆炸式增长已成为一种常态,而处理海量数据已成为企业面临的一项重要问题。在分布式架构中,Java作为一种高效、可靠的编程语言,可以非常好地处理海量数据。本文将讨论分布式架构下Java如何处理海量数据的方法和技术...
    99+
    2023-11-02
    大数据 leetcode 分布式
  • python数字图像处理之图像的批量处理
    目录正文图片集合函数批量读取批量转换为灰度图批量保存正文 有些时候,我们不仅要对一张图片进行处理,可能还会对一批图片处理。这时候,我们可以通过循环来执行处理,也可以调用程序自带的图片...
    99+
    2022-11-11
  • PHP与大数据:如何更好地处理和分析海量数据?
    随着数字化时代的来临,数据量的增长速度越来越快。对于大型企业和机构来说,如何更好地处理和分析海量数据是一个非常重要的问题。在这个问题中,PHP作为一种流行的编程语言,可以为大数据处理和分析提供非常有用的帮助。 本文将介绍PHP如何用于大数...
    99+
    2023-11-02
    大数据 shell 关键字
  • 11g包dbms_parallel_execute在海量数据处理过程中的应用
    11g包dbms_parallel_execute在海量数据处理过程中的应用 一.1 BLOG文档结构图 一.2 前言部分 一.2.1 导读 各位技术爱好者,看完本文后,你可以掌握如下的技能,也...
    99+
    2022-11-30
    target 结构图 title
  • 如何使用 Go 语言处理海量的数据对象?
    随着互联网的不断发展,海量的数据已经成为了许多企业和机构必须面对的问题。如何快速、高效地处理这些数据,已经成为了人们必须解决的难题。而 Go 语言作为一门高效、简洁、易用的语言,已经在数据处理方面展现出了强大的优势。本文将介绍如何使用 G...
    99+
    2023-07-03
    大数据 http 对象
  • Windows平台下,如何通过PHP来处理海量数据?
    在现代的互联网时代,海量数据处理已经成为了一种基本的需求,不论是大型网站还是企业级应用,都需要处理大量的数据。而PHP作为一种流行的Web开发语言,可以在Windows平台下进行海量数据处理。在本文中,我们将探讨如何通过PHP来处理海量数据...
    99+
    2023-09-29
    load 大数据 windows
  • PHP学习笔记:如何利用Apache处理海量数据?
    Apache是一个流行的Web服务器,它可以与PHP一起使用来处理海量数据。在本文中,我们将探讨如何使用Apache来处理大量数据,以及如何优化您的PHP代码以实现更高效的性能。 一、Apache处理大量数据的优势 Apache的主要优势...
    99+
    2023-11-02
    学习笔记 大数据 apache
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作