Python海量数据处理之_Hadoop

数据处理海量 Python 2023-01-31 05:01:55 730人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

1. 说明前两篇分别介绍了hadoop的配置方法和基本原理，本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的，它不仅支持Java，还支持c++，python等程序的分布计算。下面以Pyth

1. 说明

前两篇分别介绍了hadoop的配置方法和基本原理，本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的，它不仅支持Java，还支持c++，python等程序的分布计算。下面以Python为例介绍如何使用Hadoop的mapReduce功能。

2. 工作过程

在原理部分介绍过，Hadoop分为两部分，一部分是存储，一部分是运算，而各个部分又可分为主控和局部实现。这里忽略细节，主要说明运算的主控部分是如何运作的。
从程序调用的角度看，程序员首先需要把待处理的文件复制到hdfs文件系统之中，然后调Hadoop提供的java程序执行分布计算，具体需要执行的python代码用参数的形式提供；最后在HDFS生成输出文件，程序员再将其拷回本地即可。
这里的分布计算主要指MapReduce，MapReduce框架将输入数据分割成数据块，传给Mapper，然后Map任务在各个服务器上以完全并行的方式处理，接着MapReduce框架对Map任务的输出进行排序，并将结果做为Reduce任务的输入，最后由Reduce任务输出最终的结果。请注意，在Map和Reduce中有个排序的过程，因为必须完成所有map后才能reduce，这也局限了MapReduce的工作场景。
MapReduce的核心数据是<key,value>键值对，Mapper处理完数据输出的是键值对（如果不输出，则起到了过滤的作用），框架对键值对排序（后面在具体例子中介绍排序的原因），再输出给Reducer继续处理。Mapper的数量由输入文件的大小确定，Reducer的数量由程序员指定.

3. HDFS文件系统操作

Hadoop集群中的服务器处理的是HDFS中的数据，因此需要在本地和HDFS之间复制文件，常用命令如下：

$ hadoop fs -mkdir /tmp/input # 建立目录
$ hadoop fs -ls /tmp/ # 查看目录中文件
$ hadoop fs -copyFromLocal /tmp/test_items.txt /tmp/input/ # 复制本地文件到HDFS
$ hadoop fs -cat /tmp/input/test_items.txt # 查看文件内容
$ hadoop fs -copyToLocal /tmp/input . # 将HDFS中文件夹复制到本地


 更多命令见：Http://hadoop.apache.org/docs/r1.0.4/file_system_shell.html
4. 例程
1) 实现功能
 统计文件中单词出现的次数。
2) 程序mapper.py
 注意将程序设置为可执行权限


#!/usr/bin/env python
# -*- coding: utf-8 -*-

import sys

for line in sys.stdin:  # 从标准输入中按行读数据
    
    line = line.strip()  # 将行尾行首的空格去除
    Words = line.split()  #按空格将句子分割成单个单词
    for word in words:
        print '%s\t%s' %(word, 1) # 输出键值对，每单词出现1次


3) 程序reducer.py
 注意将程序设置为可执行权限


#!/usr/bin/env python
# -*- coding: utf-8 -*-

import sys

current_word = None  # 当前单词
current_count = 0  # 当前单词频数
word = None

for line in sys.stdin:
    words = line.strip() 
    word, count = words.split('\t')  # 按照制表符分隔单词和数量
    
    try:
        count = int(count)  # 将字符串类型的‘1’转换为整型1
    except ValueError:
        continue

    if current_word == word:  # 如果当前的单词等于读入的单词
        current_count += count  # 单词频数加1
    else:
        if current_word:  # 如果当前的单词不为空则打印其单词和频数
            print '%s\t%s' %(current_word, current_count)  
        current_count = count  # 否则将读入的单词赋值给当前单词，且更新频数
        current_word = word

if current_word == word:
    print '%s\t%s' %(current_word, current_count)

4) 在本地实验
 程序在Hadoop上运行前，先在本地运行，以保证其正确性，运行命令：


$ echo "Dear Bear River Car Car River Dear Car Bear" | ./mapper.py | sort -k 1,1 | ./reducer.py



 可以看到命令用管道的方式将map,reduce和数据连接到了一起，中间还有sort命令用于排序，排序原因从reducer.py程序中可以看到。也可参见下图：





 Hadoop将三行数据分成三份，mapper.py处理后如第三列所示，排序后变为第四列，它把同样的单词都放在一起了，使得在reducer.py在处理时只要判断连续单词是否相同，而无需从头到尾搜索单词。
5) Hadoop实验
$ hadoop jar /home/hadoop/hadoop/share/hadoop/tools/lib/hadoop-streaming-2.7.5.jar  -files ./mapper.py,./reducer.py -mapper ./mapper.py -reducer ./reducer.py -input /tmp/input/*.txt -output /tmp/output/



 这里py文件被指定了两次，files指定的是上传两个py文件，这里还可以上传配置文件等，后面是分别指定作为mapper和reducer的程序，然后是指定输入输出。非常简单，甚至不需要在python文件中加任何的支持库，只要读写输入输出却可。
5. 应用场景
 Hadoop主要是针对海量数据处理的，试想当数据以TB,PB计量的时候，我们不可能用单机一次性打开所有数据。Hadoop方式可用多台便宜PC组合的方式处理海量数据。

 看了一些典型的Hadoop应用场景，觉得现在使用Hadoop主要以HDFS加数据库的共享数据为主，更多的时候是被其它上层工具封装后调用。


技术文章定时推送

请关注公众号：算法学习分享



您可能感兴趣的文档:

Python 官方文档：入门教程
Python 简明教程
Python 最佳实践指南 2018
Python 3 标准库实例教程



点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料




--结束END--
 本文标题: Python海量数据处理之_Hadoop
 本文链接: https://www.lsjlt.com/news/188439.html(转载时请注明来源链接)
有问题或投稿请发送至:
邮箱/279061341@qq.com    QQ/279061341






本篇文章演示代码以及资料文档资料下载
下载Word文档到电脑，方便收藏和打印～


下载Word文档



去做题




猜你喜欢







Python海量数据处理之_Hadoop
 

1. 说明
 前两篇分别介绍了Hadoop的配置方法和基本原理，本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的，它不仅支持Java，还支持C++，Python等程序的分布计算。下面以Pyth...

 




99+
2023-01-31

数据处理
海量
Python








Python与大数据：如何处理海量数据？
 
在当今信息化时代，数据已经成为了企业和个人获取竞争优势的重要手段。随着数据量的不断增加，数据的处理也变得越来越复杂。这时候，Python作为一种高级编程语言，可以帮助我们处理海量数据，并且使数据分析变得更加简单和高效。
Python处理大...

 




99+
2023-09-11

二维码
大数据
数组








Java高频面试题之海量数据处理分析
 
                            目录前言1.1 哈希算法1.2 位图法1.3 Bloom Filter1.4 数据库优化1.5 倒排索引法1.6 外排序法1.7 字典树2. 经典问题分析2.1 top k问题2.2...

 




99+
2022-11-13

Java 海量数据处理
Java 数据处理








如何用 NumPy 处理海量数据？
 NumPy 是 Python 语言中的一个重要库，它提供了很多高效的数值计算工具，特别适合处理海量数据。在本文中，我们将介绍如何使用 NumPy 来处理海量数据。
一、NumPy 的基本概念
NumPy 是 Numerical Python...

 




99+
2023-07-29

大数据
numy
自然语言处理








如何利用Python处理海量自然语言数据？
 
自然语言处理（NLP）是人工智能领域中的一个重要分支，它涉及到计算机如何处理和分析人类语言。在现代社会中，海量的自然语言数据被广泛应用于各个领域，如搜索引擎、社交媒体、自然语言对话系统等。因此，处理海量自然语言数据是一个重要的挑战。本文将...

 




99+
2023-10-13

大数据
自然语言处理
同步








大数据量与海量数据的处理方法有哪些
 
                这篇文章主要讲解了“大数据量与海量数据的处理方法有哪些”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“大数据量与海量数据的处理方法有哪些”吧！1.Bloom ...

 




99+
2022-10-18









用Python如何实现海量大数据的快速处理？
 随着大数据时代的到来，数据的规模和复杂度也在不断增加。如何快速、高效地处理这些海量数据，成为了很多企业和个人所面临的问题。Python作为一门高效、易学的编程语言，在海量数据处理方面也具有很大的优势。本文将详细介绍如何使用Python实现海...

 




99+
2023-09-11

二维码
大数据
数组








处理海量数据的首选工具：Python 接口简介
 处理海量数据已经成为当今世界的一项重要任务。在这个任务中，Python 成为了首选工具之一。Python 可以通过其强大的数据处理能力、易于学习的语法以及广泛的支持社区来快速处理海量数据。Python 还提供了许多库和接口，使得数据处理更加...

 




99+
2023-07-28

接口
大数据
实时








分布式索引如何帮助Python数组处理海量数据？
 
在现代数据处理中，海量数据的处理已经成为了一项非常关键的任务。而Python语言作为一种广泛使用的编程语言，自然也需要一些高效的工具来处理大规模数据。这时候，分布式索引就成为了一个非常有用的工具。
在本文中，我们将探讨分布式索引如何帮助P...

 




99+
2023-10-08

数组
分布式
索引








如何利用Go语言处理海量数据？
 随着互联网的发展，数据量越来越大，如何高效地处理海量数据成为了一个重要的问题。Go语言是一种高效且易于使用的编程语言，它具有并发处理能力和内存管理优势，使得它成为处理海量数据的优秀选择。
本文将介绍如何利用Go语言处理海量数据，包括数据分片...

 




99+
2023-08-17

大数据
开发技术
http








如何利用Unix系统处理海量数据？
 
Unix系统是一种广泛使用的操作系统，其强大的命令行工具和优秀的文件处理能力使其成为处理海量数据的理想选择。本文将介绍如何利用Unix系统处理海量数据。
一、使用find命令查找文件
在处理海量数据的过程中，需要快速地查找到所需的文件。U...

 




99+
2023-09-24

大数据
unix
关键字








如何在 Python API 中使用自然语言处理对象处理海量数据？
 自然语言处理是一项涉及到大量文本数据处理的技术，Python API 中的自然语言处理对象可以帮助我们在处理海量数据时更加高效地进行数据的处理和分析。在本文中，我们将介绍如何在 Python API 中使用自然语言处理对象处理海量数据。
一...

 




99+
2023-09-09

api
自然语言处理
对象








学习 Python 框架 numpy：如何利用它来处理海量数据？
 Python 作为一种高级编程语言，已经成为了数据科学和机器学习领域的主流语言。而 numpy 是 Python 中最重要的数据科学库之一，它可以轻松地处理大量的数据。
numpy 提供了一个强大的 N 维数组对象，它可以进行高效的数学运算...

 




99+
2023-10-23

框架
学习笔记
numpy








分布式架构下Java如何处理海量数据？
 
随着互联网技术的发展，数据量的爆炸式增长已成为一种常态，而处理海量数据已成为企业面临的一项重要问题。在分布式架构中，Java作为一种高效、可靠的编程语言，可以非常好地处理海量数据。本文将讨论分布式架构下Java如何处理海量数据的方法和技术...

 




99+
2023-11-02

大数据
leetcode
分布式








python数字图像处理之图像的批量处理
 
                            目录正文图片集合函数批量读取批量转换为灰度图批量保存正文
有些时候，我们不仅要对一张图片进行处理，可能还会对一批图片处理。这时候，我们可以通过循环来执行处理，也可以调用程序自带的图片...

 




99+
2022-11-11









PHP与大数据：如何更好地处理和分析海量数据？
 
随着数字化时代的来临，数据量的增长速度越来越快。对于大型企业和机构来说，如何更好地处理和分析海量数据是一个非常重要的问题。在这个问题中，PHP作为一种流行的编程语言，可以为大数据处理和分析提供非常有用的帮助。
本文将介绍PHP如何用于大数...

 




99+
2023-11-02

大数据
shell
关键字








11g包dbms_parallel_execute在海量数据处理过程中的应用
 
                11g包dbms_parallel_execute在海量数据处理过程中的应用  一.1 BLOG文档结构图    一.2 前言部分  一.2.1 导读  各位技术爱好者，看完本文后，你可以掌握如下的技能，也...

 




99+
2022-11-30

target
结构图
title








如何使用 Go 语言处理海量的数据对象？
 
随着互联网的不断发展，海量的数据已经成为了许多企业和机构必须面对的问题。如何快速、高效地处理这些数据，已经成为了人们必须解决的难题。而 Go 语言作为一门高效、简洁、易用的语言，已经在数据处理方面展现出了强大的优势。本文将介绍如何使用 G...

 




99+
2023-07-03

大数据
http
对象








Windows平台下，如何通过PHP来处理海量数据？
 在现代的互联网时代，海量数据处理已经成为了一种基本的需求，不论是大型网站还是企业级应用，都需要处理大量的数据。而PHP作为一种流行的Web开发语言，可以在Windows平台下进行海量数据处理。在本文中，我们将探讨如何通过PHP来处理海量数据...

 




99+
2023-09-29

load
大数据
windows








PHP学习笔记：如何利用Apache处理海量数据？
 
Apache是一个流行的Web服务器，它可以与PHP一起使用来处理海量数据。在本文中，我们将探讨如何使用Apache来处理大量数据，以及如何优化您的PHP代码以实现更高效的性能。
一、Apache处理大量数据的优势
Apache的主要优势...

 




99+
2023-11-02

学习笔记
大数据
apache






软考高级职称资格查询





广告


软考职称历年真题下载






2023下半年-信息系统项目管理师-真题考点汇总（完整版）

  164.2 KB  
查看






2023年下半年信息系统项目管理师第一、二批次各科目真题考点整理(考友回忆版)

  143.67 KB  
查看






2023上半年软考高级《信息系统项目管理师》真题答案（抢先版）

  500.26 KB  
查看






2022年下半年软考高级职称考试考情分析

  823.36 KB  
查看






2022年下半年软考高级职称考试真题

  569.84 KB  
查看







软考职称资料下载






2023下半年-系统集成项目管理工程师-真题考点汇总（完整版）

  143.91 KB  
查看






2023年下半年系统集成项目管理工程师第一、二、三批次真题考点整理(考友回忆版)

  183.71 KB  
查看






2023年上半年软考中级《系统集成项目管理工程师》-基础知识-考试真题及答案

  644.84 KB  
查看






2023年上半年软考中级《系统集成项目管理工程师》-应用技术-考试真题及答案

  314.7 KB  
查看






2023年下半年第一二批次系统集成项目管理工程师《案例分析》真题考点

  115.57 KB  
查看







热门wiki










mysql删除数据恢复

mysql删表能回滚吗

mysql找回删除的表

mysql不小心删除了表

mysql不小心把表删了怎么恢复数据

mysql数据表删除后能恢复么

mysql误删表数据恢复

mysql误删表恢复

mysql删除表怎么恢复

mysql删除表











近期文章










基于聚合数据的短信API接口调用示例-Python版

基于聚合数据的老黄历接口调用示例-Python版

基于Python的免费手机号码归属地查询

基于Python的免费IP地址归属地查询

python利用pyqt5和opencv打开电脑摄像头并进行拍照

用python 修改word中表格数据，插入图片 +实例分析

基于Python的免费天气预报接口查询

基于Python的免费新闻头条接口查询

PythonOOP 的力量：封装与抽象类的超级英雄联盟

Python 代码的建筑师：封装与抽象类的蓝图和构建工具











推荐阅读











python分析数据的方法是什么

2024-03-01







如何使用Python实现抽奖小程序

2024-03-01







python copy函数的作用是什么

2024-03-01







python进程池创建队列的方法是什么

2024-02-29







python字符串处理与应用的方法有哪些

2024-02-29







python全局变量如何定义

2024-02-29







python如何读取文件夹下所有文件

2024-02-29







python keyerror错误怎么解决

2024-02-29







python如何提取字符串的数字

2024-02-29







python中怎么将回车作为输入内容

2024-02-29
















热门问答













1
回答

如何调试操作系统的错误？
操作系统




2023-11-15发布






1
回答

操作系统中的I/O系统是如何实现的？
操作系统




2023-11-15发布






1
回答

如何实现操作系统的内存管理？
操作系统




2023-11-15发布






1
回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统




2023-11-15发布






1
回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET




2023-11-15发布






1
回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET




2023-11-15发布






1
回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET




2023-11-15发布






1
回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js




2023-11-15发布






1
回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE




2023-11-15发布






1
回答

如何使用Vue.js实现懒加载和预加载？
VUE




2023-11-15发布













热门标签





防止文件损坏
游戏物理模拟
网络游戏开发
游戏图形处理
云游戏
php包管理
游戏人工智能
配置文件元素
json验证
分块上传
租用云服务器的几大优势
租云服务器可以建内网吗
租云服务器
云服务器续费
云服务器到期会立马被收回么
做企业站选什么样的云服务器
企业站云服务器
使用云主机时，如果发生误操作删除系统数据怎么办
云主机数据恢复
配置限制
随机元素
生成布尔值
语言设计
多部分
包发布
包开发
包搜索
异步文件上传
负随机数
物联网设备开发