广告
返回顶部
首页 > 资讯 > 数据库 >MongoDB实战(4)MapReduce
  • 944
分享到

MongoDB实战(4)MapReduce

2024-04-02 19:04:59 944人浏览 薄情痞子
摘要

在 mongoDB 上使用 Map/Reduce进行并行"统计"很容易。使用 mapReduce 要实现两个函数 Map 函数和 Reduce 函数,Map 函数调用 emit(key, value),遍历

mongoDB 上使用 Map/Reduce进行并行"统计"很容易。
使用 mapReduce 要实现两个函数 Map 函数和 Reduce 函数,Map 函数调用 emit(key, value),
遍历 collection 中所有的记录, 将key 与 value 传递给 Reduce 函数进行处理。
Map函数和Reduce函数可以使用 javascript 来实现,可以通过 db.runCommand 或 mapReduce 命令来执行一个MapReduce 的操作:

db.runCommand(
{
    mapReduce: <collection>,
    map: <function>,
    reduce: <function>,
    out: <output>,
    query: <document>,
    sort: <document>,
    limit: <number>,
    finalize: <function>,
    scope: <document>,
    jsMode: <boolean>,
    verbose: <boolean>
})

参数说明:
mapreduce: 要操作的目标集合

map: 映射函数 (生成键值对序列,作为 reduce 函数参数)。

reduce: 统计函数。

out: 统计结果存放集合 (不指定则使用临时集合,在客户端断开后自动删除)。

query: 目标记录过滤

sort: 目标记录排序

limit: 限制目标记录数量。

finalize: 最终处理函数 (对 reduce 返回结果进行最终整理后存入结果集合)

scope: 向 map、reduce、finalize 导入外部变量。

jsMode: 是否转换Bson格式在map和reduce执行间

verbose: 显示详细的时间统计信息。


下面我们来搞一个例子吧:

准备一些数据:

MongoDB实战(4)MapReduce

接下来我们演示如何统计各个班的学生数量

Map:

Map 函数必须调用 emit(key, value) 返回键值对,使用 this 访问当前待处理的 Document。

m = function(){
    emit(this.classid,1);
}

value 可以使用 JSON Object 传递 (支持多个属性值)。

例如:emit(this.classid, {count:1})
Reduce:

Reduce 函数接收的参数类似 Group 效果,将 Map 返回的键值序列组合成 { key, [value1,
value2, value3, value...] } 传递给 reduce。

r = function(key,values){
    var x = 0;
    values.forEach(function(v){x += v});
    return x;
}

Reduce 函数对这些 values 进行 "统计" 操作,返回结果可以使用 JSON Object。

Result:

MongoDB实战(4)MapReduce

mapReduce() 将结果存储在 "students_res" 表中。
MongoDB实战(4)MapReduce

Finalize:

利用 finalize() 我们可以对 reduce() 的结果做进一步处理。

f = function(key,value){
    return {classid:key,count:value}
}

我们再重新计算一次,看看结果:

MongoDB实战(4)MapReduce


Options:

我们还可以添加更多的控制细节。

db.runCommand({
    mapreduce:"stu",
    map:m,
    reduce:r,
    out:"stu_res",
    finalize:f,
    query:{age:{$gt:10}}
});

MongoDB实战(4)MapReduce


可以看到先进行了过滤,只取 age>10 的数据,然后再进行统计,所以就没有 age=9 的数
据了。


您可能感兴趣的文档:

--结束END--

本文标题: MongoDB实战(4)MapReduce

本文链接: https://www.lsjlt.com/news/42624.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • MongoDB实战(4)MapReduce
    在 MongoDB 上使用 Map/Reduce进行并行"统计"很容易。使用 MapReduce 要实现两个函数 Map 函数和 Reduce 函数,Map 函数调用 emit(key, value),遍历...
    99+
    2022-10-18
  • Node与Mongodb实战
    在听陈鸿宇的《理想三旬》。好听~上两篇博文中提到了在Mac下Mongodb的安装与连接,这次我们来看看如何通过Node操作Mongodb。PS:本文中的数据集合采用上篇博文中'test'库中的"mycoll...
    99+
    2022-10-18
  • 实战MongoDB-Replication之Replica Set
    实战MongoDB Master-Slave   MongoDB支持不同服务之间的异步的数据复制,来实现failover(故障转移,故障切换,故障恢复) and redundancy(数据冗余)。...
    99+
    2022-10-18
  • MongoDB实战(12)Replica Sets + Sharding
    MongoDB Auto-Sharding 解决了海量存储和动态扩容的问题但离实际生产环境所需的高可靠、高可用还有些距离所以有了” Replica Sets ...
    99+
    2022-10-18
  • MongoDB实战(8)性能监控
    一、mongosniff此工具可以从底层监控到底有哪些命令发送给了 MongoDB 去执行,从中就可以进行分析:以 root 身份执行:./mongosniff --source NET lo然后其会监控位...
    99+
    2022-10-18
  • MongoDB实战(11)Sharding 分片(上)
    这是一种将海量的数据水平扩展的数据库集群系统数据分表存储在sharding 的各个节点上使用者通过简单的配置就可以很方便地构建一个分布式MongoDB 集群。 MongoDB&...
    99+
    2022-10-18
  • MongoDB实战(11)Sharding 分片(下)
    管理维护Sharding 列出所有的Shard Server 查看Sharding信息 判断是否是Sharding 对现有的表进行Sharding刚才我们是...
    99+
    2022-10-18
  • 大数据Hadoop原理介绍+安装+实战操作(HDFS+YARN+MapReduce)
    目录一、Hadoop概述二、HDFS详解1)HDFS概述HDFS的设计特点2)HDFS组成1、Client2、NameNode(NN)3、DataNode(DN)4、Secondary NameNode(2NN)3)HDFS具体工作原理1...
    99+
    2014-10-25
    大数据Hadoop原理介绍+安装+实战操作(HDFS+YARN+MapReduce)
  • MongoDB实战(7)索引与性能
    一、索引MongoDB提供了多样性的索引支持索引信息被保存在system.indexes中且默认总是为_id创建索引。1、基础索引在字段age上创建索引1(升序);-1(降序)上例显示出来的一共有2个索引其...
    99+
    2022-10-18
  • MongoDB基础安装(实战部署)
    MongoDB基础安装 MongoDB概述 (1)MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 (2)MongoDB是一个介于关系数...
    99+
    2022-10-18
  • 4.网络爬虫—Post请求(实战演示)
    网络爬虫—Post请求实战演示 POST请求GET请求POST请求和GET请求的区别获取二进制数据爬[百度官网](https://www.baidu.com/)logo实战 发送post...
    99+
    2023-08-31
    爬虫 python 云原生 开发语言 人工智能
  • linux运维实战练习-2016年3月4
    I.作业(练习)内容:1、搭建LAMP环境,并实践基于DNS做基于域名的虚拟主机。搭建LAMP环境步骤:1. 下载相应的软件包至/usr/local/src目前下[root@localhost ~]# ls /usr/local/src/ ...
    99+
    2023-01-31
    实战 linux
  • Python3网络爬虫实战-4、存储库的
    在前面一节我们介绍了几个数据库的安装方式,但这仅仅是用来存储数据的数据库,它们提供了存储服务,但如果想要和 Python 交互的话也同样需要安装一些 Python 存储库,如 MySQL 需要安装 PyMySQL,MongoDB 需要安装 ...
    99+
    2023-01-31
    爬虫 实战 网络
  • MongoDB实战(9)Replica Sets 副本集(上)
    MongoDB 支持在多个机器中通过异步复制达到故障转移和实现冗余。多机器中同一时刻只有一台是用于写操作。正是由于这个情况,为 MongoDB 提供了数据一致性的保障。担当Pr...
    99+
    2022-10-18
  • MongoDB 日志切换(Rotate Log Files)实战
    MongoDB 日志切换(Rotate Log Files)实战 1. 在mongo shell下,执行logRotate命令:    use admin ...
    99+
    2022-10-18
  • Mongodb实战之全文搜索功能
    前言 众所周知在传统的关系型数据库中,我们通常将数据结构化,通过一系列表关联、聚合来查询我们所需的结果。而在非结构化的数据中,缺少这种预定义的结构,因而如何快速查询定位到我们所需要的结果,不是一件容易的事。...
    99+
    2022-10-18
  • MongoDB实战(3)固定集合与GridFS
    一、固定集合(Capped Collection) capped collections 是性能出色的有着固定大小的集合,以 LRU(Least Recently Used 最近最少使用)规则和插入顺序进...
    99+
    2022-10-18
  • MongoDB实战(3)固定集合与Gri
    一、固定集合(Capped Collection) capped collections 是性能出色的有着固定大小的集合,以 LRU(Least Recently Used 最近最少使用)规则和插入顺序进行 age-out(老化移出)处理...
    99+
    2023-01-31
    实战 MongoDB Gri
  • 10.网络爬虫—MongoDB详讲与实战
    网络爬虫—MongoDB详讲与实战 MongoDBMongoDB安装创建数据目录1.数据库操作2.集合操作3.文档操作4.索引操作5.聚合操作6.备份与恢复 MongoDB增删改查mong...
    99+
    2023-09-10
    爬虫 mongodb 数据库 python
  • 57-4 数据库分片概念及mongodb sharding的实现
    04 数据库分片的概念及mongodb sharding的实现配置环境:node1: 192.168.1.121 CentOS release 6.7node2: 192.168.1.122 CentOS ...
    99+
    2022-10-18
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作