分布式爬虫怎么处理Redis里的数据

2024-04-02 19:04:59 369人浏览泡泡鱼

摘要

这篇文章主要讲解了“分布式爬虫怎么处理Redis里的数据”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“分布式爬虫怎么处理Redis里的数据”吧！存入Mong

这篇文章主要讲解了“分布式爬虫怎么处理Redis里的数据”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“分布式爬虫怎么处理Redis里的数据”吧！

存入MongoDB

1.启动mongoDB数据库：sudo monGod

2.执行下面程序：py2 process_youyuan_mongodb.py

# process_youyuan_mongodb.py
# -*- coding: utf-8 -*-
import JSON
import redis
import pymongo
def main():
 # 指定Redis数据库信息
 rediscli = redis.StrictRedis(host='192.168.199.108', port=6379, db=0)
 # 指定MongoDB数据库信息
 mongocli = pymongo.MongoClient(host='localhost', port=27017)
 # 创建数据库名
 db = mongocli['youyuan']
 # 创建表名
 sheet = db['beijing_18_25']
 while True:
 # FIFO模式为 blpop，LIFO模式为 brpop，获取键值
 source, data = rediscli.blpop(["youyuan:items"])
 item = json.loads(data)
 sheet.insert(item)
 try:
  print u"Processing: %(name)s <%(link)s>" % item
 except KeyError:
  print u"Error procesing: %r" % item
if __name__ == '__main__':
 main()

分布式爬虫怎么处理Redis里的数据

存入 MySQL

1.启动Mysql：mysql.server start（更平台不一样）

2.登录到root用户：mysql -uroot -p

3.创建数据库youyuan:create database youyuan;

4.切换到指定数据库：use youyuan

5.创建表beijing_18_25以及所有字段的列名和数据类型。

分布式爬虫怎么处理Redis里的数据

6.执行下面程序：py2 process_youyuan_mysql.py

#process_youyuan_mysql.py
# -*- coding: utf-8 -*-
import json
import redis
import MySQLdb
def main():
 # 指定redis数据库信息
 rediscli = redis.StrictRedis(host='192.168.199.108', port = 6379, db = 0)
 # 指定mysql数据库
 mysqlcli = MySQLdb.connect(host='127.0.0.1', user='power', passwd='xxxxxxx', db = 'youyuan', port=3306, use_unicode=True)
 while True:
 # FIFO模式为 blpop，LIFO模式为 brpop，获取键值
 source, data = rediscli.blpop(["youyuan:items"])
 item = json.loads(data)
 try:
  # 使用cursor()方法获取操作游标
  cur = mysqlcli.cursor()
  # 使用execute方法执行SQL INSERT语句
  cur.execute("INSERT INTO beijing_18_25 (username, crawled, age, spider, header_url, source, pic_urls, monologue, source_url) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s )", [item['username'], item['crawled'], item['age'], item['spider'], item['header_url'], item['source'], item['pic_urls'], item['monologue'], item['source_url']])
  # 提交sql事务
  mysqlcli.commit()
  #关闭本次操作
  cur.close()
  print "inserted %s" % item['source_url']
 except MySQLdb.Error,e:
  print "Mysql Error %d: %s" % (e.args[0], e.args[1])
if __name__ == '__main__':
 main()

分布式爬虫怎么处理Redis里的数据

感谢各位的阅读，以上就是“分布式爬虫怎么处理Redis里的数据”的内容了，经过本文的学习后，相信大家对分布式爬虫怎么处理Redis里的数据这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是编程网，小编将为大家推送更多相关知识点的文章，欢迎关注！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 分布式爬虫怎么处理Redis里的数据

本文链接: https://www.lsjlt.com/news/60039.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

分布式爬虫怎么处理Redis里的数据

这篇文章主要讲解了“分布式爬虫怎么处理Redis里的数据”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“分布式爬虫怎么处理Redis里的数据”吧！存入Mong...

99+

2024-04-02
python爬虫中分布式爬虫的作用是什么

这篇文章给大家分享的是有关python爬虫中分布式爬虫的作用是什么的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。随着大数据时代的来临，大数据也吸引了越来越多的关注。网络爬虫是一种高效的信息抓取工具，它集成了搜索引...

99+

2023-06-15
分布式爬虫scrapy-redis的实战踩坑记录

目录一、安装redis1.首先要下载相关依赖2.然后编译redis二、scrapy框架出现的问题1.AttributeError: TaocheSpider object has n...

99+

2024-04-02
怎么使用代理ip进行分布式爬虫

本篇内容主要讲解“怎么使用代理ip进行分布式爬虫”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“怎么使用代理ip进行分布式爬虫”吧!用过优质的代理ip之后，还能不能不用担心担心？这件事不会那么简单...

99+

2023-06-25
基于hadoop的分布式爬虫怎么实现

要实现基于Hadoop的分布式爬虫，可以按照以下步骤进行：设计架构：首先需要设计分布式爬虫的架构，确定集群中各个节点的角色和任...

99+

2024-03-06

hadoop
怎么理解Redis分布式锁

这篇文章主要讲解了“怎么理解Redis分布式锁”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“怎么理解Redis分布式锁”吧！你真的需要分布式锁吗用到分布式锁...

99+

2024-04-02
分布式锁的原理及Redis怎么实现分布式锁

这篇文章主要介绍“分布式锁的原理及Redis怎么实现分布式锁”，在日常操作中，相信很多人在分布式锁的原理及Redis怎么实现分布式锁问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解...

99+

2023-02-02

redis
Redis数据库分布式的示例分析

这篇文章给大家分享的是有关Redis数据库分布式的示例分析的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。问题：1-2亿数据需要缓存，如何设计？1 哈希取余分区2亿条记录就是2亿个k,v，假设有3台机器构成一个集群...

99+

2023-06-28
怎么理解Redis中的分布式锁

本篇内容介绍了“怎么理解Redis中的分布式锁”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！Redis 分...

99+

2024-04-02
redis实现分布式时锁超时怎么处理

redis实现分布式时锁超时的处理方法：可延长锁超时时间，示例代码：if redis.call("get",KEYS[1]) == ARGV[1] thenredis.call("set",KEYS[...

99+

2024-04-02
Teradata支持分布式数据处理吗

是的，Teradata支持分布式数据处理。Teradata的数据库系统是一个高性能的分布式数据库系统，可以处理大规模的数据并进行并行...

99+

2024-04-09

Teradata
分布式是大数据处理的万能药？

前言：分布式是大数据处理的万能药？今天叶秋学长跟大家一起探讨这个问题~ 使用分布式集群来处理大数据是当前的主流，将一个大任务拆分成多个子任务分布到多个节点进行处理通常能获得显著的性能提升。因此，只要发现处理能力不足就可以通过增加节点的...

99+

2023-09-12

分布式大数据 java
怎么理解redis抉择分布式锁

本篇内容介绍了“怎么理解redis抉择分布式锁”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！zookeeper可靠性比redis强太多，只是...

99+

2023-06-04
比较Golang和Python爬虫：反爬、数据处理和框架选择的差异分析

深入探究Golang爬虫和Python爬虫的异同：反爬应对、数据处理和框架选择引言：最近几年来，随着互联网的迅速发展，网络上的数据量呈现爆炸式的增长。爬虫作为一种获取互联网数据的技术手段，受到了广大开发者的...

99+

2024-01-20

数据处理框架选择 Python爬虫 Golang爬虫反爬应对
计算机网络中分布式爬虫使用代理IP的方法

这篇文章主要介绍了计算机网络中分布式爬虫使用代理IP的方法，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。1、方法一，每个进程从接口API中随机取一个IP来运用，失败则再调用A...

99+

2023-06-15
Cassandra怎么处理数据的分布和复制

Cassandra处理数据的分布和复制是通过使用一种称为分区和复制策略的机制来实现的。分区策略决定了数据如何在集群中的节点之间进行分...

99+

2024-04-09

Cassandra
Beam怎么实现数据的并行处理和分布式计算

Beam是一个用于实现数据处理管道的统一编程模型，它可以在不同的运行环境中进行数据的并行处理和分布式计算。下面是Beam实现数据的并...

99+

2024-03-15

Beam
Cassandra数据的分布式计算和并行处理怎么实现

Cassandra是一个分布式数据库系统，它支持并行处理和分布式计算。要实现Cassandra数据的分布式计算和并行处理，可以采用以...

99+

2024-05-11

Cassandra
MongoDB的分布式事务怎么处理

MongoDB支持分布式事务处理的功能，通过使用分布式事务，可以确保多个操作在各个节点上的一致性。在MongoDB中，分布式事务是...

99+

2024-05-07

MongoDB
分布式数据库原理和PostgreSQL 分布式架构是怎样的

分布式数据库原理和PostgreSQL 分布式架构是怎样的，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。一、什么是分布式数据库分...

99+

2024-04-02