首页 > 资讯 > 后端开发 > Python >10.网络爬虫—MongoDB详讲与实战

906

分享到

10.网络爬虫—MongoDB详讲与实战

爬虫 mongodb 数据库 python 2023-09-10 09:09:29 906人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

网络爬虫—mongoDB详讲与实战 MongoDBMongoDB安装创建数据目录1.数据库操作2.集合操作3.文档操作4.索引操作5.聚合操作6.备份与恢复 MongoDB增删改查mong

网络 爬虫—mongoDB详讲与实战

MongoDB
MongoDB安装
MongoDB增删改查
- mongodb集合的增删改查
PyMongo
- - 连接数据库
  - 第二步选择需要使用的数据库和集合
PyMongo增删改查
实战
- 某电影top250排名获取并写入MongoDB
- - 数据获取
  - 写入MongoDB

前言：
3D8;️🏘️个人简介：以山河作礼。
🎖️🎖️:python领域新星创作者，CSDN实力新星认证
📝📝第一篇文章《1.认识网络爬虫》获得全站热榜第一，Python领域热榜第一。
🧾 🧾第四篇文章《4.网络爬虫—Post请求(实战演示)》全站热榜第八。
🧾 🧾第八篇文章《8.网络爬虫—正则表达式RE实战》全站热榜第十二。
🎁🎁《Python网络爬虫》专栏累计发表九篇文章，上榜三篇。欢迎免费订阅！欢迎大家一起学习，一起成长！！
💕💕悲索之人烈焰加身，堕落者不可饶恕。永恒燃烧的羽翼，带我脱离凡间的沉沦。

MonGoDB

MongoDB是一种开源的文档型数据库管理系统，采用分布式文件存储方式，可以存储非结构化的数据，如文档和键值对等。

它的特点是高性能、高可扩展性、高可用性和易于使用，可以支持复杂的查询和数据分析，同时还提供了数据复制、故障转移和自动分片等功能，可以应用于多种场景，如WEB应用、大数据、物联网等。
MongoDB使用BSON（Binary JSON）格式来存储数据，支持多种编程语言的驱动程序，如Java、Python、Ruby、PHP等。

MongoDB安装

MongoDB 提供了可用于 32 位和 64 位系统的预编译二进制包，你可以从MongoDB官网下载安装，MongoDB 预编译二进制包下载地址： MongoDB
在这里插入图片描述

MongoDB for windows 64-bit 适合 64 位的 Windows Server 2008 R2, Windows 7 , 及最新版本的 Window 系统。
MongoDB for Windows 32-bit 适合 32 位的 Window 系统及最新的 Windows Vista。 32 位系统上 MongoDB 的数据库最大为 2GB。
MongoDB for Windows 64-bit Legacy 适合 64 位的 Windows Vista, Windows
Server 2003, 及 Windows Server 2008 。

下载 .msi 文件，下载后双击该文件，按操作提示安装即可。
安装过程中，你可以通过点击 “Custom(自定义)” 按钮来设置你的安装目录。

在这里插入图片描述

创建数据目录

=MongoDB 将数据目录存储在 db 目录下。但是这个数据目录不会主动创建，我们在安装完成后需要创建它。请注意，数据目录应该放在根目录下 (如： C:\ 或者 D:\ 等 )。
比如我这里安装在了D盘，那就在D盘创建一个data文件夹，进入文件夹创建db文件夹。
在这里插入图片描述
命令行下运行 MongoDB 服务器
为了从命令提示符下运行 MongoDB 服务器，你必须从 MongoDB 目录的 bin 目录中执行 mongod.exe 文件。

D:\Mongodb\bin\mongod --dbpath D:\data\db

如果执行成功，会输出如下信息：
在这里插入图片描述

有27017就代表成功！！！
在这里插入图片描述
连接mongodb 有就说明成功了

1.数据库操作

创建数据库：use datadb

在这里插入图片描述

查看当前数据库：db
查看所有数据库：show dbs

在这里插入图片描述

删除数据库：db.dropDatabase()

2.集合操作

创建集合：db.createCollection("")
查看集合show collections
删除集合：db..drop()

3.文档操作

插入文档：db..insert()
将一个文档插入到指定的集合(collection)中。
查询文档：db..find(, )
使用db..find()方法查询符合条件的文档。其中，query参数指定查询条件，projection参数指定返回的文档中包含哪些字段。
更新文档：db..update(, , )
使用db..update()方法更新符合条件的文档。其中，query参数指定查询条件，update参数指定更新的内容，options参数指定更新选项，如是否只更新第一个匹配的文档。
删除文档：db..remove(, )
使用db..remove()方法删除符合条件的文档。其中，query参数指定查询条件，justOne参数指定是否只删除第一个匹配的文档。

4.索引操作

创建索引：db..createIndex(, )
使用db..createIndex()方法创建索引。其中，keys参数指定需要创建索引的字段，options参数指定索引的一些选项，如索引类型、索引名称等。
查看索引：db..getIndexes()
使用db..getIndexes()方法可以查看指定集合中的所有索引。
删除索引：db..dropIndex()
用db..dropIndex()方法删除指定集合中的索引。其中，index参数指定需要删除的索引的名称。注意，删除索引可能会影响查询性能，应该谨慎使用。

5.聚合操作

聚合文档：db..aggregate()

使用db..aggregate()方法对指定集合中的文档进行聚合操作。其中，pipeline参数是一个数组，包含了一系列聚合操作的步骤。每个步骤都是一个文档，包含了一个操作符和对应的参数。

聚合操作的步骤可以包括以下几种：

$match：筛选符合条件的文档；
$group：按照指定的字段进行分组，可以对每个组进行计算；
$sort：对文档进行排序；
$limit：限制返回的文档数量；
$project：指定返回的文档中包含哪些字段，可以对字段进行修改或计算；
$unwind：将数组类型的字段展开成多个文档。

聚合操作可以根据实际需求进行组合，以实现复杂的数据处理任务。

6.备份与恢复

备份数据库：mongodump -d -o
使用mongodump命令可以备份指定数据库。其中，-d参数指定要备份的数据库名称，-o参数指定备份文件存放的目录。
恢复数据库：mongorestore -d
使用mongorestore命令可以恢复备份的数据库。其中，-d参数指定要恢复到的数据库名称，后面跟着备份文件所在的目录即可。
备份和恢复操作需要谨慎处理，因为错误的操作可能会导致数据丢失或不完整。因此，在进行备份和恢复操作之前，应该先进行数据备份和测试，确保数据的安全性和可靠性。

MongoDB增删改查

mongodb集合的增删改查

数据插入到表

插入演示
db..insert(dict_data)
插入实例
db.book.insert({'name':'小明','age':20,'gender':'男'})
其中，‘name’、'age’和’gender’是文档的字段名，‘小明’、20和’男’是对应的字段值。通过这个操作，我们成功向book集合中插入了一条文档。

数据的查看

输出演示

db..find({key1:value1, key2:value2}).pretty()
普通输出，获取所有数据
db.book.find()
美化输出
db.book.find().pretty()

删除数据

删除数据
db..remove({key1:value1})
删除实例

db.book.remove({'name':'小明'})

更新数据

只对一条满足要求的数据进行操作
db.col.update({'title':'MongoDB data''},{$set:{'title':'MongoDB'}})
db.book.update({'name':'小明'},{$set:{'age':18}})
对所有满足要求的数据进行操作
db.col.update({'title':'MongoDB data''},{$set:{'title':'MongoDB'}},{multi:true})
db.book.update({'name':'小明'},{$set:{'age':22}},{multi:true})

PyMongo

在终端输入代码安装：

pip install pymongo

在这里插入图片描述

连接数据库

mongo = pymongo.MongoClient()  # 'localhost', 27017

mongo = pymongo.MongoClient() 这行代码中，mongo是一个MongoDB客户端对象，可以用来连接MongoDB数据库，执行数据库操作等。如果MongoDB服务运行在其他主机上，可以通过传递参数来指定主机名和端口号，如：

mongo = pymongo.MongoClient('mongodb://:')

其中，为MongoDB服务所在主机的IP地址或者主机名，为MongoDB服务所监听的端口号。
在这里插入图片描述

第二步选择需要使用的数据库和集合

选择数据库

# 选择数据库db = mongo.test# print(db)

使用 mongo 连接MongoDB数据库中的 test 数据库，返回一个 test 数据库对象，用于执行数据库操作。如果 test
数据库不存在，则会在MongoDB中创建一个名为 test 的数据库。

选择集合

col = db.book  # 选择集合# print(col)

在 test 数据库中选择了一个名为 book 的集合，返回一个 book 集合对象，用于执行集合操作。如果 book 集合不存在，则会在
test 数据库中创建一个名为 book 的集合。

PyMongo增删改查

查找数据

print(list(col.find()))print(list(col.find_one())) # 返回数据的key

在这里插入图片描述
增加一条数据

data_dict = {'name': '小雨', 'age': 20, 'gender': '男'}col.insert_one(data_dict)

增加多条数据

data_dict = [{'name': '小雨', 'age': 20, 'gender': '男'},             {'name': '小芳', 'age': 19, 'gender': '女'}]col.insert_many(data_dict)

删除一条数据只对一条数据生效

col.delete_one({'name': '小明'})删除所有满足要求的数据 对所有数据生效col.delete_many({'name': '小明'})

更新数据只对一条数据生效

col.update_one({'name': '小雨'}, {'$set': {'age': 22}})

更新数据对所有数据生效

col.update_many({'name': '小雨'}, {'$set': {'age': 22}})

实战

某电影top250排名获取并写入MongoDB

分两部分,第一部分，获取数据，第二部分，将数据写入MongoDB

数据获取

前面我们讲解了很多获取数据的方法，我们今天就不在这里作过多的展示，博主这里使用的是xpath进行解析数据，如果有什么疑问可以阅读博主之前的文章帮助理解和学习。《5.网络爬虫——Xpath解析》

直接查看结果：
我们本次目的是获取电影top250的电影名字，评分，评价人数和简介。数据较多，仅展示部分！！
在这里插入图片描述

在这里插入图片描述

写入MongoDB

连接数据库：

mongo = pymongo.MongoClient()  # 连接数据库print(mongo)

连接成功！
在这里插入图片描述

选择数据库
我们先来查看一下有那些数据库

开始写代码，选择我们的数据库：

db = mongo.datadbprint(db)

在这里插入图片描述

选择集合

col = db.bookprint(col)

在这里插入图片描述

插入数据
把刚才获取的数据插入到mongodb中。

 data_dict = {'name': name, 'score': score, 'number': number, 'introdu': introdu}    # 插入数据    col.insert_one(data_dict)    time.sleep(1) # 睡眠1秒，防止过快请求被封IPprint('数据写入完成')

在这里插入图片描述

查看数据

results = col.find()for result in results:    print(result)

在这里插入图片描述

仅展示部分数据，数据太长了。正确来说一个有250条数据在里面。

写在最后：
👉 👉本专栏所有文章是博主学习笔记，仅供学习使用，爬虫只是一种技术，希望学习过的人能正确使用它。博主也会定时一周三更爬虫相关技术更大家系统学习，如有问题，可以私信我，没有回，那我可能在上课或者睡觉，写作不易，感谢大家的支持！！🌹🌹🌹

来源地址：https://blog.csdn.net/weixin_50804299/article/details/129912208

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 10.网络爬虫—MongoDB详讲与实战

本文链接: https://www.lsjlt.com/news/402153.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

10.网络爬虫—MongoDB详讲与实战

网络爬虫—mongoDB详讲与实战

MonGoDB

MongoDB安装

创建数据目录

1.数据库操作

2.集合操作

3.文档操作

4.索引操作

5.聚合操作

6.备份与恢复

MongoDB增删改查

mongodb集合的增删改查

数据插入到表

数据的查看

删除数据

更新数据

PyMongo

连接数据库

第二步 选择需要使用的数据库和集合

PyMongo增删改查

实战

某电影top250排名获取并写入MongoDB

数据获取

写入MongoDB

本篇文章演示代码以及资料文档资料下载

第二步选择需要使用的数据库和集合