Python爬虫如何获取数据并保存到数据库中

2023-07-02 08:07:52 855人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

本篇内容主要讲解“python爬虫如何获取数据并保存到数据库中”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“python爬虫如何获取数据并保存到数据库中”吧!1.简介介绍-网络爬虫（又称为网页蜘

本篇内容主要讲解“python爬虫如何获取数据并保存到数据库中”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“python爬虫如何获取数据并保存到数据库中”吧!

1.简介介绍

-网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
-一般在浏览器上可以获取到的，通过爬虫也可以获取到，常见的爬虫语言有PHP,JAVA,C#,c++,Python，为啥我们经常听到说的都是Python爬虫，这是因为python爬虫比较简单，功能比较齐全。

2.Xpath获取页面信息

通过Xpath进行爬虫就是获取到页面html后通过路径的表达式来选取标签节点，沿着路径选取需要爬取的数据。

Xpath常用表达式：

表达式	描述
/	从根节点选取（取子节点）
//	选择的当前节点选择文档中的节点
.	选取当前节点。
…	选取当前节点的父节点。
@	选取属性
*	表示任意内容（通配符）
\|	运算符可以选取多个路径

Xpath常用函数：

函数	用法	解释
startswith()	xpath(‘//div[starts-with(@id,”celent”)]‘)	#选取id值以celent开头的div节点
contains()	xpath(‘//div[contains(@id,”celent”)]‘)	#选取id值包含celent的div节点
and()	xpath(‘//div[contains(@id,”celent”) and contains(@id,”in”)]‘)	#选取id值包含celent的div节点
text()	_.xpath(’./div/div[4]/a/em/text()’)	#选取em标签下文本内容

Xpath实操解析：

# 案例1# //为从当前html中选取节点;[@class="c1text1"]为获取所有的class为c1text1的节点;/h2[1]为选取的节点下的第一个h2节点,如果没有[1]则是获取所有的,可以通过循环进行获取数据etreeHtml.xpath('//*[@class="c1text1"]/h2[1]/text()')# 案例2#//为从当前html中选取节点;[@class="c1text1"]为获取所有的class为c1text1的节点;/a为获取当前节点下的所有a标签节点,得到一个ObjectList;通过for循环获取里面每个标签数据,./@src为获取当前节点的src属性值etreeHtml2 = etreeHtml.xpath('//*[@class="c1text1"]/a')for _ in etreeHtml2: etreeHtml.xpath(./@src)

3.通过Xpath爬虫实操

3-1.获取xpath

通过F12打开开发者模式，点击左上角图标可参考下图，选择需要爬取数据的容器，在右边选择复制选择xpath就可以得到xpath路径了（//*[@id=“userSkin”]/div[2]/div/div[2]/div[1]/div[2]/div/div）；

Python爬虫如何获取数据并保存到数据库中

完整代码展示：

# 导入需要的库import requestsfrom lxml import etreeimport pymysql# 文章详情信息类class articleData():    def __init__(self, title, abstract, path,date):        self.title = title #文章名称        self.abstract = abstract #文章摘要        self.path = path #文章路径        self.date = date #发布时间    def to_string(self):        print("文章名称:"+self.title              +";文章摘要:"+self.abstract              +";文章路径:"+self.path              +";发布时间:"+self.date)#保存狗狗详情数据#保存数据def saveData(DataObject):    count = pyMysql.connect(        host='xx.xx.xx.xx',  # 数据库地址        port=3306,  # 数据库端口        user='xxxxx',  # 数据库账号        passWord='xxxxxx',  # 数据库密码        db='xxxxxxx'  # 数据库名    )    # 创建数据库对象    db = count.cursor()    # 写入sql    # print("写入数据:"+DataObject.to_string())    sql = f"insert into article_detail(title,abstract,alias,path,date) " \          f"values ('{DataObject.title}','{DataObject.abstract}','{DataObject.path}','{DataObject.date}')"    # 执行sql    print(sql)    db.execute(sql)    # 保存修改内容    count.commit()    db.close()# 爬取数据的方向def getWEBData():    # 网站页面路径    url = "https://blog.csdn.net/BadBoyxiaolin?spm=1000.2115.3001.5343"    # 请求头，模拟浏览器请求    header = {        "user-agent": "Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.82 Safari/537.36"    }    # 获取页面所有节点代码    html = requests.get(url=url, headers=header)    # 打印页面代码查看    # print(html.text)    # 如果乱码可以设置编码格式    # html.encoding = 'gb2312'    # 通过xpath获取数据对应节点    etreeHtml = etree.HTML(html.text)    dataHtml = etreeHtml.xpath('//*[@class="mainContent"]/div/div/div')    # 循环获取数据    for _ in dataHtml:        # ''.join()是将内容转换为字符串可以后面接replace数据进行处理        title = ''.join(_.xpath('./article/a/div[1]/h5/text()'))#文章标题        abstract = ''.join(_.xpath('./article/a/div[2]/text()'))#文章摘要        path = ''.join(_.xpath('./article/a/@href'))#文章路径        date = ''.join(_.xpath('./article/a/div[3]/div/div[2]/text()')).replace(' ','').replace('·','').replace('发布博客','')#发布时间        #初始化文章类数据        article_data = articleData(title,abstract,path,date)        article_data.to_string() #打印数据看看是否对        #保存数据到数据库        # saveData(article_data)if __name__ == "__main__":    getWebData()

到此，相信大家对“Python爬虫如何获取数据并保存到数据库中”有了更深的了解，不妨来实际操作一番吧！这里是编程网网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬虫如何获取数据并保存到数据库中

本文链接: https://www.lsjlt.com/news/340721.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬虫如何获取数据并保存到数据库中

本篇内容主要讲解“Python爬虫如何获取数据并保存到数据库中”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python爬虫如何获取数据并保存到数据库中”吧!1.简介介绍-网络爬虫（又称为网页蜘...

99+

2023-07-02
Python爬虫：爬取小说并存储到数据库

爬取小说网站的小说，并保存到数据库第一步：先获取小说内容#!/usr/bin/python # -*- coding: UTF-8 -*- import ...

99+

2024-04-02
python怎么爬取数据保存到数据库

要将爬取的数据保存到数据库，可以使用Python的数据库模块（如SQLite、MySQL、MongoDB等）将数据插入到数据库中。以...

99+

2023-09-08

python 数据库
Python爬虫获取数据保存到数据库中的超详细教程(一看就会)

目录1.简介介绍2.Xpath获取页面信息3.通过Xpath爬虫实操3-1.获取xpath完整代码展示：总结1.简介介绍 -网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，...

99+

2024-04-02
python爬虫如何获取数据

使用Python爬虫获取数据可以分为以下几个步骤：导入所需的库：通常情况下，使用requests库发送HTTP请求获取网页内容，...

99+

2024-02-29

python
Python爬虫爬取全球疫情数据并存储到mysql数据库的步骤

目录一、mysql数据库建表二、下面直接上代码（爬虫方法）三、插入数据库json数据四、总结一下爬取数据的步...

99+

2024-04-02
python爬取网页数据到保存到csv

目录任务需求：爬取网址：网址页面：代码实现结果：代码实现：完整代码：总结任务需求：爬取一个网址，将网址的数据保存到csv中。爬取网址： https://www.iqi...

99+

2024-04-02
将爬取的数据保存到mysql中

为了把数据保存到mysql费了很多周折，早上再来折腾，终于折腾好了安装数据库 1、pip install pymysql(根据版本来装) 2、创建数据打开终端键入mysql -u root -p 回车输入密码 ...

99+

2023-01-30

数据将爬取 mysql
Python 爬虫招聘信息并存入数据库

新学习了selenium,啪一下腾讯招聘 1 from lxml import etree 2 from selenium import webdriver 3 import pymysql 4 def Geturl(f...

99+

2023-01-30

爬虫招聘信息数据库
python爬虫——保存数据为.csv文件

CSV（Comma Separated Values）格式是电子表格和数据库中最常见的输入、输出文件格式爬虫保存数据为.csv文件步骤：导包 import csv 创建或打开文件，设置文件形式 csvfile = open('文件名....

99+

2023-10-21

python 开发语言数据分析爬虫
bs4爬虫实战三:获取电影信息并存入mysql数据库

目标分析这次爬虫的目标网站是:http://dianying.2345.com,爬虫的搜索目标仅限于今年的电影,在网站打开搜索，在年代中选择2018 获取页面的过程在页面的下方单击"下一页",发现URL变成了http:/...

99+

2023-01-30

爬虫实战数据库
Python网络爬虫之如何获取网络数据

本篇内容介绍了“Python网络爬虫之如何获取网络数据”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！使用 Python 获取网络数据使用 P...

99+

2023-07-06
怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库

这篇文章主要介绍“怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库”，在日常操作中，相信很多人在怎么用Scrapy爬虫框架爬取食品论坛数据并存入数据库问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”怎么用...

99+

2023-06-17
Java如何使用jxl读取excel并保存到数据库

小编给大家分享一下Java如何使用jxl读取excel并保存到数据库，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！项目中涉及到读取excel中的数据，保存到数据库...

99+

2023-05-31

java jxl excel
Python爬虫爬数据写入到EXCEL中

Python抓数据写到EXCEL中。以前都是写到txt中然后再导入到excel。现在直接写到excel中。#coding=utf-8 import xlwt import requests from bs4 import Beautiful...

99+

2023-01-31

爬虫数据 Python
Python网络爬虫之获取网络数据

目录使用 Python 获取网络数据编写爬虫代码使用 IP 代理总结Python 语言的优势在于其功能强大，可以用于网络数据采集、数据分析等各种应用场景。本篇文章将介绍如何使用 Py...

99+

2023-05-18

Python获取网络数据 Python爬取数据
Python爬虫之爬取某文库文档数据

目录一、基本开发环境二、相关模块的使用三、目标网页分析四、整体思路五、爬虫代码实现六、写入文档一、基本开发环境 Python 3.6 Pycharm 二、相关模块的使用 impo...

99+

2024-04-02
Python 爬虫：如何用 BeautifulSoup 爬取网页数据

在网络时代，数据是最宝贵的资源之一。而爬虫技术就是一种获取数据的重要手段。Python 作为一门高效、易学、易用的编程语言，自然成为了爬虫技术的首选语言之一。而 BeautifulSoup 则是 Py...

99+

2023-10-23

python 爬虫 beautifulsoup
python爬虫如何爬取微博粉丝数据

这篇文章主要介绍了python爬虫如何爬取微博粉丝数据，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。python可以做什么Python是一种编程语言，内置了许多有效的工具，P...

99+

2023-06-14
item 数据model保存到数据库中

1.如何将item 数据model保存到数据库中首先在本地创建好MySQL数据库，再数据库中创建好数据表# 创建数据库create database item_database;set global validate_password_le...

99+

2023-06-02