python爬取豆瓣新书清单

豆瓣新书清单 2023-01-31 01:01:48 499人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

使用python3的requests库快速获取豆瓣图书推荐的新书清单，并保存书籍信息和图书缩略图图片到本地 #!/usr/bin/env python # -*- coding:utf-8 -*- """ @author:aiker Z

使用python3的requests库快速获取豆瓣图书推荐的新书清单，并保存书籍信息和图书缩略图图片到本地

#!/usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author:aiker Zhao
@file:douban3.py
@time:上午10:34
"""
import JSON
import os
import re
from multiprocessing import Pool
import requests
from requests.exceptions import RequestException

dir = 'z:\\douban\\'

def get_WEB(url):
    try:
        rq = requests.get(url)
        if rq.status_code == 200:
            return rq.text
        return None
    except RequestException:
        return None

def parse_web(html):
    pattern = re.compile('<li\sclass="">.*?cover".*?href="(.*?)"\stitle="(.*?)".*?img\***c="(.*?)"' +
                         '.*?class="author">(.*?)<.*?year">(.*?)<.*?publisher">(.*?)<.*?</li>', re.S)
    results = re.findall(pattern, html)
    # print(results)
    for i in results:
        # url, title, img, author, yeah, publisher = i
        # author = re.sub('\s', '', author)
        # yeah = re.sub('\s', '', yeah)
        # publisher = re.sub('\s', '', publisher)
        # print(url, title, img, author, yeah, publisher)
        yield {
            'title': i[1],
            'url': i[0],
            'img': i[2],
            'author': i[3].strip(),
            'yeah': i[4].strip(),
            'publisher': i[5].strip()
        }
        # print(url, title, img, author, yeah, publisher)
        # return img,title

def save_image(title, img):
    images = dir + title + '.jpg'
    if os.path.exists(images):
        pass
    else:
        with open(images, 'wb') as f:
            f.write(requests.get(img).content)
            f.close()

def save_info(content):
    info = dir + 'info.txt'
    with open(info, 'a', encoding='utf-8') as fd: #防止出现ascII
        fd.write(json.dumps(content, ensure_ascii=False) + '\n') ##防止出现ascII
        fd.close()

def main():
    url = 'https://book.douban.com/'
    html = get_web(url)
    # parse_web(html)
    for i in parse_web(html):
        print(i)
        save_info(i)
        save_image(i.get('title'), i.get('img'))

if __name__ == '__main__':
    main()

python爬取豆瓣新书清单

心得：
- 需要注意正则的匹配规则的准确度，否则会没有响应，或者无限超时

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: python爬取豆瓣新书清单

本文链接: https://www.lsjlt.com/news/183904.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python爬取豆瓣新书清单

使用python3的requests库快速获取豆瓣图书推荐的新书清单，并保存书籍信息和图书缩略图图片到本地 #!/usr/bin/env python # -*- coding:utf-8 -*- """ @author:Aiker Z...

99+

2023-01-31

豆瓣新书清单
Python3 爬取豆瓣书籍 Xpat

#coding:utf8import timefrom urllib import requestfrom bs4 import BeautifulSoupnum = 1#用来计算一共爬取了多少本书start_time = time.tim...

99+

2023-01-31

豆瓣书籍 Xpat
第一个爬虫——豆瓣新书信息爬取

本文记录了我学习的第一个爬虫程序的过程。根据《Python数据分析入门》一书中的提示和代码，对自己的知识进行查漏补缺。在上爬虫程序之前补充一个知识点：User-Agent。它是Http协议中的一部分，属于头域的组成部分，User...

99+

2023-01-31

第一个爬虫豆瓣
怎么用python爬虫获取豆瓣的书评

小编给大家分享一下怎么用python爬虫获取豆瓣的书评，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！python的五大特点是什么python的五大特点：1.简单易...

99+

2023-06-14
利用Python爬取豆瓣读书页面源码分享

本篇内容介绍了“利用Python爬取豆瓣读书页面源码分享”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！源代码如下：#coding:utf-8...

99+

2023-06-19
python怎么爬取豆瓣网页

这篇文章主要介绍了python怎么爬取豆瓣网页，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。python 语法简要介绍python 的基础语法大体与c语言相差不大，由于省去了...

99+

2023-06-14
Python爬虫使用lxml模块爬取豆瓣

上次使用了BeautifulSoup库爬取电影排行榜，爬取相对来说有点麻烦，爬取的速度也较慢。本次使用的lxml库，我个人是最喜欢的，爬取的语法很简单，爬取速度也快。本次爬取的豆瓣书籍排行榜的首页地址是： https://www.dou...

99+

2023-01-31

爬虫豆瓣模块
Python爬虫怎么爬取豆瓣影评

本篇内容主要讲解“Python爬虫怎么爬取豆瓣影评”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python爬虫怎么爬取豆瓣影评”吧!一、学习开始前需安装模块pip install reques...

99+

2023-06-02
python 爬取豆瓣网页的示例

目录python 语法简要介绍爬取网页解析网页储存网页python作为一种已经广泛传播且相对易学的解释型语言,现如今在各方面都有着广泛的应用。而爬虫则是其最为我们耳熟能详的应用，今天...

99+

2024-04-02
python爬取豆瓣top250的电影数

爬取网址: https://movie.douban.com/top250 一:爬取思路(新手可以看一下) :　　　　　　1:定义两个函数,一个get_page函数爬取数据,一个save函数保存数据,mian中向get_page函数传递...

99+

2023-01-31

豆瓣电影 python
爬取豆瓣电影信息

昨天写了一个小爬虫，爬取了豆瓣上2017年中国大陆的电影信息，网址为豆瓣选影视，爬取了电影的名称、导演、编剧、主演、类型、上映时间、片长、评分和链接，并保存到MongoDB中。一开始用的本机的IP地址，没用代理IP，请求了十几个网页之后...

99+

2023-01-30

豆瓣电影信息
爬取豆瓣电影排行top250

爬取豆瓣电影排行top250 功能分析：使用的库 1、time 2、json 3、requests 4、BuautifulSoup 5、RequestException """ 作者：李舵日期：2019-4-27...

99+

2023-01-31

豆瓣电影排行
Python爬虫爬取豆瓣电影之数据提取值

工具：Python 3.6.5、PyCharm开发工具、Windows 10 操作系统、谷歌浏览器目的：爬取豆瓣电影排行榜中电影的title、链接地址、图片、评价人数、评分等网址：https://movie.douban.com/ch...

99+

2023-01-30

爬虫豆瓣数据
如何用scrapy框架爬取豆瓣读书Top250的书类信息

这篇文章主要讲解了“如何用scrapy框架爬取豆瓣读书Top250的书类信息”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“如何用scrapy框架爬取豆瓣读书Top250的书类信息”吧！安装方...

99+

2023-07-05
Python爬取豆瓣电影方法是什么

本篇内容主要讲解“Python爬取豆瓣电影方法是什么”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python爬取豆瓣电影方法是什么”吧!主要目标环境：MAC + Python3....

99+

2023-06-02
用python爬取豆瓣前一百电影

目录实现代码：代码分析：运行结果：总结网站爬取的流程图：实现项目我们需要运用以下几个知识点一、获取网页1.找网页规律；2.使用 for 循环语句获得网站前4页的网页链接；3.使...

99+

2024-04-02
如何用Scrapy爬取豆瓣TOP250

如何用Scrapy爬取豆瓣TOP250，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。最好的学习方式就是输入之后再输出，分享一个自己学习scrapy框架的小案例，方便快速的掌握使...

99+

2023-06-04
使用Python怎么爬取豆瓣电影名

这期内容当中小编将会给大家带来有关使用Python怎么爬取豆瓣电影名，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。Python的优点有哪些1、简单易用，与C/C++、Java、C# 等传统语言相比，Pyt...

99+

2023-06-14
怎么用python爬取豆瓣前一百电影

这期内容当中小编将会给大家带来有关怎么用python爬取豆瓣前一百电影，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和面向对象的...

99+

2023-06-26
python如何爬取豆瓣电影TOP250数据

这篇文章将为大家详细讲解有关python如何爬取豆瓣电影TOP250数据，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。在执行程序前，先在MySQL中创建一个数据库"pachong"。i...

99+

2023-06-15