Python制作爬虫采集小说

爬虫小说 Python 2022-06-04 19:06:23 912人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

开发工具：python3.4 操作系统：win8 主要功能：去指定小说网页爬小说目录，按章节保存到本地，并将爬过的网页保存到本地配置文件。被爬网站：Http://www.cishuge.com/ 小说名称

开发工具：python3.4
操作系统：win8
主要功能：去指定小说网页爬小说目录，按章节保存到本地，并将爬过的网页保存到本地配置文件。
被爬网站：Http://www.cishuge.com/
小说名称：灵棺夜行
代码出处：本人亲自码的


import urllib.request
import http.cookiejar

import Socket
import time
import re

timeout = 20
socket.setdefaulttimeout(timeout)

sleep_download_time = 10
time.sleep(sleep_download_time)
 
def makeMyOpener(head = {
 'Connection': 'Keep-Alive',
 'Accept': 'text/html, application/xhtml+xml, */*',
 'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
 'User-Agent': 'Mozilla/5.0 (windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
}):
 cj = http.cookiejar.CookieJar()
 opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
 header = []
 for key, value in head.items():
  elem = (key, value)
  header.append(elem)
 opener.addheaders = header
 return opener
 
def saveFile(save_path,txts):
 f_obj = open(save_path,'w+')
 for item in txts:
  f_obj.write(item+'n')
 f_obj.close()
 
#get_code_list
code_list='http://www.cishuge.com/read/0/771/'
oper = makeMyOpener()
uop = oper.open(code_list,timeout=1000)
data = uop.read().decode('gbk','ignore')

pattern = re.compile('<li><a href="(.*?)".*?>(.*?)</a></li>',re.S)

items = re.findall(pattern,data)

print ('获取列表完成')
url_path='url_file.txt'

url_r=open(url_path,'r')
url_arr=url_r.readlines(100000)
url_r.close()
print (len(url_arr))

url_file=open(url_path,'a')

print ('获取已下载网址')

for tmp in items:
 save_path = tmp[1].replace(' ','')+'.txt'
 url = code_list+tmp[0]
 if url+'n' in url_arr:
  continue
 print('写日志：'+url+'n')
 url_file.write(url+'n')
 opene = makeMyOpener()
 op1 = opene.open(url,timeout=1000)
 data = op1.read().decode('gbk','ignore')
 opene.close()
 pattern = re.compile('    (.*?)<br />',re.S)
 txts = re.findall(pattern,data)
 saveFile(save_path,txts)
 
url_file.close()

虽然代码还是有点瑕疵，还是分享给大家，一起改进

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python制作爬虫采集小说

本文链接: https://www.lsjlt.com/news/15751.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python爬虫之小说网站--下载小说(

python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/2447.html) 2.分析自己要得到的内...

99+

2023-01-30

爬虫小说网站小说
python爬虫之爬取笔趣阁小说

目录前言一、首先导入相关的模块二、向网站发送请求并获取网站数据三、拿到页面数据之后对数据进行提取四、获取到小说详情页链接之后进行详情页二次访问并获取文章数据五、对小说详情页进行静态页...

99+

2024-04-02
Python爬虫采集微博视频数据

目录前言知识点开发环境爬虫原理案例实现前言随时随地发现新鲜事！微博带你欣赏世界上每一个精彩瞬间，了解每一个幕后故事。分享你想表达的，让全世界都能听到你的心声！今天我们通过pyth...

99+

2024-04-02
Python爬虫采集Tripadvisor数据案例实现

目录前言第三方库开发环境开始代码请求数据2. 获取数据(网页源代码)3. 解析数据(提取我们想要的数据内容详情页链接)4. 发送请求(访问所有的详情页链接) 获取数据5. 解析数据...

99+

2024-04-02
如何提高python爬虫采集的效率

这篇文章将为大家详细讲解有关如何提高python爬虫采集的效率，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。1、让爬虫使用多线程，计算机要有足够的内存。同时也要使用代理IP，代理IP要找稳定在线的那种，这...

99+

2023-06-20
Python爬虫实现热门电影信息采集

目录一、前言二、前期准备1、使用的软件2、需要用的模块3、模块安装问题4、如何配置pycharm里面的python解释器?5、pycharm如何安装插件?三、思路1、...

99+

2024-04-02
Python爬虫如何采集微博视频数据

这篇文章主要介绍了Python爬虫如何采集微博视频数据，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。知识点requestspprint开发环境版本：python 3.8-编...

99+

2023-06-21
Python爬虫：爬取小说并存储到数据库

爬取小说网站的小说，并保存到数据库第一步：先获取小说内容#!/usr/bin/python # -*- coding: UTF-8 -*- import ...

99+

2024-04-02
python爬虫之爬取笔趣阁小说升级版

python爬虫高效爬取某趣阁小说这次的代码是根据我之前的笔趣阁爬取的基础上修改的，因为使用的是自己的ip，所以在请求每个章节的时候需要设置sleep（4~5）才不会被封ip...

99+

2024-04-02
Python爬虫之爬取最新更新的小说网站

目录一、引言二、关于相关访问请求及应答报文2.1、百度搜索请求2.2、百度返回搜索结果2.3、小说网站关于最新更新的展现及html报文格式三、实现思路及代码3.1、根据url获取网站...

99+

2024-04-02
怎么用Python写个听小说的爬虫

这篇文章主要介绍了怎么用Python写个听小说的爬虫的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇怎么用Python写个听小说的爬虫文章都会有所收获，下面我们一起来看看吧。书名和章节列表随机点开一本书，这个页面...

99+

2023-06-29
基于Python3制作一个带GUI界面的小说爬虫工具

目录效果图开发完成后的界面采集过程界面采集后存储主要功能用到的第三方模块打包为 exe 命令全部源码效果图最近帮朋友写个简单爬虫，顺便整理了下，搞成了一个带GUI界面的小说爬虫工具...

99+

2024-04-02
Python爬虫怎么实现热门电影信息采集

这篇文章主要介绍“Python爬虫怎么实现热门电影信息采集”，在日常操作中，相信很多人在Python爬虫怎么实现热门电影信息采集问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python爬虫怎么实现热门电影信...

99+

2023-06-21
Python爬取小说

这次爬虫并没有遇到什么难题，甚至没有加header和data就直接弄到了盗版网站上的小说，真是大大的幸运。所用模块：urllib，re 主要分三个步骤：（1）分析小说网址构成；（2）获取网页，并分离出小说章节名和章节内容；（3）写...

99+

2023-01-31

小说 Python
Python-爬虫小计

# -*-coding:utf8-*-import requestsfrom bs4 import BeautifulSoupimport timeimport osimport urllibimport reimport jsonrequ...

99+

2023-01-30

小计爬虫 Python
详解如何用Python写个听小说的爬虫

目录书名和章节列表音频地址下载完整代码总结在路上发现好多人都喜欢用耳机听小说，同事居然可以一整天的带着一只耳机听小说。小编表示非常的震惊。今天就用 Python 下载听小说 ...

99+

2024-04-02
如何使用Python3制作一个带GUI界面的小说爬虫工具

这篇文章主要介绍如何使用Python3制作一个带GUI界面的小说爬虫工具，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！效果图最近帮朋友写个简单爬虫，顺便整理了下，搞成了一个带GUI界面的小说爬虫工具，用来从笔趣阁爬取...

99+

2023-06-29
python爬虫工具集合

大家一起来整理吧！强烈建议PR。这是初稿，总是有很多问题，而且考虑不全面，希望大家支持！源文件主要针对python3 常用库 urllib - Urllib是python提供的一个用于操作url的模块。 - 在pytho...

99+

2023-01-31

爬虫工具 python
Python爬虫教程使用Scrapy框架爬取小说代码示例

目录Scrapy框架简单介绍创建Scrapy项目创建Spider爬虫Spider爬虫提取数据items.py代码定义字段fiction.py代码提取数据pipelines.py代码保...

99+

2024-04-02
python爬虫爬取赶集网数据

一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider patubole patubole.com 三.利用chrome浏览器分析出房价和标题的两个字段的x...

99+

2023-01-31

爬虫数据赶集网