iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python爬取小说
  • 339
分享到

Python爬取小说

小说Python 2023-01-31 05:01:16 339人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

这次爬虫并没有遇到什么难题,甚至没有加header和data就直接弄到了盗版网站上的小说,真是大大的幸运。 所用模块:urllib,re 主要分三个步骤: (1)分析小说网址构成; (2)获取网页,并分离出小说章节名和章节内容; (3)写

这次爬虫并没有遇到什么难题,甚至没有加header和data就直接弄到了盗版网站上的小说,真是大大的幸运。

所用模块:urllib,re

主要分三个步骤:

(1)分析小说网址构成;

(2)获取网页,并分离出小说章节名和章节内容;

(3)写入txt文档。

#-*-coding:GBK-*-
#author:zwg
'''
爬取某小说网站的免费小说
'''
import urllib
import urllib2
import re
url='Http://www.bxwx8.org/b/8/8987/2093383.html'
url1='http://www.bxwx8.org/b/8/8987/2093%d.html'
def gethtml(url):
    page=urllib.urlopen(url)
    html=page.read()
    return html
def get_name_content(html):
    re1=re.compile('<title>.+?</title>')
    re2=re.compile('<div id="content"><div id="adright">.+?</div>')
    s1=re1.findall(html)
    s2=re2.findall(html)
    if len(s1)>0 and len(s2)>0:
        name=s1[0].replace('<title>','')
        name=name.replace('TXT下载-笔下文学</title>','')
        content=s2[0].replace('''<div id="content"><div id="adright">''','')
        content=content.replace('</div>','')
        content=content.replace('<br /><br />    ','\n\t')
        content = content.replace('    ', '')
    else:
        name=' '
        content=' '
    return name,content
def write_novel(i,file1):
    file1.writelines('\n\r')
    s=383+i;
    html = gethtml(url1 % s)
    name,content = get_name_content(html)
    file1.writelines(name)
    file1.writelines('\n\t')
    file1.writelines(content)
    file1.writelines('\n\n\n')

file1=file('间客.txt','w+')
[write_novel(i,file1) for i in range(50)]
file1.close()


好了,不说了,我要看小说去了,Bye。

--结束END--

本文标题: Python爬取小说

本文链接: https://www.lsjlt.com/news/189023.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python爬取小说
    这次爬虫并没有遇到什么难题,甚至没有加header和data就直接弄到了盗版网站上的小说,真是大大的幸运。 所用模块:urllib,re 主要分三个步骤: (1)分析小说网址构成; (2)获取网页,并分离出小说章节名和章节内容; (3)写...
    99+
    2023-01-31
    小说 Python
  • python 爬取全本免费小说网的小说
      这几天朋友说想看电子书,但是只能在网上看,不能下载到本地后看,问我有啥办法?我找了好几个小说网址看了下,你只能直接在网上看,要下载txt要冲钱买会员,而且还不能在浏览器上直接复制粘贴。之后我就想到python的爬虫不就可以爬取后下载吗...
    99+
    2023-01-30
    小说网 全本 小说
  • python爬虫之爬取笔趣阁小说
    目录前言一、首先导入相关的模块二、向网站发送请求并获取网站数据三、拿到页面数据之后对数据进行提取四、获取到小说详情页链接之后进行详情页二次访问并获取文章数据五、对小说详情页进行静态页...
    99+
    2024-04-02
  • python怎么爬取小说内容
    在Python中,可以使用`requests`库发送HTTP请求,并使用`BeautifulSoup`库解析HTML页面,从而爬取小...
    99+
    2023-10-10
    python
  • 怎么用python爬取小说内容
    使用Python爬取小说内容,可以使用requests库发送HTTP请求获取小说网站的HTML内容,然后使用BeautifulSou...
    99+
    2023-09-12
    python
  • Python的scrapy之爬取6毛小说
    闲来无事想看个小说,打算下载到电脑上看,找了半天,没找到可以下载的网站,于是就想自己爬取一下小说内容并保存到本地 圣墟 第一章 沙漠中的彼岸花 - 辰东 - 6毛小说网  http://www.6mao.com/html/40/40184...
    99+
    2023-01-30
    小说 Python scrapy
  • python中怎么使用XPath爬取小说
    这篇文章将为大家详细讲解有关python中怎么使用XPath爬取小说,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专注的是解决...
    99+
    2023-06-14
  • Python爬虫:爬取小说并存储到数据库
    爬取小说网站的小说,并保存到数据库第一步:先获取小说内容#!/usr/bin/python # -*- coding: UTF-8 -*- import ...
    99+
    2024-04-02
  • python爬虫之爬取笔趣阁小说升级版
    python爬虫高效爬取某趣阁小说 这次的代码是根据我之前的 笔趣阁爬取 的基础上修改的,因为使用的是自己的ip,所以在请求每个章节的时候需要设置sleep(4~5)才不会被封ip...
    99+
    2024-04-02
  • Python爬虫之爬取最新更新的小说网站
    目录一、引言二、关于相关访问请求及应答报文2.1、百度搜索请求2.2、百度返回搜索结果2.3、小说网站关于最新更新的展现及html报文格式三、实现思路及代码3.1、根据url获取网站...
    99+
    2024-04-02
  • python中使用XPath爬取小说的方法
    这篇“python中使用XPath爬取小说的方法”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“python中使用XPath爬...
    99+
    2023-06-30
  • python爬虫之小说网站--下载小说(
    python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/2447.html) 2.分析自己要得到的内...
    99+
    2023-01-30
    爬虫 小说网站 小说
  • 使用PyCharm怎么爬取小说
    使用PyCharm怎么爬取小说?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。爬取小说的思路: 1.获取小说地址本文以搜书网一小说为例《嘘,梁上有王妃!》目录网址:...
    99+
    2023-06-14
  • Python爬虫教程使用Scrapy框架爬取小说代码示例
    目录Scrapy框架简单介绍创建Scrapy项目创建Spider爬虫Spider爬虫提取数据items.py代码定义字段fiction.py代码提取数据pipelines.py代码保...
    99+
    2024-04-02
  • python爬取小视频
    python爬取小视频记录 学习python简单爬虫小程序,记录代码和学习过程 环境信息 python 2.7.12 分析与步骤 要分析网站信息 http://www.budejie.com/video/ 查看网页不同页面的信息...
    99+
    2023-01-31
    小视频 python
  • python爬取晋江文学城小说评论(情绪分析)
    1. 收集数据 1.1 爬取晋江文学城收藏排行榜前50页的小说信息 获取收藏榜前50页的小说列表,第一页网址为 ‘http://www.jjwxc.net/bookbase.php&...
    99+
    2024-04-02
  • python使用XPath解析数据爬取起点小说网数据
    目录1. xpath 的介绍优点:安装lxml库XML的树形结构:选取节点的表达式举例:2. 爬取起点小说网在浏览器中获取书名和作者测试使用xpath获取起点小说网的数据1. xpa...
    99+
    2024-04-02
  • 使用PyCharm批量爬取小说的完整代码
    目录使用pycharm批量爬取小说 1.获取小说地址2.分析小说地址结构3.拼接地址4.分析章节内容结构5.保存文本6.完整代码使用pycharm批量爬取小说 爬取小说的思...
    99+
    2024-04-02
  • 用python爬取今日说法每期数据
    目录实验目的代码实验结果总结实验目的 主要是获取2021年今日说法每期节目主要内容及时间今日说法的网址为:http://tv.cctv.com/lm/jrsf/index.shtml...
    99+
    2024-04-02
  • 怎么用Python写个听小说的爬虫
    这篇文章主要介绍了怎么用Python写个听小说的爬虫的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇怎么用Python写个听小说的爬虫文章都会有所收获,下面我们一起来看看吧。书名和章节列表随机点开一本书,这个页面...
    99+
    2023-06-29
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作