iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python爬取三国演义的实现方法
  • 874
分享到

Python爬取三国演义的实现方法

演义方法Python 2022-06-04 18:06:22 874人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

本文的爬虫教程分为四部: 1.从哪爬 where 2.爬什么 what 3.怎么爬 how 4.爬了之后信息如何保存 save 一、从哪爬 三国演义 二、

本文的爬虫教程分为四部:

1.从哪爬 where

2.爬什么 what

3.怎么爬 how

4.爬了之后信息如何保存 save

一、从哪爬

三国演义

二、爬什么

三国演义全文

三、怎么爬

在Chrome页面打开F12,就可以发现文章内容在节点


<div id="con" class="bookyuanjiao">

只要找到这个节点,然后把内容写入到一个html文件即可。


content = soup.find("div", {"class": "bookyuanjiao", "id": "con"})

四、爬了之后如何保存

主要就是拿到内容,拼接到一个html文件,然后保存下来就可以了。


#!usr/bin/env 
# -*-coding:utf-8 -*-
import urllib2
import os
from bs4 import BeautifulSoup as BS
import locale
import sys
from lxml import etree
import re

reload(sys)
sys.setdefaultencoding('gbk')

sub_folder = os.path.join(os.getcwd(), "sanguoyanyi")
if not os.path.exists(sub_folder):
  os.mkdir(sub_folder)

path = sub_folder

# customize html as head of the articles
input = open(r'0.html', 'r')
head = input.read()

domain = 'Http://www.shicimingju.com/book/sanguoyanyi.html'
t = domain.find(r'.html')
new_domain = '/'.join(domain.split("/")[:-2])
first_chapter_url = domain[:t] + "/" + str(1) + '.html'
print first_chapter_url

# Get url if chapter lists
req = urllib2.Request(url=domain)
resp = urllib2.urlopen(req)
html = resp.read()
soup = BS(html, 'lxml')
chapter_list = soup.find("div", {"class": "bookyuanjiao", "id": "mulu"})
sel = etree.HTML(str(chapter_list))
result = sel.xpath('//li/a/@href')

for each_link in result:
  each_chapter_link = new_domain + "/" + each_link
  print each_chapter_link
  req = urllib2.Request(url=each_chapter_link)
  resp = urllib2.urlopen(req)
  html = resp.read()

  soup = BS(html, 'lxml')
  content = soup.find("div", {"class": "bookyuanjiao", "id": "con"})
  title = soup.title.text
  title = title.split(u'_《三国演义》_诗词名句网')[0]

  html = str(content)
  html = head + html + "</body></html>"

  filename = path + "\" + title + ".html"
  print filename
  # write file
  output = open(filename, 'w')
  output.write(html)
  output.close()

0.html的内容如下


<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body>

总结

以上就是利用python爬取三国演义的实现方法,希望对大家学习Python能有所帮助,如果有疑问大家可以留言交流。

--结束END--

本文标题: Python爬取三国演义的实现方法

本文链接: https://www.lsjlt.com/news/14221.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python数据解析BeautifulSoup爬取三国演义章节示例
    目录数据解析Beautiful SoupBeautiful Soup用法案例—爬取三国演义章节及对应的内容数据解析 数据解析就是将爬取到的整个页面中的局部的内容进行提取。python...
    99+
    2024-04-02
  • Python爬虫实现自动化爬取b站实时弹幕的方法
    这篇文章主要介绍了Python爬虫实现自动化爬取b站实时弹幕的方法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。Python主要用来做什么Python主要应用于:1、Web开...
    99+
    2023-06-14
  • python爬虫实战之爬取百度首页的方法
    这篇文章给大家分享的是有关python爬虫实战之爬取百度首页的方法的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。Python的优点有哪些1、简单易用,与C/C++、Java、C# 等传统语言相比,Python对代...
    99+
    2023-06-14
  • Python爬取科目四考试题库的方法实现
    1、环境 PyCharm Python 3.6 pip安装的依赖包包括:requests 2.25.0、urllib3 1.26.2、docx 0.2.4、python-do...
    99+
    2024-04-02
  • Python爬取konachan的方法是什么
    要使用Python爬取konachan网站的方法,可以使用以下步骤:1. 导入所需的库:使用`requests`库发送HTTP请求,...
    99+
    2023-08-23
    Python
  • python爬虫爬取指定内容的解决方法
    目录解决办法:实列代码如下:(以我们学校为例)爬取一些网站下指定的内容,一般来说可以用xpath来直接从网页上来获取,但是当我们获取的内容不唯一的时候我们无法选择,我们所需要的、所指...
    99+
    2024-04-02
  • python淘宝爬虫的实现方法教程
    这篇文章主要介绍“python淘宝爬虫的实现方法教程”,在日常操作中,相信很多人在python淘宝爬虫的实现方法教程问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python淘宝爬虫的实现方法教程”的疑惑有所...
    99+
    2023-06-25
  • 使用Post方法模拟登陆爬取网页的实现方法
    最近弄爬虫,遇到的一个问题就是如何使用post方法模拟登陆爬取网页。下面是极简版的代码:import java.io.BufferedReader;import java.io.InputStreamReader;import java.i...
    99+
    2023-05-31
    java post 模拟登陆
  • Python用requests-html爬取网页的实现
    目录1. 开始2. 原理3. 元素定位css 选择器4. CSS 简单规则5. Xpath简单规则6. 人性化操作7. 加载 js8. 总结1. 开始 Python 中可以进行网页解...
    99+
    2024-04-02
  • Python异步爬取知乎热榜的方法
    今天小编给大家分享一下Python异步爬取知乎热榜的方法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。一、错误代码:摘要和详...
    99+
    2023-06-30
  • Python爬虫的两套解析方法和四种爬虫实现
    【本文转载自微信公众号:数据科学家养成记,作者:louwill,转载授权请联系原作者】 对于大多数朋友而言,爬虫绝对是学习python的最好的起手和入门方式。因为爬虫思维模式固定,编程模式也相对简单,一般在细节处理上积累一些经验都...
    99+
    2023-06-02
  • Python使用爬虫爬取贵阳房价的方法详解
    目录1序言1.1生存压力带来的哲思1.2 买房&房奴2爬虫 2.1基本概念2.2 爬虫的基本流程 3爬取贵阳房价并写入表格3.1结果展...
    99+
    2024-04-02
  • python中使用XPath爬取小说的方法
    这篇“python中使用XPath爬取小说的方法”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“python中使用XPath爬...
    99+
    2023-06-30
  • python实现selenium网络爬虫的方法小结
    selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题,selenium本质是通过驱动浏览器,完全模拟浏览器...
    99+
    2024-04-02
  • Python随机抽样的三种方法及自定义封装函数实现
    Python随机抽样的三种方法及自定义封装函数实现 在Python中,我们经常需要从一个列表或数据集中随机抽取一些元素,以便进行随机实验、样本测试等操作。本文将介绍Python中常用的三种随机抽样方法...
    99+
    2023-09-06
    python numpy 开发语言
  • 通过python爬虫mechanize库爬取本机ip地址的方法
    目录需求分析实现分析实际使用完整代码演示需求分析 最近,各平台更新的ip属地功能非常火爆,因此呢,也出现了许多新的网络用语,比如说“xx加几分”,&ldquo...
    99+
    2024-04-02
  • JavaScript实现字符串截取的三个方法总结
    目录substring()substr()slice()substring()和substr()的区别方法补充在 JavaScript 中,可...
    99+
    2023-02-27
    JavaScript实现字符串截取方法 JavaScript字符串截取 JavaScript字符串
  • python爬取动态网页的方法是什么
    Python爬取动态网页的方法有以下几种:1. 使用Selenium库:Selenium是一个自动化测试工具,可以模拟浏览器操作,包...
    99+
    2023-09-15
    python
  • python爬虫获取数据的方法是什么
    Python爬虫获取数据的方法有以下几种:1. 使用第三方库:Python有很多强大的第三方库,如Requests、Beautifu...
    99+
    2023-10-19
    python
  • python 实现多线程的三种方法总结
    1._thread.start_new_thread(了解) import threading import time import _thread def job(): ...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作