Python爬取三国演义的实现方法

演义方法 Python 2022-06-04 18:06:22 874人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

本文的爬虫教程分为四部： 1.从哪爬 where 2.爬什么 what 3.怎么爬 how 4.爬了之后信息如何保存 save 一、从哪爬三国演义二、

本文的爬虫教程分为四部：

1.从哪爬 where

2.爬什么 what

3.怎么爬 how

4.爬了之后信息如何保存 save

一、从哪爬

三国演义

二、爬什么

三国演义全文

三、怎么爬

在Chrome页面打开F12，就可以发现文章内容在节点


<div id="con" class="bookyuanjiao">

只要找到这个节点，然后把内容写入到一个html文件即可。


content = soup.find("div", {"class": "bookyuanjiao", "id": "con"})

四、爬了之后如何保存

主要就是拿到内容，拼接到一个html文件，然后保存下来就可以了。


#!usr/bin/env 
# -*-coding:utf-8 -*-
import urllib2
import os
from bs4 import BeautifulSoup as BS
import locale
import sys
from lxml import etree
import re

reload(sys)
sys.setdefaultencoding('gbk')

sub_folder = os.path.join(os.getcwd(), "sanguoyanyi")
if not os.path.exists(sub_folder):
  os.mkdir(sub_folder)

path = sub_folder

# customize html as head of the articles
input = open(r'0.html', 'r')
head = input.read()

domain = 'Http://www.shicimingju.com/book/sanguoyanyi.html'
t = domain.find(r'.html')
new_domain = '/'.join(domain.split("/")[:-2])
first_chapter_url = domain[:t] + "/" + str(1) + '.html'
print first_chapter_url

# Get url if chapter lists
req = urllib2.Request(url=domain)
resp = urllib2.urlopen(req)
html = resp.read()
soup = BS(html, 'lxml')
chapter_list = soup.find("div", {"class": "bookyuanjiao", "id": "mulu"})
sel = etree.HTML(str(chapter_list))
result = sel.xpath('//li/a/@href')

for each_link in result:
  each_chapter_link = new_domain + "/" + each_link
  print each_chapter_link
  req = urllib2.Request(url=each_chapter_link)
  resp = urllib2.urlopen(req)
  html = resp.read()

  soup = BS(html, 'lxml')
  content = soup.find("div", {"class": "bookyuanjiao", "id": "con"})
  title = soup.title.text
  title = title.split(u'_《三国演义》_诗词名句网')[0]

  html = str(content)
  html = head + html + "</body></html>"

  filename = path + "\" + title + ".html"
  print filename
  # write file
  output = open(filename, 'w')
  output.write(html)
  output.close()

0.html的内容如下


<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body>

总结

以上就是利用python爬取三国演义的实现方法，希望对大家学习 Python能有所帮助，如果有疑问大家可以留言交流。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬取三国演义的实现方法

本文链接: https://www.lsjlt.com/news/14221.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python数据解析BeautifulSoup爬取三国演义章节示例

目录数据解析Beautiful SoupBeautiful Soup用法案例—爬取三国演义章节及对应的内容数据解析数据解析就是将爬取到的整个页面中的局部的内容进行提取。python...

99+

2024-04-02
Python爬虫实现自动化爬取b站实时弹幕的方法

这篇文章主要介绍了Python爬虫实现自动化爬取b站实时弹幕的方法，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。Python主要用来做什么Python主要应用于：1、Web开...

99+

2023-06-14
python爬虫实战之爬取百度首页的方法

这篇文章给大家分享的是有关python爬虫实战之爬取百度首页的方法的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。Python的优点有哪些1、简单易用，与C/C++、Java、C# 等传统语言相比，Python对代...

99+

2023-06-14
Python爬取科目四考试题库的方法实现

1、环境 PyCharm Python 3.6 pip安装的依赖包包括：requests 2.25.0、urllib3 1.26.2、docx 0.2.4、python-do...

99+

2024-04-02
Python爬取konachan的方法是什么

要使用Python爬取konachan网站的方法，可以使用以下步骤：1. 导入所需的库：使用`requests`库发送HTTP请求，...

99+

2023-08-23

Python
python爬虫爬取指定内容的解决方法

目录解决办法：实列代码如下：（以我们学校为例）爬取一些网站下指定的内容，一般来说可以用xpath来直接从网页上来获取，但是当我们获取的内容不唯一的时候我们无法选择，我们所需要的、所指...

99+

2024-04-02
python淘宝爬虫的实现方法教程

这篇文章主要介绍“python淘宝爬虫的实现方法教程”，在日常操作中，相信很多人在python淘宝爬虫的实现方法教程问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”python淘宝爬虫的实现方法教程”的疑惑有所...

99+

2023-06-25
使用Post方法模拟登陆爬取网页的实现方法

最近弄爬虫，遇到的一个问题就是如何使用post方法模拟登陆爬取网页。下面是极简版的代码：import java.io.BufferedReader;import java.io.InputStreamReader;import java.i...

99+

2023-05-31

java post 模拟登陆
Python用requests-html爬取网页的实现

目录1. 开始2. 原理3. 元素定位css 选择器4. CSS 简单规则5. Xpath简单规则6. 人性化操作7. 加载 js8. 总结1. 开始 Python 中可以进行网页解...

99+

2024-04-02
Python异步爬取知乎热榜的方法

今天小编给大家分享一下Python异步爬取知乎热榜的方法的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。一、错误代码：摘要和详...

99+

2023-06-30
Python爬虫的两套解析方法和四种爬虫实现

【本文转载自微信公众号：数据科学家养成记，作者：louwill，转载授权请联系原作者】对于大多数朋友而言，爬虫绝对是学习python的最好的起手和入门方式。因为爬虫思维模式固定，编程模式也相对简单，一般在细节处理上积累一些经验都...

99+

2023-06-02
Python使用爬虫爬取贵阳房价的方法详解

目录1序言1.1生存压力带来的哲思1.2 买房&房奴2爬虫 2.1基本概念2.2 爬虫的基本流程 3爬取贵阳房价并写入表格3.1结果展...

99+

2024-04-02
python中使用XPath爬取小说的方法

这篇“python中使用XPath爬取小说的方法”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“python中使用XPath爬...

99+

2023-06-30
python实现selenium网络爬虫的方法小结

selenium最初是一个自动化测试工具，而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题，selenium本质是通过驱动浏览器，完全模拟浏览器...

99+

2024-04-02
Python随机抽样的三种方法及自定义封装函数实现

Python随机抽样的三种方法及自定义封装函数实现在Python中，我们经常需要从一个列表或数据集中随机抽取一些元素，以便进行随机实验、样本测试等操作。本文将介绍Python中常用的三种随机抽样方法...

99+

2023-09-06

python numpy 开发语言
通过python爬虫mechanize库爬取本机ip地址的方法

目录需求分析实现分析实际使用完整代码演示需求分析最近，各平台更新的ip属地功能非常火爆，因此呢，也出现了许多新的网络用语，比如说“xx加几分”，&ldquo...

99+

2024-04-02
JavaScript实现字符串截取的三个方法总结

目录substring()substr()slice()substring()和substr()的区别方法补充在 JavaScript 中，可...

99+

2023-02-27

JavaScript实现字符串截取方法 JavaScript字符串截取 JavaScript字符串
python爬取动态网页的方法是什么

Python爬取动态网页的方法有以下几种：1. 使用Selenium库：Selenium是一个自动化测试工具，可以模拟浏览器操作，包...

99+

2023-09-15

python
python爬虫获取数据的方法是什么

Python爬虫获取数据的方法有以下几种：1. 使用第三方库：Python有很多强大的第三方库，如Requests、Beautifu...

99+

2023-10-19

python
python 实现多线程的三种方法总结

1._thread.start_new_thread(了解) import threading import time import _thread def job(): ...

99+

2024-04-02