python爬虫——爬取古诗名句

爬虫名句古诗 2023-01-31 03:01:47 444人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

1.通过python爬虫循环爬取古诗词网站古诗名句2.落地到本地数据库首先通过firedebug进行页面定位：其次源码定位：最终生成lxml etree定位div标签源码： response = etree.html(data)

1.通过python爬虫循环爬取古诗词网站古诗名句
2.落地到本地数据库

首先通过firedebug进行页面定位：
python爬虫——爬取古诗名句

其次源码定位：
python爬虫——爬取古诗名句

最终生成lxml etree定位div标签源码：

response = etree.html(data)
for row in response.xpath('//div[@class="left"]/div[@class="sons"]/div[@class="cont"]'):
    content = row.xpath('a/text()')[0]
    origin = row.xpath('a/text()')[-1]
    self.db.add_new_row('mingJuSpider', {'content': content, 'origin': origin, 'createTime': str(date.today())})

python爬虫——爬取古诗名句

#!/usr/bin/env python
# -*- coding: utf-8 -*-
'''
@Date    : 2017/12/21 12:35
@Author  : kaiqing.huang
@File    : mingJuSpider.py
'''
from utils import MySpider, MonGoBase
from datetime import date
from lxml import etree
import sys

class mingJuSpider():
    def __init__(self):
        self.db = MongoBase()
        self.spider = MySpider()

    def download(self):
        for pageId in range(1,117):
            url = 'Http://so.gushiwen.org/mingju/Default.aspx?p={}&c=&t='.fORMat(pageId)
            print url
            data = self.spider.get(url)
            if data:
                self.parse(data)

    def parse(self, data):
        response = etree.HTML(data)
        for row in response.xpath('//div[@class="left"]/div[@class="sons"]/div[@class="cont"]'):
            content = row.xpath('a/text()')[0]
            origin = row.xpath('a/text()')[-1]
            self.db.add_new_row('mingJuSpider', {'content': content, 'origin': origin, 'createTime': str(date.today())})

if __name__ == '__main__':
    sys.setrecursionlimit(100000)
    do = mingJuSpider()
    do.download()

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: python爬虫——爬取古诗名句

本文链接: https://www.lsjlt.com/news/187389.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python爬虫——爬取古诗名句

1.通过python爬虫循环爬取古诗词网站古诗名句2.落地到本地数据库首先通过firedebug进行页面定位：其次源码定位：最终生成lxml etree定位div标签源码： response = etree.HTML(data) ...

99+

2023-01-31

爬虫名句古诗
PythonScrapy实战之古诗文网的爬取

目录需求1. Scrapy项目创建2. 全局配置 settings.py3. 爬虫程序.py4. 数据结构 items.py5. 管道 pipelines.py6. 程序执行 sta...

99+

2024-04-02
Python 爬虫爬取微信文章

爬取公众号文章搜狗微信平台为入口地址：http://weixin.sogou.com/ --------------------------------------------------------------搜索关键词“科技”对比网...

99+

2023-01-31

爬虫文章 Python
python爬虫如何爬取图片

这篇文章主要介绍了python爬虫如何爬取图片，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。python可以做什么Python是一种编程语言，内置了许多有效的工具，Pytho...

99+

2023-06-14
Python爬虫爬取网站图片

此次python3主要用requests，解析图片网址主要用beautiful soup，可以基本完成爬取图片功能，爬虫这个当然大多数人入门都是爬美女图片，我当然也不落俗套，首先也...

99+

2024-04-02
Python用正则表达式实现爬取古诗文网站信息

目录分析古诗文网站1. 用正则表达式获取总页数2. 提取诗的标题3. 提取作者和朝代4. 提取诗的内容整理代码完整源代码总结分析古诗文网站下图1展示了古诗文网站—》诗文栏目的首页...

99+

2024-04-02
python爬虫：爬取网站视频

python爬取百思不得姐网站视频：http://www.budejie.com/video/新建一个py文件，代码如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re...

99+

2023-01-31

爬虫视频网站
Python怎么用正则表达式实现爬取古诗文网站信息

本篇内容介绍了“Python怎么用正则表达式实现爬取古诗文网站信息”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！分析古诗文网站下图1展示了古...

99+

2023-06-25
怎么使用NodeJs爬虫抓取古代典籍

这篇文章主要讲解了“怎么使用NodeJs爬虫抓取古代典籍”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“怎么使用NodeJs爬虫抓取古代典籍”吧！项目实现方案...

99+

2024-04-02
如何使用python爬虫爬取大学排名信息

这篇文章将为大家详细讲解有关如何使用python爬虫爬取大学排名信息，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。这次爬取的网址请搜索“阿凡题”（纯技术讨论）“阿凡题”（纯技术讨论）在该网址选择查院校...

99+

2023-06-02
python爬虫之爬取百度翻译

破解百度翻译翻译是一件麻烦的事情，如果可以写一个爬虫程序直接爬取百度翻译的翻译结果就好了，可当我打开百度翻译的页面，输入要翻译的词时突然发现不管我要翻译什么，网址都没有任何变化，那...

99+

2024-04-02
Python爬虫怎么爬取KFC地址

这篇文章将为大家详细讲解有关Python爬虫怎么爬取KFC地址，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。python主要应用领域有哪些1、云计算，典型应用OpenStack。2、WEB前端开发，众多大...

99+

2023-06-14
python爬虫爬取赶集网数据

一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider patubole patubole.com 三.利用chrome浏览器分析出房价和标题的两个字段的x...

99+

2023-01-31

爬虫数据赶集网
Python爬虫：导出爬取的数据

最近想要做一个爬虫，检验一下Python的学习成果，眼看快要做完了，又遇到了问题，想要导出爬取的数据就必须要了解CSV文件，可是！下面是我百度出的结果！啊啊啊啊！作为一枚小白，我看不懂百科在说些什么？！后来，在网上发现一个讲爬...

99+

2023-01-31

爬虫数据 Python
python爬虫中如何爬取新闻

这篇文章主要介绍了python爬虫中如何爬取新闻，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。python的五大特点是什么python的五大特点：1.简单易学，开发程序时，专...

99+

2023-06-14
Python爬虫怎么UA伪装爬取

小编给大家分享一下Python爬虫怎么UA伪装爬取，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！python可以做什么Python是一种编程语言，内置了许多有效的...

99+

2023-06-14
六个步骤学会使用Python爬虫爬取数据(爬虫爬取微博实战)

用python的爬虫爬取数据真的很简单，只要掌握这六步就好，也不复杂。以前还以为爬虫很难，结果一上手，从初学到把东西爬下来，一个小时都不到就解决了。 Python爬虫六部曲第一步：安装request...

99+

2023-09-10

python 爬虫 python入门 python爬虫 python爬虫爬取网页数据
Python爬虫之爬取二手房信息

前言说到二手房信息，不知道你们心里最先跳出来的公司（网站）是什么，反正我心里第一个跳出来的是网站是 58 同城。哎呦，我这暴脾气，想到就赶紧去干。但很显然，我失败了。说显然，而不...

99+

2024-04-02
python爬虫爬取股票的k线图

目录前言数据来源分析数据抓取总结前言之前已经讲述了一些关于;python;获取基金的一些信息，最近又有了一些新发现，和大家分享一下，这个是非常重要的内容，非常重要的内容。这个数据也...

99+

2024-04-02
用python爬虫爬取CSDN博主信息

一、项目介绍爬取网址：CSDN首页的Python、Java、前端、架构以及数据库栏目。简单分析其各自的URL不难发现，都是https://www.csdn.net/nav/+栏目名...

99+

2024-04-02