iis服务器助手广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python爬虫——爬取古诗名句
  • 444
分享到

python爬虫——爬取古诗名句

爬虫名句古诗 2023-01-31 03:01:47 444人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

1.通过python爬虫循环爬取古诗词网站古诗名句2.落地到本地数据库 首先通过firedebug进行页面定位: 其次源码定位: 最终生成lxml etree定位div标签源码: response = etree.html(data)

1.通过python爬虫循环爬取古诗词网站古诗名句
2.落地到本地数据库

首先通过firedebug进行页面定位:
python爬虫——爬取古诗名句

其次源码定位:
python爬虫——爬取古诗名句

最终生成lxml etree定位div标签源码:

response = etree.html(data)
for row in response.xpath('//div[@class="left"]/div[@class="sons"]/div[@class="cont"]'):
    content = row.xpath('a/text()')[0]
    origin = row.xpath('a/text()')[-1]
    self.db.add_new_row('mingJuSpider', {'content': content, 'origin': origin, 'createTime': str(date.today())})

python爬虫——爬取古诗名句

#!/usr/bin/env python
# -*- coding: utf-8 -*-
'''
@Date    : 2017/12/21 12:35
@Author  : kaiqing.huang
@File    : mingJuSpider.py
'''
from utils import MySpider, MonGoBase
from datetime import date
from lxml import etree
import sys

class mingJuSpider():
    def __init__(self):
        self.db = MongoBase()
        self.spider = MySpider()

    def download(self):
        for pageId in range(1,117):
            url = 'Http://so.gushiwen.org/mingju/Default.aspx?p={}&c=&t='.fORMat(pageId)
            print url
            data = self.spider.get(url)
            if data:
                self.parse(data)

    def parse(self, data):
        response = etree.HTML(data)
        for row in response.xpath('//div[@class="left"]/div[@class="sons"]/div[@class="cont"]'):
            content = row.xpath('a/text()')[0]
            origin = row.xpath('a/text()')[-1]
            self.db.add_new_row('mingJuSpider', {'content': content, 'origin': origin, 'createTime': str(date.today())})

if __name__ == '__main__':
    sys.setrecursionlimit(100000)
    do = mingJuSpider()
    do.download()

--结束END--

本文标题: python爬虫——爬取古诗名句

本文链接: https://www.lsjlt.com/news/187389.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python爬虫——爬取古诗名句
    1.通过python爬虫循环爬取古诗词网站古诗名句2.落地到本地数据库 首先通过firedebug进行页面定位: 其次源码定位: 最终生成lxml etree定位div标签源码: response = etree.HTML(data) ...
    99+
    2023-01-31
    爬虫 名句 古诗
  • PythonScrapy实战之古诗文网的爬取
    目录需求1. Scrapy项目创建2. 全局配置 settings.py3. 爬虫程序.py4. 数据结构 items.py5. 管道 pipelines.py6. 程序执行 sta...
    99+
    2024-04-02
  • Python 爬虫爬取微信文章
     爬取公众号文章搜狗微信平台为入口 地址:http://weixin.sogou.com/ --------------------------------------------------------------搜索关键词“科技”对比网...
    99+
    2023-01-31
    爬虫 文章 Python
  • python爬虫如何爬取图片
    这篇文章主要介绍了python爬虫如何爬取图片,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python可以做什么Python是一种编程语言,内置了许多有效的工具,Pytho...
    99+
    2023-06-14
  • Python爬虫爬取网站图片
    此次python3主要用requests,解析图片网址主要用beautiful soup,可以基本完成爬取图片功能, 爬虫这个当然大多数人入门都是爬美女图片,我当然也不落俗套,首先也...
    99+
    2024-04-02
  • Python用正则表达式实现爬取古诗文网站信息
    目录分析古诗文网站1. 用正则表达式获取总页数2. 提取诗的标题3. 提取作者和朝代4. 提取诗的内容整理代码完整源代码总结分析古诗文网站 下图1展示了古诗文网站—》诗文 栏目的首页...
    99+
    2024-04-02
  • python爬虫:爬取网站视频
    python爬取百思不得姐网站视频:http://www.budejie.com/video/新建一个py文件,代码如下:#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re...
    99+
    2023-01-31
    爬虫 视频 网站
  • Python怎么用正则表达式实现爬取古诗文网站信息
    本篇内容介绍了“Python怎么用正则表达式实现爬取古诗文网站信息”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!分析古诗文网站下图1展示了古...
    99+
    2023-06-25
  • 怎么使用NodeJs爬虫抓取古代典籍
    这篇文章主要讲解了“怎么使用NodeJs爬虫抓取古代典籍”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么使用NodeJs爬虫抓取古代典籍”吧!项目实现方案...
    99+
    2024-04-02
  • 如何使用python爬虫爬取大学排名信息
    这篇文章将为大家详细讲解有关如何使用python爬虫爬取大学排名信息,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。 这次爬取的网址请搜索“阿凡题”(纯技术讨论)“阿凡题”(纯技术讨论) 在该网址选择查院校...
    99+
    2023-06-02
  • python爬虫之爬取百度翻译
    破解百度翻译 翻译是一件麻烦的事情,如果可以写一个爬虫程序直接爬取百度翻译的翻译结果就好了,可当我打开百度翻译的页面,输入要翻译的词时突然发现不管我要翻译什么,网址都没有任何变化,那...
    99+
    2024-04-02
  • Python爬虫怎么爬取KFC地址
    这篇文章将为大家详细讲解有关Python爬虫怎么爬取KFC地址,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。python主要应用领域有哪些1、云计算,典型应用OpenStack。2、WEB前端开发,众多大...
    99+
    2023-06-14
  • python爬虫爬取赶集网数据
    一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider  patubole patubole.com   三.利用chrome浏览器分析出房价和标题的两个字段的x...
    99+
    2023-01-31
    爬虫 数据 赶集网
  • Python爬虫:导出爬取的数据
    最近想要做一个爬虫,检验一下Python的学习成果,眼看快要做完了,又遇到了问题,想要导出爬取的数据就必须要了解CSV文件,可是!下面是我百度出的结果! 啊啊啊啊! 作为一枚小白,我看不懂百科在说些什么?!后来,在网上发现一个讲爬...
    99+
    2023-01-31
    爬虫 数据 Python
  • python爬虫中如何爬取新闻
    这篇文章主要介绍了python爬虫中如何爬取新闻,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专...
    99+
    2023-06-14
  • Python爬虫怎么UA伪装爬取
    小编给大家分享一下Python爬虫怎么UA伪装爬取,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!python可以做什么Python是一种编程语言,内置了许多有效的...
    99+
    2023-06-14
  • 六个步骤学会使用Python爬虫爬取数据(爬虫爬取微博实战)
    用python的爬虫爬取数据真的很简单,只要掌握这六步就好,也不复杂。以前还以为爬虫很难,结果一上手,从初学到把东西爬下来,一个小时都不到就解决了。 Python爬虫六部曲 第一步:安装request...
    99+
    2023-09-10
    python 爬虫 python入门 python爬虫 python爬虫爬取网页数据
  • Python爬虫之爬取二手房信息
    前言 说到二手房信息,不知道你们心里最先跳出来的公司(网站)是什么,反正我心里第一个跳出来的是网站是 58 同城。哎呦,我这暴脾气,想到就赶紧去干。 但很显然,我失败了。说显然,而不...
    99+
    2024-04-02
  • python爬虫爬取股票的k线图
    目录前言数据来源分析数据抓取总结前言 之前已经讲述了一些关于;python;获取基金的一些信息,最近又有了一些新发现,和大家分享一下,这个是非常重要的内容,非常重要的内容。这个数据也...
    99+
    2024-04-02
  • 用python爬虫爬取CSDN博主信息
    一、项目介绍 爬取网址:CSDN首页的Python、Java、前端、架构以及数据库栏目。简单分析其各自的URL不难发现,都是https://www.csdn.net/nav/+栏目名...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作