广告
返回顶部
首页 > 资讯 > 后端开发 > Python >01_爬虫的基本概念和流程
  • 635
分享到

01_爬虫的基本概念和流程

爬虫基本概念流程 2023-01-31 00:01:25 635人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

为什么我们要学习爬虫?学习爬虫有什么意义? 进行数据分析,可以爬取网站上面的数据,来进行数据分析 我们现在身处大数据时代,大数据的数据是怎么来的? 爬虫来获取(方法之一) 比如微博的微指数可以看热词的趋势 从官方下载 利用爬虫

为什么我们要学习爬虫?学习爬虫有什么意义?

  • 进行数据分析,可以爬取网站上面的数据,来进行数据分析
  • 我们现在身处大数据时代,大数据的数据是怎么来的?
    • 爬虫来获取(方法之一)
      • 比如微博的微指数可以看热词的趋势
    • 从官方下载
      • 利用爬虫下载
    • 买数据
    • 很多网页会通过cookie来获取用户的浏览信息,然后保存到后台形成大数据
  • 学完爬虫把爬取到的内容直接呈现出来
    • 做成新闻网页等等
    • 视频网页等等
    • 音乐app网页等
  • 其他用途
    • 12306抢票
    • 微信公众号的爬取
    • 短信轰炸
    • 网络上的投票

爬虫的定义是什么呢?

  • 网络爬虫又叫网页蜘蛛,网络机器人
    • 模仿客户端发送网络请求,接受请求响应
    • 按照一定的规则,自动地抓取互联网信息的程序
    • 原则上,只要是浏览器能做的事,爬虫都能做
  • 爬虫一般分为哪几类?
    • 通用爬虫
      • 搜素引擎的爬虫
    • 聚焦爬虫
      • 针对特定引擎特定网站的爬虫
      • 我们重点写的是聚焦爬虫

爬虫的合法性

  • 什么是robots协议?
    • 通过网站的robots协议告诉搜索引擎哪些网页可以抓取哪些不可以抓取
    • 一般在当前网站的根目录里的/robots.txt
    • 是道德层面上的,如果爬取的数据只是个人使用,那还好
      • 不过最好还是遵守
  • 如果是个人分析所用,不泄漏转载 合法
  • 如果是真实数据,比如营业地址,电话清单等, 合法
    • 但如果是黑客手段获取的某公司人员的个人信息,这个不好了
  • 如果是原创作品,最好不要转载

聚焦爬虫的基本流程是什么?

  • 首先准备我们要提取的url_list
    • 然后我们发送请求获取响应
    • 从响应里面提取我们要的数据
      • 把数据提取出来
      • 把下一步要进行发送请求的url提取出来
        • 重复1-3
    • 把数据保存到数据库,或者导出为csv等格式的文件

--结束END--

本文标题: 01_爬虫的基本概念和流程

本文链接: https://www.lsjlt.com/news/182680.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 01_爬虫的基本概念和流程
    为什么我们要学习爬虫?学习爬虫有什么意义? 进行数据分析,可以爬取网站上面的数据,来进行数据分析 我们现在身处大数据时代,大数据的数据是怎么来的? 爬虫来获取(方法之一) 比如微博的微指数可以看热词的趋势 从官方下载 利用爬虫...
    99+
    2023-01-31
    爬虫 基本概念 流程
  • 介绍GitLab流程的基本概念和工作原理
    GitLab是一种基于网络的Git存储库管理工具。它支持一系列功能,包括合并请求、问题跟踪、自动构建和持续集成等。在开发团队中,GitLab通常用来管理源代码。本文将介绍GitLab流程的基本概念和工作原理。GitLab流程简介GitLab...
    99+
    2023-10-22
  • RBO和CBO的基本概念
    转自潇湘隐者 出处:http://www.cnblogs.com/kerrycode/p/3842215.html Oracle数据库中的优化器又叫查询优化器(Query Optimizer)。它是S...
    99+
    2022-10-18
  • MySQL的基本概念和作用
     下面一起来了解下MySQL的基本概念和作用,相信大家看完肯定会受益匪浅,文字在精不在多,希望MySQL的基本概念和作用这篇短内容是你想要的。       ...
    99+
    2022-10-18
  • Nginx的基本概念和原理
    目录一、Nginx基本概念二、反向代理三、负载均衡四、动静分离五、原理六、worker如何工作一、Nginx基本概念 (engine x)是一个高性能的HTTP和反向代理web服务器...
    99+
    2022-11-13
  • Java的对象和类基本概念
    这篇文章主要讲解了“Java的对象和类基本概念”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Java的对象和类基本概念”吧!对象:对象是类的一个实例(对象不是找个女朋友),有状态和行为。例如...
    99+
    2023-06-02
  • 基于线程、并发的基本概念(详解)
    什么是线程?提到“线程”总免不了要和“进程”做比较,而我认为在Java并发编程中混淆的不是“线程”和“进程”的区别,而是“任务(Task)”。进程是表示资源分配的基本单位。而线程则是进程中执行运算的最小单位,即执行处理机调度的基本单位。关于...
    99+
    2023-05-31
    线程 基本概念 并发
  • 云计算的概念和基本原理
    本篇内容主要讲解“云计算的概念和基本原理”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“云计算的概念和基本原理”吧!1云计算的概念云计算的定义众多,目前广为认同的一点是,云计算是分布式处理、并行处...
    99+
    2023-06-03
  • MySQL的基本概念和常用命令
    这篇文章主要讲解了“MySQL的基本概念和常用命令”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“MySQL的基本概念和常用命令”吧! 1 MySQL简介 ...
    99+
    2022-10-18
  • Python爬虫之BeautifulSoup的基本使用教程
    目录bs4的安装bs4的快速入门解析器的比较(了解即可)对象种类bs4的简单使用获取标签内容获取标签名字获取a标签的href属性值遍历文档树案例练习思路代码实现总结bs4的安装 要使...
    99+
    2022-11-13
  • C语言基本概念宏定义中的#和##教程
    目录#和##是宏定义中常用的两个预处理运算符1. 记号串化(#)2. 记号黏结(##)3. 分析下列程序运行结果#和##是宏定义中常用的两个预处理运算符 其中#用于记号串化...
    99+
    2023-05-18
    C语言宏定义#和## C语言基本概念
  • Nginx的基本概念和原理是什么
    这篇文章将为大家详细讲解有关Nginx的基本概念和原理是什么,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。一、Nginx基本概念(engine x)是一个高性能的HTTP和反向代理web服务器,同时也提供...
    99+
    2023-06-29
  • C/C++程序设计的基本概念详解
    目录概述main()函数内部名称变量和它的初始化编译时和运行时总结概述 学C语言有很长一段时间了,想做做笔记,把C和C++相关的比较容易忽视的地方记下来,也希望可以给需要的同学一些帮...
    99+
    2022-11-12
  • java类和对象的基本概念是什么
    Java类是面向对象编程的基本单位,是一种用于描述对象特征和行为的模板。它可以包含属性(成员变量)和方法(成员函数),用来定义对象的...
    99+
    2023-09-16
    java
  • 详解OpenCV图像的概念和基本操作
    前言: opencv最主要的的功能是用于图像处理,所以图像的概念贯穿了整个opencv,与其相关的核心类就是Mat。 像素: 图片尺寸以像素为单位时,每一厘米等于28像素,如15...
    99+
    2022-11-12
  • vuex的核心概念和基本使用详解
    目录介绍开始安装 ①直接下载方式 ②CND方式③NPM方式④Yarn方式NPM方式安装的使用方式 store概念及使用概念:定义使用mutations概念及使用概念:使用:定义使用a...
    99+
    2022-11-12
  • Java设计模式的基本概念和分类
    这篇文章主要介绍“Java设计模式的基本概念和分类”,在日常操作中,相信很多人在Java设计模式的基本概念和分类问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Java设计模式的基本概念和分类”的疑惑有所帮助!...
    99+
    2023-06-16
  • Web开发的基本概念和技术有哪些
    本篇内容介绍了“Web开发的基本概念和技术有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!A — AJ...
    99+
    2022-10-19
  • linux下vi编辑器的基本概念和操作
    这篇文章主要讲解了“linux下vi编辑器的基本概念和操作”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“linux下vi编辑器的基本概念和操作”吧! vi的基本概念   基本上vi...
    99+
    2023-06-13
  • 音视频基本概念和FFmpeg的简单入门教程详解
    目录写在前面基本概念容器/文件(Conainer/File):媒体流(Stream):数据帧/数据包(Frame/Packet):编解码器(Codec):复用(mux):解复用(mu...
    99+
    2022-11-13
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作