怎么使用Python爬虫

2023-06-16 08:06:41 259人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

本篇内容介绍了“怎么使用python爬虫”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！导入模块import re fro

本篇内容介绍了“怎么使用python爬虫”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

导入模块

import re from bs4 import BeautifulSoup import requests import time import JSON import pandas as pd import numpy as np

状态码

r = requests.get('https://GitHub.com/explore') r.status_code

爬取*乎

#浏览器header和cookies headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/80.0.3987.87 Safari/537.36'} cookies = {'cookie':'_zap=3D979dbb-f25b-4014-8770-89045dec48f6; d_c0="APDvML4koQ-PTqFU56egNZNd2wd-eileT3E=|1561292196"; tst=r; _ga=GA1.2.910277933.1582789012; q_c1=9a429b07b08a4ae1afe0a99386626304|1584073146000|1561373910000; _xsrf=bf1c5edf-75bd-4512-8319-02c650b7ad2c; _gid=GA1.2.1983259099.1586575835; l_n_c=1; l_cap_id="NDIxM2M4OWY4N2YwNDRjM2E3ODAxMDdmYmY2NGFiMTQ=|1586663749|ceda775ba80ff485b63943e0baf9968684237435"; r_cap_id="OWY3OGQ1MDJhMjFjNDBiYzk0MDMxMmVlZDIwNzU0NzU=|1586663749|0948d23c731a8fa985614d3ed58edb6405303e99"; cap_id="M2I5NmJkMzRjMjc3NGZjNDhiNzBmNDMyNDQ3NDlmNmE=|1586663749|dacf440ab7ad64214a939974e539f9b86ddb9eac"; n_c=1; Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49=1586585625,1586587735,1586667228,1586667292; Hm_lpvt_98beee57fd2ef70ccdd5ca52b9740c49=1586667292; SESSioNID=GWBltmMTwz5oFeBTjRm4Akv8pFF6p8Y6qWkgUP4tjp6; JOID=UVkSBEJI6EKgHaipMkwAEWAkvEomDbkAwmJn4mY1kHHPVGfpYMxO3voUDK88UO62JqgwW5Up4hC2kX_KGo9xoKI=; osd=UlEXAU5L4EelEAuhN0kMEmghuUYlBbwFzmFv52M5k3nKUWvqaMlL0vkcCaowU-azI6QzU5As7hO-lHrGG-d0pa4=; capsion_ticket="2|1:0|10:1586667673|14:capsion_ticket|44:YTJkYmIyN2Q4YWI4NDI0Mzk0NjQ1YmIwYmUxZGYyNzY=|b49eb8176314b73e0ade9f19dae4b463fb970c8cbd1e6a07a6a0e535c0ab8ac3"; z_c0="2|1:0|10:1586667694|4:z_c0|92:Mi4xOGC1X0dnQUFBQUFBOE84d3ZpU2hEeVlBQUFCZ0FsVk5ydTVfWHdDazlHMVM1eFU5QjlqamJxWVhvZ2xuWlhTaVJ3|bcd3601ae34951fe72fd3ffa359bcb4acd60462715edcd1e6c4e99776f9543b3"; unlock_ticket="AMCRYboJGhEmAAAAYAJVTbankl4i-Y7Pzkta0e4momKdPG3NRc6GUQ=="; KLBRSID=fb3eda1aa35a9ed9f88f346a7a3ebe83|1586667697|1586660346'}  start_url = 'Https://www.zhihu.com/api/v3/feed/topstory/recommend?session_token=c03069ed8f250472b687fd1ee704dd5b&desktop=true&page_number=5&limit=6&action=pull&ad_interval=-1&before_id=23'

beautifulsoup解析

s = requests.Session() start_url = 'https://www.zhihu.com/' html = s.get(url = start_url, headers = headers,cookies = cookies,timeout = 5) soup = BeautifulSoup(html.content)  question = [] ## 名称 question_address = [] ## url  temp1 = soup.find_all('div',class_='Card TopstoryItem TopstoryItem-isRecommend') for item in temp1:     temp2 = item.find_all('div',itemprop="zhihu:question") #     print(temp2)     if temp2 != []: #### 存在专栏等情况,暂时跳过         question_address.append(temp2[0].find('meta',itemprop='url').get('content'))         question.append(temp2[0].find('meta',itemprop='name').get('content'))

存储信息

question_focus_number = [] #关注量 question_answer_number = [] # 回答量 for url in question_address:     test = s.get(url = url,headers = headers,cookies = cookies,timeout = 5)     soup = BeautifulSoup(test.content)     info = soup.find_all('div',class_='QuestionPage')[0] #     print(info)     focus_number = info.find('meta',itemprop="answerCount").get('content')     answer_number = info.find('meta',itemprop="zhihu:followerCount").get('content')     question_focus_number.append(focus_number)     question_answer_number.append(answer_number)

整理信息并输出

question_info = pd.DataFrame(list(zip(question,question_focus_number,question_answer_number)),columns = ['问题名称','关注人数','回答人数'] for item in ['关注人数','回答人数']:     question_info[item] = np.array(question_info[item],dtype = 'int') question_info.sort_values(by='关注人数',ascending = False)

输出：

“怎么使用python爬虫”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站，小编将为大家输出更多高质量的实用文章！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 怎么使用Python爬虫

本文链接: https://www.lsjlt.com/news/282823.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

怎么使用Python爬虫

本篇内容介绍了“怎么使用Python爬虫”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！导入模块import re fro...

99+

2023-06-16
怎么使用python爬虫爬取数据

本篇内容介绍了“怎么使用python爬虫爬取数据”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！python爬出六部曲第一步：安装reques...

99+

2023-06-29
python爬虫怎么使用BeautifulSoup库

本篇内容介绍了“python爬虫怎么使用BeautifulSoup库”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！　　BeautiSoup类...

99+

2023-06-02
python爬虫-execjs使用

python爬虫-execjs使用 ecexjs的作用通过python代码去执行JavaScript代码的库 execjs的安装 pip install PyExecJS execjs使用之前，得先安装node环境，去网上先去下载no...

99+

2023-01-31

爬虫 python execjs
Python爬虫神器playwright怎么使用

这篇文章主要介绍了Python爬虫神器playwright怎么使用的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇Python爬虫神器playwright怎么使用文章都会有所收获，下面我们一起来看看吧。前言今天把...

99+

2023-07-06
Python爬虫XPath怎么用

这篇文章主要为大家展示了“Python爬虫XPath怎么用”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“Python爬虫XPath怎么用”这篇文章吧。一、问题描述1.什么是XPath？xpath...

99+

2023-06-25
怎么使用python爬虫爬取二手房数据

这篇文章主要介绍怎么使用python爬虫爬取二手房数据，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！python的数据类型有哪些python的数据类型：1. 数字类型，包括int（整型）、long（长整型）和floa...

99+

2023-06-14
python爬虫之selenium模块怎么使用

这篇文章主要介绍了python爬虫之selenium模块怎么使用的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇python爬虫之selenium模块怎么使用文章都会有所收获，下面我们一起来看看吧。一、什么是Se...

99+

2023-06-30
Python爬虫1-使用urlopen

GitHub代码练习地址：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac01_urlopen.py 爬虫简介- 爬虫定义：网络爬虫（又被称为网页蜘蛛，网络机器...

99+

2023-01-30

爬虫 Python urlopen
怎么使用Python的Scrapy爬虫框架

本篇内容介绍了“怎么使用Python的Scrapy爬虫框架”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！Scrapy是Python开发的一个...

99+

2023-06-02
Python爬虫解析器BeautifulSoup4怎么使用

这篇文章主要介绍“Python爬虫解析器BeautifulSoup4怎么使用”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“Python爬虫解析器BeautifulSoup4怎么使用”文章能帮助大家解...

99+

2023-07-02
怎么使用Python进行爬虫技术

这篇文章主要讲解了“怎么使用Python进行爬虫技术”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“怎么使用Python进行爬虫技术”吧！1.抓取py的url...

99+

2024-04-02
Python网络爬虫requests库怎么使用

1. 什么是网络爬虫简单来说，就是构建一个程序，以自动化的方式从网络上下载、解析和组织数据。就像我们浏览网页的时候，对于我们感兴趣的内容我们会复制粘贴到自己的笔记本中，方便下次阅读浏览——网络爬虫帮我...

99+

2023-05-15

Python Requests
Python爬虫怎么突破反爬虫机制

这篇文章主要介绍“Python爬虫怎么突破反爬虫机制”，在日常操作中，相信很多人在Python爬虫怎么突破反爬虫机制问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python爬虫怎么突破反爬虫机制”的疑惑有所...

99+

2023-06-25
Python 爬虫库RoboBrowser怎么用

这篇文章主要介绍“Python 爬虫库RoboBrowser怎么用”，在日常操作中，相信很多人在Python 爬虫库RoboBrowser怎么用问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python 爬虫...

99+

2023-06-13
使用Python爬虫怎么避免频繁爬取网站

这期内容当中小编将会给大家带来有关使用Python爬虫怎么避免频繁爬取网站，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。python的数据类型有哪些python的数据类型：1. 数字类型，包括int（整型...

99+

2023-06-15
使用python爬虫怎么获取表情包

今天就跟大家聊聊有关使用python爬虫怎么获取表情包，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。1、创建请求头，也被称为伪装浏览器如果不添加请求头的话，可能会出现当前网站没有访问...

99+

2023-06-15
python爬虫框架Scrapy怎么安装使用

这篇文章主要介绍了python爬虫框架Scrapy怎么安装使用的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇python爬虫框架Scrapy怎么安装使用文章都会有所收获，下面我...

99+

2024-04-02
怎么在python中使用feapde爬虫框架

怎么在python中使用feapde爬虫框架？相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和面向对象...

99+

2023-06-14
怎么用Python爬虫分析App

这篇文章主要讲解了“怎么用Python爬虫分析App”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“怎么用Python爬虫分析App”吧！1 分析背景之前我们使用了 Scrapy 爬取并分析了...

99+

2023-06-02