怎么使用PyCharm Profile分析异步爬虫效率

2024-04-02 19:04:59 937人浏览独家记忆

摘要

这篇文章主要介绍“怎么使用PyCharm Profile分析异步爬虫效率”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“怎么使用PyCharm Profile分析异步

这篇文章主要介绍“怎么使用PyCharm Profile分析异步爬虫效率”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“怎么使用PyCharm Profile分析异步爬虫效率”文章能帮助大家解决问题。

第一个代码如下，就是一个普通的 for 循环爬虫。原文地址。

import requests
import bs4
from colorama import Fore


def main():
 get_title_range()
 print("Done.")


def get_html(episode_number: int) -> str:
 print(Fore.YELLOW + f"Getting HTML for episode {episode_number}", flush=True)

 url = f'https://talkpython.fm/{episode_number}'
 resp = requests.get(url)
 resp.raise_for_status()

 return resp.text


def get_title(html: str, episode_number: int) -> str:
 print(Fore.CYAN + f"Getting TITLE for episode {episode_number}", flush=True)
 soup = bs4.BeautifulSoup(html, 'html.parser')
 header = soup.select_one('h2')
 if not header:
  return "MISSING"

 return header.text.strip()


def get_title_range():
 # Please keep this range pretty small to not DDoS my site. ;)
 for n in range(185, 200):
  html = get_html(n)
  title = get_title(html, n)
  print(Fore.WHITE + f"Title found: {title}", flush=True)


if __name__ == '__main__':
 main()

这段代码跑完花了37s，然后我们用 pycharm 的 profiler 工具来具体看看哪些地方比较耗时间。

点击Profile (文件名称)

怎么使用PyCharm Profile分析异步爬虫效率

之后获取到得到一个详细的函数调用关系、耗时图：

怎么使用PyCharm Profile分析异步爬虫效率

可以看到 get_html 这个方法占了96.7%的时间。这个程序的 io 耗时达到了97%，获取 html 的时候，这段时间内程序就在那死等着。如果我们能够让他不要在那儿傻傻地等待 IO 完成，而是开始干些其他有意义的事，就能节省大量的时间。

稍微做一个计算，试用asyncio异步抓取，能将时间降低多少？

get_html这个方法耗时36.8s，一共调用了15次，说明实际上获取一个链接的 html 的时间为36.8s / 15 = 2.4s。**要是全异步的话，获取15个链接的时间还是2.4s。**然后加上get_title这个函数的耗时0.6s，所以我们估算，改进后的程序将可以用 3s 左右的时间完成，也就是性能能够提升13倍。

再看下改进后的代码。原文地址。

import asyncio
from asyncio import AbstractEventLoop

import aioHttp
import requests
import bs4
from colorama import Fore


def main():
 # Create loop
 loop = asyncio.get_event_loop()
 loop.run_until_complete(get_title_range(loop))
 print("Done.")


async def get_html(episode_number: int) -> str:
 print(Fore.YELLOW + f"Getting HTML for episode {episode_number}", flush=True)

 # Make this async with aiohttp's ClientSession
 url = f'https://talkPython.fm/{episode_number}'
 # resp = await requests.get(url)
 # resp.raise_for_status()

 async with aiohttp.ClientSession() as session:
  async with session.get(url) as resp:
   resp.raise_for_status()

   html = await resp.text()
   return html


def get_title(html: str, episode_number: int) -> str:
 print(Fore.CYAN + f"Getting TITLE for episode {episode_number}", flush=True)
 soup = bs4.BeautifulSoup(html, 'html.parser')
 header = soup.select_one('h2')
 if not header:
  return "MISSING"

 return header.text.strip()


async def get_title_range(loop: AbstractEventLoop):
 # Please keep this range pretty small to not DDoS my site. ;)
 tasks = []
 for n in range(190, 200):
  tasks.append((loop.create_task(get_html(n)), n))

 for task, n in tasks:
  html = await task
  title = get_title(html, n)
  print(Fore.WHITE + f"Title found: {title}", flush=True)


if __name__ == '__main__':
 main()

同样的步骤生成profile 图：

怎么使用PyCharm Profile分析异步爬虫效率

可见现在耗时为大约3.8s，基本符合我们的预期了。

怎么使用PyCharm Profile分析异步爬虫效率

关于“怎么使用PyCharm Profile分析异步爬虫效率”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识，可以关注编程网JavaScript频道，小编每天都会为大家更新不同的知识点。

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 怎么使用PyCharm Profile分析异步爬虫效率

本文链接: https://www.lsjlt.com/news/96139.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

怎么使用PyCharm Profile分析异步爬虫效率

这篇文章主要介绍“怎么使用PyCharm Profile分析异步爬虫效率”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“怎么使用PyCharm Profile分析异步...

99+

2024-04-02
怎么用Python爬虫分析App

这篇文章主要讲解了“怎么用Python爬虫分析App”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“怎么用Python爬虫分析App”吧！1 分析背景之前我们使用了 Scrapy 爬取并分析了...

99+

2023-06-02
使用Python怎么实现异步爬虫的原理是什么

这篇文章给大家介绍使用Python怎么实现异步爬虫的原理是什么，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。一、背景默认情况下，用get请求时，会出现阻塞，需要很多时间来等待，对于有很多请求url时，速度就很慢。因为需...

99+

2023-06-15
浅析怎么使用PHP做异步爬取数据

说到爬虫，很多人就会想到python爬虫，因为它确实有很大的优点。但其实PHP也是可以用来做异步爬取数据的，下面就来给大家介绍一下使用PHP做异步爬取数据的方法。什么是网络爬虫？网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网...

99+

2023-05-14

php 网络爬虫
Python爬虫解析器BeautifulSoup4怎么使用

这篇文章主要介绍“Python爬虫解析器BeautifulSoup4怎么使用”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“Python爬虫解析器BeautifulSoup4怎么使用”文章能帮助大家解...

99+

2023-07-02
怎么使用numpy提高Python数据分析效率

今天小编给大家分享一下怎么使用numpy提高Python数据分析效率的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。1、数组初...

99+

2023-07-06
怎么使用代理ip进行分布式爬虫

本篇内容主要讲解“怎么使用代理ip进行分布式爬虫”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“怎么使用代理ip进行分布式爬虫”吧!用过优质的代理ip之后，还能不能不用担心担心？这件事不会那么简单...

99+

2023-06-25
SpringBoot使用Async注解失效原因分析及解决(spring异步回调)

目录Async注解失效原因分析及解决(spring异步回调)Spring中@Async有时候在使用的过程中@Async注解会失效解决方式一解决方式二springboot @Async...

99+

2024-04-02
怎么使用PHP实现MySQL分表来提高查询效率

这篇文章主要介绍“怎么使用PHP实现MySQL分表来提高查询效率”，在日常操作中，相信很多人在怎么使用PHP实现MySQL分表来提高查询效率问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”怎么使用PHP实现My...

99+

2023-07-05
使用Ajax异步请求怎么对后台数据进行动态分页

本篇文章为大家展示了使用Ajax异步请求怎么对后台数据进行动态分页，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。ajax请求后台拿到json类型的数据后，可以在它的success回调方法中进行动态分...

99+

2023-06-08
Python中NumPy库的优势是什么？如何使用它来提高数据分析的效率？

随着数据分析的广泛应用，数据科学家们在处理数据时需要使用各种工具和库。Python是其中一个非常流行的语言，它的开源生态系统中有很多优秀的数据处理库。其中，NumPy库是一个非常重要的数据处理库，它提供了高效的多维数组和矩阵运算功能。本文...

99+

2023-09-15

关键字数据类型 numy