iis服务器助手广告广告
返回顶部
首页 > 资讯 > 前端开发 > JavaScript >怎么使用PyCharm Profile分析异步爬虫效率
  • 937
分享到

怎么使用PyCharm Profile分析异步爬虫效率

2024-04-02 19:04:59 937人浏览 独家记忆
摘要

这篇文章主要介绍“怎么使用PyCharm Profile分析异步爬虫效率”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“怎么使用PyCharm Profile分析异步

这篇文章主要介绍“怎么使用PyCharm Profile分析异步爬虫效率”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“怎么使用PyCharm Profile分析异步爬虫效率”文章能帮助大家解决问题。

第一个代码如下,就是一个普通的 for 循环爬虫。原文地址。

import requests
import bs4
from colorama import Fore


def main():
 get_title_range()
 print("Done.")


def get_html(episode_number: int) -> str:
 print(Fore.YELLOW + f"Getting HTML for episode {episode_number}", flush=True)

 url = f'https://talkpython.fm/{episode_number}'
 resp = requests.get(url)
 resp.raise_for_status()

 return resp.text


def get_title(html: str, episode_number: int) -> str:
 print(Fore.CYAN + f"Getting TITLE for episode {episode_number}", flush=True)
 soup = bs4.BeautifulSoup(html, 'html.parser')
 header = soup.select_one('h2')
 if not header:
  return "MISSING"

 return header.text.strip()


def get_title_range():
 # Please keep this range pretty small to not DDoS my site. ;)
 for n in range(185, 200):
  html = get_html(n)
  title = get_title(html, n)
  print(Fore.WHITE + f"Title found: {title}", flush=True)


if __name__ == '__main__':
 main()

这段代码跑完花了37s,然后我们用 pycharm 的 profiler 工具来具体看看哪些地方比较耗时间。

点击Profile (文件名称)

怎么使用PyCharm Profile分析异步爬虫效率

之后获取到得到一个详细的函数调用关系、耗时图:

怎么使用PyCharm Profile分析异步爬虫效率

可以看到 get_html 这个方法占了96.7%的时间。这个程序的 io 耗时达到了97%,获取 html 的时候,这段时间内程序就在那死等着。如果我们能够让他不要在那儿傻傻地等待 IO 完成,而是开始干些其他有意义的事,就能节省大量的时间。

稍微做一个计算,试用asyncio异步抓取,能将时间降低多少?

get_html这个方法耗时36.8s,一共调用了15次,说明实际上获取一个链接的 html 的时间为36.8s / 15 = 2.4s。**要是全异步的话,获取15个链接的时间还是2.4s。**然后加上get_title这个函数的耗时0.6s,所以我们估算,改进后的程序将可以用 3s 左右的时间完成,也就是性能能够提升13倍。

再看下改进后的代码。原文地址。

import asyncio
from asyncio import AbstractEventLoop

import aioHttp
import requests
import bs4
from colorama import Fore


def main():
 # Create loop
 loop = asyncio.get_event_loop()
 loop.run_until_complete(get_title_range(loop))
 print("Done.")


async def get_html(episode_number: int) -> str:
 print(Fore.YELLOW + f"Getting HTML for episode {episode_number}", flush=True)

 # Make this async with aiohttp's ClientSession
 url = f'https://talkPython.fm/{episode_number}'
 # resp = await requests.get(url)
 # resp.raise_for_status()

 async with aiohttp.ClientSession() as session:
  async with session.get(url) as resp:
   resp.raise_for_status()

   html = await resp.text()
   return html


def get_title(html: str, episode_number: int) -> str:
 print(Fore.CYAN + f"Getting TITLE for episode {episode_number}", flush=True)
 soup = bs4.BeautifulSoup(html, 'html.parser')
 header = soup.select_one('h2')
 if not header:
  return "MISSING"

 return header.text.strip()


async def get_title_range(loop: AbstractEventLoop):
 # Please keep this range pretty small to not DDoS my site. ;)
 tasks = []
 for n in range(190, 200):
  tasks.append((loop.create_task(get_html(n)), n))

 for task, n in tasks:
  html = await task
  title = get_title(html, n)
  print(Fore.WHITE + f"Title found: {title}", flush=True)


if __name__ == '__main__':
 main()

同样的步骤生成profile 图:

怎么使用PyCharm Profile分析异步爬虫效率

可见现在耗时为大约3.8s,基本符合我们的预期了。

怎么使用PyCharm Profile分析异步爬虫效率

关于“怎么使用PyCharm Profile分析异步爬虫效率”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注编程网JavaScript频道,小编每天都会为大家更新不同的知识点。

--结束END--

本文标题: 怎么使用PyCharm Profile分析异步爬虫效率

本文链接: https://www.lsjlt.com/news/96139.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 怎么使用PyCharm Profile分析异步爬虫效率
    这篇文章主要介绍“怎么使用PyCharm Profile分析异步爬虫效率”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“怎么使用PyCharm Profile分析异步...
    99+
    2024-04-02
  • 怎么用Python爬虫分析App
    这篇文章主要讲解了“怎么用Python爬虫分析App”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么用Python爬虫分析App”吧!1 分析背景之前我们使用了 Scrapy 爬取并分析了...
    99+
    2023-06-02
  • 使用Python怎么实现异步爬虫的原理是什么
    这篇文章给大家介绍使用Python怎么实现异步爬虫的原理是什么,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。一、背景默认情况下,用get请求时,会出现阻塞,需要很多时间来等待,对于有很多请求url时,速度就很慢。因为需...
    99+
    2023-06-15
  • 浅析怎么使用PHP做异步爬取数据
    说到爬虫,很多人就会想到python爬虫,因为它确实有很大的优点。但其实PHP也是可以用来做异步爬取数据的,下面就来给大家介绍一下使用PHP做异步爬取数据的方法。什么是网络爬虫?网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网...
    99+
    2023-05-14
    php 网络爬虫
  • Python爬虫解析器BeautifulSoup4怎么使用
    这篇文章主要介绍“Python爬虫解析器BeautifulSoup4怎么使用”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python爬虫解析器BeautifulSoup4怎么使用”文章能帮助大家解...
    99+
    2023-07-02
  • 怎么使用numpy提高Python数据分析效率
    今天小编给大家分享一下怎么使用numpy提高Python数据分析效率的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。1、数组初...
    99+
    2023-07-06
  • 怎么使用代理ip进行分布式爬虫
    本篇内容主要讲解“怎么使用代理ip进行分布式爬虫”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么使用代理ip进行分布式爬虫”吧!用过优质的代理ip之后,还能不能不用担心担心?这件事不会那么简单...
    99+
    2023-06-25
  • SpringBoot使用Async注解失效原因分析及解决(spring异步回调)
    目录Async注解失效原因分析及解决(spring异步回调)Spring中@Async有时候在使用的过程中@Async注解会失效解决方式一解决方式二springboot @Async...
    99+
    2024-04-02
  • 怎么使用PHP实现MySQL分表来提高查询效率
    这篇文章主要介绍“怎么使用PHP实现MySQL分表来提高查询效率”,在日常操作中,相信很多人在怎么使用PHP实现MySQL分表来提高查询效率问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么使用PHP实现My...
    99+
    2023-07-05
  • 使用Ajax异步请求怎么对后台数据进行动态分页
    本篇文章为大家展示了使用Ajax异步请求怎么对后台数据进行动态分页,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。ajax请求后台拿到json类型的数据后,可以在它的success回调方法中进行动态分...
    99+
    2023-06-08
  • Python中NumPy库的优势是什么?如何使用它来提高数据分析的效率?
    随着数据分析的广泛应用,数据科学家们在处理数据时需要使用各种工具和库。Python是其中一个非常流行的语言,它的开源生态系统中有很多优秀的数据处理库。其中,NumPy库是一个非常重要的数据处理库,它提供了高效的多维数组和矩阵运算功能。本文...
    99+
    2023-09-15
    关键字 数据类型 numy
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作