广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Phantomjs抓取渲染JS后的网页(Python代码)
  • 733
分享到

Phantomjs抓取渲染JS后的网页(Python代码)

代码网页Phantomjs 2022-06-04 19:06:53 733人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

最近需要爬取某网站,无奈页面都是js渲染后生成的,普通的爬虫框架搞不定,于是想到用Phantomjs搭一个代理。 python调用Phantomjs貌似没有现成的第三方库(如果有,请告知小编),漫步了一圈,

最近需要爬取某网站,无奈页面都是js渲染后生成的,普通的爬虫框架搞不定,于是想到用Phantomjs搭一个代理。

python调用Phantomjs貌似没有现成的第三方库(如果有,请告知小编),漫步了一圈,发现只有pyspider提供了现成的方案。

简单试用了一下,感觉pyspider更像一个为新手打造的爬虫工具,好比一个老妈子,有时无微不至,有时喋喋不休。 轻巧的小工具应该更受人喜爱,我也怀着一点私心,可以带着我最爱的BeautifulSoup一块儿用,而不用再学PyQuery(pyspider用来解析html),更不用忍受浏览器写Python的糟糕体验(偷笑)。

所以花了一个下午的时间,把pyspider当中实现Phantomjs代理的部分拆了出来,独立成一个小的爬虫模块,希望大家会喜欢(感谢binux!)。

准备工作

你当然要有Phantomjs,废话!(linux下最好用supervisord守护,必须保持抓取的时候Phantomjs一直处于开启状态)
项目路径下的phantomjs_fetcher.js启动:phantomjs phantomjs_fetcher.js [port]
安装tornado依赖(使用了tornado的Httpclient模块)

调用是超级简单的


from tornado_fetcher import Fetcher

# 创建一个爬虫
>>> fetcher=Fetcher(
  user_agent='phantomjs', # 模拟浏览器的User-Agent
  phantomjs_proxy='http://localhost:12306', # phantomjs的地址
  poolsize=10, # 最大的httpclient数量
  async=False # 同步还是异步
  )
# 开始连接Phantomjs的代码,可以渲染JS!
>>> fetcher.fetch(url)
# 渲染成功后执行额外的JS脚本(注意用function包起来!)
>>> fetcher.fetch(url, js_script='function(){setTimeout("window.scrollTo(0,100000)}", 1000)')

代码 https://GitHub.com/2shou/PhantomjsFetcher

--结束END--

本文标题: Phantomjs抓取渲染JS后的网页(Python代码)

本文链接: https://www.lsjlt.com/news/14938.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作