返回顶部
首页 > 资讯 > 后端开发 > GO >Golang网络爬虫框架gocolly/colly怎么用
  • 403
分享到

Golang网络爬虫框架gocolly/colly怎么用

2023-06-05 05:06:30 403人浏览 薄情痞子
摘要

小编给大家分享一下golang网络爬虫框架Gocolly/colly怎么用,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!安装go get -u GitHub.co

小编给大家分享一下golang网络爬虫框架Gocolly/colly怎么用,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

安装

go get -u GitHub.com/gocolly/colly/...

例子

import (    "fmt"    "github.com/gocolly/colly")func main() {    c := colly.NewCollector()    c.OnResponse(func(r *colly.Response) {        fmt.Println("IP:", string(r.Body))    })    //c.SetProxy("Http://127.0.0.1:1080")    c.Visit("http://ip.cip.cc/")}

SetProxy函数可以用来配置HTTP代理。

colly的主体是Collector对象,管理网络通信和负责在作业运行时执行附加的回掉函数。使用colly需要先初始化Collector:

c := colly.NewCollector()

vgo

vgo是Go语言推出的第三方库管理工具,在Go语言新版本中使用。

常用的命令行:

· go help mod 查看帮助。

· go mod init <项目模块名称>初始化模块,会在项目根目录下生成 go.mod 文件,是可以自己手动编辑的。

依赖包大多在Github上,安装依赖可能会出现连接超时等问题,可以配置全局git代理:

git config --global http.proxy http://127.0.0.1:1080git config --global https.proxy https://127.0.0.1:1080#取消代理:git config --global --unset http.proxygit config --global --unset https.proxy

cmd走shadowsocks代理:

set http_proxy=127.0.0.1:1080set https_proxy=127.0.0.1:1080curl cip.ccIP    : 140.206.97.42地址    : 中国  上海数据二    : 上海市 | 联通URL    : http://www.cip.cc/140.206.97.42

linux使用export设置环境变量,代码同上。

回掉函数的调用顺序

 OnRequest 在发起请求前被调用。

 OnError 请求过程中如果发生错误被调用。

 OnResponse 收到回复后被调用。

 Onhtml 在OnResponse之后被调用,如果收到的内容是HTML 。

 OnScraped 在OnHTML之后被调用。

官方提供的Basic示例代码:

package mainimport (    "fmt"    "github.com/gocolly/colly")func main() {    // Instantiate default collector    c := colly.NewCollector(        // Visit only domains: hackerspaces.org, wiki.hackerspaces.org        colly.AllowedDomains("hackerspaces.org", "wiki.hackerspaces.org"),    )    // On every a element which has href attribute call callback    c.OnHTML("a[href]", func(e *colly.HTMLElement) {        link := e.Attr("href")        // Print link        fmt.Printf("Link found: %q -> %s\n", e.Text, link)        // Visit link found on page        // Only those links are visited which are in AllowedDomains         c.Visit(e.Request.AbsoluteURL(link))    })    // Before making a request print "Visiting ..."    c.OnRequest(func(r *colly.Request) {        fmt.Println("Visiting", r.URL.String())    })    // Start scraping on https://hackerspaces.org    c.Visit("https://hackerspaces.org/")}

该实例程序仅访问hackerspaces.org域内的链接,OnHTML回掉函数的选择器为a[href],选择页面内具有href属性的a类型元素,找到链接后继续抓取。 运行的部分结果如下:

Visiting https://hackerspaces.org/Link found: "navigation" -> #column-oneLink found: "search" -> #searchInputLink found: "" -> /File:Cbase07.jpgVisiting https://hackerspaces.org/File:Cbase07.jpgLink found: "navigation" -> #column-oneLink found: "search" -> #searchInputLink found: "File" -> #fileLink found: "File history" -> #filehistoryLink found: "File usage" -> #filelinksLink found: "" -> /images/e/ec/Cbase07.jpgVisiting https://hackerspaces.org/images/e/ec/Cbase07.jpgLink found: "800 × 600 pixels" -> /images/thumb/e/ec/Cbase07.jpg/800px-Cbase07.jpgVisiting https://hackerspaces.org/images/thumb/e/ec/Cbase07.jpg/800px-Cbase07.jpg

以上是“Golang网络爬虫框架gocolly/colly怎么用”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网GO频道!

您可能感兴趣的文档:

--结束END--

本文标题: Golang网络爬虫框架gocolly/colly怎么用

本文链接: https://www.lsjlt.com/news/241339.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Golang网络爬虫框架gocolly/colly怎么用
    小编给大家分享一下Golang网络爬虫框架gocolly/colly怎么用,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!安装go get -u github.co...
    99+
    2023-06-05
  • Golang爬虫框架colly的使用
    目录项目特性安装colly实例colly 的配置colly页面爬取和解析colly框架重构爬虫Golang爬虫框架 colly 简介 colly是一个采用Go语言编写的Web爬虫框架...
    99+
    2024-04-02
  • Golang爬虫框架colly使用浅析
    Golang 是一门非常适合编写网络爬虫的语言,它有着高效的并发处理能力和丰富的网络编程库。下面是一个简单的 Golang 网络爬虫示例: package main import (...
    99+
    2023-05-20
    Golang colly爬虫框架 Go Colly
  • 网络爬虫框架Scrapy怎么用
    这篇文章将为大家详细讲解有关网络爬虫框架Scrapy怎么用,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛...
    99+
    2023-06-27
  • 如何使用Scrapy网络爬虫框架
    这篇文章将为大家详细讲解有关如何使用Scrapy网络爬虫框架,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。scrapy 介绍标准介绍Scrapy是一个为了爬取网站数据,提...
    99+
    2024-04-02
  • 关于Python网络爬虫框架scrapy
    目录scrapy爬虫框架介绍scrapy爬虫框架结构“5+2”结构:requests库和scrapy库比较scrapy的常用命令scrapy爬虫框架介绍 sc...
    99+
    2023-05-17
    Python 爬虫 Python 爬虫框架 scrapy框架
  • 开源python网络爬虫框架Scrapy
    介绍:所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所...
    99+
    2023-01-31
    爬虫 开源 框架
  • golang爬虫colly发送post请求怎么实现
    本文小编为大家详细介绍“golang爬虫colly发送post请求怎么实现”,内容详细,步骤清晰,细节处理妥当,希望这篇“golang爬虫colly发送post请求怎么实现”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知...
    99+
    2023-07-02
  • 【100天精通python】Day45:python网络爬虫开发_ Scrapy 爬虫框架
    目录 1 Scrapy 的简介 2 Scrapy选择器 3 快速创建Scrapy 爬虫 4 下载器与爬虫中间件 5 使用管道Pielines...
    99+
    2023-08-31
    python 爬虫 数据库
  • scrapy爬虫框架怎么使用
    这篇“scrapy爬虫框架怎么使用”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“scrapy爬虫框架怎么使用”文章吧。一、s...
    99+
    2023-06-27
  • Java 实现网络爬虫框架详细代码
    目录Java 实现网络爬虫框架一、每个类的功能介绍二、每个类的源代码Java 实现网络爬虫框架 最近在做一个搜索相关的项目,需要爬取网络上的一些链接存储到索引库中,虽然有很多开源的强...
    99+
    2024-04-02
  • 如何实现Java手撸网络爬虫框架
    这篇文章主要为大家展示了“如何实现Java手撸网络爬虫框架”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“如何实现Java手撸网络爬虫框架”这篇文章吧。首先介绍每个类的功能:DownloadPag...
    99+
    2023-06-20
  • springboot+WebMagic+MyBatis爬虫框架怎么用
    这篇文章主要为大家展示了“springboot+WebMagic+MyBatis爬虫框架怎么用”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“springboot+WebMagic+MyBatis...
    99+
    2023-06-20
  • 爬虫技术框架Heritrix怎么使用
    Heritrix是一个开源的网络爬虫框架,用于抓取和存档互联网上的内容。以下是使用Heritrix进行爬虫任务的基本步骤:1. 下载...
    99+
    2023-09-26
    Heritrix
  • 怎么使用Python的Scrapy爬虫框架
    本篇内容介绍了“怎么使用Python的Scrapy爬虫框架”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!Scrapy是Python开发的一个...
    99+
    2023-06-02
  • 网站怎么阻止网络爬虫
    这篇文章主要为大家展示了“网站怎么阻止网络爬虫”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“网站怎么阻止网络爬虫”这篇文章吧。两种主要方法可以阻止爬虫:1.屏蔽它的 IP 地址。收集爬虫的所有 ...
    99+
    2023-06-20
  • python爬虫框架Scrapy怎么安装使用
    这篇文章主要介绍了python爬虫框架Scrapy怎么安装使用的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇python爬虫框架Scrapy怎么安装使用文章都会有所收获,下面我...
    99+
    2024-04-02
  • python爬虫入门之Scrapy框架怎么用
    这篇文章将为大家详细讲解有关python爬虫入门之Scrapy框架怎么用,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。Python的优点有哪些1、简单易用,与C/C++、Java、C# 等传统语言相比,P...
    99+
    2023-06-14
  • 怎么在python中使用feapde爬虫框架
    怎么在python中使用feapde爬虫框架?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和面向对象...
    99+
    2023-06-14
  • 怎么用Scrapy+Gerapy部署网络爬虫
    本篇内容主要讲解“怎么用Scrapy+Gerapy部署网络爬虫”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么用Scrapy+Gerapy部署网络爬虫”吧!爬...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作