广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python url采集
  • 704
分享到

python url采集

pythonurl 2023-01-31 06:01:01 704人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

python利用百度做url采集pip install tableprintparamiko==2.0.8语法:Python url_collection.py -h输出帮助信息python url_collection.py 要采集的信息

python利用百度做url采集
python url采集
pip install tableprint
paramiko==2.0.8
语法:Python url_collection.py -h输出帮助信息
python url_collection.py 要采集的信息 -p 页数 -t 进程数 -o 保存的文件名以及格式
新建文件touch url_collection.py
写入代码正式部分

#coding: utf-8
import requests
from bs4 import BeautifulSoup as bs
import re
from Queue import Queue
import threading
from argparse import ArgumentParser
loGo="""
u u l | ccccc ooooo l l eeeeee cccccc ttttttt
u u r rr l | c o o l l e c t
u u r r r l | c o o l l eeeeee c t
u u r l | c o o l l e c t
u u u r l | c o o l l e c t
uuuuuuuu u r lllll | ccccc ooooo llllll lllll eeeeee cccccc t
By : Snow wolf
"""
print(logo)
arg = ArgumentParser(description='baidu_url_collect py-script by snowwolf')
arg.add_argument('keyWord',help='keyword like inurl:.?id= for searching sqli site')
arg.add_argument('-p','--page', help='page count', dest='pagecount', type=int)
arg.add_argument('-t','--thread', help='the thread_count', dest='thread_count', type=int, default=10)
arg.add_argument('-o','--outfile', help='the file save result', dest='outfile', default='result.txt')
result = arg.parse_args()
headers = {'User-Agent':'Mozilla/5.0 (windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}

class Bd_url(threading.Thread):
def init(self, que):
threading.Thread.init(self)
self._que = que

def run(self):
    while not self._que.empty():
        URL = self._que.get()
        try:
            self.bd_url_collect(URL)
        except Exception,e:
            print e
            pass

def bd_url_collect(self, url):
        r = requests.get(url, headers=headers, timeout=3)
        soup = bs(r.content, 'lxml', from_encoding='utf-8')
        bqs = soup.find_all(name='a', attrs={'data-click':re.compile(r'.'), 'class':None})
        for bq in bqs:
            r = requests.get(bq['href'], headers=headers, timeout=3)
            if r.status_code == 200:
                print r.url
                with open(result.outfile, 'a') as f:
                    f.write(r.url + '\n')

def main():
thread = []
thread_count = result.thread_count
que = Queue()
for i in range(0,(result.pagecount-1)*10,10):
que.put('https://www.baidu.com/s?wd=' + result.keyword + '&pn=' + str(i))

for i in range(thread_count):
    thread.append(Bd_url(que))

for i in thread:
    i.start()

for i in thread:
    i.join()

if name == 'main':
main()

代码结束

--结束END--

本文标题: python url采集

本文链接: https://www.lsjlt.com/news/189849.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python url采集
    python利用百度做url采集pip install tableprintparamiko==2.0.8语法:python url_collection.py -h输出帮助信息python url_collection.py 要采集的信息...
    99+
    2023-01-31
    python url
  • PyHacker编写URL批量采集器
    目录00x1:需要用到的模块00x2:选取搜索引擎00x3:分析需要采集的url00x4:搜索00x5:自动保存00x6:完整代码喜欢用Python写脚本的小伙伴可以跟着一起写一写呀...
    99+
    2022-11-13
  • 【Python实战】Python采集情感音频
    成年人的世界真不容易啊 总是悲伤大于欢喜 爱情因为懵懂而快乐 却走进了复杂和困惑的婚姻 前言 我最近喜欢去听情感类的节目,比如说,婚姻类,我可能老了吧。我就想着怎么把音乐下载下来了,保存到手机上,方便我们业余时间去听。 环境使用 ...
    99+
    2023-09-05
    python 爬虫 音视频
  • Python如何采集基金数据
    Python如何采集基金数据,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。案例实现流程思路分析:需要什么数据需要的数据在哪里代码实现:发送请求获取数据解析数据多页爬取保存数...
    99+
    2023-06-22
  • Python制作爬虫采集小说
    开发工具:python3.4 操作系统:win8 主要功能:去指定小说网页爬小说目录,按章节保存到本地,并将爬过的网页保存到本地配置文件。 被爬网站:http://www.cishuge.com/ 小说名称...
    99+
    2022-06-04
    爬虫 小说 Python
  • Python日志采集代码详解
    目录一,日志概述1,日志作用2,日志级别3,日志格式4,日志位置二,logging模块1,简介2,文档三,logging第一种使用方法:简单配置使用1,使用方法2,basicConf...
    99+
    2022-11-10
  • 数据采集 - Marvin
                     链接:https://bdcc.bigdataedu.org/block/48(需账号登录)...
    99+
    2016-08-03
    数据采集 - Marvin
  • Python采集热搜数据实现详解
    目录功能实现发送请求解析数据获取内容拓展内容总结功能实现 随着互联网的发展,信息的传播越来越快速和便捷。在这个信息爆炸的时代,如何快速获取有用的信息已经成为了一个重要的能力。而爬取网...
    99+
    2023-05-19
    Python采集热搜数据 Python 数据采集
  • Python爬虫采集微博视频数据
    目录前言知识点开发环境爬虫原理 案例实现前言 随时随地发现新鲜事!微博带你欣赏世界上每一个精彩瞬间,了解每一个幕后故事。分享你想表达的,让全世界都能听到你的心声!今天我们通过pyth...
    99+
    2022-11-12
  • Python采集电影评论实战示例
    目录数据采集发送请求解析数据获取内容输出内容总结数据采集 我们上一篇介绍了,如何采集王者皮肤,买不起皮肤,当个桌面壁纸挺好的。我们今天来学习如何采集电影评论,看看这个电影好不好看。 ...
    99+
    2023-05-16
    Python采集电影评论 Python采集
  • 淘宝新店采集软件 实时采集实时更新 每天提取上万采集器量
    1 、选择要提取的开店日期;   2 、淘宝新店实时云采集,不需要自己采集以及切换 IP   3 、一键自动提取淘宝最新开店铺,可选择指定开店日期掌柜旺旺,软件判断旺旺是否在线   4 、可选择本地...
    99+
    2022-10-18
  • python串口数据怎么采集并发送
    要在Python中采集和发送串口数据,你需要使用一个串口通信库,比如pySerial。下面是一个简单的示例代码,展示了如何使用pyS...
    99+
    2023-10-10
    python
  • 如何提高python爬虫采集的效率
    这篇文章将为大家详细讲解有关如何提高python爬虫采集的效率,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。1、让爬虫使用多线程,计算机要有足够的内存。同时也要使用代理IP,代理IP要找稳定在线的那种,这...
    99+
    2023-06-20
  • Python实时采集Windows CPU\MEMORY\HDD使用率
    文章目录 安装psutil库在Python脚本中导入psutil库获取CPU当前使用率,并打印结果获取内存当前使用率,并打印结果获取磁盘当前使用情况,并打印结果推荐阅读 要通过Pyth...
    99+
    2023-10-24
    python windows 开发语言
  • python opencv通过按键采集图片源码
    一、python版本 写了个python opencv的小demo,可以通过键盘按下字母s进行采集图像。 功能说明 “N” 新建文件夹 data/ 用来存储图像 “S” 开始采集图像,将采集到的图像放到 data/...
    99+
    2022-06-02
    python opencv按键采集图片 opencv图像采集
  • 用python写的一个wordpress的采集程序
    在学习python的过程中,经过不断的尝试及努力,终于完成了第一个像样的python程序,虽然还有很多需要优化的地方,但是目前基本上实现了我所要求的功能,先贴一下程序代码: 具体代码如下: #! /u...
    99+
    2022-06-04
    程序 python wordpress
  • Python爬虫采集Tripadvisor数据案例实现
    目录前言第三方库开发环境开始代码请求数据2. 获取数据(网页源代码)3. 解析数据(提取我们想要的数据内容 详情页链接)4. 发送请求(访问所有的详情页链接) 获取数据5. 解析数据...
    99+
    2022-11-11
  • Python+Selenium实现一键摸鱼&采集数据
    目录前言应用场景代码一键摸鱼(打开多个网页编写bat一键数据采集前言 将Selenium程序编写为 .bat 可执行文件,从此一键启动封装好的Selenium程序,省时省力还可以复用...
    99+
    2022-11-11
  • Python采集图片数据的实现示例
    目录前言:发送请求保存数据保存图片总结:前言: 在网络时代,图片已经成为了我们生活中不可或缺的一部分。随着各种社交媒体的兴起,我们可以在网上看到越来越多的图片,但是如何从这些图片中获...
    99+
    2023-05-17
    Python采集图片 Python图片采集
  • Python采集情感音频的实现示例
    目录前言发送请求获取数据解析数据保存数据总结前言 我最近喜欢去听情感类的节目,比如说,婚姻类,我可能老了吧。我就想着怎么把音乐下载下来了,保存到手机上,方便我们业余时间去听。 发送请...
    99+
    2023-05-17
    Python采集情感音频 Python采集音频
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作