python爬虫之 URL的一般格式

爬虫格式 python 2023-01-30 21:01:16 189人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

URL的一般格式（带方括号[]的为可选项）protocol://hostname[:port]/path/[;parameters][?query]#fragmentprotocol 为协议:Http,https,ftp,file,ed2k

URL的一般格式（带方括号[]的为可选项）

protocol://hostname[:port]/path/[;parameters][?query]#fragment

protocol 为协议:Http,https,ftp,file,ed2k

hostname 为域名或者是ip地址

[port] 为可选参数端口，一般http的默认端口为80，https为443

/path/ 为路劲,具体地址，如目录或者文件名等

import urllib.request 导入urllib.request模块

response = urllib.request.urlopen('URL') 打开目标网站，URL=目标网站地址

html = response.read() 读取一个网站

html = html.decode("utf-8") 解码为utf-8

一个完整实例

import urllib.request

response = urllib.request.urlopen('https://www.baidu.com')

html = response.read()

html = html.decode("utf-8")

print(html)

您可能感兴趣的文档:

--结束END--

本文标题: python爬虫之 URL的一般格式

本文链接: https://www.lsjlt.com/news/178925.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

猜你喜欢

python爬虫之 URL的一般格式

URL的一般格式（带方括号[]的为可选项）protocol://hostname[:port]/path/[;parameters][query]#fragmentprotocol 为协议:http,https,ftp,file,ed2kh...

99+

2023-01-30

爬虫格式 python
python爬虫之url中的中文问题

在python的爬虫学习中,我们的url经常出现中文的问题,我们想要访问的url就需要对url进行拼接,变成浏览器可以识别的url在python中已经有了这样的模块了,这就是urlencodeurlencode需要对中文和关键字组成一对字典...

99+

2023-01-31

爬虫中文 python
Python爬虫笔记5-JSON格式数

环境：python-3.6.5 JSON JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前...

99+

2023-01-31

爬虫格式笔记
Python爬虫小练习之爬取并分析腾讯视频m3u8格式

目录普通爬虫正常流程:环境介绍分析网站开始代码导入模块数据请求提取数据遍历保存数据运行代码普通爬虫正常流程: 数据来源分析发送请求获取数据解析...

99+

2024-04-02
Python爬虫如何爬取网页中所有的url

这篇文章主要介绍Python爬虫如何爬取网页中所有的url，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！python可以做什么Python是一种编程语言，内置了许多有效的工具，Python几乎无所不能，该语言通俗易懂...

99+

2023-06-14
Python爬虫之正则表达式（1）

廖雪峰正则表达式学习笔记 1：用\d可以匹配一个数字；用\w可以匹配一个字母或数字； '00\d' 可以匹配‘007’，但是无法匹配‘00A’; ‘\d\d\d’可以匹配‘010’； ‘\w\w\d’可以匹配‘py3’; 2...

99+

2023-01-30

爬虫正则表达式 Python
爬虫技术之分布式爬虫架构的讲解

分布式爬虫架构并不是一开始就出现的。而是一个逐步演化的过程。最开始入手写爬虫的时候，我们一般在个人计算机上完成爬虫的入门和开发，而在真实的生产环境，就不能用个人计算机来运行爬虫程序了，而是将爬虫程序部署在...

99+

2024-04-02
玩转python爬虫之正则表达式

面对大量杂乱的代码夹杂文字我们怎样把它提取出来整理呢？下面就开始介绍一个十分强大的工具，正则表达式！ 1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字...

99+

2022-06-04

爬虫玩转正则表达式
Python爬虫之Requests库的基

1 import requests 2 response = requests.get('http://www.baidu.com/') 3 print(type(response)) 4 print(response....

99+

2023-01-30

爬虫 Python Requests
Python爬虫基础之爬虫的分类知识总结

目录一、通用爬虫二、搜索引擎的局限性三、Robots协议四、请求与相应一、通用爬虫通用网络爬虫是搜索引擎抓取系统(Baidu、Google、Sogou等)的一个重要组成部分。主要目...

99+

2024-04-02
python爬虫的常见方式

requests+bs4+lxml直接获取并解析html数据抓包ajax请求，使用requests获取并解析json数据反爬严重的网站，使用selenium爬取设置代理 a.urllib/requests/selenium+chrom...

99+

2023-01-31

爬虫常见方式
python爬虫中分布式爬虫的作用是什么

这篇文章给大家分享的是有关python爬虫中分布式爬虫的作用是什么的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。随着大数据时代的来临，大数据也吸引了越来越多的关注。网络爬虫是一种高效的信息抓取工具，它集成了搜索引...

99+

2023-06-15
python爬虫之requests库使用代理方式

目录安装上requests库GET方法谷歌浏览器的开发者工具POST方法使用代理在看这篇文章之前，需要大家掌握的知识技能： python基础html基础http状态码让我们看看这篇...

99+

2024-04-02
python爬虫之解析库正则表达式

上次说到了requests库的获取,然而这只是开始,你获取了网页的源代码,但是这并不是我们的目的,我们的目的是解析链接里面的信息,比如各种属性 @href @class span 抑或是p节点里面的文本内容,但是我们需要一种工...

99+

2023-01-30

爬虫正则表达式 python
一个简单的python爬虫,爬取知乎

一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录，可自行实现，比图片更简单具体代码里有详细注释，请自行阅读项目源码：# -*- coding:utf-8 ...

99+

2023-06-02
Python 爬虫学习笔记之正则表达式

正则表达式的使用想要学习 Python 爬虫，首先需要了解一下正则表达式的使用，下面我们就来看看如何使用。 . 的使用这个时候的点就相当于一个占位符，可以匹配任意一个字符，什么意思呢？看个例子就知道 ...

99+

2022-06-04

爬虫学习笔记正则表达式
Python爬虫之线程池的使用

目录一、前言二、同步代码演示三、异步，线程池代码四、同步爬虫爬取图片五、使用线程池的异步爬虫爬取4K美女图片一、前言学到现在，我们可以说已经学习了爬虫的基础知识，如果没有那些奇奇怪...

99+

2024-04-02
Python爬虫之Urllib库的基本使

# get请求 import urllib.request response = urllib.request.urlopen("http://www.baidu.com") print(response.read().decode('...

99+

2023-01-30

爬虫 Python Urllib
Python的爬虫框架scrapy用21行代码写一个爬虫

开发说明开发环境:Pycharm 2017.1(目前最新) 开发框架:Scrapy 1.3.3(目前最新) 目标爬取线报网站,并把内容保存到items.json里页面分析根据上图我们可以发...

99+

2022-06-04

爬虫框架代码
python爬虫beautiful soup的使用方式

目录前言一，Beautiful Soup简介二，Beautiful Soup的解析器2.1 各种解析器一览2.2 引入解析器的语法三，Beautiful Soup解析得到的四种对象3...

99+

2024-04-02