Python 官方文档:入门教程 => 点击学习
环境:Centos6.5 python2.6.6 Http://www.budejie.com/( 纯属测试,并无恶意 )网站分析:我们点视频按钮 可以看到url是:http://www.budejie.com/video/接着我们点开
环境:
Centos6.5 python2.6.6 Http://www.budejie.com/( 纯属测试,并无恶意 )
网站分析:
我们点视频按钮 可以看到url是:http://www.budejie.com/video/
接着我们点开网页源码,看下面之处
接着我们把那个下面画红线的链接点开,可以看到是个视频。
下面我进行相似的操作点图片按钮,可以看到链接:http://www.budejie.com/pic/
接着我们点开网页源码。
相同操作,我们点开链接:http://mpic.spriteapp.cn/uGC/2016/07/07/577d9f0cdd67d_1.jpg
基本上就是这么个套路,也就用了Python的两个模块 一个urllib 一个re正则
效果图:
这个是我爬下来的图片
这个是我爬下来的视频
这个是我把linux上的视频拖一下到windows上给大家看效果。
下面直接上代码!!!
爬视频的代码
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib,re
def geturl():
html = urllib.urlopen("http://www.budejie.com/video/").read()
reg = r'data-mp4="(.*?)"'
return re.findall(reg,html)
for page in range(1,100):
for i in geturl():
print i #i是视频的链接地址
video = urllib.urlopen(i).read()
fwc = open('./video/%s' %i.split('/')[-1],'wb')
fwc.write(video)
fwc.close()
爬图片的代码
# -*- coding:utf-8 -*-
import urllib,re
def geturl():
html = urllib.urlopen("http://www.budejie.com/pic/").read()
reg = r'data-original="(.*?)"'
return re.findall(reg,html)
for page in range(1,100):
for i in geturl():
print i #i是图片的链接地址
video = urllib.urlopen(i).read()
fwc = open('./picture/%s' %i.split('/')[-1],'wb')
fwc.write(video)
fwc.close()
--结束END--
本文标题: python爬虫爬网站的视频和图片
本文链接: https://www.lsjlt.com/news/190145.html(转载时请注明来源链接)
有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
下载Word文档到电脑,方便收藏和打印~
2024-03-01
2024-03-01
2024-03-01
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
2024-02-29
回答
回答
回答
回答
回答
回答
回答
回答
回答
回答
0