广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python脚本爬取字体文件的实现方法
  • 303
分享到

python脚本爬取字体文件的实现方法

脚本字体文件 2022-06-04 18:06:43 303人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

前言 大家应该都有所体会,为了提高验证码的识别准确率,我们当然要首先得到足够多的测试数据。验证码下载下来容易,但是需要人脑手工识别着实让人受不了,于是我就想了个折衷的办法——自己造验证码。 为了保证多样性,

前言

大家应该都有所体会,为了提高验证码的识别准确率,我们当然要首先得到足够多的测试数据。验证码下载下来容易,但是需要人脑手工识别着实让人受不了,于是我就想了个折衷的办法——自己造验证码。

为了保证多样性,首先当然需要不同的字模了,直接用类似ttf格式的字体文件即可,网上有很多ttf格式的字体包供我们下载。当然,我不会傻到手动下载解压缩,果断要写个爬虫了。

实现方法

网站一:fontsquirrel.com

这个网站的字体可以免费下载,但是有很多下载点都是外链连接到其他网站的,这部分得忽略掉。


#coding:utf-8
import urllib2,cookielib,sys,re,os,zipfile
import numpy as np
#网站登陆
cj=cookielib.Cookiejar()
opener=urllib2.build_opener(urllib2.HttpCookieProcessor(cj))
opener.addheaders=[('User-agent','Mozilla/5.0 (X11; linux x86_64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/47.0.2526.106 Safari/537.36))')]
urllib2.install_opener(opener)
#搜索可下载连接
def search(path):
 request=urllib2.Request(path)
 response=urllib2.urlopen(request)
 html=response.read()
 html=html.replace('n',' ')#将所有的回车去掉,因为正则表达式是单行匹配。。。。。。
 urls=re.findall(r'<a href="(.*?)" rel="external nofollow" >(.*?)</a>',html)
 for i in urls:
  url,inner=i
  if not re.findall(r'Download ',inner)==[] and re.findall(r'offsite',inner)==[] and url not in items:
   items.append(url)
items=[]#保存下载地址
for i in xrange(15):
 host='http://www.fontsquirrel.com/fonts/list/find_fonts/'+str(i*50)+'?filter%5Bdownload%5D=local'
 search(host)
if not os.path.exists('ttf'):
 os.mkdir('ttf')
os.chdir('ttf')
def unzip(rawfile,outputdir):
 if zipfile.is_zipfile(rawfile):
  print 'yes'
  fz=zipfile.ZipFile(rawfile,'r')
  for files in fz.namelist():
   print(files) #打印zip归档中目录
   fz.extract(files,outputdir)#解压缩文件
 else:
  print 'no'
for i in items: 
 print i
 request=urllib2.Request('http://www.fontsquirrel.com'+i)
 response=urllib2.urlopen(request)
 html=response.read()
 name=i.split('/')[-1]+'.zip'
 f=open(name,'w')
 f.write(html)
 f.close()#文件记得关闭,否则下面unzip会出错
 unzip(name,'./')
 os.remove(name)
os.listdir(os.getcwd())
os.chdir('../')
files=os.listdir('ttf/')
for i in files:#删除无用文件
 if not (i.split('.')[-1]=='ttf' or i.split('.')[-1]=='otf'):
  if os.path.isdir(i):
   os.removedirs('ttf/'+i)
  else:
   os.remove('ttf/'+i)
print len(os.listdir('ttf/'))

搞到了2000+个字体,种类也挺多的,蛮好。

网站二:dafont.com

这个网站的字体花样比较多,下载起来也比较方便,恶心的是他的文件名的编码好像有点问题。


#coding:utf-8
import urllib2,cookielib,sys,re,os,zipfile
import shutil
import numpy as np
cj=cookielib.CookieJar()
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders=[('User-agent','Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36))')]
urllib2.install_opener(opener)
items=[]
def search(path):
 request=urllib2.Request(path)
 response=urllib2.urlopen(request)
 html=response.read()
 html=html.replace('n',' ')
 urls=re.findall(r'href="(http://dl.dafont.com/dl/?f=.*?)" >',html)
 items.extend(urls)
for i in xrange(117):
 host='http://www.dafont.com/new.PHP?page='+str(i+1)
 search(host)
 print 'Page'+str(i+1)+'done'
 items=list(set(items))
 print len(items)
if not os.path.exists('ttf2'):
 os.mkdir('ttf2')
os.chdir('ttf2')
def unzip(rawfile,outputdir):
 if zipfile.is_zipfile(rawfile):
  print 'yes'
  fz=zipfile.ZipFile(rawfile,'r')
  for files in fz.namelist():
   print(files) #打印zip归档中目录
   fz.extract(files,outputdir)
 else:
  print 'no'
for i in items: 
 print i
 request=urllib2.Request(i)
 response=urllib2.urlopen(request)
 html=response.read()
 name=i.split('=')[-1]+'.zip'
 f=open(name,'w')
 f.write(html)
 f.close()
 unzip(name,'./')
 os.remove(name)
print os.listdir(os.getcwd())
for root ,dire,fis in os.walk('./'):#递归遍历文件夹
 for i in fis:
  if not (i.split('.')[-1]=='ttf' or i.split('.')[-1]=='otf'):
   os.remove(root+i)
   print i
for i in os.listdir('./'):
 if os.path.isdir(i):
  os.rmdir(i)
os.chdir('../')

总体操作跟之前的差不多,跑了几十分钟下了4000多的字体。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家学习或者使用python能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对编程网的支持。

--结束END--

本文标题: python脚本爬取字体文件的实现方法

本文链接: https://www.lsjlt.com/news/13363.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python脚本爬取字体文件的实现方法
    前言 大家应该都有所体会,为了提高验证码的识别准确率,我们当然要首先得到足够多的测试数据。验证码下载下来容易,但是需要人脑手工识别着实让人受不了,于是我就想了个折衷的办法——自己造验证码。 为了保证多样性,...
    99+
    2022-06-04
    脚本 字体 文件
  • Shell脚本读取ini配置文件的实现方法
    本篇内容介绍了“Shell脚本读取ini配置文件的实现方法”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!一、简单版参考stackoverfl...
    99+
    2023-06-09
  • Python实现统计文本文件字数的方法
    本文实例讲述了Python实现统计文本文件字数的方法。分享给大家供大家参考,具体如下: 统计文本文件的字数,从当前目录下的file.txt取文件 # -*- coding: GBK -*- import...
    99+
    2022-06-04
    文本文件 字数 方法
  • Python脚本修改MayaASCII文件路径方法实现
    以下脚本修改当前项目路径和子文件夹中扩展名为“.ma”的所有文件,这样您就可以轻松地一次编辑所有文件。此脚本搜索特定字符串replace_This变量并将其替...
    99+
    2023-02-13
    Python Maya ASCII文件路径 Python Maya ASCII路径
  • Python 实现 PD 文字识别、提取并写入 CSV 文件脚本分享
    一、前言 二、需求描述 三、开始动手动脑 3.1 安装相关第三方包 3.2 导入需要用到的第三方库 3.3 读取pdf文件,并识别内容 3.4 对识别的数据进行处理,写入csv文件 总结 1. 前言扫描件一直受大众青睐,任何纸质资料在扫描...
    99+
    2023-05-17
    Python csv 脚本
  • Python脚本实时处理log文件的方法
    这个Python脚本是用来对实时文件的内容监控,比如 Error 或者 time out 字段都可以进行自定义;算是我的第一个真正的Python脚本,自己感觉还是比较臃肿,不过打算放到blog上记录一下(还...
    99+
    2022-06-04
    脚本 实时 文件
  • python运行脚本文件的三种方法实例
    目录python脚本执行的3种方法:方法一:交互模式直接执行语句方法二:通过脚本输出方法三:脚本中指定 python 路径,修改文件为可执行文件总结python脚本执行的3种方法: ...
    99+
    2022-11-13
  • Python脚本提取fasta文件单序列信息实现
    目录Python脚本编辑使用的文件输入 sys模块从命令行获得文件名称进行序列信息统计的函数使用def制作一个函数.format使用:进行函数计算结果屏幕展示结果输出文件脚本运行Py...
    99+
    2022-11-11
  • linux下shell脚本备份文件的方法实现
    目录1、shell自动备份2、关于find命令:1、shell自动备份 主要功能: 1)将pathSrc目录中的文件拷贝到pathDst目录中去。 具体步骤:先查询源目录和目标目录中的文件,分别存在fileSrc和fil...
    99+
    2022-08-22
  • PHP获取ttf格式文件字体名的方法
    这篇文章将为大家详细讲解有关PHP获取ttf格式文件字体名的方法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。 TTF(TrueTypeFont)是Apple公司和Microsoft公司共同推出的字体文件...
    99+
    2023-06-14
  • python运行脚本文件的方法有哪些
    本篇内容介绍了“python运行脚本文件的方法有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!python脚本执行的3种方法:(找到自己...
    99+
    2023-07-02
  • Python读取.txt,.md等文本文件的方法
    这篇文章将为大家详细讲解有关Python读取.txt,.md等文本文件的方法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。代码如下# example.md1 2 34&nbs...
    99+
    2023-06-15
  • Python爬取三国演义的实现方法
    本文的爬虫教程分为四部: 1.从哪爬 where 2.爬什么 what 3.怎么爬 how 4.爬了之后信息如何保存 save 一、从哪爬 三国演义 二、...
    99+
    2022-06-04
    演义 方法 Python
  • Python中在脚本中引用其他文件函数的实现方法
    在导入文件的时候,Python只搜索当前脚本所在的目录,加载(entry-point)入口脚本运行目录和sys.path中包含的路径例如包的安装地址。所以如果要在当前脚本引用其他文件,除了将文件放在和脚本同...
    99+
    2022-06-04
    脚本 函数 文件
  • Python实现读取文件的方法总结
    目录序言1、方法介绍2、 默认读取3、处理一个文件4、处理批量文件5、读取与备份6、重定向替换7、进阶总结序言 哈喽兄弟们,今天咱们来了解一下 fileinput 。 说到filei...
    99+
    2022-11-11
  • Python按行读取文件的实现方法【小文件和大文件读取】
    本文实例讲述了Python按行读取文件的实现方法。分享给大家供大家参考,具体如下: 小文件: #coding=utf-8 #author: walker #date: 2013-12-30 #funct...
    99+
    2022-06-04
    文件 大文件 方法
  • java实现获取文本文件的字符编码
    一、认识字符编码:Java中String的默认编码为UTF-8,可以使用以下语句获取:Charset.defaultCharset();Windows操作系统下,文本文件的默认编码为ANSI,对中文Windows来说即为GBK。例如我们使用...
    99+
    2021-11-01
    java 实现 获取 文本文件 字符编码
  • Python实现文本特征提取的方法详解
    目录1.字典文本特征提取 DictVectorizer()1.1 one-hot编码1.2 字典数据转sparse矩阵2.英文文本特征提取3.中文文本特征提取4. TF-IDF 文本...
    99+
    2022-11-11
  • 一文掌握Python实现文本特征提取的方法
    本篇文章给大家带来了关于Python的相关知识,详细介绍了Python实现提取四种不同文本特征的方法,有字典文本特征提取、英文文本特征提取、中文文本特征提取和TF-IDF 文本特征提取,感兴趣的可以了解一下。【相关推荐:Python3视频教...
    99+
    2022-08-31
  • Python爬取APP下载链接的实现方法
    首先是准备工作 Python 2.7.11:下载python Pycharm:下载Pycharm 其中python2和python3目前同步发行,我这里使用的是python2作为环境。Pycharm是一款比...
    99+
    2022-06-04
    下载链接 方法 Python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作