广告
返回顶部
首页 > 资讯 > 后端开发 > Python >『爬虫』学习记录
  • 307
分享到

『爬虫』学习记录

爬虫 2023-01-31 00:01:06 307人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

## 在学习爬虫中遇到很多坑,写出来供道友参考 出现诸如以下错误     ModuleNotFoundError: No module named 'js2xml'     NameError: name 'js2xml' is no

## 在学习爬虫中遇到很多坑,写出来供道友参考

  • 出现诸如以下错误
    ModuleNotFoundError: No module named 'js2xml'
    NameError: name 'js2xml' is not defined
  则可能是库没有导入


  • 在将 str 转换为 JSON
    JSONDecodeError: Extra data: line 1 column 234701 (char 234700)

   则可能是 str 不符合 json 格式

  1. 可以用 start 和 end 标示开头结尾,如 str[start, end] ;

  2. 可以对 str 进行剪切,使用 strip('symbol') 方法,对首尾存在 symbol 的进行剪切

   又或者是存在多重结构,则

 

  One-liner for your problem:

  data = [json.loads(line) for line in open('tweets.json', 'r')]

 

。。。存坑

 

 

过去一段时间后,再次运行 jupyter notebook,出现错误

错误:

'jupyter' 不是内部或外部命令,也不是可运行的程序

原因及解决:环境变量中添加 D:\Users\23525\Anaconda3\Scripts,里面有 jupyter_notebook.exe、pip.exe 等命令

 

然后又出现如下错误:

Traceback (most recent call last):
File "C:\ProgramData\Anaconda3\Scripts\jupyter-notebook-script.py", line 6, in <module>
from notebook.notebookapp import main
File "C:\ProgramData\Anaconda3\lib\site-packages\notebook\notebookapp.py", line 47, in <module>
from zMQ.eventloop import ioloop
File "C:\ProgramData\Anaconda3\lib\site-packages\zmq\__init__.py", line 47, in <module>
from zmq import backend
File "C:\ProgramData\Anaconda3\lib\site-packages\zmq\backend\__init__.py", line 40, in <module>
reraise(*exc_info)
File "C:\ProgramData\Anaconda3\lib\site-packages\zmq\utils\sixcerpt.py", line 34, in reraise
raise value
File "C:\ProgramData\Anaconda3\lib\site-packages\zmq\backend\__init__.py", line 27, in <module>
_ns = select_backend(first)
File "C:\ProgramData\Anaconda3\lib\site-packages\zmq\backend\select.py", line 27, in select_backend
mod = __import__(name, fromlist=public_api)
File "C:\ProgramData\Anaconda3\lib\site-packages\zmq\backend\cython\__init__.py", line 6, in <module>
from . import (constants, error, message, context,
ImportError: DLL load failed: 找不到指定的模块。

原因:问题都出现在 zmq 文件夹中,搜索答案需要重新安装 zmq

解决:

pip uninstall pyzmq 
pip install pyzmq 

 

在 install 时又出现如下错误:

pip is configured with locations that require TLS/SSL, however the ssl module in python is not available. Collecting pyzmq

Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'SSLError("Can't connect to https URL because the SSL module is not available.")': /simple/pyzmq/

Retrying (Retry(total=3, connect=None, read=None, redirect=None, status=None)) after connection broken by 'SSLError("Can't connect to HttpS URL because the SSL module is not available.")': /simple/pyzmq/

Retrying (Retry(total=2, connect=None, read=None, redirect=None, status=None)) after connection broken by 'SSLError("Can't connect to HTTPS URL because the SSL module is not available.")': /simple/pyzmq/

Retrying (Retry(total=1, connect=None, read=None, redirect=None, status=None)) after connection broken by 'SSLError("Can't connect to HTTPS URL because the SSL module is not available.")': /simple/pyzmq/

Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after connection broken by 'SSLError("Can't connect to HTTPS URL because the SSL module is not available.")': /simple/pyzmq/

Could not fetch URL https://pypi.org/simple/pyzmq/: There was a problem confirming the ssl certificate: HTTPSConnectionPool(host='pypi.org', port=443): Max retries exceeded with url: /simple/pyzmq/ (Caused by SSLError("Can't connect to HTTPS URL because the SSL module is not available.")) - skipping

Could not find a version that satisfies the requirement pyzmq (from versions: ) No matching distribution found for pyzmq pip is configured with locations that require TLS/SSL, however the ssl module in Python is not available.

Could not fetch URL https://pypi.org/simple/pip/: There was a problem confirming the ssl certificate: HTTPSConnectionPool(host='pypi.org', port=443): Max retries exceeded with url: /simple/pip/ (Caused by SSLError("Can't connect to HTTPS URL because the SSL module is not available.")) - skipping

 

原因:

我得到了相同的“SSL模块不可用”错误运行Anaconda附带的原生点(目前为18.1)。在我的例子中,这是一个系统路径问题,我通过将以下目录添加到我的路径变量来解决:

%Miniconda3_DIR%;%Miniconda3_DIR%\Library\mingw-w64\bin;%Miniconda3_DIR%\Library\usr\bin;%Miniconda3_DIR%\Library\bin;%Miniconda3_DIR%\Scripts;%Miniconda3_DIR%\bin;

在哪里,%Miniconda3_DIR%应该用你的Miniconda(或Anaconda)安装路径代替。

参考:https://stackoverflow.com/questions/53742171/pip-tls-ssl-however-the-ssl-module-in-python-is-not-available-problem

 

其实出现一段时间不能运行的程序,重新安装是最简单的操作,但我想要真正得解决问题,让我对世界能多少掌握一点控制权。通过一步步发现问题、解决问题、总结及预防,不正是人类发展的恒在规律吗?希望人类继承和探索之路长明。

 

--结束END--

本文标题: 『爬虫』学习记录

本文链接: https://www.lsjlt.com/news/182650.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 『爬虫』学习记录
    ## 在学习爬虫中遇到很多坑,写出来供道友参考 出现诸如以下错误     ModuleNotFoundError: No module named 'js2xml'     NameError: name 'js2xml' is no...
    99+
    2023-01-31
    爬虫
  • Python 爬虫学习笔记之多线程爬虫
    XPath 的安装以及使用 1 . XPath 的介绍 刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事 啊。其实我个人认...
    99+
    2022-06-04
    爬虫 之多 线程
  • Python 爬虫学习笔记之单线程爬虫
    介绍 本篇文章主要介绍如何爬取麦子学院的课程信息(本爬虫仍是单线程爬虫),在开始介绍之前,先来看看结果示意图 怎么样,是不是已经跃跃欲试了?首先让我们打开麦子学院的网址,然后找到麦子学院的全部课程信息,像...
    99+
    2022-06-04
    爬虫 单线程 学习笔记
  • 爬虫学习
    Jupyter环境安装 安装Anaconda(集成环境), 安装成功后能够提供一种基于浏览器的可视化工具 ---Jupyter. 什么是jupyter notebook: Jupyter Notebook是以网页的形式打开,可以在网页页面...
    99+
    2023-01-30
    爬虫
  • 【python爬虫学习 】python
    pip 安装 pip install scrapy 可能的问题: 问题/解决:error: Microsoft Visual C++ 14.0 is required. 实例demo教程 中文教程文档 第一步:创建项目目录 ...
    99+
    2023-01-31
    爬虫 python
  • python爬虫Mitmproxy安装使用学习笔记
    目录一、简介和安装1.1、概念和作用概念作用1.2、安装1.3、工具介绍二、设置代理2.1、PC端设置代理2.2、PC端安装证书2.3、移动端设置代理三、 mitmdump3.1、插...
    99+
    2022-11-12
  • python萌新爬虫学习笔记【建议收藏】
    文章目录 1. 如何何请求解析url2. 如何获取标签里面的文本3. 如何解析JSON格式4. 如何添加常用的header5. 如何合并两个div6. 如何删除html dom的部分结构7. ...
    99+
    2023-09-20
    python 爬虫 学习
  • Python 爬虫学习笔记之正则表达式
    正则表达式的使用 想要学习 Python 爬虫 , 首先需要了解一下正则表达式的使用,下面我们就来看看如何使用。 . 的使用这个时候的点就相当于一个占位符,可以匹配任意一个字符,什么意思呢?看个例子就知道 ...
    99+
    2022-06-04
    爬虫 学习笔记 正则表达式
  • Python的Scrapy爬虫框架简单学习笔记
    一、简单配置,获取单个网页上的内容。 (1)创建scrapy项目 scrapy startproject getblog (2)编辑 items.py # -*- coding: utf-8 ...
    99+
    2022-06-04
    爬虫 学习笔记 框架
  • Python爬虫学习路线
    (一)如何学习Python 学习Python大致可以分为以下几个阶段: 1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量、数据结构、语法等,基础过的很快,基本上1~2周时间就能过完了,我当时是在这儿看的基础:Pytho...
    99+
    2023-01-31
    爬虫 路线 Python
  • 爬虫学习之第四章爬虫进阶之多线程爬虫
    有些时候,比如下载图片,因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。 多线程介绍: 多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率...
    99+
    2023-01-31
    爬虫 进阶 第四章
  • PHP学习笔记:网络爬虫与数据采集
    引言:网络爬虫是一种自动从互联网上抓取数据的工具,它可以模拟人的行为,浏览网页并收集所需的数据。PHP作为一种流行的服务器端脚本语言,在网络爬虫和数据采集领域也发挥了重要的作用。本文将介绍如何使用PHP编写网络爬虫,并提供实际的代码示例。一...
    99+
    2023-10-21
    网络爬虫 数据采集 PHP学习
  • python爬虫学习笔记--BeautifulSoup4库的使用详解
    目录使用范例常用的对象–Tag常用的对象–NavigableString常用的对象–BeautifulSoup常用的对象–Comment对文档树的遍历tag中包含多个字符串的情况.stripped_strings 去...
    99+
    2022-06-10
    python pythonBeautifulSoup4库
  • scrapy 爬虫学习二[中间件的学习]
    scrapy源码解析参考连接:https://www.jianshu.com/p/d492adf17312 ,直接看大佬的就行了,这里便就不多说了。 今天要学习的是:Scrapy框架中的download middlerware【下载中间件...
    99+
    2023-01-31
    爬虫 中间件 scrapy
  • 零基础学习Python爬虫
    目录爬虫为什么我们要使用爬虫爬虫准备工作爬虫项目讲解代码分析1.爬取网页2.逐一解析数据3.保存数据讲解我们的爬虫之前,先概述关于爬虫的简单概念(毕竟是零基础教程) 爬虫 网络爬虫(...
    99+
    2022-11-12
  • 学习爬虫的第一天
    爬虫是什么? 网络就如同蜘蛛网,而数据相当于里面的节点,爬虫如同蜘蛛,通过节点去获取蜘蛛网上的内容,获取想要的数据信息 获取网页数据方式: 1、浏览器访问——下载网页数据 2、模拟浏览器对网页进行访问——解析数据——将所需要的内容保存在本...
    99+
    2023-01-31
    爬虫
  • Python爬虫框架Scrapy 学习
    开发环境PyCharm目标网站和上一次一样,可参考:http://dingbo.blog.51cto.com/8808323/1597695 但是这次不是在单个文件中运行,而是创建一个scrapy项目1.使用命令行工具创建scrapy项目的...
    99+
    2023-01-31
    爬虫 框架 Python
  • 一次爬虫实践记录
    前言说明: 公司在2017年3月的时候开发过一个「数据中心」,是将有赞的用户和订单信息通过API拉取到自己开发的网站上,再结合我们自己和用户沟通的信息,组成一个简单的用户管理中心。数据中心虽然简单,但对我们意义非常大,它的出现标志着我们想...
    99+
    2023-01-31
    爬虫
  • Python爬虫学习教程:天猫商品数据爬虫
    天猫商品数据爬虫使用教程下载chrome浏览器查看chrome浏览器的版本号,下载对应版本号的chromedriver驱动pip安装下列包pip install seleniumpip install pyquery登录微博,并通过微博绑定...
    99+
    2023-06-02
  • python爬虫学习三:python正则
    python爬虫学习三:python正则表达式自己写的一个爬虫:https://github.com/qester/wordpres_Crawler1、正则表达式基础a、正则表达式的大致匹配过程:1、依次拿出表达式和文本中的字符比较2、如果...
    99+
    2023-01-31
    爬虫 正则 python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作