iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python爬虫从入门到放弃(九)之 R
  • 881
分享到

python爬虫从入门到放弃(九)之 R

爬虫入门python 2023-01-30 22:01:01 881人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

import requests from requests.exceptions import RequestException import re import JSON from multiprocessing import Poo

import requests
from requests.exceptions import RequestException
import re
import JSON
from multiprocessing import Pool

def get_one_page(url):
    headers={'User-Agent': 'Mozilla/5.0 (windows NT 10.0; WOW64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/66.0.3359.117 Safari/537.36'}
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\d+).*?data-src="(.*?)".?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield {
        'index': item[0],
        'image': item[1],
        'title': item[2].strip(),
        'actor': item[3].strip()[3:] ,#if len(item[3]) > 3 else '',
        'time': item[4].strip()[5:] ,#if len(item[4]) > 5 else '',
        'score': item[5].strip() + item[6].strip()
        }

def write_to_file(content):
    with open('result.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')

def main(offset):
    url = 'Http://maoyan.com/board/4?offset='+str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)

if __name__=='__main__':
#for i in range(10):
#main(i * 10)
# 多线程方法
    pool =Pool()#多线程会打乱数据的顺序
    # 声明一个进程池
    pool.map(main,[i*10 for i in range(10)]) # 利用map函数
    pool.close()

 

--结束END--

本文标题: python爬虫从入门到放弃(九)之 R

本文链接: https://www.lsjlt.com/news/179636.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python爬虫从入门到放弃(九)之 R
    import requests from requests.exceptions import RequestException import re import json from multiprocessing import Poo...
    99+
    2023-01-30
    爬虫 入门 python
  • Python从入门到放弃
    01 计算机基础之编程 02 计算机组成原理 03 计算机操作系统 04 编程语言分类 05 Python和Python解释器 06 执行Python程序的两种方式 07 Python集成开发环境 08 变量 09 内存管理 10 ...
    99+
    2023-01-31
    入门 Python
  • python从入门到放弃(一)
    python解释器的环境搭建 上一篇简单介绍了一下pythonpython该如何使用呢 专业点说我们需要下载一个python解释器,简单点说就是下个python 首先呢,找到python官网点这儿 进去以后点下载(电脑已经装过3.7,所以...
    99+
    2023-01-31
    入门 python
  • python从入门到放弃(二)
    ASCII码:主要用来显示英文和其他西欧语言,用8位来表示,也就是一个字节,最多只能显示256个符号 UNICODE:也叫万国码,为了解决传统的字符编码方案的局限而产生的,它为每种语言的每个字符都设定了二进制编码,最少用16位来表示,也...
    99+
    2023-01-31
    入门 python
  • Python从入门到放弃(Mac) -
    1. First of all, install python, I chose the latest version. Download: https://www.python.org/downloads/mac-osx/ 首先安装啦,...
    99+
    2023-01-31
    入门 Python Mac
  • Python 从入门到爬虫极简教程
    你学的太多,练习太少。 -- 古典 授权说明:Anti 996 Licensehttps://github.com/996icu/996... 抓取数据但不用 Python 不编码是第一选择 八爪鱼采集器 Octoparse 特点: ...
    99+
    2023-01-31
    爬虫 入门 教程
  • python学习计划大全(从入门到放弃)
    第一阶段-语言基础(15天) python基础语法 python字符串解析 python时间和日历 python文件操作,数据处理 python界面编程 python面向对象高级语法 命名空间和作用域应用案例分析 项目:图形界面实现数据查...
    99+
    2023-01-31
    学习计划 入门 大全
  • 详解MySQL从入门到放弃-安装
    学习内容 1.软件安装及服务器设置。 2.(选做,但是强烈建议) 使用图形界面软件 Navicat for SQL 3.数据库基础知识 数据库定义 关系型数据库 二维表 行 列 主...
    99+
    2024-04-02
  • 后端API从入门到放弃指北
    了解一下一下概念. RESTful API标准] 所有的API都遵循[RESTful API标准]. 建议大家都简单了解一下HTTP协议和RESTful API相关资料. 阮一峰:理解RESTful架构 阮一峰:RESTful API...
    99+
    2023-01-31
    后端 入门 API
  • python爬虫之『入门基础』
    1.首先需要了解一下http请求,当用户在地址栏中输入网址,发送网络请求的过程是什么? 可以参考我之前学习的时候转载的一篇文章一次完整的HTTP事务过程–超详细 2.还需要了解一下http的请求方式 有兴趣的同学可以去查一下http的八...
    99+
    2023-01-31
    爬虫 入门 基础
  • python基础之爬虫入门
    目录前言一、简单静态网页的爬取1.1 选取爬虫策略——缩略图1.2 选取爬虫策略——高清大图二、动态加载网站的爬取2.1 选取爬虫策略——selenium2.2 选取爬虫策略——ap...
    99+
    2024-04-02
  • python培训入门之python爬虫
    老男孩教育python培训教你用python爬虫开发技术网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引...
    99+
    2023-01-31
    爬虫 入门 python
  • Java爬虫教程:从入门到精通
    引言: 在互联网时代,海量的数据被存储在各种网页中。而Java作为一门强大的编程语言,具备丰富的网络编程能力,可以帮助开发者高效地获取和处理网络数据。本教程将带您从入门到精通,学习如何使用Java编写...
    99+
    2023-10-18
    java 爬虫 开发语言
  • 【Linux从入门到放弃】Linux基本指令大全
    🧑‍💻作者: @情话0.0 📝专栏:《Linux从入门到放弃》 👦个人简介:一名双非编程菜鸟,在这里分享自己的编程学习笔记,欢迎大...
    99+
    2023-09-09
    linux 服务器 运维
  • Go语言单元测试基础从入门到放弃
    目录Go语言测试go test工具单元测试函数格式单元测试示例go test -vgo test -run回归测试跳过某些测试用例子测试表格驱动测试介绍示例并行测试使用工具生成测试代...
    99+
    2024-04-02
  • selenium用法详解【从入门到实战】【Python爬虫】【4万字】
    👉跳转文末👈 获取实战源码与作者联系方式,共同学习进步 文章目录 简介selenium安装安装浏览器驱动确定浏览器版本下载驱动 定位页面元素打开指定页面i...
    99+
    2023-09-06
    selenium python 爬虫 自动化
  • python爬虫入门之Scrapy框架怎么用
    这篇文章将为大家详细讲解有关python爬虫入门之Scrapy框架怎么用,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。Python的优点有哪些1、简单易用,与C/C++、Java、C# 等传统语言相比,P...
    99+
    2023-06-14
  • 『赠书活动 | 第十七期』《Python网络爬虫:从入门到实战》
    💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! 『赠书活动 | 第十七期』 本...
    99+
    2023-09-02
    python 爬虫 开发语言
  • Python爬虫入门案例之爬取二手房源数据
    本文重点 系统分析网页性质 结构化的数据解析 csv数据保存 环境介绍 python 3.8 pycharm 专业版 >>&...
    99+
    2024-04-02
  • 好程序员Python学习路线之python爬虫入门
      好程序员Python学习路线之python爬虫入门,随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yaho...
    99+
    2023-06-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作