爬取某网站写的python代码

2023-06-04 13:06:48 258人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

代码如下：import requestsfrom pyquery import PyQueryimport reimport osi

代码如下：

import requestsfrom pyquery import PyQueryimport reimport osimport csvimport datetime"""    说明：该代码是专门为爬取Http://www.kgtmall.com.cn/商品而设计的。    使用方法：        1、在本地提前安装好python3的环境；        2、直接运行本代码；        3、运行本代码完后，会在当前目录生成一个result.csv文件，该文件里面就存了爬取该站点的商品信息    注意事项：在本代码运行期间，不能打开result.csv文件，因为这样程序就写不进去数据了；只能等本代码            全部运行结束后，才能打开esult.csv文件进行查看。    """def get_html_text(url):    """    获取首页源代码    :param url:    :return:    """    r = requests.get(url)    return r.textdef get_one_level_class(home_url):    """    一级标题        母婴用品 http://www.kgtmall.com.cn/mall/list.PHP?catid=4        生活家居 http://www.kgtmall.com.cn/mall/list.php?catid=5    """    html = get_html_text(home_url)    jpy = PyQuery(html)    items = jpy('.menu_title a')    for line in items:        jpy = PyQuery(line)        one_level_url = jpy('a').attr('href')        one_level_title = jpy('a').text()        yield one_level_url, one_level_titledef get_two_level_class(home_url):    """    二级标题        母婴用品 营养辅食 http://www.kgtmall.com.cn/mall/search.php?catid=539        母婴用品 妈妈专区 http://www.kgtmall.com.cn/mall/search.php?catid=544        母婴用品 婴儿保健 http://www.kgtmall.com.cn/mall/search.php?catid=887    """    for one_level_url, one_level_title in get_one_level_class(home_url):        jpy = PyQuery(one_level_url)        items = jpy('.selector_cateGory li')        for line in items:            jpy = PyQuery(line)            two_level_url = jpy('a').attr('href')            two_level_title = jpy('a').text()            yield one_level_title, two_level_title, two_level_urldef get_pages(url):    """    获取页数    :return:    """    jpy = PyQuery(url)    pages = jpy('.pagination cite').text()    print('原pages：', pages)    try:        pages = int(re.findall('共.*?条/(.*)页', pages)[0])    except Exception as e:        print(e)        pages = 1    print('页码：', pages)    return pagesdef get_three_level_class(home_url):    """    三级标题        母婴用品 营养辅食 DHA http://www.kgtmall.com.cn/mall/search.php?catid=548        母婴用品 营养辅食 益生菌/初乳 http://www.kgtmall.com.cn/mall/search.php?catid=549        母婴用品 营养辅食 清火/开胃/驱虫 http://www.kgtmall.com.cn/mall/search.php?catid=550    """    for one_level_title, two_level_title, two_level_url in get_two_level_class(home_url):        jpy = PyQuery(two_level_url)        items = jpy('.selector_category li')        for line in items:            jpy = PyQuery(line)            three_level_title = jpy('a').text()            three_level_url = jpy('a').attr('href')            catid = re.findall('http://www.kgtmall.com.cn/mall/search.php\?catid=(.*)', three_level_url)[0]            pages = get_pages(three_level_url)            # for index in range(1, 3):            for index in range(1, pages + 1):                three_level_url_by_xiaoliang = 'http://www.kgtmall.com.cn/mall/search.php?kw=&list=0&catid={}&order=10&minprice=&maxprice=&page={}'.fORMat(                catid, index)                yield one_level_title, two_level_title, three_level_title, three_level_url_by_xiaoliangdef shop_title_and_url(home_url):    """    商品标题和url        母婴用品 营养辅食 DHA 澳洲直邮 澳大利亚RIFOLD 儿童DHA90粒（一月以上适用） http://www.kgtmall.com.cn/mall/show.php?itemid=28089        母婴用品 营养辅食 益生菌/初乳 澳大利亚 Maxigenes美可卓 全脂高钙奶粉（蓝胖子）1kg 两罐装 http://www.kgtmall.com.cn/mall/show.php?itemid=23486    """    for one_level_title, two_level_title, three_level_title, three_level_url_by_xiaoliang in get_three_level_class(home_url):        jpy = PyQuery(three_level_url_by_xiaoliang)        items = jpy('.list_img a')        for line in items:            jpy = PyQuery(line)            shop_url = jpy('a').attr('href')            shop_title = jpy('a img').attr('alt')            yield one_level_title, two_level_title, three_level_title, shop_title, shop_urldef get_shop_info(home_url, count):    for one_level_title, two_level_title, three_level_title, shop_title, shop_url in shop_title_and_url(home_url):        print('--排错：' + one_level_title, two_level_title, three_level_title, shop_title, shop_url)        jpy = PyQuery(shop_url)        price = jpy('.price').text()        # 条形码        bar_code = jpy('.bar_code dl dd p').text()        goods_detail = jpy('#content')        try:            guige = re.findall('规格：(.*)', goods_detail.text())[0]        except:            guige = '没有规格'        try:            chandi = re.findall('产地：(.*)', goods_detail.text())[0]        except:            chandi = '没有产地'        print(count, one_level_title, two_level_title, three_level_title, shop_title,  bar_code, chandi, guige,  price, shop_url)        row = ([one_level_title, two_level_title, three_level_title, shop_title,  bar_code, chandi, guige,  price, shop_url])        ppath = os.path.dirname(__file__)        csv_file = ppath + '/result.csv'        # newline是为了解决csv文件里面有多余的空行，encoding是为了解决写不进csv数据报字符集的报错        with open(csv_file, 'a', newline='', encoding='utf-8') as f:            writer = csv.writer(f)            writer.writerow(row)        count += 1def main():    # 记录一下开始时间    start_time = datetime.datetime.now()    home_url = 'http://www.kgtmall.com.cn/'    # 当前代码路径    ppath = os.path.dirname(__file__)    csv_file = ppath + '/result.csv'    headers = (['一级分类', '二级分类', '三级分类', '商品名称', '条码', '产地', '规格', '价格', '商品链接'])    # newline是为了解决csv文件里面有多余的空行，encoding是为了解决写不进csv数据报字符集的报错    with open(csv_file, 'w', newline='', encoding='utf-8') as f:        writer = csv.writer(f)        writer.writerow(headers)    count = 1    get_shop_info(home_url, 1)    # 记录一下结束时间    end_time = datetime.datetime.now()    # 记录程序执行用时    timediff = end_time - start_time    print('总共用时{}秒\n'.format(str(timediff.seconds)))    print('全部商品已经按需求完成！！！')if __name__ == '__main__':    main()

运行后，会在当前目录下生成个result.csv文件，内容如下：

爬取某网站写的python代码

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 爬取某网站写的python代码

本文链接: https://www.lsjlt.com/news/237991.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

爬取某网站写的python代码

代码如下：import requestsfrom pyquery import PyQueryimport reimport osi...

99+

2023-06-04
用python爬取某个图片网站的图片

爬取单张图片 # 爬取单张图片import requests # 导入requests库url = "https://file.lsjlt.com/upload/f/202309/12/54vwhbwy2re.jpg" # 图片地址re...

99+

2023-09-12

python 爬虫
python爬取某网站原图作为壁纸

不得不说 python真是一个神奇的东西,学三天就能爬网站真香完整代码 # -*- coding: utf-8 -*- """ Created on Wed May 26 1...

99+

2024-04-02
python爬取网站数据（含代码和讲解）

提示：本次爬取是利用xpath进行，按文章的顺序走就OK的；文章目录前言一、数据采集的准备 1.观察url规律 2.设定爬取位置和路径（xpath）二、数据采集 1. 建立存放数据的dataframe 2. 开始爬取 3. 把...

99+

2023-09-06

python javascript jupyter
python如何爬取某网站原图作为壁纸

这篇文章主要介绍python如何爬取某网站原图作为壁纸，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！完整代码# -*- coding: utf-8 -*-""...

99+

2023-06-15
python爬虫：爬取网站视频

python爬取百思不得姐网站视频：http://www.budejie.com/video/新建一个py文件，代码如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re...

99+

2023-01-31

爬虫视频网站
Python爬虫爬取网站图片

此次python3主要用requests，解析图片网址主要用beautiful soup，可以基本完成爬取图片功能，爬虫这个当然大多数人入门都是爬美女图片，我当然也不落俗套，首先也...

99+

2024-04-02
python爬取某站上海租房图片

前言　　对于一个net开发这爬虫真真的以前没有写过。这段时间开始学习python爬虫，今天周末无聊写了一段代码爬取上海租房图片，其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup。python 版本：pytho...

99+

2023-01-31

站上图片 python
Python轻松爬取写真网站全部图片

以下是一个使用Python爬取写真网站全部图片的示例代码：```pythonimport requestsfrom bs4 impo...

99+

2023-09-15

Python
Node.js实现爬取网站图片的示例代码

目录涉及知识点cheerio简介什么是cheerio 安装cheerio准备工作核心代码示例截图涉及知识点开发一个小爬虫，涉及的知识点如下所示： https模块，主要是用户获取网络...

99+

2024-04-02
怎么用Python爬取某图网的图片

本篇内容介绍了“怎么用Python爬取某图网的图片”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！相信很多设计小伙伴有好的灵感，但是没有好的设...

99+

2023-06-15
怎么用python爬取网站

使用Python爬取网站的一般步骤如下：1. 导入所需的库，如`requests`或`urllib`用于发送HTTP请求，`beau...

99+

2023-08-31

Python
R语言怎样抓取某网站JSON数据的代码

R语言怎样抓取某网站JSON数据的代码，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。R语言抓取某网站JSON数据的代码如下：library(RCurl)library(bi...

99+

2023-06-02
python 爬取壁纸网站的示例

目录完整代码如下运行部分展示结果如下：本次爬虫用到的网址是： http://www.netbian.com/index.htm: 彼岸桌面.里面有很多的好看壁纸，而且都是可以下载高清...

99+

2024-04-02
Python爬虫代码怎么写

这篇“Python爬虫代码怎么写”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“Python爬虫代码怎么写”文章吧。爬虫是什么...

99+

2023-07-05
Python爬取网页的所有内外链的代码

目录项目介绍代码大纲网站详情代码详情队列内链外链请求头项目介绍采用广度优先搜索方法获取一个网站上的所有外链。首先，我们进入一个网页，获取网页的所有内链和外链，再分别进入内链中，获...

99+

2024-04-02
Nginx反爬虫：禁止某些User Agent抓取网站

网站反爬虫的原因不遵守规范的爬虫会影响网站的正常使用网站上的数据是公司的重要资产爬虫对网站的爬取会造成网站统计数据的污染常见反爬虫手段1. 根据 IP 访问频率封禁 IP2. 设置账号登陆时长，账号访问过多封禁设置账号的登录限制...

99+

2023-01-31

爬虫网站 Nginx
python爬取网站美女图片

今天周五，项目刚刚上线完，有些时间，闲着无聊，继续复习爬虫，这次打算爬取网站的美女图片。得先找到目标，然后目标网站还不会反爬虫，因为自己只是小白，好了开始。寻找目标，发现了目标，哈哈 http://www.meizitu.com 里面图片按...

99+

2023-01-31

美女图片网站
python如何爬取壁纸网站

这篇文章主要介绍python如何爬取壁纸网站，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！本次爬虫用到的网址是：http://www.netbian.com/index.htm: 彼岸桌面.里面有很多的好看壁纸，而且...

99+

2023-06-14
如何用Python爬虫爬取美剧网站

如何用Python爬虫爬取美剧网站，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。爬虫爬取美剧网站！【前言】一直有爱看美剧的习惯，一方面锻炼一下英语听力，一方面打...

99+

2023-06-02