Python爬虫采集Tripadvisor数据案例实现

2024-04-02 19:04:59 993人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

目录前言第三方库开发环境开始代码请求数据2. 获取数据(网页源代码)3. 解析数据(提取我们想要的数据内容详情页链接)4. 发送请求(访问所有的详情页链接) 获取数据5. 解析数据

前言

Tripadvisor是全球领先的旅游网站，主要提供来自全球旅行者的点评和建议，全面覆盖全球的酒店、景点、餐厅、航空公司，以及旅行规划和酒店、景点、餐厅预订功能。
Tripadvisor及旗下网站在全球49个市场设有分站，月均独立访问量达4.15亿。

第三方库

requests >>> pip install requests
parsel >>> pip install parsel

开发环境

版本: python 3.8

编辑器: PyCharm 2021.2

开始代码

请求数据

headers = {
    'cookie': 'TADCID=foOmU9bDp6JGIXg2ABQCFdpBzzOuRA-9xvCxaMyI12wTEaQSQ4euq_1sNSDmJybFCMezFLrAnKRGZ_uvGNNO_9cSzuJeK8RQlE4; TAUnique=%1%enc%3AHARC1EMLan58P07MI4ZMcqI%2BzHGWuLGBt6TE6zQDNwk%3D; TASSK=enc%3AAL%2Bm9xwFy7%2BjYONIRS%2F2kEbA%2FtOrlDbcW%2FwCSHs44XP9R3ddE%2BKJxi3FiDuozLe0Ov2ujtnFah8i0sN%2FRdUxZGIS0TClwsaz7%2B7Uv8dh%2BvHM%2FfH9C%2FcEYLBYBtn1yLmBNg%3D%3D; ServerPool=A; PMC=V2*MS.2*MD.20220311*LD.20220311; TART=%1%enc%3AfD9OzCOGTHLKxR1qLNfmGZurd9xliidHT5bMQw2z505WnDQeBJdPDWc64WFlxikpNox8JbUSTxk%3D; TATravelInfo=V2*A.2*MG.-1*HP.2*FL.3*RS.1; TASID=9CCF4EA45B4141A8B5E4F03D36821474; ak_bmsc=31083286436C157F558D959D23D94849~000000000000000000000000000000~YAAQqF1kX6lPsVF/AQAAhTyqdw8F4+OoWZwjJCqsKUS/ykkFQHkXml5We7WY4q6KDUeIkm36a0Fs41jt7Jx6MFwnzloND2Iry1Iuwnj5I7oPxsI1RTjfGXSr408rscnzKPJHpRIXwuuiL+SNZxp233DOhrqrbTQ2cDTiGPk8qAYcLYq1OHpyOjLpc6L2zPbiSdvfDAuz2ujLUbWZV33YVrUd1UcmBMKJOSS/C12JeFdLCcjOihJvc4Zlu5HMYQUBdjTaV4zll3YO9YWxdm5pUT57vjI3WjxNhLwOXS93F3oGo/VOzmvk2n4rptCDH1vffz7Dpmp4yRn0dnX8RtiKiolFV00rBs0yC9Nxa67F0qPkJMMS6t6pNo+08PIre7VIiaixQoWUNNiBiNDXeQ==; PAC=AHc5Ocqizh5jbN81AnjCtcF7k5P54vojrezhxeu8s4DdhkIZSMBuxXUioaVGVVo99Ysr_IbYXqNKjsddfzI8psluCp1NwuwQiBOvmdhP_r8ntVPeHXBc5u782Y8i4KrpV0a29aTnmykzihOxeEfilEfHZOGZxkWN8GRLwHay1MUpBazo7e4Pdtl3tndoYnNIDWcRtHzZJIDE9odWhqOzUE0%3D; TAReturnTo=%1%%2FRestaurants-g188590-Amsterdam_North_Holland_Province.html; roybatty=TNI1625!AJyUZ5ejQVombB9Jv3PVhqqhyMhwsanzT2C6omYz8l6mQNt%2FP5v6CLnnlymNXfhMwolnHznm%2BAmT81YSeyGCVxnWHERn16eR747rX9fmWmeCMoris6ffxKTbJ6%2BjObZ6rmffv7I5wEGZ009WzKMlVA%2BXJAheGoIKHOD3gUDLVYlY%2C1; TATrkConsent=eyJvdXQiOiIiLCJpbiI6IkFMTCJ9; TASession=V2ID.9CCF4EA45B4141A8B5E4F03D36821474*SQ.9*LS.PageMoniker*GR.82*tcpAR.12*TBR.1*EXEX.98*ABTR.74*PHTB.27*FS.67*CPU.8*HS.recommended*ES.popularity*DS.5*SAS.popularity*FPS.oldFirst*LF.en*FA.1*DF.0*TRA.false*LD.188590*EAU._; TAUD=LA-1646980142821-1*RDD-1-2022_03_11*LG-863371-2.1.F.*LD-863372-.....; _pbjs_userid_consent_data=3524755945110770; _li_dcdm_c=.tripadvisor.com; _lc2_fpi=b140173de591--01fxvvhm5q52dte42gshbn1234; __gads=ID=887c76ae8964a5bc:T=1646981079:S=ALNI_MYwTZNsJPdidCGF3BTM3pOV79wAUg; _lr_sampling_rate=100; _lr_retry_request=true; _lr_env_src_ats=false; __li_idex_cache=%7B%7D; pbjs_li_nonid=%7B%7D; __vt=bI5Nl4_3wIiyQqd-ABQCIf6-ytF7QiW7ovfhqc-AvRvwyUuxl21BvNUgBcewLtYtxhD9pK8plYHHUPpFuGJQzlL9HjsNiQXGwLu0f-XidRXohA9m08ary-La12XkjuKCU2QeR3ijnhWjQ8bnjvOcAaUKoA; bm_sv=867C80B13B2E8AE707E1A411B950E849~HDnKV8jbSFu9eHNiLb/p3fK3KqcxdMjPpLXFMD9YvvwLoQEuDGPgZZwEDhQeezJZJhdrUxX02mvzmDqkV7615Fm508wASvLcLsXmW/6+1K9pDp2UuCDIYbuZgv/2m76YS7Og/SBcU6xkIVnHhMVqpxWfro/1T3kO1LdXuFuprhA=; OptanonConsent=isGpcEnabled=0&datestamp=Fri+Mar+11+2022+14%3A53%3A51+GMT%2B0800+(%E4%B8%AD%E5%9B%BD%E6%A0%87%E5%87%86%E6%97%B6%E9%97%B4)&version=6.30.0&isIABGlobal=false&hosts=&consentId=cc7e2f72-5007-428f-a72e-392f9741b69d&interactionCount=1&landingPath=https%3A%2F%2Fwww.tripadvisor.com%2FRestaurants-g188590-Amsterdam_North_Holland_Province.html&groups=C0001%3A1%2CC0002%3A1%2CC0003%3A1%2CC0004%3A1',
    'user-agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36',
}
url = 'Https://www.tripadvisor.com/Restaurants-g188590-Amsterdam_North_Holland_Province.html'
response = requests.get(url, headers=headers)

2. 获取数据(网页源代码)

html_data = response.text

3. 解析数据(提取我们想要的数据内容详情页链接)

selector = parsel.Selector(html_data)
# 提取标签的属性内容 ::attr(href) 链接
link_list = selector.CSS('.bHGqj.Cj.b::attr(href)').getall()
for link in link_list:
    link = 'https://www.tripadvisor.com/' + link

4. 发送请求(访问所有的详情页链接) 获取数据

detail_html = requests.get(link, headers=headers).text

5. 解析数据

detail_selector = parsel.Selector(detail_html)
store_name = detail_selector.css('.fHibz::text').get()
comment_count = detail_selector.css('.eSAOV.H3:nth-child(2) .eBTWs::text').get()
address = detail_selector.css('.eSAOV.H3:nth-child(3) .dyeJW.dUpPX:nth-child(1) .fhGHT::text').get()
city = detail_selector.css('.breadcrumbs li:nth-child(4) span::text').get()
phone = detail_selector.css('.eSAOV.H3:nth-child(3) .dyeJW.dUpPX:nth-child(2) .fhGHT a::text').get()
score = detail_selector.css('.eEwDq .fdsdx::text').get()
website = re.findall(',"website":"(http.*?)"', detail_html)[0]
print(store_name, comment_count, city, address, phone, score, link, website)

6.保存数据

with open('tripadvisor.csv', mode='a', newline='', encoding='utf-8') as f:
    csv_writer = csv.writer(f)
    csv_writer.writerow([store_name, comment_count, city, address, phone, score, link, website])

7.得到数据

以上就是python爬虫采集Tripadvisor数据案例实现的详细内容，更多关于Python爬虫采集Tripadvisor数据的资料请关注编程网其它相关文章！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬虫采集Tripadvisor数据案例实现

本文链接: https://www.lsjlt.com/news/118547.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬虫采集Tripadvisor数据案例实现

目录前言第三方库开发环境开始代码请求数据2. 获取数据(网页源代码)3. 解析数据(提取我们想要的数据内容详情页链接)4. 发送请求(访问所有的详情页链接) 获取数据5. 解析数据...

99+

2024-04-02
Python爬虫采集微博视频数据

目录前言知识点开发环境爬虫原理案例实现前言随时随地发现新鲜事！微博带你欣赏世界上每一个精彩瞬间，了解每一个幕后故事。分享你想表达的，让全世界都能听到你的心声！今天我们通过pyth...

99+

2024-04-02
Python爬虫如何采集微博视频数据

这篇文章主要介绍了Python爬虫如何采集微博视频数据，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。知识点requestspprint开发环境版本：python 3.8-编...

99+

2023-06-21
Python爬虫实现热门电影信息采集

目录一、前言二、前期准备1、使用的软件2、需要用的模块3、模块安装问题4、如何配置pycharm里面的python解释器?5、pycharm如何安装插件?三、思路1、...

99+

2024-04-02
Python爬虫怎么实现热门电影信息采集

这篇文章主要介绍“Python爬虫怎么实现热门电影信息采集”，在日常操作中，相信很多人在Python爬虫怎么实现热门电影信息采集问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python爬虫怎么实现热门电影信...

99+

2023-06-21
Python爬虫实战演练之采集糗事百科段子数据

目录知识点爬虫基本步骤:爬虫代码导入所需模块获取网页地址发送请求数据解析保存数据运行代码，得到数据知识点 1.爬虫基本步骤 2.requests模块 3.parsel模块 4.xpa...

99+

2024-04-02
python爬虫爬取赶集网数据

一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider patubole patubole.com 三.利用chrome浏览器分析出房价和标题的两个字段的x...

99+

2023-01-31

爬虫数据赶集网
Python采集图片数据的实现示例

目录前言：发送请求保存数据保存图片总结：前言：在网络时代，图片已经成为了我们生活中不可或缺的一部分。随着各种社交媒体的兴起，我们可以在网上看到越来越多的图片，但是如何从这些图片中获...

99+

2023-05-17

Python采集图片 Python图片采集
Python爬虫实战演练之采集拉钩网招聘信息数据

目录本文要点：环境介绍本次目标爬虫块使用内置模块:第三方模块:代码实现步骤: (爬虫代码基本步骤)开始代码导入模块发送请求解析数据加翻页保存数据运行代码，得到数据本文要点： ...

99+

2024-04-02
PHP学习笔记：网络爬虫与数据采集

引言：网络爬虫是一种自动从互联网上抓取数据的工具，它可以模拟人的行为，浏览网页并收集所需的数据。PHP作为一种流行的服务器端脚本语言，在网络爬虫和数据采集领域也发挥了重要的作用。本文将介绍如何使用PHP编写网络爬虫，并提供实际的代码示例。一...

99+

2023-10-21

网络爬虫数据采集 PHP学习
Python爬虫入门案例之回车桌面壁纸网美女图片采集

目录知识点环境目标网址:爬虫代码导入模块发送网络请求获取网页源代码提取每个相册的详情页链接地址替换所有的图片链接换成大图保存图片图片名字翻页爬取结果知识点 reques...

99+

2024-04-02
Python爬虫入门案例之爬取二手房源数据

本文重点系统分析网页性质结构化的数据解析 csv数据保存环境介绍 python 3.8 pycharm 专业版 >>&...

99+

2024-04-02
爬虫中常见的采集数据方法有哪些

本篇内容主要讲解“爬虫中常见的采集数据方法有哪些”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“爬虫中常见的采集数据方法有哪些”吧!网络数据采集过程本身非常复杂。除了爬虫程序复杂之外，被抓取目标网...

99+

2023-06-20
Python爬虫数据举例分析

本篇内容介绍了“Python爬虫数据举例分析”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！获取数据打开斗鱼直播界面，连续点击翻页Networ...

99+

2023-06-02
Python网络爬虫实战案例之：7000

一、前言本文是《Python开发实战案例之网络爬虫》的第三部分：7000本电子书下载网络爬虫开发实战详解。配套视频课程详见51CTO学院请添加链接描述。二、章节目录 3.1 业务流程3.2 页面结构分析：目录页3.3 页面结构分析：详情...

99+

2023-01-31

爬虫实战案例
利用Python爬虫爬取金融期货数据的案例分析

目录任务简介解决步骤代码实现总结大家好我是政胤今天教大家爬取金融期货数据任务简介首先，客户原需求是获取https://hq.smm.cn/copper网站上的价格数据(注：获取...

99+

2024-04-02
爬虫可以采集哪些数据？爬虫借用什么代理可以提高效率

学习爬虫的门槛非常低，特别是通过Python学习爬虫，即使是网上也能找到许多学习爬虫的方法，而且爬虫在数据采集方面效果比较好，比如可以采集几万、上百万网页数据进行分析，带来极有价值的数据，不仅能了解同行的情况，也许还能影响企业的决策。一、爬...

99+

2023-06-02
Python采集热搜数据实现详解

目录功能实现发送请求解析数据获取内容拓展内容总结功能实现随着互联网的发展，信息的传播越来越快速和便捷。在这个信息爆炸的时代，如何快速获取有用的信息已经成为了一个重要的能力。而爬取网...

99+

2023-05-19

Python采集热搜数据 Python 数据采集
php实现大数据采集

随着互联网的不断发展，数据采集成为了人们获取信息的重要手段。然而，随着数据量的不断增加，传统的手动采集方法已经无法满足需求，因此，大数据采集技术成为了关键。在这里，我们来介绍一下php实现大数据采集的方法。一、数据采集流程数据采集流程通常...

99+

2023-05-24
Python爬虫之采集登陆后才能看到数据的方法是什么

这篇文章主要介绍“Python爬虫之采集登陆后才能看到数据的方法是什么”，在日常操作中，相信很多人在Python爬虫之采集登陆后才能看到数据的方法是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操...

99+

2024-04-02