广告
返回顶部
首页 > 资讯 > 后端开发 > Python >用python爬取中国大学排名网站排名信息
  • 626
分享到

用python爬取中国大学排名网站排名信息

2024-04-02 19:04:59 626人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

 程序解决问题如下: 利用python网络爬虫爬取中国大学排名网站上的排名信息,将排名前20的大学的信息保存为文本文件,并在窗口打印出这20所大学的信息,按列打印和保存。

 程序解决问题如下:

利用python网络爬虫爬取中国大学排名网站上的排名信息,将排名前20的大学的信息保存为文本文件,并在窗口打印出这20所大学的信息,按列打印和保存。

程序代码如下:

import requests
from bs4 import BeautifulSoup
import bs4
 
def gethtmlText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
 
def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            hdfd = tds[0].find('div')
            tt = hdfd.string.split()
            ff = "".join(tt)
            attr = tds[1].find('a')
            hh = tds[4].string.split()
            hg = "".join(hh)
            shf=tds[2].text.split()
            shfn="".join(shf)
            ulist.append([ff, attr.string,shfn,hg])
 
 
def printUnivList(ulist, num):
    tplt = "{0:^10}\t{1:{4}^10}\t{2:^10}\t{3:^10}"
    print(tplt.fORMat("排名","学校名称","省份","总分", chr(12288)))
    with open('save.txt', 'w+', encoding='utf-8') as f:
        f.write(tplt.format("排名","学校名称","省份","总分", chr(12288)))
        f.write('\n')
    for i in range(num):
        u = ulist[i]
        print(tplt.format(u[0], u[1], u[2],u[3],chr(12288)))
        with open('save.txt', 'a', encoding='utf-8') as f:
            f.write(tplt.format(u[0], u[1], u[2],u[3],chr(12288)))
            f.write('\n')
 
def main():
    with open('save.txt', 'w+', encoding='utf-8') as f:
        f.write("排名,学校,省份,总分\n")
        f.close()
    uinfo = []
    url = 'https://www.shanghairanking.cn/rankings/bcur/2021'
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    printUnivList(uinfo, 20)
main()

程序运行结果如下:

到此这篇关于用Python爬取中国大学排名网站排名信息的文章就介绍到这了,更多相关python爬取中国大学排名信息内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: 用python爬取中国大学排名网站排名信息

本文链接: https://www.lsjlt.com/news/163996.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 用python爬取中国大学排名网站排名信息
     程序解决问题如下: 利用python网络爬虫爬取中国大学排名网站上的排名信息,将排名前20的大学的信息保存为文本文件,并在窗口打印出这20所大学的信息,按列打印和保存。 ...
    99+
    2022-11-13
  • 怎么用python爬取中国大学排名网站排名信息
    今天就跟大家聊聊有关怎么用python爬取中国大学排名网站排名信息,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。 程序解决问题如下:利用python网络爬虫爬取中国大学排名...
    99+
    2023-06-29
  • 如何使用python爬虫爬取大学排名信息
    这篇文章将为大家详细讲解有关如何使用python爬虫爬取大学排名信息,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。 这次爬取的网址请搜索“阿凡题”(纯技术讨论)“阿凡题”(纯技术讨论) 在该网址选择查院校...
    99+
    2023-06-02
  • 利用node.js爬取指定排名网站的JS引用库详解
    前言 本文给大家介绍的爬虫将从网站爬取排名前几的网站,具体前几名可以具体设置,并分别爬取他们的主页,检查是否引用特定库。下面话不多说了,来一起看看详细的介绍: 所用到的node主要模块 expres...
    99+
    2022-06-04
    详解 网站 node
  • 如何使用node.js爬取指定排名网站的JS引用库
    小编给大家分享一下如何使用node.js爬取指定排名网站的JS引用库,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!所用到的nod...
    99+
    2022-10-19
  • python利用多线程+队列技术爬取中介网互联网网站排行榜
    目录目标站点分析编码时间目标站点分析 本次要抓取的目标站点为:中介网,这个网站提供了网站排行榜、互联网网站排行榜、中文网站排行榜等数据。 网站展示的样本数据量是 :58341。 采集...
    99+
    2022-11-11
  • python怎么利用多线程+队列技术爬取中介网互联网网站排行榜
    本篇内容介绍了“python怎么利用多线程+队列技术爬取中介网互联网网站排行榜”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!目标站点分析本次...
    99+
    2023-06-30
  • python爬取bilibili网页排名,视频,播放量,点赞量,链接等内容并存储csv文件中
    首先要了解html标签,标签有主有次,大致了解以一下,主标签是根标签,也是所有要爬取的标签的结合体 先了解一下待会要使用代码属性: #获取属性 a.attrs  获取a所有的属性和...
    99+
    2022-11-12
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作