利用Python制作一个MOOC公开课下载器

2024-04-02 19:04:59 691人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

目录导语开发工具环境搭建先睹为快原理简介导语记得很久以前写过一些中国大学MOOC上的视频下载器，不过好像都已经年久失修了。正好最近有需要，所以重新写了一个，顺便上来分享一波，寒假大

导语

记得很久以前写过一些中国大学MOOC上的视频下载器，不过好像都已经年久失修了。正好最近有需要，所以重新写了一个，顺便上来分享一波，寒假大家也可以用它来下载点课程内卷一下：

废话不多说，让我们愉快地开始吧~

开发 工具

python版本：3.7.8

环境搭建

安装Python并添加到环境变量，pip安装需要的相关模块即可。

先睹为快

运行方式：

python moocdl.py --url 课程链接

效果如下：

moocdl

随便挑的一个课程测试的，结果是m3u8格式的，所以下载起来有点慢。默认会把所有的课件这些东西也一起下载下来放到对应的目录。

原理简介

首先，我们需要先模拟登录中国大学MOOC，这样才能下载对应的课程资料，这里借助公众号之前开源的DecryptLogin包就好啦：

'''登录'''
def login(self, username, passWord):
    lg = login.Login()
    infos_return, session = lg.icourse163(username, password)
    return infos_return, session

接着，我们简单讲解一下如何下载对应课程里的资料。首先，我们需要获得课程相关的基本资料，随便点开个课程主页就可以发现直接在返回的页面里就有：

提取我们需要的课程信息的代码实现如下：

# 从课程主页面获取信息
url = url.replace('learn/', 'course/')
response = self.session.get(url)
term_id = re.findall(r'termId : "(\d+)"', response.text)[0]
course_name = ' - '.join(re.findall(r'name:"(.+)"', response.text))
course_name = self.filterBadCharacter(course_name)
course_id = re.findall(r'https?://www.icourse163.org/(course|learn)/\w+-(\d+)', url)[0]
print(f'从课程主页面获取的信息如下:\n\t[课程名]: {course_name}, [课程ID]: {course_name}, [TID]: {term_id}')

接着利用这些信息来爬取对应的资源列表：

# 获取资源列表
resource_list = []
data = {
    'tid': term_id,
    'mob-token': self.infos_return['results']['mob-token'],
}
response = self.session.post('Https://www.icourse163.org/mob/course/courseLearn/v1', data=data)
course_info = response.JSON()
file_types = [1, 3, 4]
for chapter_num, chapter in enumerate(course_info.get('results', {}).get('termDto', {}).get('chapters', [])):
    for lesson_num, lesson in enumerate(chapter.get('lessons', [])) if chapter.get('lessons') is not None else []:
        for unit_num, unit in enumerate(lesson.get('units', [])):
            if unit['contentType'] not in file_types: continue
            savedir = course_name
            self.checkdir(savedir)
            for item in [self.filterBadCharacter(chapter['name']), self.filterBadCharacter(lesson['name']), self.filterBadCharacter(unit['name'])]:
                savedir = os.path.join(savedir, item)
                self.checkdir(savedir)
            if unit['contentType'] == file_types[0]:
                savename = self.filterBadCharacter(unit['name']) + '.mp4'
                resource_list.append({
                    'savedir': savedir,
                    'savename': savename,
                    'type': 'video',
                    'contentId': unit['contentId'],
                    'id': unit['id'],
                })
            elif unit['contentType'] == file_types[1]:
                savename = self.filterBadCharacter(unit['name']) + '.pdf'
                resource_list.append({
                    'savedir': savedir,
                    'savename': savename,
                    'type': 'pdf',
                    'contentId': unit['contentId'],
                    'id': unit['id'],
                })
            elif unit['contentType'] == file_types[2]:
                if unit.get('jsonContent'):
                    json_content = eval(unit['jsonContent'])
                    savename = self.filterBadCharacter(json_content['fileName'])
                    resource_list.append({
                        'savedir': savedir,
                        'savename': savename,
                        'type': 'rich_text',
                        'jsonContent': json_content,
                    })
print(f'成功获得资源列表, 数量为{len(resource_list)}')

最后根据资源类型解析下载即可：

# 下载对应资源
pbar = tqdm(resource_list)
for resource in pbar:
    pbar.set_description(f'downloading {resource["savename"]}')
    # --下载视频
    if resource['type'] == 'video':
        data = {
            'bizType': '1',
            'mob-token': self.infos_return['results']['mob-token'],
            'bizId': resource['id'],
            'contentType': '1',
        }
        while True:
            response = self.session.post('https://www.icourse163.org/mob/j/v1/mobileResourcerpcBean.getResourceToken.rpc', data=data)
            if response.json()['results'] is not None: break
            time.sleep(0.5 + random.random())
        signature = response.json()['results']['videoSignDto']['signature']
        data = {
            'enVersion': '1',
            'clientType': '2',
            'mob-token': self.infos_return['results']['mob-token'],
            'signature': signature,
            'videoId': resource['contentId'],
        }
        response = self.session.post('https://vod.study.163.com/mob/api/v1/vod/videoByNative', data=data)
        # ----下载视频
        videos = response.json()['results']['videoInfo']['videos']
        resolutions, video_url = [3, 2, 1], None
        for resolution in resolutions:
            for video in videos:
                if video['quality'] == resolution:
                    video_url = video["videoUrl"]
                    break
            if video_url is not None: break
        if '.m3u8' in video_url:
            self.m3u8download({
                'download_url': video_url,
                'savedir': resource['savedir'],
                'savename': resource['savename'],
            })
        else:
            self.defaultdownload({
                'download_url': video_url,
                'savedir': resource['savedir'],
                'savename': resource['savename'],
            })
        # ----下载字幕
        srt_info = response.json()['results']['videoInfo']['srtCaptions']
        if srt_info:
            for srt_item in srt_info:
                srt_name = os.path.splitext(resource['savename'])[0] + '_' + srt_item['languageCode'] + '.srt'
                srt_url = srt_item['url']
                response = self.session.get(srt_url)
                fp = open(os.path.join(resource['savedir'], srt_name), 'wb')
                fp.write(response.content)
                fp.close()
    # --下载PDF
    elif resource['type'] == 'pdf':
        data = {
            't': '3',
            'cid': resource['contentId'],
            'unitId': resource['id'],
            'mob-token': self.infos_return['results']['mob-token'],
        }
        response = self.session.post('http://www.icourse163.org/mob/course/learn/v1', data=data)
        pdf_url = response.json()['results']['learnInfo']['textOrigUrl']
        self.defaultdownload({
            'download_url': pdf_url,
            'savedir': resource['savedir'],
            'savename': resource['savename'],
        })
    # --下载富文本
    elif resource['type'] == 'rich_text':
        download_url = 'http://www.icourse163.org/mob/course/attachment.htm?' + urlencode(resource['jsonContent'])
        self.defaultdownload({
            'download_url': download_url,
            'savedir': resource['savedir'],
            'savename': resource['savename'],
        })

ok，大功告成啦，写的有点简略，因为晚上还有点其他事。大家可以自己在手机端抓包试试，很简单的~

到此这篇关于利用Python制作一个MOOC公开课下载器的文章就介绍到这了,更多相关Python公开课下载器内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 利用Python制作一个MOOC公开课下载器

本文链接: https://www.lsjlt.com/news/142043.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

利用Python制作一个MOOC公开课下载器

目录导语开发工具环境搭建先睹为快原理简介导语记得很久以前写过一些中国大学MOOC上的视频下载器，不过好像都已经年久失修了。正好最近有需要，所以重新写了一个，顺便上来分享一波，寒假大...

99+

2022-11-13
如何用Python制作一个MOOC公开课下载器

这篇文章主要介绍“如何用Python制作一个MOOC公开课下载器”，在日常操作中，相信很多人在如何用Python制作一个MOOC公开课下载器问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”如何用Python制作...

99+

2023-06-29
利用Python+Excel制作一个视频下载器

说起Excel，那绝对是数据处理领域王者般的存在。而作为网红语言Python，在数据领域也是被广泛使用。其中Python的第三方库-xlwings，一个Python和Excel的...

99+

2022-11-11
利用python开启一个内置下载服务器

场景：当某个同事需要你传服务器上某个文件给他的时候，其实可以利用python开启一个下载器，直接给个url给同事就可以了。1）查看python的版本（因为python2与python3开启的命令有些差异）[root@LVS-DR01 ~]#...

99+

2023-01-31

服务器 python
利用Python制作百度图片下载器

前段时间写了一个百度图片下载器，结果发现有很多人需要使用。说实话之前写的那一款百度图片下载器比较LOW，今天刚好有时间就做了一下升级。更新了两个BUG，一个是图片下载达到几千张的时...

99+

2022-11-13
一起用Python做个上课点名器的制作过程

目录前言一、核心功能设计二、实现步骤1. UI排版布局设计2. 学生姓名加载3. 随机点名实现4. 连抽模式实现5. 抽取历史查看4. 打包配置前言前段时间，用PyQt5写了几篇文...

99+

2022-11-12
用python制作个论文下载器(图形化界面)

目录一、使用说明二、代码分析1. 功能函数2. 回调函数3. 线程生成函数4. 效果展示写在最后在科研学习的过程中，我们难免需要查询相关的文献资料，而想必很多小伙伴都知道SCI-HU...

99+

2022-11-12
Python利用wxPython制作一个有趣的验证码生成器

目录1.引言2.正文3.实例分析4.总结1.引言 2.正文 CAPTCHA的应用场景主要是在需要验证用户身份或者防止恶意攻击的场景中，下面列举几个常见的应用场景：用户登录验证：在...

99+

2023-05-18

Python wxPython制作验证码生成器 Python 验证码生成器 Python 验证码 Python wxPython