使用Python模拟腾讯第三方认证-篇3
admin
2023-07-30 20:44:47
0

前面两篇演示了模拟腾讯第三方认证的过程,至此已经能够自由登录学院网站。下面就要开始探索如何写一个简单的爬虫,分析教程页面的视频信息,进而可以将自己感兴趣的教程进行本地或网络存储。

页面分析

页面分析主要使用F12开发者工具分析页面元素信息。

主页导航信息

这里从主页入手,打开学院的主页可以看到左边的导航信息,如下图:


导航信息

通过F12查看元素内容,大致如下:

  • 1
  • 2
  • ...
  • 11

具体分类分级就不是重点,主要是每一个li节点下的课程链接:
比如python课程分类:
Python
由此可以继续查看python分类所有课程。

分类课程

打开python分类课程页面,http://www.jikexueyuan.com/course/python, 页面如下:


python

可以看到左侧的导航没有变化,主要是右侧的课程项,分析HTML元素如下:


课程内容

在lession-box的div块内可以看到课程《python概述》的地址为:
http://www.jikexueyuan.com/course/2282.html

单个课程信息

我们继续打开《python概述》课程地址,


python概述

直到此才浏览到真正课程播放视频的页面,之前说过,学院播放使用的video-js实现的视频控制,视频地址可以从source项查询到,我们看播放器HTML内容:


视频内容

这里本来以为支持HTML5就可以在video块中看到视频地址,然而使用开发者工据查看源码并没有source节点。不过之前的工作并没有白费,因为上述使用的浏览器开发者工具查看的,而通过查看页面源码HTML文件,是可以看到source地址的。

然后,后面还可以继续查看第二节课程的页面。

总结

至此,整个视频页面分析流程就结束了,从主页导航到课程分类,然后到单个课程的单个章节。
只关心单个章节的视频下载,不是最终目的,最好能够连续访问并统计各个章节的视频信息,最终将采集视频地址与课程信息做成任务化的下载是真正的目的。

因时间有限,本篇还是先解释页面原理,下篇开始编码模拟嗅探页面信息。

相关内容

热门资讯

500 行 Python 代码... 语法分析器描述了一个句子的语法结构,用来帮助其他的应用进行推理。自然语言引入了很多意外的歧义,以我们...
定时清理删除C:\Progra... C:\Program Files (x86)下面很多scoped_dir开头的文件夹 写个批处理 定...
65536是2的几次方 计算2... 65536是2的16次方:65536=2⁶ 65536是256的2次方:65536=256 6553...
Mobi、epub格式电子书如... 在wps里全局设置里有一个文件关联,打开,勾选电子书文件选项就可以了。
scoped_dir32_70... 一台虚拟机C盘总是莫名奇妙的空间用完,导致很多软件没法再运行。经过仔细检查发现是C:\Program...
pycparser 是一个用... `pycparser` 是一个用 Python 编写的 C 语言解析器。它可以用来解析 C 代码并构...
小程序支付时提示:appid和... [Q]小程序支付时提示:appid和mch_id不匹配 [A]小程序和微信支付没有进行关联,访问“小...
python绘图库Matplo... 本文简单介绍了Python绘图库Matplotlib的安装,简介如下: matplotlib是pyt...
Prometheus+Graf... 一,Prometheus概述 1,什么是Prometheus?Prometheus是最初在Sound...
微信小程序使用slider实现... 众所周知哈,微信小程序里面的音频播放是没有进度条的,但最近有个项目呢,客户要求音频要有进度条控制,所...