Cyrus_Ren

【实战】利用python爬虫爬取中国大学慕课课程视频及文件

完整项目地址：https://github.com/CyrusRenty/MOOC-Download

1 背景

我们在看中国大学慕课上的资源时候会很明显的发现网易的线上播放器做的很不友好，也经常卡顿。而且有时候想要视频和资料对照着看时候也很不方便，所以写了这样一个爬虫，可以一键爬取课程中所有的视频资料，并且下载所有的pdf文件。

2 技术栈说明

本爬虫在实现时主要就用了request和re两个库，相对比较简单。由于MOOC上的页面都不是静态页面，所以我们不能直接抓取页面的内容，需要从http请求入手。

简单的判断是否为静态页面的方法：针对一个页面，按下CTRL+U，在弹出的源码页面查找原页面中的数据字段，如果没有那么一定是动态页面。
对于动态加载的部分，也就是Ajax请求，在network中为特殊的请求类型，叫做xhr。同时在该请求的Request Headers中有一个信息为X-Reauest-With：XMLHttpRequest，即代表了这是一个Ajax请求。

在分析网站时，我们主要使用fiddler进行数据抓包。

3 慕课网逻辑分析

此处主要记录我在分析时的思路，这一块内容我参考了这位博主的博文，但是他写的比较简略，所以我稍微补充一下我的思路。

3.1 寻找资源列表如何传递的

首先，一般慕课网的章节划分都是章节为一级目录，以及目录下有很多二级目录，每个二级目录中又有很多的具体资源项。

我们进入任意课程，可以发现一般我们在课件页面可以在选择任意子资源进入开始学习，故可以推测在进入这个页面之前一定有发送相关的课程信息（比如课程id什么的）来进行获取资源列表。

利用fiddler分析在进入这个页面的时候都有哪些请求（为了尽量少不必要的请求，我们可以先点到比如评分标准，然后清空fiddler里面所有请求，再点回课件，这样可以少处理比如头部一些不是这里我们需要的请求。）可以看到一共只有6个请求，这里只有一个post请求，而且数据量相比于其他的大了很多，所以我们着重分析这个请求。

复制该请求返回的数据到Nodepad++分析，可以发现里面的数据非常有规律，但是由于编码原因，里面的中文数据都是乱码，非常不利于我们分析，所以我们可以先复制这些字符，然后通过 encode('utf-8').decode('unicode_escape') 方法进行两次转译，然后就会将乱码中文字符转换成中文。
转译前：

转译后：

通过分析这个文本我们可以对整个目录的结构都有一个大体的了解。比如每个章节标题的id是和下面子章节的charpterId对应的。具体需要什么信息我们可以一会再分析。

现在我们再来看看这个请求的发送时候需要发送什么信息，同样是在fiddler中查看row中信息（红框中的即为post请求发送的信息）：

单独一个课程的请求可能让我们无法清晰的认识到哪些字段是不变的，那些是变化的，所以建议多试几个不同课程的请求，然后我们就可以很明显的发现这些字段是有规律的，其中大部分字段是不变的，一些可能变化的字段的说明

所需字段	字段说明
c0-param0	number:某一特定的id。
batchId	时间戳，可以指定一个固定的。

所以现在我们的关键就是如何找到课程的唯一id了。

3.2 寻找课程唯一id

我们如果有注意到话会看到其实这个id和我们在现在地址栏出现的tid是一致的。

所以我们可以推测这个id应该是在进入课程介绍界面时候获取的。因为在课程介绍页面是没有这个id的，我们再次通过fiddler
抓取进入课程介绍界面时候的请求，根据经验一般这种id都会在第一个请求时候获得，通过查看第一个第一个get请求，在返回数据中，我们的确可以检索到相应的id字段。

现在有了唯一id，也就可以获得这个课程的所有资源列表了，回过头再去看一次我们3.1中获得的资源列表文件，可以看到里面只有数据字段并没有下载链接，所以我们还需要进一步到具体的视频或文件界面去分析。

3.3 寻找资源下载方式

同样的，我们用fiddler截取时，可以先进入到具体播放页面，然后清空fiddler记录，再次跳转，这样保证了除了中心部分内容，其他部分文件不会再次请求。通过分析我们可以看到这次同样只有一个post请求，而且体积最大，随意着重对其分析。

如果是文件资源，那么可以直接在fiddler中查看返回的json格式数据，在里面我们可以非常容易的发现有一个下载地址，这样我们就已经确定了如何下载pdf。

如果是视频资源，那么fiddler中不能直接转换成json格式，我们继续到notepad++中打开，可以看到里面有非常多的下载链接，根据字段可以推测应该是用于不同的播放器以及不同的清晰度，这也为我们之后选择选择视频的格式有了可能性。

下面来看一下post请求的请求体中都有哪些内容，如果对比不同的视频及文档请求，可以发现其中同样有很多是固定不变的，会变化的请求列出如下：

所需字段	字段说明
c0-param0	number: 二级目录id
c0-param1	number: 判定文件还是视频
c0-param3	number: 这一内容id
batchId	时间戳，可以指定一个固定的。

根据请求需要的信息，就告诉我们需要再次回到之前返回资源列表中去寻找相应的信息。

3.4 寻找下载所需字段

首先，一般慕课网的章节划分都是章节为一级目录，以及目录下有很多二级目录，每个二级目录中又有很多的具体资源项。

通过自己查看之前转译过的资源列表信息，我们可以发现一些重要的字段含义：

所需字段	字段说明
contentType	资源属于什么类型。（1为视频，3为文档，一级目录同样为1）
id	每个资源（或一二级目录）对应的唯一绝对id。
lessonId	在资源项中出现，对应的二级目录id
chapterId	在二级目录出现，对应一级目录id

有了以上的分析，我们就可以来正式写这个爬虫的代码了。

4 代码实现

有了之前的逻辑分析，代码实现就比较简单了。在实现代码之前，再梳理一遍获取慕课资源的流程图。

整体代码实现的逻辑也是上面这几点，下面只对部上述几个步骤关键代码进行说明，具体实现可以下载源码自行查看。

4.1 获取课程ID及基本信息

在获取课程ID之前，我们需要让用户自行输入课程显性id，也就是之前在浏览器上看到的以学校缩写和一串数组组成的id，比如 WHUT-1001861003 。在这里创建一个course类，并在其中定义获取课程具体信息的方法：

class Course(object):
    '''
    存储课程相关信息
    '''
    def __init__(self, *args, **kwargs):
        self.course_page_url = 'http://www.icourse163.org/learn/'
    def set_course(self, course):
        self.course = course
    def get_course_info(self):
    '''
    获取课程基本信息
    获取课程id用于发送post请求
    '''
        course_page_url = self.course_page_url + self.course
        course_page = requests.get(course_page_url, headers=HEADER)
        id_pattern_compile = re.compile(r'id:(\d+),')
        # 获取课程名称
        basicinfo_pattern_compile = re.compile(
r')
        basic_set = re.search(basicinfo_pattern_compile, course_page.text)
        self.course_title = basic_set.group(1)
        self.course_collage = basic_set.group(2)
        self.course_id = re.search(id_pattern_compile,
course_page.text).group(1)

4.2 获取资源列表并遍历到具体资源

通过上一步获取到的课程id，这里我们采用循环遍历的方式，依次用上一级的id作为下一级的正则表达式标识符，遍历到具体的资源信息，从中将我们在获取下载地址是需要的字段提取出来。同时在这里，在每一级遍历是，将慕课文档结构记录在名为TOC.txt的文档中，方便查阅文档目录。

在方法内部，我们对所有的文件进行了重命名，一是因为有一些pdf中，会有< >这样无法存储的符号出现，所以我们要对这些符号进行删除。其次将一些无效的第一章、第一部分等等字段删除。（因为我们已经进行了统一的编号）

def get_course_all_source(course_id):
    '''
    通过解析的course_id获取当前所有可下载的资源信息
    '''
    # 选择下载视频的清晰度
    video_level = select_video_level()
    # c0-param0：代表课程id
    # batchId：可以为任意时间戳
    # 其他字段为固定不变字段
    post_data = {
        'callCount': '1',
        'scriptSessionId': '${scriptSessionId}190',
        'c0-scriptName': 'CourseBean',
        'c0-methodName': 'getMocTermDto',
        'c0-id': '0',
        'c0-param0': 'number:' + course_id,
        'c0-param1': 'number:1',
        'c0-param2': 'boolean:true',
        'batchId': '1492167717772'
    }

    source_info = requests.post(
        SOURCE_INFO_URL, data=post_data, headers=HEADER)
    # 对文档内容进行解码，以便查看中文
    source_info_transcoding = source_info.text.encode('utf-8').decode(
        'unicode_escape')
    # 这里的id是一级目录id
    chapter_pattern_compile = re.compile(
        r'homeworks=.*?;.+id=(\d+).*?name="(.*?)";')
    # 查找所有一级级目录id和name
    chapter_set = re.findall(chapter_pattern_compile, source_info_transcoding)
    with open('TOC.txt', 'w', encoding='utf-8') as file:
        # 遍历所有一级目录id和name并写入目录
        for index, single_chaper in enumerate(chapter_set):
            file.write('%s    \n' % (single_chaper[1]))
            # 这里id为二级目录id
            lesson_pattern_compile = re.compile(
                r'chapterId=' + single_chaper[0] +
                r'.*?contentType=1.*?id=(\d+).+name="(.*?)".*?test')
            # 查找所有二级目录id和name
            lesson_set = re.findall(lesson_pattern_compile,
                                    source_info_transcoding)
            # 遍历所有二级目录id和name并写入目录
            for sub_index, single_lesson in enumerate(lesson_set):
                file.write('　%s    \n' % (single_lesson[1]))
                # 查找二级目录下视频，并返回 [contentid,contenttype,id,name]
                video_pattern_compile = re.compile(
                    r'contentId=(\d+).+contentType=(1).*?id=(\d+).*?lessonId='
                    + single_lesson[0] + r'.*?name="(.+)"')
                video_set = re.findall(video_pattern_compile,
                                       source_info_transcoding)
                # 查找二级目录下文档，并返回 [contentid,contenttype,id,name]
                pdf_pattern_compile = re.compile(
                    r'contentId=(\d+).+contentType=(3).+id=(\d+).+lessonId=' +
                    single_lesson[0] + r'.+name="(.+)"')
                pdf_set = re.findall(pdf_pattern_compile,
                                     source_info_transcoding)
                name_pattern_compile = re.compile(
                    r'^[第一二三四五六七八九十\d]+[\s\d\._章课节讲]*[\.\s、]\s*\d*')
                # 遍历二级目录下视频集合，写入目录并下载
                count_num = 0
                for video_index, single_video in enumerate(video_set):
                    rename = re.sub(name_pattern_compile, '', single_video[3])
                    file.write('　　[视频] %s \n' % (rename))
                    get_content(
                        single_video, '%d.%d.%d [视频] %s' %
                        (index + 1, sub_index + 1, video_index + 1, rename),
                        video_level)
                    count_num += 1
                # 遍历二级目录下pdf集合，写入目录并下载
                for pdf_index, single_pdf in enumerate(pdf_set):
                    rename = re.sub(name_pattern_compile, '', single_pdf[3])
                    file.write('　　[文档] %s \n' % (rename))
                    get_content(single_pdf,'%d.%d.%d [文档] %s'%(index+1,sub_index+1,pdf_index+1+count_num,rename))

4.3 请求具体资源信息并下载处理

由于慕课资源主要分为两种，一种为视频，一种为pdf。两种在获取下载地址时有所不同，所以我们要分别进行判断。
在下载时，pdf一般较小，所以可以选择直接下载，这里下载是我们是将返回的内容重新用 file.write 方法写入成新的pdf文件，并根据之前我们对文件名的处理进行重新命名。对于比较大的视频文件，采用存储下载链接的方式，供第三方软件下载。

在这里我们创建了一个Rename.bat文件，主要是由于视频在下载下来时一般命名都是随机的（根据服务器上存储的命名），所以我们在写入下载链接时，同时将在服务器上的视频名称及我们已经在上一步处理过的视频名称写入，供下载好后批量改名。

def get_content(single_content, name, *args):
    '''
    如果是文档，则直接下载
    如果是视频，则保存链接供第三方下载
    '''
    # 检查文件命名，防止网站资源有特殊字符本地无法保存
    file_pattern_compile = re.compile(r'[\\/:\*\?"<>\|]')
    name = re.sub(file_pattern_compile, '', name)
    # 检查是否有重名的（即已经下载过的）
    if os.path.exists('PDFs\\' + name + '.pdf'):
        print(name + "------------->已下载")
        return
    post_data = {
        'callCount': '1',
        'scriptSessionId': '${scriptSessionId}190',
        'httpSessionId': '5531d06316b34b9486a6891710115ebc',
        'c0-scriptName': 'CourseBean',
        'c0-methodName': 'getLessonUnitLearnVo',
        'c0-id': '0',
        'c0-param0': 'number:' + single_content[0],  # 二级目录id
        'c0-param1': 'number:' + single_content[1],  # 判定文件还是视频
        'c0-param2': 'number:0',
        'c0-param3': 'number:' + single_content[2],  # 具体资源id
        'batchId': '1492168138043'
    }
    sources = requests.post(
        SOURCE_RESOURCE_URL, headers=HEADER, data=post_data).text
    # 如果是视频的话
    if single_content[1] == '1':
        if args[0] == 'a':
            download_pattern_compile = re.compile(r'mp4SdUrl="(.*?\.mp4).*?"')
        elif args[0] == "b":
            download_pattern_compile = re.compile(r'mp4HdUrl="(.*?\.mp4).*?"')
        else:
            download_pattern_compile = re.compile(r'mp4ShdUrl="(.*?\.mp4).*?"')
        video_down_url = re.search(download_pattern_compile, sources).group(1)
        print('正在存储链接：' + name + '.mp4')
        with open('Links.txt', 'a', encoding='utf-8') as file:
            file.write('%s \n' % (video_down_url))
        with open('Rename.bat', 'a', encoding='utf-8') as file:
            file.write('rename "' + re.search(
                r'http:.*/(.*?.mp4)', video_down_url).group(1) + '" "' + name +
                       '.mp4"' + '\n')

    # 如果是文档的话
    else:
        pdf_download_url = re.search(r'textOrigUrl:"(.*?)"', sources).group(1)
        print('正在下载：' + name + '.pdf')
        pdf_file = requests.get(pdf_download_url, headers=HEADER)
        if not os.path.isdir('PDFs'):
            os.mkdir(r'PDFs')
        with open('PDFs\\' + name + '.pdf', 'wb') as file:
            file.write(pdf_file.content)

剩下的方法主要是一些输入输出监测等等，这里就不再进行演示。

最后欢迎大家Star或者给我issue~~

【华为OD-E卷 - 求字符串中所有整数的最小和 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 python 华为od java c++javascript
【华为OD-E卷-求字符串中所有整数的最小和100分（python、java、c++、js、c）】题目输入字符串s，输出s中包含所有整数的最小和。说明：字符串s，只包含a-zA-Z±合法的整数包括1）正整数：一个或者多个0-9组成，如0230021022）负整数：负号–开头，数字部分由一个或者多个0-9组成，如-0-012-23-00023输入描述包含数字的字符串输出描述所有整数的最小和用例用例一
【华为OD-E卷 - 通过软盘拷贝文件 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 java 华为od python javascript c++
【华为OD-E卷-通过软盘拷贝文件100分（python、java、c++、js、c）】题目有一名科学家想要从一台古董电脑中拷贝文件到自己的电脑中加以研究。但此电脑除了有一个3.5寸软盘驱动器以外，没有任何手段可以将文件持贝出来，而且只有一张软盘可以使用。因此这一张软盘是唯一可以用来拷贝文件的载体。科学家想要尽可能多地将计算机中的信息拷贝到软盘中，做到软盘中文件内容总大小最大。已知该软盘容量为14
Python 装饰器暮色尽染 Python python 开发语言
Python装饰器是一种强大且优雅的工具，它允许我们在不修改原始函数代码的情况下，增加或改变函数的功能。装饰器的使用可以显著提高代码的复用性和可读性，是Python编程中不可或缺的一部分。装饰器的基本概念装饰器本质上是一个函数，它接受一个函数作为参数并返回一个新的函数。通过装饰器，我们可以在函数执行前后添加额外的逻辑，而不需要修改函数本身的代码。这种特性使得装饰器非常适合用于日志记录、性能测试、事
【华为OD-E卷 - 服务失效判断 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java c++javascript
【华为OD-E卷-服务失效判断100分（python、java、c++、js、c）】题目某系统中有众多服务，每个服务用字符串（只包含字母和数字，长度relPairs=split(relInput,',');//将依赖关系解析为Pair对象的列表List>rels=newArrayListp=split(pStr,'-');rels.add(newPairfails=split(failInput,
搭建个人AI知识库：RAG与本地模型实践指南 ai开发知识库
引言你是否想过拥有一个私人订制的AI助手，能够随时为你提供最个性化的信息？本文将带你一步步搭建一个基于本地模型和RAG技术的个人知识库。搭建本地模型环境os:archlinux内存:32gcpu:6核12线程python:3.12.7docker27.3.1+docker-compose向量库:milvus2.4.13+attu2.4(客户端)ollamapacman-Sollamasystemc
在Python中，文本查找和替换的常用操作 python正则表达式
1.使用字符串方法进行查找和替换Python的字符串类(str)提供了简单的查找和替换方法，如find()、replace()等。示例：text="Hello,world!"#查找子字符串的位置position=text.find("world")print(position)#输出:7#替换子字符串new_text=text.replace("world","Python")print(new_
Python3 利用正则转化参数化表达式（qbit）正则表达式
前言技术栈Python3.11regex2023.5.5案例测试代码#encoding:utf-8#author:qbit#date:2024-04-24#summary:利用正则转换参数化表达式importregexline1='owner=x_111ANDdoc_type=%x%_222ORauthor=x_333ORorgan=x_444AND(NOTpub_year=x_555)'dic=
基于SpringBoot的物业管理系统计算机学姐 Java精选实战项目源码 SpringBoot源码 Vue源码 spring boot 后端 java mysql vue.js spring intellij-idea
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于Java+SpringBoot+Vu
Javascript(turfjs)等值线图绘制前端空间计算mapbox
使用气象、环境类空间数据绘制等值线通常是由NCL、Python来做，在一些场景中：你只是想在WEB端做一些简单的绘制你的后端只有Node.js环境你纯粹是个前端工程师你也许需要使用纯Javascript来做这件事。本文尝试根据空间中的一组散点来绘制等值线图（或色斑图）。1.准备工作turfjs，空间分析（geospatialanalysis）工具包，支持在浏览器和Node.js环境中运行，空间数据
智谱回应被美国商务部列入实体清单；荣耀否认CEO赵明离职；Arm计划涨价300% | 极客头条极客日报 arm开发
「极客头条」——技术人员的新闻圈！CSDN的读者朋友们好，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理|郑丽媛出品|CSDN（ID：CSDNnews）一分钟速览新闻点！智谱回应被美国商务部列入实体清单：强烈反对，这一决定缺乏事实依据荣耀否认CEO赵明离职Canalys：2024年中国智能手机市场增长4%vivo、华为领跑小米正式进军韩国市场库克谈苹果与生活：AppleW
大量美国网民涌入小红书；英伟达CEO黄仁勋本周将赴京沪深；小米澎湃OS发版提速 | 极客头条极客日报小红书小米澎湃OS 英伟达
「极客头条」——技术人员的新闻圈！CSDN的读者朋友们好，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理|苏宓出品|CSDN（ID：CSDNnews）一分钟速览新闻点！大量美国网民纷纷注册小红书，阿里美团饿了么等互联网公司争先在小红书招揽用户陶琳：特斯拉所有一线员工都可以上大学，不设门槛余承东回应智界系列方向盘轻：R7汽车支持随速助力转向，速度越快方向盘越重寒武纪：预计2
Python入门：3.Python的输入和输出格式化平凡程序猿~ Python python 开发语言
引言在Python编程中，输入与输出是程序与用户交互的核心部分。而输出格式化更是对程序表达能力的极大增强，可以让结果以清晰、美观且易读的方式呈现给用户。本文将深入探讨Python的输入与输出操作，特别是如何使用格式化方法来提升代码质量和可读性。一、输入操作Python提供了简单而强大的输入功能，通过内置函数input()可以从用户那里获取字符串形式的输入。以下是一些基本用法和注意事项：1.基本用法
后端开发技术后端
在当今数字化和互联网化的时代背景下，后端开发技术作为连接前端和用户的重要桥梁，正以前所未有的速度发展和演进。后端开发的核心技术通常包括主流服务器端语言如Java、Python、Node.js等；关系型或非关系型数据库如MySQL、MongoDB等；容器编排工具如Docker、Kubernetes等。以Python为例，其简洁明了的语法受众多开发者青睐，适合快速原型开发和敏捷项目交付。随着云计算的普
小红书冲上热搜，大家都听说了吗？ go后端面试问题小红书程序员
由于一些特殊原因，小红书上突然涌现出一大批外国用户，他们自称是“某k的难民”，开始在小红书上分享内容。不过，小红书目前还没有自带的翻译功能，不会中文的外国用户只能使用英文或使用第三方翻译软件与中国用户进行交流。同时，多种语言来袭，也给小红书平台带来了内容审核的压力。据经济观察网报道，一位接近小红书的人士表示，小红书内部团队从1月13日当天就开始加班了，正在针对外国用户做功能优化，他们希望努力承接这
案例分享｜Alluxio数据流转方案在联通智网的应用人工智能运维大数据idc
分享嘉宾陈得泳-中国联通大数据平台SRE工程师，致力于基于开源生态构建稳定、高效、安全、低成本的大数据集群。观看完整分享回放业务背景统一底座和安全基座位于不同IDC；统一底座：承接O域全域网络数据，包括移动网信令、告警、故障、资源以及固网数据等基础数据加工的大数据集群，位于郑州IDC；安全基座：是应对网络安全专项支撑的大数据分析平台，位于呼和IDC。统一底座加工后的DNS/NetFlow等固网基础
中国芯片产业腾飞：万亿出口背后的力量与未来展望前端
2024年前11个月，中国集成电路出口额突破万亿元大关，达到1.03万亿元，同比增长20.3%！这一里程碑式的成就，标志着中国在全球半导体产业链中的地位日益提升，也为中国经济发展注入了强劲动力。本文将深入探讨中国芯片产业快速发展的驱动力，以及未来发展面临的挑战和机遇。这离不开众多科技工作者的辛勤付出，也受益于先进的AI代码生成器等工具的辅助。万亿出口的意义深远1.03万亿元的出口额并非简单的数字，
python头歌实验五作业_3.1(hbut) 树先生. python 开发语言
第1关：判断火车票座位##第1关：判断火车票座位seat=input()try:letter=seat[-1]line=int(seat[:len(seat)-1])ifline17or(letternotin['A','a','B','b','C','c','D','d','F','f']):print("输入错误")elifletterin['A','a','F','f']:print("窗口
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
谁家酒器最绝唱，藏在酒厂人未知？景阳冈酒厂先秦藏品大揭秘李虓酒评论
文/王赛时中国的酒器酒具历史久远，举世闻名。从北京的故宫博物院、中国国家博物馆，到世界各国的大型博物馆，都以能够收藏中国古代酒具而夸耀。但很少有人知道，在山东阳谷景阳冈酒厂，默默地收藏了两千件中国酒器。这些酒器，就封藏在景阳冈的酒道馆里。其中有一些青铜酒器，一睡就是三、四千年，堪称无声国宝，堪作无字史书！今天，我将引领诸位首先窥视一下景阳冈酒道馆的9件先秦藏品，你自己来说震撼不震撼。提示：这只是景
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_