我爱娃哈哈

快乐学Python，使用爬虫爬取电视剧信息，构建评分数据集

在前面几篇文章中，我们了解了Python爬虫技术的三个基础环节：下载网页、提取数据以及保存数据。

这一篇文章，我们通过实际操作来将三个环节串联起来，以国产电视剧为例，构建我们的电视剧评分数据集。

1、需求描述

收集目前国产电视剧的相关数据，需要构建国产电视剧和评分的数据集。

2、需求说明

收集国产电视剧的数据，越全越好，至少收集评分、电视剧名称、主演信息三个信息。之后将数据存储在一个 csv 表中，表头如下：

title，代表电视剧名称
rating，代表电视剧评分
stars，代表电视剧主演

3、初步分析

在基于 Python 技术来构建数据集的方式中，首当其冲要做的事情就是选择要抓取的网站。选择的标准一般主要看网站是否具备我们想要的信息，以及是否方便抓取。

这次我们要抓取的电视剧信息中，还有一个重要的考量因素就是是否方便抓取多个页面，毕竟一个网页一般都无法包含全部的电视剧信息。

我们在下载 HTML 页面的环节往往需要下载多个页才能获取完整的数据。

通过在搜索引擎搜索有电视剧列表的网站，我们决定下载“全集网”中的电视剧信息。

4、全集网主页分析

打开全集网中的国产电视剧主页，可以看到如下图示。

通过观察以上页面，可以发现该网页我们想要的字段：标题、评分和主演信息在页面上都有显示，只要显示就说明我们可以通过爬虫拿到。

同时注意我们地址栏url地址的变化，当前是：

现在我们来考察它的加载方式，拉到底部，可以看到该网页提供的是传统的翻页操作。如下所示：

我们点击第二页，发现跳转到了一个新的页面，该页面的 URL 和我们一开始访问的差不多，只是其中有一个数据的值变成了2。

这说明我们可以通过不断改变 URL 中的页码参数的值，来访问第二页之后的内容。这样在后续写代码中，我们只需要写针对一个页面的抓取代码，然后用一个循环来不断执行该方法，并每次叠加 page 的值就能实现将所有电视剧的内容抓取下来。

综上所述，全集网的页面更符合我们本次抓取的任务需求，我们后续就将该网页作为我们的抓取目标。

5、数据获取-下载所需网页

全集网的电视剧比较多，我们本次下载的html网页也会很多，所以可以在电脑上新建一个文件夹，在文件夹中新建我们的程序文件，将下载的网页保存在同级文件夹即可。（创建文件夹可以手动创建，无需通过程序，大家自行创建吧！）

创建完文件夹和程序文件后，先编写下载网页和保存文件的代码。

不想写的可以直接把前面文章中的网页下载代码和数据保存到文件的代码复制过来。

import urllib3

# 第一个函数，用来下载网页，返回网页内容

# 参数 url 代表所要下载的网页网址。


def download_content(url):

    http = urllib3.PoolManager()

    response = http.request("GET", url)

    response_data = response.data  

    html_content = response_data.decode()

    return html_content

# 第二个函数，将字符串内容保存到文件中

# 第一个参数为所要保存的文件名，第二个参数为要保存的字符串内容的变量

def save_to_file(filename, content):

    fo = open(filename,"w", encoding="utf-8")

    fo.write(content)

    fo.close()

运行以上代码后，我们就可以使用这两个函数来下载网页了。

（1）单个网页下载

先来下载一个网页试试情况：

# 将我们找到的电视剧网的网址存储在变量 url 中

url = "https://www.fschurun.com/vodshow/13--------1---.html"

# 将url 对应的网页下载下来，并把内容存储在 html_content 变量中

html_content = download_content(url)

# 将 html_content 变量中的内容存储在 htmls 文件夹中，文件名为 tv1.html 代表第一页

save_to_file("tvs_html/tv1.html",html_content)

接下来，我们点击 tv1.html 打开，来查看是否有我们需要的电视剧信息。回过头去看我们上文中发的截图，有个电视剧的名称是《藏药令》。

说明电视剧网的内容不是动态生成的，可以用 urllib3 进行下载。

（2）多个网页下载

现在第一个网页已经下载成功了。我们目标是下载 137个网页的内容，所以剩余的可以通过一个循环来下载。在我们之前的分析中，下载第二页和之后的内容只需要修改 URL 中的 page 的值即可。

另外，在我们通过循环来批量下载内容的时候，还有一个很重要的注意事项，一般都会在每次下载之后等待几百毫秒的时间，再进行下一次下载，这样可以避免短时间内对网站发起大量的下载请求，浪费网站的带宽资源。

在今天这个案例中，我们每次下载之后等待一秒再进行下一次下载。在 Python 中，我们可以通过 time 模块的 sleep 方法来使程序暂停固定的时间。

代码如下：

import time

for i in range(2, 137):
    url = "https://www.fschurun.com/vodshow/13--------"+str(i)+"---.html";

    print("begin download:",url);

    html = download_content(url);

    filename = "tvs_html/tv"+str(i)+".html";

    save_to_file(filename, html);

    print("download end ");

    time.sleep(1);

执行上述程序，可以看到程序每隔一秒钟输出一行信息，如下所示。

执行完毕后，我们在侧边栏打开 htmls 文件夹，可以看到我们的 137 个 html 文件已经保存成功。

6、数据提取

我们前面的需求分析已经提到了，需要电视剧的名称、评分和主演信息。那我们就开始分析网页，找到我们需要的数据所在的标签。

从图中我们可以得出：

电视剧列表是用ul布局，每个li代表一个电视剧。
在li里面，又有两个div，第一个div来展示电视剧评分。第二个div来展示电视剧名称和主演信息。
具体的内容又以span标签、h4标签或p标签来展示。

至此，我们的数据提取思路基本就清晰了：

获取所有 class=ewave-vodlist__box 的 div 标签对象。
针对每一个标签对象，都尝试：
- 查找div，class为ewave-vodlist__thumb lazyload下面的span标签的值，作为评分数据。
- 查找div，class为ewave-vodlist__detail下面的h4标签的值，作为电视剧名称。
- 查找div，class为ewave-vodlist__detail下面的p标签的值，作为主演数据

（1）提取单个HTML的所有电视剧信息

接下里，我们按照上面的数据提取思路，来编写获取单个HTML文件电视剧信息的代码。单个文件处理完之后，扩展到多个文件的数据处理就简单了。
代码如下：

from bs4 import BeautifulSoup
# 输入参数为要分析的 html 文件名，返回值为对应的 BeautifulSoup 对象
def create_doc_from_file(filename):
    fo = open(filename, "r", encoding="utf-8");
    html_content = fo.read();
    fo.close()
    doc = BeautifulSoup(html_content);
    return doc;

之后根据初步分析中分析的步骤，实现内容的抓取。

# 用tv1.html的内容创建BeautifulSoup对象
doc = create_doc_from_file("tvs_html/tv1.html");
# 查找class="ewave-vodlist__box" 的所有 div 标签
# 并以列表形式存储在 box_list 中
box_list = doc.find_all("div",class_="ewave-vodlist__box");
# 使用遍历循环遍历 box_list 中的所有标签对象
for box in box_list:
# 根据上述分析的思路，分别获取包含标题、评分、和演员信息的标签
    rating = box.find("div",class_ = "ewave-vodlist__thumb lazyload").find("span",class_="pic-tag pic-tag-h").text;
    title = box.find("div",class_="ewave-vodlist__detail").find("h4",class_ = "title text-overflow").text;
    stars = box.find("div",class_="ewave-vodlist__detail").find("p",class_ = "text text-overflow text-muted hidden-xs text-actor").text;
    

    print(title, rating, stars)

执行之后，输出如下（截取了部分日志）。可以看到我们想要的信息是有了，但是却好像带了很多没必要的空格和换行。

针对抽取的结果出现空格和换行的问题，我们可以使用正则表达式来处理。
创建一个格式处理的函数：

import re

def remove_extra_spaces(string):
    # 将连续的非空格字符与其前面的空格合并为一个单词
    string = re.sub(' +',' ',string);
    # 去除开头和结尾的空格、换行
    string  = string.strip().replace("\n","");
    
    return string;

在我们上面打印语句中，主演的数据中调用一下这个函数，就可以按规则去掉空格和换行。

# 用tv1.html的内容创建BeautifulSoup对象
doc = create_doc_from_file("tvs_html/tv1.html");
# 查找class="ewave-vodlist__box" 的所有 div 标签
# 并以列表形式存储在 box_list 中
box_list = doc.find_all("div",class_="ewave-vodlist__box");
# 使用遍历循环遍历 box_list 中的所有标签对象
for box in box_list:
# 根据上述分析的思路，分别获取包含标题、评分、和演员信息的标签
    rating = box.find("div",class_ = "ewave-vodlist__thumb lazyload").find("span",class_="pic-tag pic-tag-h").text;
    title = box.find("div",class_="ewave-vodlist__detail").find("h4",class_ = "title text-overflow").text;
    stars = box.find("div",class_="ewave-vodlist__detail").find("p",class_ = "text text-overflow text-muted hidden-xs text-actor").text;
    
    print(title, rating, remove_extra_spaces（stars）)

这回打印出来的数据格式就清爽很多了：

（2）提取多个HTML的内容

通过上述代码，我们已经可以将 tv1.html 文件中的所有电视剧信息给打印出来。但我们这次一共有一百多个 html 文件，要怎么实现处理多个 html 文件呢？

因为这一百个 HTML 文件虽然电视剧内容不一样，但是标签结构却是基本一样的（在电视剧网翻页的时候，可以看到每一页的样子都是一样的）。所以我们只需要将上面的代码放在循环中循环运行，然后每次循环都处理不同的 html 文件即可。

为了让代码更加清晰，我们先将上面的处理单个文件的代码改写为函数，参数就是要处理的 html 文件名，函数则命名为：get_tv_from_html。

# 从参数指定的 html 文件中获取电视剧的相关信息
def get_tv_from_html(html_file_name):
    doc = create_doc_from_file(html_file_name);

    box_list = doc.find_all("div",class_="ewave-vodlist__box");

    for box in box_list:
        rating = box.find("div",class_ = "ewave-vodlist__thumb lazyload").find("span",class_="pic-tag pic-tag-h").text;
        title = box.find("div",class_="ewave-vodlist__detail").find("h4",class_ = "title text-overflow").text;
        stars = box.find("div",class_="ewave-vodlist__detail").find("p",class_ = "text text-overflow text-muted hidden-xs text-actor").text;
        # 将获取的三个变量打印出来，看看是否正确。
        print(title, rating, remove_extra_spaces(stars))
# 试试用新写的函数处理一 tv2.html
get_tv_from_html("tvs_html/tv2.html")

调用后输出如下：

可以看到，我们成功用我们写的函数来从 tv2.html 中提取了电视剧的信息。这样要实现从一百多个文件中抽取信息，只需要写一个循环，来每次传给 get_tv_from_html 函数不同的文件名即可。【这里就不再放循环代码了，新手小伙伴可以试试自己来写，如果有问题可以联系。】

截止到现在，我们已经把网页下载下来了，并且把我们需要的内容抽取出来了，剩下的一步就是写到CSV中。

7、数据保存-将数据保存到CSV中

要将数据保存为 csv 的记录，我们首先需要将每一行数据保存为字典,然后以一个字典列表的形式传递给 csv 模块的 DictWriter。

（1）准备保存到CSV的函数

为了让后续代码更简洁，我们先将把字典列表保存到 csv 文件的操作写成一个函数。

# 导入 csv 模块
import csv
# 输入有三个参数：要保存的字典列表，csv 文件名，和表头
def write_dict_list_to_file(dict_list, filename, headers):
     # 当要处理的网页比较复杂时，增加 encoding 参数可以兼容部分特殊符号
    fo = open(filename, "w", newline="", encoding="utf-8")

    writer = csv.DictWriter(fo, headers);

    writer.writeheader();

    writer.writerows(dict_list)

    fo.close()

（2）创建电视剧字典列表

all_tv_dict = []

（3）改造 get_tv_from_html 函数

# 从参数指定的 html 文件中获取电视剧的相关信息
def get_tv_from_html(html_file_name):
    doc = create_doc_from_file(html_file_name);

    #【新增】当前处理的文件的字典列表
    tv_list = [];
    box_list = doc.find_all("div",class_="ewave-vodlist__box");

    for box in box_list:
        rating = box.find("div",class_ = "ewave-vodlist__thumb lazyload").find("span",class_="pic-tag pic-tag-h").text;
        title = box.find("div",class_="ewave-vodlist__detail").find("h4",class_ = "title text-overflow").text;
        stars = box.find("div",class_="ewave-vodlist__detail").find("p",class_ = "text text-overflow text-muted hidden-xs text-actor").text;

        #【新增】使用字典来保存上面抽取的数据，字典的key和csv的表头保持一致
        tv_dict = {}
        tv_dict['title'] = title;
        tv_dict['rating'] = rating;
        tv_dict['stars'] = stars;

        tv_list.append(tv_dict)


    return tv_list

#【新增】调用修改后的程序
tv_list = get_tv_from_html("tvs_html/tv2.html")
print(tv_list)

运行后结果如下：

（4）获取所有文件的电视剧信息

目前，我们通过 get_tv_from_file 函数，已经可以获取单个 html 的电视剧列表，现在我们需要通过一个循环，去处理所有的 html。对于每一个 html 文件，获取字典列表之后，都把列表添加到我们的总列表：all_tv_dict 中。这样，在循环执行结束后，all_tv_dict 变量中就包含了所有电视剧的信息。

# 因为是处理 tv1- tv136 的文件，所以i 循环从1到136
for i in range(1, 136):
    # 拼出每一次要处理的文件名
    filename = "tvs_html/tv"+str(i)+".html";
    # 调用 get_tv_from_html 处理当次循环的文件
    # 将这个文件中的电视剧列表存储在 dict_list 变量
    dict_list = get_tv_from_html(filename);
    # 将 dict_list 的内容添加到总列表 all_tv_dict 中
    # 列表的拼接可以直接使用 + 号
    all_tv_dict = all_tv_dict + dict_list
# 打印出总列表的长度，看看我们一共抓取到了几部电视剧
print(len(all_tv_dict))

因为要用 BeautifulSoup 处理一百多个文件，这里执行会有点慢。需要耐心等一下，执行完毕后输出结果为 9270。

说明我们一共抓取了9270部电视剧。

（5）保存结果到 csv 文件中

在需求说明中，已经明确了要保存的 csv 文件名为：tv_rating.csv, 表头为：title, rating, stars。

现在，我们所有电视剧的信息都已经存储在 all_tv_dict 总列表中，现在我们只需要调用存储到 csv 的函数将其保存到 csv 文件即可。

# 调用之前准备的 write_dict_list_to_csv 函数

# 第一个参数为要保存的列表，这里就是我们存储了所有电视剧耳朵总列表 all_tv_dict

# 第二个参数为要保存的文件名

# 第三个参数为要保存的 csv 文件的表头

write_dict_list_to_file(all_tv_dict, "tv_rating.csv", ["title", "rating", "stars"]);

执行之后，没有内容输出，但是可以看到在源代码文件夹下已经生成了 tv_rating.csv 文件。

使用 Excel 打开该 csv 文件，可以看到我们的表头已经正确写入，表头对应的内容也已经正确写入。

至此，一份国产电视剧评分的数据集就制作完毕了。

更多精彩文章欢迎关注公众号：服务端技术精选

基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
Python标准模块--importlib
作者：zhbzz2007出处：http://www.cnblogs.com/zhbzz2007欢迎转载，也请保留这段声明。谢谢！1模块简介Python提供了importlib包作为标准库的一部分。目的就是提供Python中import语句的实现（以及__import__函数）。另外，importlib允许程序员创建他们自定义的对象，可用于引入过程（也称为importer）。什么是imp？另外有一个
Python模块的动态加载机制 weixin_30632089 运维 python
Python在运行环境初始化中，就将sysmodule加载到了内存中，实际上，Python是将一大批的module加载到了内存中。但是为了使local名字空间能够达到最干净的效果，Python并没有将这些符号暴露在当前的local名字空间中，而是需要用户显式的通过import机制通知Python：需要将这个符号引入到local名字空间中。这些预先被加载进内存的module存放在sys.module
python学习打卡：DAY 18 推断聚类后簇的类型西西西仓鼠 python训练营 python 学习聚类
@浙大疏锦行聚类后的分析：推断簇的类型知识点回顾：推断簇含义的2个思路：先选特征和后选特征通过可视化图形借助ai定义簇的含义科研逻辑闭环:通过精度判断特征工程价值作业：参考示例代码对心脏病数据集采取类似操作，并且评估特征工程后模型效果有无提升。在聚类分析中，推断簇的类型是理解数据内在结构和业务意义的关键步骤。以下是系统化的推断方法及常见簇类型的总结：一、簇的基本类型明显分离的簇特征：不同簇中任意两
python 协程进阶 cliffordl async python python 开发语言
python协程实现python协程进阶python生成器的作用协程在多个模型流式输出中的使用实例文章目录1.协程基础1.1.协程名词解释1.2.基本工作流程1.3.async协程执行1.3.1.协程顺序执行（asyncio.run）1.3.2.协程顺序执行（await）1.3.3.协程同步执行（asyncio.create_task）2.可等待对象（Awaitables）2.1.Coroutin
python 基于 httpx 的流式请求
文章目录1.环境介绍2.同步客户端2.1.面向过程2.1.1.流式输出2.1.2.非流式输出2.2.面向对象3.异步客户端3.1.面向过程3.2.面向对象3.3.Attemptedtocallasynciteratoronanasyncstream.参考：https://www.jb51.net/article/262636.htm次要参考：https://blog.csdn.net/gitblo
Python实现动态加载模块的方法后端架构魔法构筑者 Python
在Python中，动态加载模块是一种常见的技术，它允许我们在运行时根据需要加载和使用模块，而不是在程序启动时就将所有模块都导入。这种方式可以提高程序的灵活性和性能。下面我将详细介绍几种实现动态加载模块的方法，并提供相应的源代码示例。使用importlib模块importlib是Python的一个内置模块，它提供了一些函数来实现动态加载模块。下面是一个简单的示例：importimportlibdef
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
Python打卡Day11 常见的调参方式
核心知识：1.模型=算法+实例化设置的外参（超参数）+训练得到的内参2.只要调参就需要考2次所以如果不做交叉验证，就需要划分验证集和测试集，但是很多调参方法中都默认有交叉验证，所以实际中可以省去划分验证集和测试集的步骤基线模型（基准模型）:首先运行一个使用默认参数的模型，记录其性能作为比较的基准。超参数调整数据1.网格搜索(GridSearchCV):-需要定义参数的网格（param_grid），
Python爬虫实战：深入无限滚动页面抓取原理与Playwright实现 Python爬虫项目 python 爬虫开发语言区块链 json
一、前言：无限滚动页面的挑战在现代Web开发中，「无限滚动（InfiniteScrolling）」早已取代了传统的分页模式。以微博热搜流、知乎首页、抖音推荐页为例，用户向下滚动时会自动加载更多内容，这种体验虽提升了交互性，却让传统爬虫面临巨大挑战：页面初始只加载一部分内容剩余内容由JavaScript在滚动事件中动态加载requests类爬虫无法感知页面行为为什么传统爬虫抓不到数据？因为页面数据不
autodl云计算平台使用ollama 部署lightrag 加入streamlit界面 42fourtytoo 云计算深度学习 pytorch 学习
1到autodl的算力市场里开一台机器镜像选择：PyTorch2.3.0、Python3.12(ubuntu22.04)、Cuda12.1我本来选择的Cuda12.4，但版本过高疑似会使ollama不使用GPU而只用CPU，后来换个镜像就好了2下载lightrag从lightrag的GitHub界面下载zip开机，上传zip，解压到autodl-tmp/lightrag下安装依赖，在文件夹下：pi
YOLO V8+Python训练手写数字识别 yuanpan YOLO python 开发语言
以下是针对Windows11+Python环境的详细步骤说明，从数据集整理到模型训练，全部适配YOLOv8流程。1.数据集整理（MNIST→YOLO格式）1.1下载MNIST数据集MNIST数据集可通过Python直接下载（无需手动下载）：python复制fromtorchvision.datasetsimportMNISTimportos#自动下载MNIST数据集（图片和标签）train_dat
python学智能算法（二十七）|SVM-拉格朗日函数求解上西猫雷婶机器学习人工智能 python学习笔记支持向量机 python 机器学习算法人工智能
【1】引言前序学习进程中，我们已经掌握了支持向量机算法中，为寻找最佳分割超平面，如何用向量表达超平面方程，如何为超平面方程建立拉格朗日函数。本篇文章的学习目标是：求解SVM拉格朗日函数。【2】求解方法【2.1】待求解函数支持量机算法的拉格朗日函数为：L(w,b,α)=12∥w∥2−∑i=1mαi[yi(w⋅xi+b−1)]L(w,b,\alpha)=\frac{1}{2}{\left\|w\rig
Python importlib 动态加载 cliffordl python python 数据库开发语言
文章目录1.importlib库概述2.导入模块（import_module()）2.1.导入已安装的模块2.2.导入子模块2.3通过字符串变量导入模块3.重新加载模块（reload()）4.检查模块是否存在（find_spec()）5.获取模块路径（find_spec().origin）6.加载.py文件为模块（spec_from_file_location()）7.读取模块资源（importl
Python爬虫实战：研究Korean库相关技术 ylfhpy 爬虫项目实战 python 爬虫 easyui korean
一、引言1.1研究背景与意义随着韩流文化在全球的传播，韩语网页内容急剧增加。韩国在科技、娱乐等领域的信息具有重要研究价值。然而，韩语独特的黏着语特性（如助词体系、词尾变化）给信息处理带来挑战。传统爬虫缺乏对韩语语言特点的针对性处理，本研究旨在开发一套完整的韩语网页内容分析系统，填补这一技术空白。1.2研究目标与方法研究目标：设计高效的韩语网页爬虫框架实现精准的韩语内容识别与处理构建多维度的韩语内容
Python爬虫实战：研究Genius库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 genius
1.引言在当今数字化时代，音乐数据的分析与挖掘成为了音乐学、计算机科学等领域的研究热点。歌词作为音乐的重要组成部分，蕴含着丰富的情感、文化和社会信息。通过对歌词数据的分析，可以揭示音乐风格的演变、流行趋势的变化以及社会情绪的波动等。Genius是一个专注于歌词解析与音乐知识分享的平台，拥有大量的歌词文本以及用户对歌词的注释和解读。Genius提供了API接口，允许开发者获取歌曲、艺术家和歌词等信息
【Python】通过注释插桩替换代码实现开源自动化 ChrisEighteen18 python python
需求提出在特定的标签注释后写上开源后的代码实现开源替换答疑解惑调用如下的代码即可实现defreplace_java_code_in_one_line_by_tag(patch_file_path,update_java_code_line_tag):"""本方法对包含update_java_code_line_tag的之前本行内所有内容进行删除操作;适用于对java文件的代码替换，即在包含upda
python量化实战_Python与量化投资从基础到实战.pdf weixin_39841709 python量化实战
作者：王小川出版发行:北京：电子工业出版社,2018.03ISBN号：978-7-121-33857-1页数：408原书定价:99.00开本:16开主题词:软件工具-程序设计-应用-投资中图法分类号:F830.59-39(经济->财政、金融->金融、银行->金融、银行理论)内容提要:本书主要讲解如何利用Python进行量化投资，包括对数据的获取、整理、分析挖掘、信号构建、策略构建、回测、策略分析等
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
Python量化实战：基于索提诺比率的价值投资策略回测量化价值投资入门到精通 python 网络开发语言 ai
Python量化实战：基于索提诺比率的价值投资策略回测关键词：Python量化分析、索提诺比率、价值投资策略、回测框架、风险调整收益、下行风险、量化实战摘要：本文深入探讨如何利用Python构建基于索提诺比率（SortinoRatio）的价值投资策略，并通过完整的回测框架验证策略有效性。首先解析索提诺比率的数学原理与核心优势，对比传统夏普比率的差异；其次详细演示价值投资策略的构建步骤，包括低估值因
Python+Allpairspy实战：高效正交法测试用例设计全攻略聪明的一休哥哥测试开发技术大全 python 测试用例自动化测试
引言：正交法的核心价值正交实验法是一种通过科学筛选参数组合来优化测试用例设计的技术。其核心思想是从所有可能的参数组合中，选择最具代表性的N个组合进行测试，既能显著减少用例数量（通常可减少30%-70%），又能保证覆盖关键场景。例如：传统全组合测试：3因素×3水平=27种组合正交法优化后：仅需4-9种组合即可覆盖核心场景1、Allpairspy库安装与基础使用1.1、安装命令pipinstallal
Python 应用无监督学习（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
Python包高级开发技术：性能优化与系统集成软考和人工智能学堂 Python开发经验深度学习强化学习 python 性能优化开发语言
引言掌握Python包的高级开发技术是构建工业级应用的关键。本文将深入探讨Python包的性能优化策略、C扩展开发、异步IO集成以及跨语言互操作等高级主题，帮助你将Python包提升到专业水平。1.性能优化技术1.1性能分析工具链#性能分析工具矩阵perf_tools={'cProfile':'标准库分析器，提供函数级耗时统计','line_profiler':'行级分析器，需要@profile装
2、Python 测试全攻略：自动化与驱动开发辣条鉴定师 Python测试自动化测试测试驱动开发
Python测试全攻略：自动化与驱动开发1.测试的乐趣与收益编程过程中，测试常被视为徒劳或浪费时间的事。但实际上，测试可以变得轻松有趣且富有成效。比如回忆一下曾遇到的恼人bug，可能是数据库模式不匹配、数据结构错误等。若有一小段代码能在恰当时间捕捉到该bug并告知你，而所有代码都配有这样易执行的测试代码，那bug存活时间会大大缩短。基本思路是用简单易写的代码片段告知计算机期望结果，让计算机在编码过
华为OD机考2025B卷 - 表达式括号匹配（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od java python javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述(1+(2+3)*(3+(8+0))+1-2)这是一个简单的数学表达式,今天不是计算它的值,而是比较它的括号匹配是否正确。前面这个式子可以简化为(()(()))这样的括号我们认为它是匹配正确的,而((())这样的我们就说他是错误的。注意括号里面的表达式可能是错
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
Python.03 唯怡委员 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程是Linux中资源分配的基本单位，代表程序在内存中的执行实例，拥有独立的地址空间和系统资源。通过ps、top命令查看，kill命令终止，或使用systemctl管理服务进程。线程是进程内的轻量级执行单元，共享进程资源（如内存），切换开销小。Linux通过POSIX线程（pthread）库实现，可用htop查
Python.01 唯怡委员 python
Python.011.技术面试题（1）TCP与UDP的区别是什么？（2）DHCP和DNS的作用是什么？（3）简述Linux文件系统的目录结构，其中/boot、/var、/usr目录的作用分别是什么？（4）Linux系统突然无法访问外网，但内网通信正常。请列出至少5个可能的故障点及排查步骤。2.HR面试题（1）假如你成功入职，却发现直属领导能力远不如你，你会如何与他共事？（2）你简历上的经历并不突出
【算法-贪心算法-python】柠檬水找零檀越@新空间 P1 算法与数据结构 s1 Python 算法贪心算法 python
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end