Simon Cao

垃圾公司对回报率计算的影响几何？

摘要及声明

1：本文基于Fama—French和Pastor Stambaugh模型讨论A股垃圾公司数据对回报率计算的影响；

2：本文主要为理念的讲解，模型也是笔者自建，文中假设与观点是基于笔者对模型及数据的一孔之见，若有不同见解欢迎随时留言交流；

3：笔者希望搭建出一套交易体系，原则是只做干货的分享。后续将更新更多内容，但工作学习之余的闲暇时间有限，更新速度慢还请谅解；

4：本文主要数据通过Tushare(ID：444829)金融大数据平台接口获取；

5：模型实现基于python3.8；

上期笔者介绍了两个计算回报率的多因子模型——Fama—French（下文简称“FFM”）和Pastor Stambaugh模型（下文简称“PSM”），在文章结尾笔者提到FFM三因子在中国市场的本土化(Liu et al., 2019a)观点，该观点认为认为中国市场的有效性低于美国等成熟市场，因此传统多因子模型很大程度上很容易失效，并在FFM基础上做了改动，例如在因子计算中舍弃后30%的垃圾公司。

那么在计算因子时消除壳资源污染对结果影响究竟如何？本期笔者将站在数据的角度对该观点进行验证，算是一期杂谈吧，主要内容如下：

1. 壳资源污染

2. 需不需要剔除垃圾公司

3. 数据处理

4. 实证分析

4.1 走势差异

4.2 中心趋势，离散程度分析

4.3 解释力度

5. 总结

1. 壳资源污染

与“壳资源”息息相关的一个词是“借壳上市”，在A股没有进行注册制改革之前是审批制，公司IPO过程不仅麻烦，时间周期也很长。于是有资金实力的企业老板便通过收购上市公司股份的方式，披上上市公司外壳摇身一变成为上市公司。既是上市，那借壳只是手段，大家自然想以最小的成本披上上市公司的马甲，于是那些垫底的公司便成为炙手可热的标的。

但不是人人都是傻子，便宜，规模小，管理层好说话，原始大股东即使着急跑路，业务还能和收购方还能有协同效应，这种公司不得买爆哇。被收购方不傻，反正占着上市的坑位就是金字招牌。市场也不傻，这种收购对于小股东们来说是天大的好事，原来垫底的战五渣马上要被实力雄厚的公司收购，市场对这家原本濒临破产的公司预期肯定是180度转变，三板成妖，七板翻倍的故事比比皆是。

这其实是市场受消息面刺激而引发的异常波动，在笔者上期分享的论文中，Liu et al.(2019b)将之归为市场异象，即壳资源板块公司属于垫底的低质量公司，却能跑出与上证50不一样的走势（感兴趣的可以看看壳资源板块，近年来确实不比上证50差）。反过来在有效市场理论看来，这样的公司连板一路上涨就属于连弱有效市场都达不到的水平。

近年来针对市场的注册制改革简化了IPO流程，完善了退市制度，让原来稀缺的壳资源价值大幅降低。想想之前那篇文章作者也挺不巧的，发文没几年就赶上制度改革。

不过改革还需要时间推进，壳资源及壳资源板块依旧还存在市场中。

2. 需不需要剔除垃圾公司

直接上结论：笔者认为不需要，主要有三点看法和依据：

1)：从收益与风险角度看

低质量公司收益率高是股东要求回报率高，因为承担的风险更大。

2)：从数理统计角度上看

壳资源公司包含市场中很多小市值公司，它们反映的是市场现状，不应被剔除。

3)：从模型结果上看

笔者实证检验发现即使剔除后30%公司，对模型提升效果也不明显。

实际上那篇论文对剔除尾部30%公司后的结果讨论得很少，后30%与后30%-51%（剔除后30%后的30%即是到51%了）的回报率差异究竟多大？笔者做了一些实证检验，下面笔者通过实际的数据分析论证该观点，不想看数据处理代码的读者可以直接跳到第四部分实证分析的内容。

3. 数据处理

首先使用tushare，本文主要行情数据通过Tushare金融大数据平台API获取（Tushare数据），花两分钟注册即可以使用自己的API请求很多经常使用的数据，非常方便。下面调用API，需要使用自己的密钥：

import tushare as ts
pro = ts.pro_api("token") # 输入自己的token

下面代码其实用的是上期的，只是这次跑十年数据。

import pandas as pd
import tushare as ts
import numpy as np
import datetime

pro = ts.pro_api("token")


class company:
    def __init__(self, date, code, mv, pb, turn_over, r):
        self.date = date
        self.code = code
        self.mv = mv
        self.pb = pb
        self.turn_over = turn_over
        self.r = r


def data_request(codes, companies_data):
    variables = "ts_code,trade_date,close,turnover_rate,volume_ratio,pb,circ_mv"
    times, fail = 0, 0
    try:
        for i in codes:
            #lock.acquire()
            df = pro.query('daily_basic', ts_code=i, fields=variables)
            if len(df) > 0:
                df = df[::-1]
                df.dropna(inplace=True)
                df.drop_duplicates(inplace=True)
                date = np.array(df["trade_date"].values[1:]) # 要算涨幅，最后一天舍弃
                code = np.array(df["ts_code"].values[1:]) # 公司代码
                mv = np.array(df["circ_mv"].values[1:]) # 流通市值
                pb = np.array(df["pb"].values[1:])
                turn_over = np.array(df["turnover_rate"].values[1:])
                close_start = np.array(df["close"][:len(df)-1])
                close_next = np.array(df["close"][1:])
                r = (close_next - close_start) / close_start # 涨幅
                companies_data.append(company(date, code, mv, pb, turn_over, r))
                print("成功请求：{}个, 失败{}个\r".format(len(companies_data), fail), end="")
            else:
                pass
        print("\n")
    except:
        fail+=1
        pass

start_time = datetime.datetime.now()
import threading
stock_list = []
for i in ["D", "L"]:
    data = pro.stock_basic(exchange='SSE', list_status=i, fields='ts_code')
    stock_list.extend(data["ts_code"].values)
quin = len(stock_list)//3
companies_data, threads_pool = [], []
start_time = datetime.datetime.now()
for i in range(0, 3):
    t1 = threading.Thread(target=data_request, args=(stock_list[quin*i:quin*(i+1)], companies_data),name="task{}".format(i))
    threads_pool.append(t1)
    t1.start()
for i in threads_pool:
    i.join()
end_time = datetime.datetime.now()
print("耗时：", end_time - start_time)

耗时： 0:14:46.182942

这里开了三个线程，耗时15分钟。

下面跑4个因子，需要加入后30%垃圾公司的判断条件：

trash_companies = np.percentile(mv_lst, 30)  
mv_lst, pb_lst, turnover_lst, trading_companies = [], [], [], []
for company in companies_data:
    if i in company.date:
        index = list(company.date).index(i)  # 定位到当天的索引
        if company.mv[index] >= trash_companies:  # 拉取当天所有符合条件的股票数据
            mv_lst.append(company.mv[index])
            pb_lst.append(company.pb[index])
            turnover_lst.append(company.turn_over[index])
            trading_companies.append(company)
        else:
            pass
    else:
        pass

和上期一样，只是要跑十年，然后还需要上面的把市值筛选加入：

index_trade_date = pro.index_daily(ts_code='000001.SH', start_date='20110101', end_date='20220923')["trade_date"].values

date_times = []
big_ret = []
small_ret = []
high_ret = []
low_ret = []
liq_ret = []
illiq_ret = []
n = 0
for i in index_trade_date:
    big, small, high, low, liq, illiq = [], [], [], [], [], []
    mv_lst = []
    for company in companies_data:
        if i in company.date:  # 拉取当天所有交易股票的市值
            index = list(company.date).index(i)
            mv_lst.append(company.mv[index])
        else:
            pass
        
    trash_companies = np.percentile(mv_lst, 30)  
    mv_lst, pb_lst, turnover_lst, trading_companies = [], [], [], []
    for company in companies_data:
        if i in company.date:
            index = list(company.date).index(i)  # 定位到当天的索引
            if company.mv[index] >= trash_companies:  # 拉取当天所有符合条件的股票数据
                mv_lst.append(company.mv[index])
                pb_lst.append(company.pb[index])
                turnover_lst.append(company.turn_over[index])
                trading_companies.append(company)
            else:
                pass
        else:
            pass  
        
    if len(mv_lst) > 0:
        date_times.append(i)  # 拿这个给最后生成的表格一个时间索引
        mv_big = np.percentile(mv_lst, 70)  # 超过80分位阈值则认为是大市值公司
        mv_small = np.percentile(mv_lst, 30)  # 低于20分位阈值则认为是小市值公司
        pb_high = np.percentile(pb_lst, 70)
        pb_low = np.percentile(pb_lst, 30)
        liq_good = np.percentile(turnover_lst, 70)
        liq_bad = np.percentile(turnover_lst, 30)

        # 得到当天的三因子阈值后判断每个公司是否符合阈值条件
        total_mv_big, total_mv_small = 0, 0  # 几个投资组合总市值
        total_mv_high, total_mv_low = 0, 0
        total_mv_ilq, total_mv_illiq = 0, 0
        for company in trading_companies:
            index = list(company.date).index(i)  # 定位当天索引
            if company.mv[index] >= mv_big:
                big.append(company.r[index] * company.mv[index])  # 乘市值方便后面进行市值加权
                total_mv_big += company.mv[index]
            else:
                if company.mv[index] <= mv_small:
                    small.append(company.r[index] * company.mv[index])
                    total_mv_small += company.mv[index]
                else:
                    pass

            if company.pb[index] >= pb_high:
                high.append(company.r[index] * company.mv[index])
                total_mv_high += company.mv[index]
            else:
                if company.pb[index] <= pb_low:
                    low.append(company.r[index] * company.mv[index])
                    total_mv_low += company.mv[index]
                else:
                    pass

            if company.turn_over[index] >= liq_good:
                liq.append(company.r[index] * company.mv[index])
                total_mv_ilq += company.mv[index]
            else:
                if company.turn_over[index] <= liq_bad:
                    illiq.append(company.r[index] * company.mv[index])
                    total_mv_illiq += company.mv[index]

        # 以市值加权求出每个因子当天的平均回报
        big_ret.append(np.sum(big) / total_mv_big)
        small_ret.append(np.sum(small) / total_mv_small)
        high_ret.append(np.sum(high) / total_mv_high)
        low_ret.append(np.sum(low) / total_mv_low)
        liq_ret.append(np.sum(liq) / total_mv_ilq)
        illiq_ret.append(np.sum(illiq) / total_mv_ilq)
    n+=1
    print("已完成{}天\r".format(n), end="")
# 导入字典存成表格吧
data_dic = {
    "date": date_times,
    "big_r": big_ret,
    "small_r": small_ret,
    "high_pb_r": high_ret,
    "low_pb_r": low_ret,
    "liq_r": liq_ret,
    "illiq_r": illiq_ret
}
data = pd.DataFrame(data_dic)

print(data)

2011年到现在2852条数据：

Unnamed: 	date	big_r	small_r	high_pb_r	low_pb_r	liq_r	illiq_r
0		20220923	-0.000656	-0.023047	-0.013846	0.004408	-0.018500	0.011424
1		20220922	0.000519	-0.003635	-0.001805	-0.000265	0.008266	-0.001592
2		20220921	-0.000091	0.000670	-0.015603	0.005975	0.001688	0.011276
3		20220920	-0.002351	0.015031	0.011471	-0.007000	0.018688	-0.039951
4		20220919	0.000411	-0.014183	-0.004511	0.000346	-0.003315	0.014400
...	...	...	...	...	...	...	...	...
2847	20110110	-0.013850	-0.024892	-0.018734	-0.011900	-0.009467	-0.161237
2848	20110107	0.011999	-0.005321	-0.009939	0.016697	0.024939	0.107513
2849	20110106	-0.008128	0.000482	-0.012038	-0.006184	-0.011796	-0.056085
2850	20110105	-0.010006	0.008371	-0.000762	-0.008518	0.012182	-0.140667
2851	20110104	0.014703	0.019876	0.027113	0.011566	0.043729	0.154416
2852 rows × 8 columns

把数据存到本地，不然跑一次要好长时间：

data.to_csv("risk_factor.csv")

如法炮制跑没有剔除30%的十年数据，也存好csv：

# 此处省略n行代码
data.to_csv("risk_factor1.csv")

4. 实证分析

数据都拿到了，接下来笔者简单分析一下：

4.1 走势差异

df = pd.read_csv("C:/Users/Administrator/Desktop/risk_factor.csv")[::-1] # 剔除30%
df_1 = pd.read_csv("C:/Users/Administrator/Desktop/risk_factor1.csv")[::-1] # 未被剔除

plt.figure(figsize=(10,4))
for i in range(1,28):
    plt.subplot(27,1,i)
    plt.plot(range(len(df["date"][(i-1)*100:i*100])), df["small_r"][(i-1)*100:i*100])
    plt.plot(range(len(df_1["date"][(i-1)*100:i*100])), df_1["small_r"][(i-1)*100:i*100])
plt.show()

笔者用子图展示，下面每个子图都包含100天的走势：

图二：剔除30%前后小市值公司走势

数据太多了，选择第一个子图展示吧：

图三：剔除30%前后小市值公司走势比较（数据集前100个交易日）

可以看到，剔除与不剔除投资组合的收益率在走势上其实差距很小。

我们不妨在看看同样不剔除的情况下大市值和小市值公司回报率差异有多大：

plt.plot(range(len(df_1["date"][(i-1)*100:i*100])), df_1["small_r"][(i-1)*100:i*100], color = "orange", label="small_r")
plt.plot(range(len(df_1["date"][(i-1)*100:i*100])), df_1["big_r"][(i-1)*100:i*100], label="big_r")

图四：小市值公司与大市值公司走势比较（数据集前100个交易日）

可以看到，大市值公司和小市值公司回报率差异是比较大的，并且大市值公司回报的波动率明显小于小市值公司。

大家可以验证其它时间段大小市值，剔除和不剔除垃圾公司的投资组合，结果其实都一样：后30%公司的回报率与30%-51%（剔除后30%后的30%）的公司回报率差异不大。换句话说，就算剔除了也没多大用。

4.2 中心趋势，离散程度分析

print("未被剔除30%，小市值公司回报率标准差", np.std(df_1["small_r"]))
print("剔除30%，小市值公司回报率标准差",np.std(df["small_r"]))

# 未被剔除30%，小市值公司回报率标准差 0.018201884783021587
# 剔除30%，小市值公司回报率标准差 0.018485703965005183

print("未被剔除30%，小市值公司回报率均值",np.mean(df_1["small_r"]))
print("剔除30%，小市值公司回报率均值",np.mean(df["small_r"]))

# 未被剔除30%，小市值公司回报率均值 0.0002571179133868966
# 剔除30%，小市值公司回报率均值 -0.00012664414485065036

可以看到，有一定差异，但非常小，基本只有2，3个基点。

不妨用大市值公司和小市值公司的离散度与均值比较一下：

print("大市值公司回报率标准差", np.std(df["big_r"]))
print("小市值公司回报率标准差",np.std(df["small_r"]))

# 大市值公司回报率标准差 0.013047366311401182
# 小市值公司回报率标准差 0.018485703965005183

print("大市值公司回报率均值",np.mean(df["big_r"]))
print("小市值公司回报率均值",np.mean(df["small_r"]))

# 未被剔除30%，小市值公司回报率均值 0.00048702596778191204
# 剔除30%，小市值公司回报率均值 -0.00012664414485065036

可以看到，标准差的差异显著提升，均值方面也产生了6个基点的差距。

在来看看时间序列上的分布情况，下面的代码将2011年以来的数据数据按100天为一个区间，求取100天中剔除和不剔除30%公司回报率均值的差异：

mean_lst = []
for i in range(29):
    mean_lst.append(np.mean(df_1["small_r"][i*100:(i+1)*100])-np.mean(df["small_r"][i*100:(i+1)*100]))

plt.plot(df["date"][::100], mean_lst[:len(std_lst)])
plt.show()

图五：剔除30%公司前后回报率差异的时间维度变化（2011-2022）

通过时间维度走势可以看到，后30%和30%-51%的公司回报率差异在时间分布上很难说有什么显著的趋势。

调取最近两年的日回报差异看看：

图六：剔除30%公司前后回报率差异的时间维度变化（2020-2022）

笔者还是很难看出什么明显的关联度或者趋势，如果硬要说趋势就是今年7月以来这两组公司回报率差异在不断收窄。但似乎也很难说明问题。

4.3 解释力度

感觉中心趋势很难看出端倪，尽管两组数据是有一定差异的，但很难说它能提高多少模型的解释力度，于是笔者还是是跑回归，每个公司都跑一次，然后把得到的R方存列表，最后看看剔除与不剔除30%公司有没有提高模型解释力度。代码就省略了，和上期一样的跑回归，结果如图所示：

图七：剔除30%公司前后的R方分布

从R方分布上看，剔除与不踢除30%公司所回归出来的模型解释力度其实差异并还是不大。

5. 总结

通过目前的数据分析，笔者认为是否剔除30%的尾部公司对使用相关多因子模型计算回报率影响不大。

【Python 中的几类运算符】
文章目录文章目录一、算术运算符二、比较运算符三、赋值运算符四、逻辑运算符附加知识：五、其他运算符1.位运算符2.成员运算符3.身份运算符总结一、算术运算符加法（+）：用于两个数值相加。例如，a=5，b=3，a+b的结果为8。也可以用于字符串拼接，如"Hello,"+"World"的结果为"Hello,World"。示例：a=5b=3result=a+bprint("求和",result)a="He
Windows PowerShell中无法将"python"项识别为cmdlet、函数、脚本文件或可运行程序的名称 xqhrs232 ROS系统/Python
原文地址::https://blog.csdn.net/Blateyang/article/details/86421594相关文章1、如何在Powershell中运行python程序?----https://cloud.tencent.com/developer/ask/1426072、Windows下如何方便的运行py脚本----https://blog.csdn.net/Naisu_kun/
Vscode中Python无法将pip/pytest”项识别为 cmdlet、函数、脚本文件或可运行程序的名称
在Python需要pip下载插件时报错，是因为没有把Python安装路径下的Scripts添加到系统的path路径中。如果到了对应路径没发现pip文件，查看是否有pip相关文件，一般会存在pip3命令行使用pip3install后会进行提示更新，按照提示进行更新即可bug2：通过piplist发现其实已经安装pytest但使用pytest--version提示相同错误可通过pipuninstall
Python中if name == ‘main‘的妙用 el psy congroo Python python
参考：Python中的ifname==‘main’是干嘛的？先运行下面代码：print(__name__)if__name__=="__main__":print(__name__)print("helloworld")print(__name__)当py文件作为主程序直接运行时，__name__无论在哪都是__main__那if__name__=="__main__"有什么用呢?一个py文件也是
Python爬取与可视化-豆瓣电影数据木子空间Pro 项目集锦 #课程设计 python 信息可视化开发语言
引言在数据科学的学习过程中，数据获取与数据可视化是两项重要的技能。本文将展示如何通过Python爬取豆瓣电影Top250的电影数据，并将这些数据存储到数据库中，随后进行数据分析和可视化展示。这个项目涵盖了从数据抓取、存储到数据可视化的整个过程，帮助大家理解数据科学项目的全流程。环境配置与准备工作在开始之前，我们需要确保安装了一些必要的库：urllib：用于发送HTTP请求和获取网页数据Beauti
突破反爬防线：Python3反爬虫原理与绕过策略深度解析程序员威哥爬虫网络 scrapy python 开发语言
在信息化时代，数据已成为互联网的重要资产。为了保护数据的安全和防止恶意抓取，越来越多的网站开始采用反爬虫技术。然而，随着反爬虫技术的不断演化，爬虫开发者面临的挑战也在日益增大。如何理解反爬虫原理并有效绕过这些防护措施，是每个爬虫开发者必须掌握的技能。本文将全面解析Python3在爬虫开发中的应用，深入探讨常见的反爬虫原理，并提供绕过反爬策略的实战经验。通过结合实际案例，帮助开发者掌握应对复杂反爬措
基于Python的携程景点评价爬虫与情感评分分析程序员威哥 python 爬虫开发语言
一、项目背景携程（Ctrip）是中国最流行的旅游预订平台之一，其景点用户评论包含了大量真实的游客反馈。通过分析评论的情感倾向，可以：为用户提供更可靠的景点推荐辅助景区运营方了解用户口碑构建情感评分系统，为评分失衡提供补充二、项目目标自动化抓取携程指定景点的用户评论清洗与分词评论文本对评论进行情感分析打分分析整体情绪趋势并可视化结果三、技术栈与工具模块工具/库数据爬取requests,re,json
从0到1构建智能招聘数据引擎：基于 Python 的 BOSS直聘信息采集实战与反爬破解指南程序员威哥 python 开发语言
前言在大数据浪潮席卷的时代，招聘平台蕴藏着海量的岗位信息，揭示着行业走向、人才趋势、薪资结构等核心价值。BOSS直聘作为国内极具代表性的直招平台，其数据对职业分析、市场监测甚至智能推荐系统的构建都有着重要意义。本文将手把手带你打造一个高质量、抗封锁的Python爬虫系统，精准采集BOSS直聘网的岗位数据，并全面解析其中涉及的反爬机制识别、加密参数处理、数据提取与存储等高级技巧，助你在Web数据采集
揭秘影评数据的金矿：基于 Python 的豆瓣电影排行榜热度挖掘与数据智能分析实战程序员威哥 python 开发语言
前言：从数据出发，看见银幕之外的流行密码在内容为王的时代，影视作品既是大众娱乐的主阵地，也是数据分析的重要入口。豆瓣作为中国最具影响力的影视评分平台之一，凝聚了数千万用户对电影、剧集的真实反馈。本文将带你一步步深入，从爬取豆瓣电影排行榜数据出发，结合Python技术栈，构建一个完整的热门电影数据采集+分析+可视化系统。我们不仅要采数据，更要从中挖掘背后的价值：哪些类型影片最受欢迎？评分是否与评论数
微博热搜数据采集全攻略：利用 Python 爬虫实时捕捉社会热点与舆情风向程序员威哥 python 爬虫开发语言
微博作为国内最具影响力的社交媒体平台，其热搜榜单被广泛认为是社会热点的风向标。无论是娱乐八卦、社会事件，还是突发新闻，微博热搜往往能够迅速反映出公众关注的焦点。对于数据分析师、舆情监测专家、或者企业品牌分析师来说，如何抓取并分析这些实时热搜数据，已成为一种核心竞争力。在这篇文章中，我们将结合Python爬虫技术，深入探讨如何高效抓取微博热搜数据，如何规避反爬虫机制，如何处理与存储数据，并展示如何利
【Java实战】高并发场景下账户金额操作的解决方案 .猫的树【Java实战】系列 Java并发编程分布式锁高并发解决方案原子操作数据库事务
文章目录前言：金融系统中的并发危机一、并发问题现场还原1.1问题代码示例1.2并发测试暴露问题1.3问题根源分析二、五大解决方案深度剖析2.1synchronized同步锁2.2ReentrantLock显式锁2.3CAS无锁编程（Atomic原子类）2.4数据库乐观锁2.5分布式锁（Redis实现）三、方案选型指南四、防踩坑指南总结前言：金融系统中的并发危机在支付系统、电商平台等金融场景中，账户
Python知识点：如何使用Nvidia Jetson与Python进行边缘计算杰哥在此 Python系列 python 边缘计算开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用NvidiaJetson与Python进行边缘计算NvidiaJetson平台是专为边缘计算设计的一系列AI计算机，它们能够处理和分析来自物联网(IoT)设备和边缘节点的数据。这些设备小巧、节能且功能强大，非常适合用于执行机器学习、计算机视觉和自然语言处理等任务。Python
AI工作流平台对比分析 come11234 Ai 人工智能
以下是和「扣子工作流」（KoFlow）类似的AI工作流平台对比分析，涵盖主流工具的核心特点、使用方式、优缺点及区别：一、主流工作流平台分类平台类型核心定位代表用户扣子(KoFlow)低代码AI流程中文场景优化，深度集成大模型中文开发者/企业LangChain代码框架开发者灵活构建AI链Python开发者/AI工程师LlamaIndex数据增强框架企业级RAG（检索增强生成）数据工程师/知识库应用M
Python爬虫（57）Python数据可视化全攻略：Matplotlib从入门到三维动态图表（8000字实战教程）一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 爬虫信息可视化
目录背景与需求分析第一章：Matplotlib基础与核心工作流1.1环境配置与基础架构1.2基础图表类型实战1.2.1折线图进阶1.2.2分组柱状图第二章：高阶可视化技术2.1子图矩阵与多面板布局2.2动态可视化与动画第三章：行业案例实战案例1：电商用户行为分析案例2：医疗影像数据可视化第四章：可视化美学与工程优化4.1配色方案实战4.2百万级数据渲染优化第五章：交互式扩展方案5.1Matplot
Python多进程编程
Python多任务提升程序性能之一---------多进程#Python的多进程编程的方法是multiprocessing，他是可以在当前的主进程下面去创建n个子进程所以所以他，执行相当于n+1个进程#首先导入multimprocessing包importmultiprocessing#防止执行熟读太快看出出多进程的区别importtime#编写尊卑使用多进程的方法deftest01():fori
python三角网格代码_Python 实现 Delaunay Triangulation weixin_39828457 python三角网格代码
DelaunayTriangulation是一种空间划分的方法，它能使得分割形成的三角形最小的角尽可能的大，关于DelaunayTriangulation的详细介绍，请参考这里，DelaunayTriangulation在很多领域都有应用，科学计算领域它是有限元和有限体积法划分网格的重要方法，除此之外在图像识别、视觉艺术等领域也有它的身影。贴一段有趣的油管视频，用DelaunayTriangula
博睿数据出席GOPS全球运维大会，深度解析如何让大模型真正“懂”运维！运维
2025年6月27日-28日，第二十六届GOPS全球运维大会暨研运数智化技术峰会在北京盛大启幕。全球近千位行业专家齐聚一堂，围绕大模型、DevOps、SRE、可观测性等核心议题展开深度探讨。本届峰会专设可观测性、金融行业、SRE稳定性等特色专场，聚焦IT技术领域的最新发展，共探企业级最佳实践。作为国内应用性能管理及可观测性领域的领导者，博睿数据受邀出席本次大会。产品总监贺安辉亮相“可观测性专场”，
python-多线程编程 Protein Designer 蛋白质结构 python
文章目录1.多任务介绍2.进程介绍3.使用多进程来完成多任务3.1进程的创建步骤3.2进程执行带有参数的任务3.3获取进程编号3.4多进程编程的注意点主进程会等待所有的子进程执行结束在结束设置守护主进程：**主进程结束后不会再继续执行子进程中剩余的工作**3.5进程池与进程锁3.6进程的通信3.7线程3.8GIL全局锁3.9异步1.多任务介绍多任务是指在同一时间内执行多个任务。定义举例并发在一段时
python之多进程(multiprocessing)
multiprocessing模块提供了一个Process类来代表一个进程对象，multiprocessing模块像线程一样管理进程，这个是multiprocessing的核心，它与threading很相似，对多核CPU的利用率会比threading好的多前言Multiprocessing.Pool可以提供指定数量的进程供用户调用，当有新的请求提交到pool中时，如果池还没有满，那么就会创建一个新
AI人工智能领域深度学习的跨模态检索技术 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能深度学习 ai
AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。我们将从基础概念出发，详细分析跨模态检索的核心算法原理、数学模型和实际应用。文章包含完整的Python实现示例，展示如何构建一个跨模态检索系统，并讨论当前的技术挑战和未来发展方向。通过本文，读者将全面理
Python-多进程编程 (multiprocessing 模块) Kusunoki_D Python 操作系统 python 进程
目录一、创建进程1.Process的语法结构2.进程不共享全局变量二、进程间通信1.队列通信2.管道通信三、进程池1.常用函数2.进程池中的Queue四、应用：复制文件夹（多进程版）五、守护进程和进程同步六、注意事项通过使用multiprocessing模块，Python程序可以在多核处理器上实现并行处理，提高程序的执行效率和响应速度。一、创建进程要创建一个新的进程，需要实例化multiproce
使用 Python 调用 Instagram API 爬取 Instagram 图片（完整指南） Python爬虫项目 python 开发语言爬虫 selenium beautifulsoup
一、引言在社交媒体平台中，Instagram以其图片和视频为主的独特风格，吸引了全球数十亿用户。无论是旅行博主、美食摄影师，还是品牌推广，Instagram上的数据具有极高的商业和研究价值。为了获取Instagram的公开数据，我们需要使用官方提供的InstagramGraphAPI。通过这个API，我们可以获取以下信息：✅账户基本信息（用户ID、用户名、头像等）✅用户的图片和视频✅用户的评论、点
轻松开发AI应用：Dify、Langchain与Coza全方位对比分析 AI Agent首席体验官人工智能 langchain
1.Dify与Langchain区别Dify和Langchain都是用于开发AI应用的平台，但在设计理念、功能特点及适用场景等方面存在明显差异。以下是两者的详细对比：总体概述Dify：一个开源低代码平台，旨在简化AI应用的开发，提供完整的UI解决方案和无缝的集成能力，适合技术背景不强的用户，帮助他们快速开发和部署AI应用。Langchain：一个灵活的Python开发库，为开发者提供精细控制，适合
python 函数的定义 SFH-松风寒 python 开发语言后端
#函数的定义#定义一个函数#def表示定义函数的关键字#msg表示函数的名称#()里面放置参数可以为空#：函数的固定格式defmsg():#函数体函数里面的代码用于实现函数的特定功能print('Helloworld')#msg（）函数的调用调用函数之后函数中的代码就会被执行#msg是函数本身msg()#函数的简单用法#打印ATM机的提示defselect_func():print('-----请
python——异常程丞Q香 python python 开发语言 pycharm 异常 raise try except
1、定义异常是在代码执行过程中发生的，它会影响到程序的正常运行。python程序不会自动来进行异常处理。python中常见异常父类：Exception。2、常见异常TypeError：类型错误异常。ValueError：值的异常。KeyError：键的异常。IndexError：索引异常。SyntaxError：语法异常。FileNotFoundError：读取文件内容，如果这个文件不存在，就会报
Python爬虫代理IP 巴里巴气 Python爬虫知识记录 python 爬虫 tcp/ip
前言在Python爬虫中,代理IP基本是必备的,因为基本上网站都会有反爬措施,对请求频繁和异常的IP进行自动封锁,拉入黑名单,所以我们需要有代理IP来实现动态IP的效果,保证请求的IP会变化,是动态的,这样网站就不会把我们的IP当作爬虫IP了目录国内代理IP和海外代理IP的现状代理IP最常用最实用的作用使用方法国内代理IP和海外代理IP的现状市面上的代理IP分为国内代理IP和海外代理IP国内代理I
脑机新手指南（十七）EEG-ExPy 新手入门教程（上篇）：基础概念与环境搭建 Brduino脑机接口技术答疑脑机新手指南新手入门算法脑机接口
一、EEG-ExPy是什么？EEG-ExPy是一个基于Python的开源工具包，专为脑电（EEG）实验设计、数据采集和实时分析而开发。它的核心优势在于低门槛易用性和模块化设计，即使是没有编程基础的新手，也能通过简单的代码或图形界面快速搭建EEG实验流程。其功能覆盖：1.自定义实验范式设计（如视觉刺激、运动想象任务）2.实时EEG信号采集与预处理3.简单的脑机接口（BCI）应用开发4.实验数据的存储
RabbitMQ消息发送与接收 VksgShapes rabbitmq ruby 分布式
RabbitMQ是一个功能强大的开源消息代理，用于在应用程序之间传递消息。它实现了AMQP（高级消息队列协议），提供了可靠的消息传递机制，支持多种消息模式和灵活的消息路由。在本篇文章中，我们将详细介绍如何在应用程序中使用RabbitMQ进行消息的发送和接收。我们将使用Python作为示例编程语言，并使用Pika作为RabbitMQ的Python客户端。安装依赖库首先，我们需要安装Pika库。可以使
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
【Python】函数 Guiat Python python
个人主页：Guiat归属专栏：Python文章目录1.函数的定义1.1基本定义方式1.2函数名和参数2.函数的调用2.1基本调用方式2.2参数传递3.函数的返回值3.1`return`语句3.2返回多个值4.函数的作用域4.1局部变量4.2全局变量5.匿名函数（Lambda函数）5.1定义和使用5.2应用场景6.递归函数6.1定义和原理6.2优缺点正文1.函数的定义1.1基本定义方式在Python
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

垃圾公司对回报率计算的影响几何？

1. 壳资源污染

2. 需不需要剔除垃圾公司

3. 数据处理

4. 实证分析

4.1 走势差异

4.2 中心趋势，离散程度分析

4.3 解释力度

5. 总结

你可能感兴趣的:(python,金融)