Simon Cao

浅谈估值模型 (三): 回报率r的进阶玩法——Fama-French及PSM(Pastor Stambaugh Model)

摘要及声明

1：本文主要介绍回报率的计算方法，详细解释Fama-French模型及PSM(Pastor Stambaugh Model)，并以A股某上市公司为例简单实现一个PSM，最后笔者对多因子存在的问题及壳资源污染进行讨论；

2：本文主要为理念的讲解，模型也是笔者自建，文中假设与观点是基于笔者对模型及数据的一孔之见，若有不同见解欢迎随时留言交流；

3：笔者希望搭建出一套交易体系，原则是只做干货的分享。后续将更新更多内容，但工作学习之余的闲暇时间有限，更新速度慢还请谅解；

4：本文主要数据通过Tushare(ID：444829)金融大数据平台接口获取，部分数据通过爬虫获取；

5：本文模型采用了多线程技术辅助加速；

6：模型实现基于python3.8；

前段时间有读者私信笔者的发文的顺序有些混乱，先解释一下。笔者写文章更多是分享笔者自己所学所闻的感悟与心得体会，一则帮助自己整理逻辑；二则也是个与同行们交流的窗口；三则希望文章可以帮助在学习中遇到困惑的朋友。既然是感悟与心得体会嘛，自然是比较随性。有时候突然有了什么灵感，临时起意发一篇，因此发文顺序有些混乱。不过形散意不散，笔者发文的框架依旧是基于体系的搭建，原则依旧是基于干货的分享。特将之前的主要文章总结如下，笔者认为框架感还是很强的：

往期速览
系列	子类别	文章传送门	实现方式
基本面分析	绝对估值	实现GGM的理想国	Python
	绝对估值	折现率——PSM模型(本文)	Python
	相对估值	PE指标平滑	Python
	相对估值	PE Band	Python
技术分析	/	蒙特卡洛模拟	Python
技术分析	/	全连接神经网络模型	Python
财务分析	财务建模	利润表	R
金融数据获取	/	多线程爬取	Python
	/	多进程爬取	Python
	/	selenium模拟网页爬虫	Python

本期主要针对现金流折现计算中最重要的回报率进行讨论，主要内容如下，前面老样子还是理念的讲解，不想看的读者可以跳过直接进第六部分代码实现：

1. 折现的重要性

2. 折现率VS回报率

3. CAPM的陷阱

3.1 理想的假设

3.2. 理想的回报

4. 为什么要自建折现率模型

5. 折现率有多少进阶玩法

5.1 Fama-French三因子

5.2 PSM

6.代码实现

6.1 思路

6.2 数据准备

6.3 RMRF因子

6.4 SMB因子, HML因子及LIQ因子

6.5 敏感系数

6.6 回归分析

7. 因子有效性讨论

8. 笔者的话

1. 折现的重要性

折现率，又写做r，复利的威力笔者就不说了，很多人认为是世界第八大奇迹。对于金融市场而言，如果公司是船，市场是海，水涨则船高，那么这个r就好比是波塞冬的三叉戟，操控着整个海洋的水位。网上关于r的文章一大堆，但万变不离其宗，无非是资产的回报，货币时间价值，但有很多投资者不重视这个r，转而关注景气度，更有甚者一些投顾还把高景气度看做是安全垫。

在笔者看来r是比增速更重要的存在，因为r是基础，是大环境。大环境不好往往先死掉的就是高景气方向，因为高景气度增速高，产生的现金流也在未来的远期，这些远端现金流被r折现个N期后就不剩多少了。反而是那些近端现金流稳定，增速不是很高的价值类公司容易在大环境狂风暴雨时走出来。

2. 折现率VS回报率

本期文章名字本来是"折现率r"，笔者在斟酌了一下还是改成了回报率。笔者在这里解释一下它们之间的区别，免得一下用折现率一下又说成回报率误人子弟，因为这两个概念大多数情况下虽然可以划等号，但却是有不同金融意义的，因为本文所讨论的更多是计算回报率，而不是折现率。

笔者提一个最重要的区别：折现率是成本概念，回报率是收益概念。这不需要太多解释吧，字面意思就能感觉出来。既然一个是成本，一个是收益，站在投资者角度上看自然是希望折现率<收益率；站在企业角度上看则希望折现率>收益率；在公式中两种叫法都可以的原因是我们计算的是内在价值，即市场公允定价状态下不亏也不赚的状态，那折现率与回报率就相等了。

笔者还要再谈一个点，很多文章基本不区分折现率和回报率两个概念，例如DFCF折现(公式一)：

$Intrinic value=\sum \frac{CF_{i}}{(1+r_{i})^{n}}\, \, \, \, \,[1]$

在这个公式里r即是折现率，可以看作是利率，又可以看做是回报率，还可以看作是投资的机会成本，甚至把它当作IRR内含回报率（前提是当前价格与内在价值相等）。笔者看来”r“还是那个”r“，数字还是那个数字，但所衍生出来的这些概念在不同的资产上所蕴含的金融意义却是不同的，在表述的过程中需要注意体现专业性。

3. CAPM的陷阱

计算预期回报率的方式有非常多，大名鼎鼎的CAPM（资本资产定价模型）笔者就不用过多介绍了吧，在最早一期的GGM模型（浅谈估值模型（一）实现GGM的理想国）中笔者就用了这个模型计算预期回报率。那篇文章主要是讨论GGM，更重要的是如何让GGM更有效的理念讲解，如果把折现率的东西插进去文章就太长了，因此简单使用了CAPM计算。网上有一大堆模型和文章用的都是CAPM，但笔者在实务中从来不用CAPM计算预期回报率，原因很简单，CAPM太过理想化。

3.1 理想的假设

CAPM模型有几个重要的假设：1）资产无限可分；2）无风险利率借贷； 3）没有税收和交易费用；4）市场信息信息对称；5）投资者风险厌恶，效用最大化；6）所有投资者对资产有相同预期

除了这些假设，不知道有多少人注意到CAPM模型里的市场回报率，往往我们使用大盘指数计算市场回报，实际上这也有问题。CAPM市场回报指的是全球资产回报，也就是说理论上要计算市场回报应该把全世界所有国家可投资的所有资产放到一个投资组合里，这个投资组合的回报才算是市场回报。但这样做代价太大了，于是某个大盘指数就被当作备胎放了进去。

假设是模型使用的前提条件，脱离了假设模型很大程度上将会失效，正因为如此强大的假设条件，CAPM更多是在理论研究方面发光发热。对实务而言，试问面对如此苛刻的几条假设和条件你还敢用CAPM吗？

3.2. 理想的回报

第二个陷阱在于回报率r，在CAPM假设条件加持下，这个r除了是预期的r，还是排除了非系统性风险后的预期r。首先，CAPM所指的r是预期回报率E(r)，而非真实回报率r。可别小看这两字只差，预期不代表真实，预期可能在天上，真实可能在地上。其次是只反映系统性风险，其原因是金融学认为承担非系统性风险是不给回报补偿的（Markowitz有效前沿理论，但这是另一个故事了，以后写到组合管理在说这个，简单来讲就是在有效市场下，所有的投资者都可以通过投资组合分散非系统性风险，既然大家都可以消除非系统性风险，因此承担非系统性风险就没有回报了）。但笔者认为看个股很多时候还是需要考虑非系统性风险的，如果不考虑非系统性风险，那分析商业模式，分析财务报表，分析股权结构，分析管理层岂不都是分析个寂寞？

总而言之CAPM是象牙塔下的理想模型，对实务帮助非常有限。

4. 为什么要自建折现率模型

事实上有很多途径可以直接或间接获取证券的回报率，网上有很多别人已经算好的结果。像Choice，Wind这些金融终端连r都不用算，输参数进去直接把DDM折现的结果算出来了。

图一：Choice金融终端DDM计算工具

这些计算器功能还是很全的，还支持多阶段折现，不同情景下的敏感性分析。但从输入的参数中不难看出所都是用的CAPM模型。事实上所有市面上能公开看到的预期收益率计算统统用的是CAPM，尽管CAPM有如此强的假设条件，大家还是硬着头皮上。原因很简单，CAPM广受认可，使用门槛低，参数设置也不是那么主观。反观其它模型，不仅复杂，而且其中变量和参数设置如果不正确，模型很容易会面临失效，而这些参数的选择和调整都是需要一定专业判断的技术活。如果哪天你开发了个厉害的模型，但是却要设置很多超参数，那么这个模型注定有很高的门槛并很难被大(散)众(户)广泛使用。

不过还是回到上一节提到CAPM模型存在的问题，相信正在读笔者文章的您不是一般的散户，我们自然不愿满足于CAPM的完美世界，因此笔者接下来讨论一些进阶玩法。

5. 折现率有多少进阶玩法

事实上前人已经做了大量研究讨论如何消除假设条件并提高CAPM模型的有效性，其原理是在CAPM变量的基础上加入更多的变量及使用不同估计方式用来解释预期或真实回报率。

笔者想到比较进阶的玩法有以下这些：

模型	门槛
CAPM	低阶
隐含回报率法
风险溢价叠加法
Fama-French三因子	进阶
Pastor Stambaugh Model
Carhart四因子
Fama-French五因子
BIRR宏观五因子
套利定价模型	中级
宏观因子模型
基本面因子模型
统计因子模型
混合因子模型
神经网络模型	高级

表一：折现率估计方式一览（仅针对上市企业权益估值）

一般来说学到进阶模型的前3个就够用了，因为前人已经做了大量实证检验研究有效性。而后面中高级这些模型只是个框架或者说方法论，不仅有一定专业性门槛，还需要很多专业判断和大量的实证检验。

这些模型中最有名，贡献也最大的是Fama老爷爷的三因子模型。除了此之外的模型有的是计算预期回报率，有的是计算真实回报率；有的只考虑基本面因素，有的考虑宏观经济变量；有的考虑行为金融学因子，有的只考虑统计意义；还有的只是个理念框架，需要配合分析师的职业判断加入因子。最后的神经网络属于较新的方向，由于人工智能在金融领域兴起时间还不长，尚缺乏大量的实证检验，其认可度于接受度还很低，但门槛却是所有模型中最高的，笔者看过一些相关文献，总感觉都差点意思。因为动用复杂模型会出现一系列问题，很多时候不是模型越复杂越好，简单模型反而可以屏蔽很多噪音。总之现在嘛看菜吃饭，既然已经有经过实证检验的有效模型，我们就先讨论比较低阶点的FFM和PSM。

5.1 Fama-French三因子

别看笔者只把FFM归类到进阶玩法，Fama老爷爷在资产定价这块作出了巨大贡献，1到100，如果说CAPM模型的诞生是0到1的突破，那么笔者认为Fama的三因子模型可称得上是1到80的进步（从贡献的意义上讲，不是统计意义）。到目前为止的后来者无论怎么提升，也只有剩下20分的空间了。其最主要的原因在于Fama做了大量的实证检验研究，他所筛选出的因子解释力度较强，以至于后来者无论怎么往上加因子也只能使得模型解释力度小幅提升而已，这一点在笔者后文模型中可以很明显看见。

网上已经有很多文章解释三因子模型，其实PSM是在三因子模型基础上拓展得到的，实现一个PSM相当于还附带实现了一个CAPM+FFM，买一送二。笔者本来也不打算写FFM做无用功了，不过还是鉴于PSM是在三因子模型基础上拓展得到的，这里还是要简单介绍一下三因子模型，一步一步来。

由于实证检验认为长期来看，小盘股回报优于大盘股，价值股优于成长股，FFM在CAPM的市场风险的基础上加入市值因子与价值因子：

1）市场风险因子（写做RMRF，Market return minus Risk free rate）：与CAPM一样，市场收益率减去无风险利率，一般来说以新发行的国债收益率作为无风险利率并进行期限匹配。但是各个地方的习惯都不尽相同，例如美国分析师喜欢用10年期的国债收益率，因为把股票看做长期投资，考虑期限匹配原则；我们国家还有澳大利亚经常用1年的；学术界还有以三个月的短期的作为无风险利率，因为把时间拉长了终归还是有一定不确定性。总之各个地方都不太一样，笔者用之前主要考虑国债收益率波动情况，还需要预判下未来经济状态，综合考虑，不过文章里举例嘛毕竟随意，具体需要读者自行判断；

2）市值因子（写做SMB, Small minus Big）：小盘股平均回报减大盘股平均回报，也可以采用做空大盘股，做多小盘股的投资组合回报率来衡量该因子；

3）价值因子（写做HML, High minus Low）：价值股平均回报减成长股平均回报，也可以同上采用一多空策略的投资组合收益率衡量。判断价值股成长股的主要方式是看Book value/Price指标（PB指标的倒数），低PB（高BP）代表价值股，高PB（低BP）代表成长股；

FFM之所以是High-Low是因为用的是PB指标的倒数，PB指标使用倒数有很多优点，关于这个原因这里就不展开了，后面如果出PB指标的内容在详细介绍。

综上，FFM可用公式二表示：

$E(r_{i})=R_{f}+\beta _{i}^{market}RMRF+\beta _{i}^{size}SMB+\beta _{i}^{value}HML\, \, \, \, [2]$

其中：

$\beta^{market}$ 是市场因子的敏感度，与CAPM一样，基准值为1，大于1表示对市场变化敏感，小于1则不敏感；

$\beta^{size}$ 是市值因子敏感度，基准值0，大于0偏向小盘股，小于0偏向大盘股

$\beta^{value}$ 是价值因子敏感度，基准值0，大于0偏向价值股，小于0偏向成长股

网上还有很多文章写FFM的，笔者就不往下继续写了，还有问题的可以自行搜索或私信笔者。下面介绍笔者认为更有效一些的Pastor Stambaugh Model。

5.2 PSM

PSM可以看做是Fama模型的拓展，进一步加入流动性因素。”流动性可以理解为不同类型的资产可以转换为现金的难易程度。在相当长的一段时间里，这一范畴在现代金融理论的框架内没有得到适当的考虑。因此，PSM理论框架补足了许多基本模型不考虑流动性问题”(Agata，2017)。

PSM其实就是在FFM三因子基础上拓展了一项流动性，公式写做：

$E(r_{i})=R_{f}+\beta _{i}^{market}RMRF+\beta _{i}^{size}SMB+\beta _{i}^{value}HML+\beta _{i}^{liq}LIQ\, \, \, \, [3]$

其中，Liq指的是流动性(liquidity)，低流动性的公司要求更多流动性风险补偿，因此低流动性公司回报率>高流动性公司，一样也可以使用多空投资组合收益率衡量。基准值为0，大于0偏向低流动性，小于0偏向高流动性。

鉴于别人都实证检验过了，笔者这里就不一个一个因子去讨论有效性了。这里顺带提一个Carhart四因子。其实和PSM一样，Carhart也是在FFM三因子基础上加入新的变量解释r，但Carhart最后一个因子融入了行为金融学的动量效应概念，笔者以前曾经做过一点研究，难点在于动量效应很难去用一个统一的标准计量，放在A股市场上依旧要做大量的参数分析，一些研究使用的参数和估计方式虽然证明有效，但放在不同的时期结果有点不稳定，笔者认为问题还是对与动量效应的衡量上，如果您是研究Carhart的高手，欢迎交流。

笔者目前认为，相比于行为金融学有点琢磨不定的动量效应，PSM的流动性其实更容易把握一些，既然脚下的路前人都为我们铺好了，直接大步向前走！

6.代码实现

理论方面没问题，接下来就是数据和技术问题了。本文主要行情数据通过Tushare金融大数据平台API获取（Tushare数据），花两分钟注册即可以使用自己的API请求很多经常使用的行情数据，拯救笔者于写大量爬虫的水火之地。如果需要一些高频和特色数据则需要充一两百块达到一定的积分门槛，但是比起Wind, Choice动辄几千上万的接口费用，Tushare非常亲民了。不算是打广告，笔者推荐。

先导入需要模块

import pandas as pd
import tushare as ts
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
import seaborn as sns

数据接口用法为：

pro = ts.pro_api(token) # 自己的密钥
cp = pro.daily(ts_code=cp, start_date=start, end_date=end) # 根据API技术文档输入请求参数

6.1 思路

从多因子模型的公式不难看出还是和CAPM一样的回归分析，但难点在于市场数据每天都在变，不仅是时间序列数据，而且还有横截面数据。因此，对市场每一天的数据都要在全指数几千家公司数据中筛选一次哪些是大盘股，哪些是成长股，哪些流动性比较好，然后把它们筛选出来以市值加权求出当天的投资组合回报率。

刨去CAPM的因子，剩下三个因子每个都会形成两个投资组合，要处理六个投资组合五到十年的数据，最后和目标公司数据进行回归。如果还是在没有本地数据库的基础上请求API，这工作量和时间要求其实还是挺大的。几千家公司这么多年的数据用Excel去筛选计算那怕是要直接去世，更不要说后面那几个难度更大的模型。因此笔者说后面这些模型都有较高的门槛，光这么多数据，没有API或者数据库支持就得刷掉一堆人，深入理解背后的专业原理再刷掉一堆人，敲代码实现又刷掉一堆人。

不过嘛，它其实说难也不难，筛选，然后处理数据罢了。并且好消息是只要模型跑了一遍拿到风险溢价数据，后面其实就不用再跑了，因为对于同一个市场，风险因子的溢价是一样的，不同的只是需要回归的风险敏感系数。

6.2 数据准备

通过上面的分析，首先要获取上证指数5年的全景数据，看网上有写矩阵运算的大佬，笔者试了一下，发现由于上市时间，退市时间，停牌时间都不一样，数据参差不齐，如果用矩阵运算很容易对不上出错，笔者这里采用给每个公司创一个对象的方法，后面直接调用属性去一个个判断，坏处在于肯定会比矩阵运算慢，但是谁让python面向对象呢，既然是优势就要发扬光大，一时对象一时爽，一直对象一直爽，谁用谁知道。

先获取上交所所有上市，退市和停牌的股票列表：

data = pro.stock_basic(exchange='SSE', list_status='L', fields='ts_code')

stock_list = []
for i in ["D","P","L"]:
    data = pro.stock_basic(exchange='SSE', list_status=i, fields='ts_code')
    stock_list.extend(data["ts_code"].values)
print(stock_list, len(stock_list))

截至笔者发文，共2220家公司在上交所上市。

接下来用这个接口（需要两千积分）遍历所有公司2017年1月到今年9月的数据，共五年多一点点，虽然这个接口在技术文档里没有这个单个公司时间序列数据请求的方法，但笔者试了一下还是可以的：

companies_list = []
variables = "ts_code,trade_date,close,turnover_rate,volume_ratio,pb,circ_mv"
for i in stock_list:
    df = pro.query('daily_basic', ts_code=i, start_date='20170101', end_date="20220924", fields=variables)[::-1]

下面加入类对象，表格数据清理，最后整合一下上面的代码：

class company:
    def __init__(self, date, code, mv, pb, turn_over, r):
        self.date = date
        self.code = code
        self.mv = mv
        self.pb = pb
        self.turn_over = turn_over
        self.r = r


stock_list = []
for i in ["D","P","L"]:
    data = pro.stock_basic(exchange='SSE', list_status=i, fields='ts_code')
    stock_list.extend(data["ts_code"].values)

variables = "ts_code,trade_date,close,turnover_rate,volume_ratio,pb,circ_mv"
companies_data = []
for i in stock_list:
    df = pro.query('daily_basic', ts_code=i, start_date='20170101', end_date="20220924", fields=variables)
    if len(df) > 0:
          df = df[::-1]
          df.dropna(inplace=True)
          df.drop_duplicates(inplace=True)
          # 要用收盘价算涨幅，最后一天舍弃
          date = np.array(df["trade_date"].values[1:]) # 交易日期
          code = np.array(df["ts_code"].values[1:]) # 公司代码
          mv = np.array(df["circ_mv"].values[1:]) # 流通市值
          pb = np.array(df["pb"].values[1:])
          turn_over = np.array(df["turnover_rate"].values[1:])
          close_start = np.array(df["close"][:len(df)-1])
          close_next = np.array(df["close"][1:])
          r = (close_next - close_start) / close_start # 涨幅
          companies_data.append(company(date, code, mv, pb, turn_over, r))

上面的代码还嫌慢的话还可以同时开几个线程获取数据，关于多线程可以参考笔者金融数据获取的往期文章，这里也不做展开了，如果不会多线程直接跑上面代码也一样，只是慢而已。

改写上面的遍历循环成函数形式，加入互斥锁：

def data_request(codes, companies_data):
    variables = "ts_code,trade_date,close,turnover_rate,volume_ratio,pb,circ_mv"
    lock = threading.Lock()
    for i in codes:
        lock.acquire()
        df = pro.query('daily_basic', ts_code=i, start_date='20170101', end_date='20220924', fields=variables)
        if len(df) > 0:
            df = df[::-1]
            df.dropna(inplace=True)
            df.drop_duplicates(inplace=True)
            date = np.array(df["trade_date"].values[1:]) # 要算涨幅，最后一天舍弃
            code = np.array(df["ts_code"].values[1:]) # 公司代码
            mv = np.array(df["circ_mv"].values[1:]) # 流通市值
            pb = np.array(df["pb"].values[1:])
            turn_over = np.array(df["turnover_rate"].values[1:])
            close_start = np.array(df["close"][:len(df)-1])
            close_next = np.array(df["close"][1:])
            r = (close_next - close_start) / close_start # 涨幅
            companies_data.append(company(date, code, mv, pb, turn_over, r))
        else:
            pass
        lock.release()

使用threading开启多线程，下面代码开了五个，具体开多少看自己电脑性能吧：

stock_list = []
for i in ["D", "P", "L"]:
    data = pro.stock_basic(exchange='SSE', list_status=i, fields='ts_code')
    stock_list.extend(data["ts_code"].values)
quin = len(stock_list[:15]) // 5
companies_data, threads_pool = [], []
start_time = datetime.datetime.now()
for i in range(0, 6):
    t1 = threading.Thread(target=data_request, args=(stock_list[quin * i:quin * (i + 1)], companies_data),
                          name="task{}".format(i))
    threads_pool.append(t1)
    t1.start()
for i in threads_pool:
    i.join()
print("总列表", len(companies_data))
end_time = datetime.datetime.now()
print("五线程执行程序时间", end_time - start_time)

不过积分不到5千开多线程是有请求限制的，开超过三个线程请求很快会超过200次，但三线程2000积分也可以正常运行不会报错：

Exception: 抱歉，您每分钟最多访问该接口200次，权限的具体详情访问：https://tushare.pro/document/1?doc_id=108。

都执行后companies_data里就存储了上证所有公司近五年多以来的所有计算所需参数。

下面获取CAPM模型所需参数，接着使用上面存储的类对象创建3个因子的相关投资组合。

6.3 RMRF因子

CAMP模型的因子，笔者目标公司为上证指数成分股，直接请求上证指数近5年日线数据，其实用月线数据也可以，有人认为月线数据可以屏蔽很多噪音，但笔者认为相对也会丢失很多信号，笔者下面的参数及变量选择均是举例之用，仅供参考：

mk = pro.index_daily(ts_code=’000001.SH‘, start_date=’20170101‘, end_date=’20220924‘)
print(mk)

无风险利率，这里笔者用1年期最新国债收益率，国债数据Tushare没有，写个迷你爬虫：

url = "https://yield.chinabond.com.cn/cbweb-cbrc-web/cbrc/historyQuery?startDate" \
      "=2022-09-23&endDate=2022-09-24&gjqx=0&qxId=ycqx&locale=cn_ZH&mark=1"
content = pd.read_html(url)
table = content[1]
rf = float(table.loc[1,4])/100
print('Risk_free rate(1 year）:', table.loc[1, 4], "%")

RMRF需要的数据齐活。

6.4 SMB因子, HML因子及LIQ因子

从这三个因子就需要用到刚才的类对象列表数据了。因为数据都在一块笔者就合在一起写三个因子了。先选择上证正常交易的日期作为基准，在刚刚的类对象中遍历当天正常交易的个股。

index_trade_date = pro.index_daily(ts_code='000001.SH', start_date='20170101', end_date='20220924')["trade_date"].values

后面只要在这个交易日列表里按时间维度推进，首先将每天交易的所有股票三因子数据分别拉进三个大列表，然后分别对高低阈值进行分位数判断。例如上证所有个股在2017年1月5号的当天收盘市值拉一个大列表，其中超过80%分位数的判定为大市值公司，小于20%分位数的判定为小市值公司。其它几个因子如法炮制。

判断出阈值后只需要再遍历当天数据然后把符合条件的公司全拉出来，该存列表存列表，最后对回报率进行市值加权，非常简单。

date_times = []
big_ret = []
small_ret = []
high_ret = []
low_ret = []
liq_ret = []
illiq_ret = []
for i in index_trade_date:
    big, small, high, low, liq, illiq = [], [], [], [], [], []
    mv_lst, pb_lst, turnover_lst, trading_companies = [], [], [], []
    for company in companies_data:
        if i in company.date:  # 拉取当天所有交易股票的三个因子数值
            index = list(company.date).index(i)  # 定位到当天的索引
            mv_lst.append(company.mv[index])
            pb_lst.append(company.pb[index])
            turnover_lst.append(company.turn_over[index])
            trading_companies.append(company)
        else:
            pass
    if len(mv_lst) > 0:
        date_times.append(i)  # 拿这个给最后生成的表格一个时间索引
        mv_big = np.percentile(mv_lst, 70)  # 超过70分位阈值则认为是大市值公司
        mv_small = np.percentile(mv_lst, 30)  # 低于30分位阈值则认为是小市值公司
        pb_high = np.percentile(pb_lst, 70)
        pb_low = np.percentile(pb_lst, 30)
        liq_good = np.percentile(turnover_lst, 70)
        liq_bad = np.percentile(turnover_lst, 30)

        # 得到当天的三因子阈值后判断每个公司是否符合阈值条件
        total_mv_big, total_mv_small = 0, 0  # 几个投资组合总市值
        total_mv_high, total_mv_low = 0, 0
        total_mv_ilq, total_mv_illiq = 0, 0
        for company in trading_companies:
            index = list(company.date).index(i)  # 定位当天索引
            if company.mv[index] >= mv_big:
                big.append(company.r[index] * company.mv[index])  # 乘市值方便后面进行市值加权
                total_mv_big += company.mv[index]
            else:
                if company.mv[index] <= mv_small:
                    small.append(company.r[index] * company.mv[index])
                    total_mv_small += company.mv[index]
                else:
                    pass

            if company.pb[index] >= pb_high:
                high.append(company.r[index] * company.mv[index])
                total_mv_high += company.mv[index]
            else:
                if company.pb[index] <= pb_low:
                    low.append(company.r[index] * company.mv[index])
                    total_mv_low += company.mv[index]
                else:
                    pass

            if company.turn_over[index] >= liq_good:
                liq.append(company.r[index] * company.mv[index])
                total_mv_ilq += company.mv[index]
            else:
                if company.turn_over[index] <= liq_bad:
                    illiq.append(company.r[index] * company.mv[index])
                    total_mv_illiq += company.mv[index]

        # 以市值加权求出每个因子当天的平均回报
        big_ret.append(np.sum(big) / total_mv_big)
        small_ret.append(np.sum(small) / total_mv_small)
        high_ret.append(np.sum(high) / total_mv_high)
        low_ret.append(np.sum(low) / total_mv_low)
        liq_ret.append(np.sum(liq) / total_mv_ilq)
        illiq_ret.append(np.sum(illiq) / total_mv_ilq)

上面的操作也是可以用多线程对几个因子计算进行加速的，主要是前面数据请求如果不用线程加速会慢上很多，笔者这里就不进行加速了，仅作举例。

把最后计算出来的因子导入字典存个表格导入csv吧，这样下次就不用花很长时间请求数据算这些因子了：

data_dic = {
            "date": date_times,
            "big_r": big_ret,
            "small_r": small_ret,
            "high_pb_r": high_ret,
            "low_pb_r": low_ret,
            "liq_r": liq_ret,
            "illiq_r": illiq_ret
           }
data = pd.DataFrame(data_dic)
print(data)
data.to_csv("risk_factor.csv")

运行所得因子数据如下，单线程从头开始运行大概需要2小时左右：

          date     big_r   small_r  high_pb_r  low_pb_r     liq_r   illiq_r
0     20220923 -0.003312 -0.024727  -0.009208  0.001549 -0.022543  0.001844
1     20220922 -0.002248 -0.003328  -0.005086 -0.001887  0.010462 -0.017936
2     20220921 -0.001845  0.001306  -0.013389  0.006929  0.005972 -0.007036
3     20220920  0.000286  0.016349   0.008399 -0.005073  0.020536 -0.018587
4     20220919 -0.000803 -0.017215  -0.000701 -0.003029 -0.003053  0.001629
...        ...       ...       ...        ...       ...       ...       ...
1388  20170110 -0.002582 -0.001243  -0.001454 -0.002697 -0.000341 -0.021626
1389  20170109  0.005502  0.004561   0.005048  0.005237  0.020685  0.028170
1390  20170106 -0.000935 -0.012680  -0.006127 -0.000256 -0.005270 -0.007484
1391  20170105  0.003315  0.000573  -0.001991  0.004379  0.009601  0.017124
1392  20170104  0.006871  0.008199   0.017371  0.005390  0.020601  0.051140

[1393 rows x 7 columns]
单线程数据处理执行程序时间 1:50:46.584115

Process finished with exit code 0

运行完成后就可以从本地读取了，看看各个因子分布：

df = pd.read_csv("C:/Users/Administrator/Desktop/risk_factor.csv")
smb = df["small_r"] - df["big_r"]
hml = df["low_pb_r"] - df["high_pb_r"]
liq = df["illiq_r"] - df["liq_r"]

sns.distplot(smb, color="blue", label="SMB")
sns.distplot(hml, color="yellow", label="HML")
sns.distplot(liq, color="red", label="LIQ")
plt.legend()
plt.show()

流动性溢价分布肥尾矮峰，市值和价值两个分布相对于流动性因子都很集中：

图二：因子溢价分布

6.5 敏感系数

先把几个因子都取出来算好，然后拿目标公司日线数据，无风险回报在最开始已经爬到了。这里因为停牌交易时间不一样，需要在两个表中选出交集部分，本来对表格内用df[~df["date"].isin(trade_date)]可以选出不一样的行的，但不知道为什么程序运行就是匹配不上，笔者只好用了三个循环把不一样的交易日数据剔除，有表格操作的大神可以指点指点：

code = "code" # 目标公司tushare代码

df = pd.read_csv("C:/Users/Administrator/Desktop/risk_factor.csv")
stock = pro.daily(ts_code=code, start_date='20170101', end_date='20220924') # 目标公司数据
mkt = pro.index_daily(ts_code='000001.SH', start_date='20170101', end_date='20220924') # 大盘

for i in stock["trade_date"].values:
    if int(i) not in df["date"].values:
        stock.drop(list(stock["trade_date"].values).index(i), inplace=True)
        stock.index = range(len(stock))

for i in df["date"].values:
    if str(i) not in stock["trade_date"].values:
        df.drop(list(df["date"].values).index(i), inplace=True)
        df.index = range(len(df))
        
for i in mkt["trade_date"].values:
    if int(i) not in df["date"].values:
        mkt.drop(list(mkt["trade_date"].values).index(i), inplace=True)
        mkt.index = range(len(mkt))
        
rf_daily = (1+ rf/100)**(1/365) - 1 # %数据全都要转化成小数
mkt = mkt["pct_chg"] / 100 - rf_daily # 市场因子
smb = (df["small_r"] - df["big_r"])/100 # 市值因子
hml = (df["low_pb_r"] - df["high_pb_r"])/100 # 价值因子
liq = (df["illiq_r"] - df["liq_r"])/100 # 流动性因子
stock_r = stock["pct_chg"] / 100 - rf_daily # 目标公司回报

6.6 回归分析

最后就是回归了，网上很多用sm的，笔者喜欢用smf只是因为它的操作和R语言操作很类似：

import statsmodels.formula.api as smf
# RM 市场因子， # RP个股风险溢价
data = pd.DataFrame({"RM": mkt.values, "SMB":smb.values, "HML": hml.values, "LIQ": liq.values, "RP":stock_r.values})
reg = smf.gls(formula='RP~-1+RM+SMB+HML+LIQ',data=data)
mod = reg.fit()
mod.summary()

得到部分关键结果如下：

GLS Regression Results
Dep. Variable:	RP	R-squared:	0.333
Model:	GLS	Adj. R-squared:	0.331
Method:	Least Squares	F-statistic:	173.0

	        coef	std err	  t	    P>|t|	[0.025	0.975]
Intercept	0.0006	0.001	0.822	0.411	-0.001	0.002
RM	        1.3985	0.115	12.129	0.000	1.172	1.625
SMB	        59.9619	6.458	9.285	0.000	47.294	72.630
HML	       -30.5742	6.132	-4.986	0.000	-42.603	-18.545
LIQ	        -5.2618	2.160	-2.436	0.015	-9.499	-1.025

可以看到截距项是不显著的，也可以理解嘛，公式里本身也没有截距项，下面回归写“RP~-1+”，那个-1是指数据中心化不要截距项了：

reg = smf.gls(formula='RP~-1+RM+SMB+HML+LIQ',data=data)
mod = reg.fit()
mod.summary()

运行全部结果展示如下：

GLS Regression Results
Dep. Variable:	RP	R-squared (uncentered):	0.333
Model:	GLS	Adj. R-squared (uncentered):	0.331
Method:	Least Squares	F-statistic:	173.3
Date:	Sun, 25 Sep 2022	Prob (F-statistic):	2.15e-120
Time:	16:53:06	Log-Likelihood:	3188.4
No. Observations:	1390	AIC:	-6369.
Df Residuals:	1386	BIC:	-6348.
Df Model:	4		
Covariance Type:	nonrobust		
        coef	std err	   t	P>|t|	[0.025	0.975]
RM	    1.4202	0.112	12.655	0.000	1.200	1.640
SMB	    58.7254	6.279	9.352	0.000	46.408	71.043
HML	   -30.7000	6.129	-5.009	0.000	-42.724	-18.676
LIQ	    -5.7750	2.067	-2.793	0.005	-9.831	-1.719
Omnibus:	195.043	Durbin-Watson:	2.039
Prob(Omnibus):	0.000	Jarque-Bera (JB):	605.842
Skew:	0.702	Prob(JB):	2.77e-132
Kurtosis:	5.914	Cond. No.	104.

当然啦，实现一个PSM = CAPM + FFM 三合一大礼包，来看看CAPM表现吧：

import statsmodels.formula.api as smf
reg = smf.gls(formula='RP~-1+RM',data=data)
mod = reg.fit()

## 主要结果
GLS Regression Results
Dep. Variable:	RP	R-squared (uncentered):	0.234
Model:	GLS	Adj. R-squared (uncentered):	0.233
Method:	Least Squares	F-statistic:	423.4
		
	coef	std err	  t	    P>|t|	[0.025	0.975]
RM	1.3436	0.065	20.576	0.000	1.216	1.472

可以看到，PSM在CAPM基础上把R方从0.23提高到0.33，提高了约43%的表现 （不过从相关系数可以看出这其中贡献最大的是FFM加的两个因子）。

7. 因子有效性讨论

根据回归结果，笔者目标公司的预期回报可通过如下公式计算：

$E(r_{i})=R_{f}+\beta _{i}^{market}RMRF+\beta _{i}^{size}SMB+\beta _{i}^{value}HML+\beta _{i}^{liq}LIQ$

当然这几个因子是需要算一下全年平均值和年化回报匹配起来，这样回报体现的是过去一年的平均状态。不过用单日的算然后年化也可以，这样算出来的回报就体现的是市场最新状态。接下来就可以根据系数计算出预期回报了，注意tushare请求的涨跌幅数据全是百分制的，处理的时候要全部转化成小数，如果在一开始请求的时候全部改成小数就不会再后面一直拿100除了：

mkt_r = np.mean(pro.index_daily(ts_code='000001.SH', start_date='20170101', end_date='20220931')["pct_chg"])/100 # 大盘历史平均
Er = rf_daily + 1.4202 * (mkt_r - rf_daily) -58.7254 * np.mean(data["SMB"][0:250])/100 -30.7000 * np.mean(data["HML"][0:250])/100 -5.775 * np.mean(data["LIQ"][0:250])/100
print((1 + Er)**365 -1) # 几个因子笔者用了最近一年的均值

# 0.025705644748385437

算得预期回报2.57%的样子，CAPM再算一下：

CAPM = rf_daily + 1.3436 * (mkt_r - rf_daily)
print((1 + CAPM)**365-1)

# 0.020763357720487763

CAPM所得回报率2.08%左右，低于PSM，原因在于几个风险因子贡献的溢价。正是由于这些风险因子溢价，理论上PSM所求出的回报率往往都是高于CAPM的。值得注意的是PSM算出的也依然是仅考虑系统性风险的回报率，鉴于该公司大数据业务所带来的未来景气度和高增速，笔者认为该回报率是偏低的，毕竟是依旧历史数据，还是需要做出其它调整，这属于模型外的东西，笔者就不展开讨论了。

通过回归分析，笔者根据换手率所选取的流动性因子在统计意义上是有效的，只是它对回报率的贡献不大，正如笔者在前文所说的，后面的人在后面加因子但是解释力度不一定有FFM三因子强。

8. 笔者的话

多因子模型是单因子的拓展，它虽然提高了解释力，但其中依旧有很多问题，例如多元回归的多重共线性及单因子模型回报率的非负性。

多重共线性不用多说了，多因子线性模型的一生之敌。但这些已经经过检验的模型其实还好，主要是实务中自己加因子时需要注意，因子太多也不一定是好事。

其次是单因子模型回报率的非负性，相信用CAPM算的回报率没几个会算出负数吧，这和我们潜意识的感知是符合的——投资就是要拿回报的，因此在折现的时候没几个人会拿负的折现率算回报吧。但多因子模型算出来的回报很有可能就是个负值，从之前图二的因子分布大家就不难看出，市场流动性风险因子散得很开，也就是说在极端情况下很容易出现敏感系数不高甚至为负，但该因子的风险溢价被市场打得很高，以至于其它几个正的因子项全部被冲掉最后算出个负回报。这出乎意料的合乎现实——投资极有可能是亏的，而且所谓七亏二平一赚，大多数人都是亏的。一个是潜意识愿意相信的信念，一个是不以主观意志为转移的现实，您站哪边？

最后笔者再谈一点是之前看到的一篇论文，谈了FFM三因子在中国市场的本土化(Liu et al., 2019)，其中提到了壳资源污染市值因子，还有价值因子的问题。该文章认为中国市场的有效性低于美国等成熟市场，因此FFM的模型很大程度上很容易失效，并在FFM基础上做了改动，例如在因子计算中舍弃后30%的垃圾公司。和笔者一样，他们也在三因子基础上拓展出以流动性为计量标准的第四因子（笔者是参考PSM，在没看见他们论文之前就加进去了）。该论文认为在刨除30%的壳污染公司后，模型更适用于中国市场。笔者认为注册制改革，监管高压之下，这种壳资源以后还是越来越不值钱，市场有效性也会随之提升，给的溢价自然就会降低，因此在本文模型中，笔者没有把后30%的公司舍弃。论文链接附下面参考文献了，在国内的读者可能需要VPN，如果打不开链接又想要这篇论文的可以评论或者私信笔者。

回报率和折现率是个很大的话题，里面还有很多问题值得讨论，尽管笔者2天洋洋洒洒2万字，名字依旧是浅谈。最后，创作不易，点赞关注评论三连。

您若不弃，我们风雨共济。

参考文献：

Agata, G.S. (2017).'The Multifactorial PSM: Explaining The Impact Of Liquidity On The Rate Of Return Based On The Example Of The Warsaw Stock Exchange', Equilibrium. Quarterly Journal of Economics and Economic Policy, Institute of Economic Research, vol. 12(2), p. 211-228,https://ideas.repec.org/a/pes/ierequ/v12y2017i2p211-228.html

Liu, J., Stambaugh, R.F., & Yuan, Y. (2019). Size and value in China. Journal of Financial Economics, 134(1), 48–69. https://doi.org/10.1016/j.jfineco.2019.03.008

你可能感兴趣的:(浅谈估值模型,python,金融)

华为认证二选一：物联网 VS 人工智能，你的赛道在哪里？博睿谷IT99_ 物联网人工智能华为华为认证
一篇不讲情怀只讲干货的科普指南一、华为物联网&人工智能到底在搞什么？华为物联网（IoT）的核心是“万物互联”。通过传感器、通信技术（如NB-IoT/5G）、云计算平台（如OceanConnect），将物理设备（车、路灯、工厂机器）连入网络，实现数据采集、远程控制和智能决策。大白话就是：它让哑巴设备学会“说话”。华为人工智能（AI）的核心是“让机器学会思考”。聚焦大模型训练、部署与应用（如昇腾AI解
【Python 中的几类运算符】
文章目录文章目录一、算术运算符二、比较运算符三、赋值运算符四、逻辑运算符附加知识：五、其他运算符1.位运算符2.成员运算符3.身份运算符总结一、算术运算符加法（+）：用于两个数值相加。例如，a=5，b=3，a+b的结果为8。也可以用于字符串拼接，如"Hello,"+"World"的结果为"Hello,World"。示例：a=5b=3result=a+bprint("求和",result)a="He
Windows PowerShell中无法将"python"项识别为cmdlet、函数、脚本文件或可运行程序的名称 xqhrs232 ROS系统/Python
原文地址::https://blog.csdn.net/Blateyang/article/details/86421594相关文章1、如何在Powershell中运行python程序?----https://cloud.tencent.com/developer/ask/1426072、Windows下如何方便的运行py脚本----https://blog.csdn.net/Naisu_kun/
嵌入模型 vs 大语言模型：语义理解能力的本质区别与应用场景 chenkangck50 AI大模型语言模型人工智能机器学习
嵌入模型vs大语言模型：语义理解能力的本质区别与应用场景（实战视角）一句话总结嵌入模型的“理解”是向量表示和相似性匹配，适合做召回；大语言模型的“理解”是上下文+逻辑+世界知识综合判断，适合做分析与生成。重点是可以结合prompt和本身具有的知识两类模型的本质区别能力项嵌入模型（如BGE、SBERT）大语言模型（如GPT、GLM、DeepSeek）输出形式向量（如768维）自然语言文本（如答案、解
Vscode中Python无法将pip/pytest”项识别为 cmdlet、函数、脚本文件或可运行程序的名称
在Python需要pip下载插件时报错，是因为没有把Python安装路径下的Scripts添加到系统的path路径中。如果到了对应路径没发现pip文件，查看是否有pip相关文件，一般会存在pip3命令行使用pip3install后会进行提示更新，按照提示进行更新即可bug2：通过piplist发现其实已经安装pytest但使用pytest--version提示相同错误可通过pipuninstall
Python中if name == ‘main‘的妙用 el psy congroo Python python
参考：Python中的ifname==‘main’是干嘛的？先运行下面代码：print(__name__)if__name__=="__main__":print(__name__)print("helloworld")print(__name__)当py文件作为主程序直接运行时，__name__无论在哪都是__main__那if__name__=="__main__"有什么用呢?一个py文件也是
Python爬取与可视化-豆瓣电影数据木子空间Pro 项目集锦 #课程设计 python 信息可视化开发语言
引言在数据科学的学习过程中，数据获取与数据可视化是两项重要的技能。本文将展示如何通过Python爬取豆瓣电影Top250的电影数据，并将这些数据存储到数据库中，随后进行数据分析和可视化展示。这个项目涵盖了从数据抓取、存储到数据可视化的整个过程，帮助大家理解数据科学项目的全流程。环境配置与准备工作在开始之前，我们需要确保安装了一些必要的库：urllib：用于发送HTTP请求和获取网页数据Beauti
突破反爬防线：Python3反爬虫原理与绕过策略深度解析程序员威哥爬虫网络 scrapy python 开发语言
在信息化时代，数据已成为互联网的重要资产。为了保护数据的安全和防止恶意抓取，越来越多的网站开始采用反爬虫技术。然而，随着反爬虫技术的不断演化，爬虫开发者面临的挑战也在日益增大。如何理解反爬虫原理并有效绕过这些防护措施，是每个爬虫开发者必须掌握的技能。本文将全面解析Python3在爬虫开发中的应用，深入探讨常见的反爬虫原理，并提供绕过反爬策略的实战经验。通过结合实际案例，帮助开发者掌握应对复杂反爬措
基于Python的携程景点评价爬虫与情感评分分析程序员威哥 python 爬虫开发语言
一、项目背景携程（Ctrip）是中国最流行的旅游预订平台之一，其景点用户评论包含了大量真实的游客反馈。通过分析评论的情感倾向，可以：为用户提供更可靠的景点推荐辅助景区运营方了解用户口碑构建情感评分系统，为评分失衡提供补充二、项目目标自动化抓取携程指定景点的用户评论清洗与分词评论文本对评论进行情感分析打分分析整体情绪趋势并可视化结果三、技术栈与工具模块工具/库数据爬取requests,re,json
从0到1构建智能招聘数据引擎：基于 Python 的 BOSS直聘信息采集实战与反爬破解指南程序员威哥 python 开发语言
前言在大数据浪潮席卷的时代，招聘平台蕴藏着海量的岗位信息，揭示着行业走向、人才趋势、薪资结构等核心价值。BOSS直聘作为国内极具代表性的直招平台，其数据对职业分析、市场监测甚至智能推荐系统的构建都有着重要意义。本文将手把手带你打造一个高质量、抗封锁的Python爬虫系统，精准采集BOSS直聘网的岗位数据，并全面解析其中涉及的反爬机制识别、加密参数处理、数据提取与存储等高级技巧，助你在Web数据采集
揭秘影评数据的金矿：基于 Python 的豆瓣电影排行榜热度挖掘与数据智能分析实战程序员威哥 python 开发语言
前言：从数据出发，看见银幕之外的流行密码在内容为王的时代，影视作品既是大众娱乐的主阵地，也是数据分析的重要入口。豆瓣作为中国最具影响力的影视评分平台之一，凝聚了数千万用户对电影、剧集的真实反馈。本文将带你一步步深入，从爬取豆瓣电影排行榜数据出发，结合Python技术栈，构建一个完整的热门电影数据采集+分析+可视化系统。我们不仅要采数据，更要从中挖掘背后的价值：哪些类型影片最受欢迎？评分是否与评论数
微博热搜数据采集全攻略：利用 Python 爬虫实时捕捉社会热点与舆情风向程序员威哥 python 爬虫开发语言
微博作为国内最具影响力的社交媒体平台，其热搜榜单被广泛认为是社会热点的风向标。无论是娱乐八卦、社会事件，还是突发新闻，微博热搜往往能够迅速反映出公众关注的焦点。对于数据分析师、舆情监测专家、或者企业品牌分析师来说，如何抓取并分析这些实时热搜数据，已成为一种核心竞争力。在这篇文章中，我们将结合Python爬虫技术，深入探讨如何高效抓取微博热搜数据，如何规避反爬虫机制，如何处理与存储数据，并展示如何利
无需多卡集群，单卡运行扩散模型的技术突破与实践源客z stablediffusion
近年来，扩散模型（DiffusionModels）在图像、视频、3D生成等领域取得巨大进展。然而，传统扩散模型往往依赖多卡集群（如8×A100）进行高效训练与推理，这使得个人开发者和中小团队的应用受限。幸运的是，随着模型架构优化、量化技术、推理加速方案的发展，越来越多的开源扩散模型可以在单张消费级显卡（如RTX4090、T4、A6000）上运行，并且性能接近或超越原生大规模模型。本文整理了当前可在
【Java实战】高并发场景下账户金额操作的解决方案 .猫的树【Java实战】系列 Java并发编程分布式锁高并发解决方案原子操作数据库事务
文章目录前言：金融系统中的并发危机一、并发问题现场还原1.1问题代码示例1.2并发测试暴露问题1.3问题根源分析二、五大解决方案深度剖析2.1synchronized同步锁2.2ReentrantLock显式锁2.3CAS无锁编程（Atomic原子类）2.4数据库乐观锁2.5分布式锁（Redis实现）三、方案选型指南四、防踩坑指南总结前言：金融系统中的并发危机在支付系统、电商平台等金融场景中，账户
AI agent开发出办公AI小助手的学习方案和路线云博士的AI课堂大模型技术开发与实践大模型 AI Agent 人工智能自动化
一个从基础概念、关键技术栈到实际落地的AIAgent开发全流程学习路线和开发方法建议。此方案参考当前主流大模型（LLM）及相关工具链生态，总体目标是从零开始了解所需知识体系与技能，并能在实践中构建自动化的客服AI或者办公辅助类AI助手。学习与开发的总体思路明确目标场景与需求：在开始前，确定需要开发的AIAgent的功能点和使用场景。例如，客服AI需要具备回答客户常见问题、查询订单状态、转接人工客服
Python知识点：如何使用Nvidia Jetson与Python进行边缘计算杰哥在此 Python系列 python 边缘计算开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用NvidiaJetson与Python进行边缘计算NvidiaJetson平台是专为边缘计算设计的一系列AI计算机，它们能够处理和分析来自物联网(IoT)设备和边缘节点的数据。这些设备小巧、节能且功能强大，非常适合用于执行机器学习、计算机视觉和自然语言处理等任务。Python
在NVIDIA Jetson和RTX上运行Google DeepMind的Gemma 3N：多模态AI的边缘计算革命扫地的小何尚人工智能边缘计算 GPU NVIDIA nlp cuda
在NVIDIAJetson和RTX上运行GoogleDeepMind的Gemma3N：多模态AI的边缘计算革命文章目录在NVIDIAJetson和RTX上运行GoogleDeepMind的Gemma3N：多模态AI的边缘计算革命引言：多模态AI进入边缘计算时代文章结构概览第一章：Gemma3N模型技术架构深度解析1.1Gemma3N模型概述与发展历程1.1.1模型架构的核心设计原则1.1.2多模态
AI工作流平台对比分析 come11234 Ai 人工智能
以下是和「扣子工作流」（KoFlow）类似的AI工作流平台对比分析，涵盖主流工具的核心特点、使用方式、优缺点及区别：一、主流工作流平台分类平台类型核心定位代表用户扣子(KoFlow)低代码AI流程中文场景优化，深度集成大模型中文开发者/企业LangChain代码框架开发者灵活构建AI链Python开发者/AI工程师LlamaIndex数据增强框架企业级RAG（检索增强生成）数据工程师/知识库应用M
扣子工作流能实现哪些功能和单纯的提示词问大模型的区别
好的，我们来详细解释一下扣子工作流（KoFlow）的功能、优势以及与单纯使用提示词调用大模型的区别。核心概念：单纯提示词调用大模型：用户直接编写一段文本（提示词）发送给大模型，大模型根据这个提示词一次性生成回复。整个过程是“单次交互”。扣子工作流：用户构建一个可视化或代码化的流程。这个流程可以包含多个步骤，每个步骤可以执行不同的任务（调用大模型、调用API、执行代码、判断条件、循环等），步骤之间可
Python爬虫（57）Python数据可视化全攻略：Matplotlib从入门到三维动态图表（8000字实战教程）一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 爬虫信息可视化
目录背景与需求分析第一章：Matplotlib基础与核心工作流1.1环境配置与基础架构1.2基础图表类型实战1.2.1折线图进阶1.2.2分组柱状图第二章：高阶可视化技术2.1子图矩阵与多面板布局2.2动态可视化与动画第三章：行业案例实战案例1：电商用户行为分析案例2：医疗影像数据可视化第四章：可视化美学与工程优化4.1配色方案实战4.2百万级数据渲染优化第五章：交互式扩展方案5.1Matplot
AttnRNN：参数更少，却断档碾压LSTM/GRU的新RNN wq舞s 人工智能 python 深度学习 deep learning ai 科技 pytorch
研究者与发布者为:CSDNwq舞s，知乎wqwsgithubwqws突破性进展！新型注意力RNN（AttnRNN）在长序列任务中全面超越传统RNN模型在深度学习领域，循环神经网络（RNN）及其变体GRU和LSTM长期以来一直是处理序列数据的首选架构。然而，它们在长序列任务中始终存在信息遗忘和梯度消失等问题。今天，我很高兴地宣布一种全新的RNN架构——AttnRNN，它在多个长序列基准测试中全面超越
Python多进程编程
Python多任务提升程序性能之一---------多进程#Python的多进程编程的方法是multiprocessing，他是可以在当前的主进程下面去创建n个子进程所以所以他，执行相当于n+1个进程#首先导入multimprocessing包importmultiprocessing#防止执行熟读太快看出出多进程的区别importtime#编写尊卑使用多进程的方法deftest01():fori
python三角网格代码_Python 实现 Delaunay Triangulation weixin_39828457 python三角网格代码
DelaunayTriangulation是一种空间划分的方法，它能使得分割形成的三角形最小的角尽可能的大，关于DelaunayTriangulation的详细介绍，请参考这里，DelaunayTriangulation在很多领域都有应用，科学计算领域它是有限元和有限体积法划分网格的重要方法，除此之外在图像识别、视觉艺术等领域也有它的身影。贴一段有趣的油管视频，用DelaunayTriangula
博睿数据出席GOPS全球运维大会，深度解析如何让大模型真正“懂”运维！运维
2025年6月27日-28日，第二十六届GOPS全球运维大会暨研运数智化技术峰会在北京盛大启幕。全球近千位行业专家齐聚一堂，围绕大模型、DevOps、SRE、可观测性等核心议题展开深度探讨。本届峰会专设可观测性、金融行业、SRE稳定性等特色专场，聚焦IT技术领域的最新发展，共探企业级最佳实践。作为国内应用性能管理及可观测性领域的领导者，博睿数据受邀出席本次大会。产品总监贺安辉亮相“可观测性专场”，
DeepMind 发布 AlphaGenome，1 秒内完成所有模态和细胞类型的变异效应预测 hyperai
谷歌DeepMind的Alpha系列再添新成员——AlphaGenome，其能够更全面、准确地预测人类DNA序列中单个变异或突变，如何影响一系列调控基因的生物过程。AlphaGenome模型以长达100万个碱基对的DNA序列为输入，预测数千种与其调控活性相关的分子属性，同时还可以通过比较变异与未变异序列的预测结果，评估基因变异或突变的影响。该模型建立在DeepMind此前的基因组模型Enforme
python-多线程编程 Protein Designer 蛋白质结构 python
文章目录1.多任务介绍2.进程介绍3.使用多进程来完成多任务3.1进程的创建步骤3.2进程执行带有参数的任务3.3获取进程编号3.4多进程编程的注意点主进程会等待所有的子进程执行结束在结束设置守护主进程：**主进程结束后不会再继续执行子进程中剩余的工作**3.5进程池与进程锁3.6进程的通信3.7线程3.8GIL全局锁3.9异步1.多任务介绍多任务是指在同一时间内执行多个任务。定义举例并发在一段时
python之多进程(multiprocessing)
multiprocessing模块提供了一个Process类来代表一个进程对象，multiprocessing模块像线程一样管理进程，这个是multiprocessing的核心，它与threading很相似，对多核CPU的利用率会比threading好的多前言Multiprocessing.Pool可以提供指定数量的进程供用户调用，当有新的请求提交到pool中时，如果池还没有满，那么就会创建一个新
AI人工智能领域：Bard的崛起之路 AIGC应用创新大全人工智能 bard ai
AI人工智能领域：Bard的崛起之路关键词：Bard、GoogleAI、大语言模型、对话式AI、自然语言处理、生成式AI、AI竞争摘要：本文深入探讨GoogleBard的发展历程、技术架构及其在AI领域的地位。我们将从Bard的诞生背景开始，分析其核心技术原理，比较与其他大语言模型的异同，并通过实际案例展示其应用场景。最后展望Bard的未来发展方向及面临的挑战。背景介绍目的和范围本文旨在全面解析G
Kafka消息轨迹追踪：分布式系统调试利器大数据洞察 kafka linq 分布式 ai
Kafka消息轨迹追踪：分布式系统调试利器关键词Kafka、消息轨迹追踪、分布式系统、调试、消息处理、事件溯源摘要本文聚焦于Kafka消息轨迹追踪这一分布式系统调试的关键技术。首先介绍Kafka消息轨迹追踪的概念基础，包括其在分布式系统中的背景、发展历史以及问题空间。接着阐述其理论框架，从第一性原理进行推导，并分析理论局限性和竞争范式。在架构设计方面，对系统进行分解，构建组件交互模型并可视化展示。
【redis】介绍和安装火龙谷 redis redis 数据库缓存
介绍Redis是一款高性能的开源内存数据库，核心采用键值对（Key-Value）存储模型。其最大优势在于数据完全基于内存操作，读写速度远超传统磁盘数据库（内存访问速度可达磁盘的数千倍，固态硬盘仍有显著差距）。支持丰富的数据结构（字符串、哈希、列表、集合等），并非简单存储单一值。提供持久化机制（RDB快照/AOF日志），确保重启后数据可恢复。具备主从复制、哨兵高可用、集群分片等分布式能力，扩展性强。
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发