xuxiatian

数据预处理（下）之中性化（不止行业和市值中性化~）

转载自：https://www.ricequant.com/community/topic/4309/

在上一个帖子中，我们总结了离群值处理和标准化，而本文将解释何为中性化以及其它的一些“中性化”定义。同样的，欢迎大家补充和讨论！！

（接上帖）

中性化

当我们提及中性化时，我们往往是希望剔除待使用数据中那些多余的风险暴露。这些数据根据不同的应用场景会有不同类型，比如说我要使用因子选股，所以想对因子值进行中性化；或者想分析因子到底是否有效，所以对因子收益率进行中性化；再或者，假如已经选好了股，想使这个投资组合对行业中性化，等等。

道理我懂，可是应该怎么实现呢？

首先，我们来讲一讲和因子相关的中性化~

在量化交易中，我们会经常使用某种指标或者多种指标来对股票池进行筛选，这些用于选股的指标一般被称为因子。在使用这些因子进行选股时，有时会因为其它因子的影响，而导致选出来的股票具有一些我们不希望看到的偏向。

比如说，市净率会与市值有很高的相关性，这时如果我们使用未进行市值中性化的市净率，选股的结果会比较集中。同时朝阳行业和夕阳行业的市盈率在大致上也有一定的特点，也就是说行业对估值因子也有影响，那么我们得到的结果是具有一些多余偏好的。

那我们要怎么解决这一由于不同行业和市值大小导致的误差问题呢？

为了让我们在用某一因子时能剔除其他因素的影响，使得选出的股票更加分散，我们需要对其进行中性化处理。上一篇提到，标准化应该用于多个不同量级指标之间需要互相比较或者数据需要变得集中时，而中性化的目的在于消除因子中的偏差和不需要的影响。

这里使用和上篇帖子相同的数据，下图是使用3sigma去极值方法后的全市场BP分布。

下图是每个申万行业的BP平均值（不知道是不是因为我用的windows，图表显示不出中文...），可以看出801780.INDX的BP平均值最高，即银行业在中性化之前拥有最高的BP均值。

根据大部分的研报对于中性化的处理，主要的方法是利用回归得到一个与风险因子线性无关的因子，即通过建立线性回归，提取残差作为中性化后的新因子。这样处理后的中性化因子与风险因子之间的相关性严格为零。

对于因子来说，市场风险（例如牛市和熊市）和行业风险（同一行业的公司受的影响类似）是主要考虑的因素，对这两者的处理方式有两种：

1、将市场因子和行业因子同时纳入模型

2、仅纳入行业因子，而将市场因子包含在行业因子中。

实际上这两种并没有什么区别：对于回归而言，前者带截距项，而后者是过原点。

对于其他风格风险因子，以市值的影响最为明显和广泛，所以在此我用市值和行业中性化为例，具体做法是在每个时间截面上用所有股票的数据做横截面回归方程：

其中，Factor_i为股票i的alpha因子，MktVal_i为股票i的总市值，Industry_j,i为行业虚拟变量，即如果股票i属于行业j则暴露度为1，否则为0，而且每个股票i仅属于一个行业，不对其所属行业进行拆分。

我们以上述回归方程的残差项作为原因子在中性化后的新因子。下图为市值或/与行业中性化后的BP因子值：

能够看出市值+行业中性化后的BP分布相较于之前，变得更加均匀。实际上中性化后的BP和、以及中性化后的各行业BP和，都约等于零。详细计算请看下面的notebook。

然而有的人提出简单的线性回归法本身不一定能彻底地剔除因子的多余信息，这与线性回归所做的前提假设有关。

通常默认因子之间线性相关，残差正态独立同分布，但以上假设可能存在问题。第一，由于有相当大一部分的因子分布在两端极值，这会影响到残差正态分布的假设，但去极值又有可能会破坏残差分布的连续性。第二，我们常用分位数分组的方法来使用中性化后的因子值，理论上回归残差求和为0，而不能确保各分组内部是否中性。

故提出在原模型上选择使用单调性变化处理后的因子（实际上是“对因子横截面排序百分比取正太累积分布函数反函数”），能使残差在未去极值的情况下更接近正态分布。

我对此变换处理比较有疑虑，因为与去极值的简单的线性回归相比，很难说究竟是哪种更好或哪种损失的信息更少。若是对这个方法感兴趣，欢迎讨论~

正如在上文提到的，除了因子以外，还有其他含义的中性化。

例如想使得投资组合对行业中性化，通常的做法是根据基准中各行业的市值权重，调整投资组合相应行业的股票权重，此时的结果将对行业中性。

直观来说，我们知道Brinson分析（如果有不清楚定义的朋友，请点击此帖：《绩效分析之Brinson模型》）中的资产配置收益的公式为Q2-Q1，即由资产配置带来的超额收益。此时如果组合资产i（在此处可理解为组合中的行业i）的权重等于基准资产i（基准的行业i）的权重，则来自资产配置收益为0，即主动收益为0，此时做到了中性化。

最后，根据《主动投资》（《Active Portfolio Management》）中投资组合的构建一章中，它对中性化的解释为“去掉alpha的偏差或者不希望产生的影响‘，并且提供了四种类型的中性化：基准组合中性化、现金中性化、风险因子中性化和行业中性化。

它这里的中性化更多的是对alpha的处理，而不是我们通常提及的因子中性化。然而既然提到了就搬运下这四种中性化的定义吧~

1. 基准组合中性化。根据定义（尽管可能具有超额收益），基准投资组合的alpha为0。将基准组合的alpha设定为0可以确保对基准组合中性，并避免基准组合时机选择问题。

2. 现金中性化。和基准中性化同一个思路，即alpha不含任何主动的现金头寸。

3. 风险因子中性化。投资组合分析中的多因子分析方法可以把收益分解为几个不同的维度。我们应当使alpha相对于风险因子进行中性化，中性化的alpha值仅包括那些我们可以预见的因素的信息，以及特别资产的信息。一旦进行中性化，相对于这些风险因子的alpha就为0。

4. 行业中性化。计算每个行业（按市值加权平均）的，然后从每一个中减去行业平均的alpha。

总结

中性化在不同应用场景中有不同的意义和方法，我们在处理前需要确定到底要对什么因素进行中性化。最后的投资组合不能保证行业暴露度为零，仍需要进行组合优化。

数据预处理之中性化-Copy1.ipynb克隆研究 +75

In [1]:

#import seaborn

import numpy as np

import pandas as pd

import math

from statsmodels import regression

import statsmodels.api as sm

stocks = all_instruments(type="CS", date='2017-10-23').order_book_id.tolist()

data = get_fundamentals(query(fundamentals.eod_derivative_indicator.pb_ratio,fundamentals.eod_derivative_indicator.market_cap

).filter(fundamentals.income_statement.stockcode.in_(stocks)), '2017-10-23', '1d').major_xs('2017-10-23').dropna()

data['BP'] = 1/data['pb_ratio']

一、离群值处理

In [2]:

def filter_extreme_MAD(series,n): #MAD:中位数去极值

  median = np.percentile(series,50)

  new_median = np.percentile((series - median).abs(),50)

  max_range = median + n*new_median

  min_range = median - n*new_median

  return np.clip(series,min_range,max_range)

def filter_extreme_3sigma(series,n=3): #3 sigma

  mean = series.mean()

  std = series.std()

  max_range = mean + n*std

  min_range = mean - n*std

  return np.clip(series,min_range,max_range)

def filter_extreme_percentile(series,min = 0.025,max = 0.975): #百分位法

  series = series.sort_values()

  q = series.quantile([min,max])

  return np.clip(series,q.iloc[0],q.iloc[1])

二、标准化（见上一帖子，再此省略）

三、中性化处理

In [3]:

SHENWAN_INDUSTRY_MAP = {

      "801010.INDX": "农林牧渔",

      "801020.INDX": "采掘",

      "801030.INDX": "化工",

      "801040.INDX": "钢铁",

      "801050.INDX": "有色金属",

      "801080.INDX": "电子",

      "801110.INDX": "家用电器",

      "801120.INDX": "食品饮料",

      "801130.INDX": "纺织服装",

      "801140.INDX": "轻工制造",

      "801150.INDX": "医药生物",

      "801160.INDX": "公用事业",

      "801170.INDX": "交通运输",

      "801180.INDX": "房地产",

      "801200.INDX": "商业贸易",

      "801210.INDX": "休闲服务",

      "801230.INDX": "综合",

      "801710.INDX": "建筑材料",

      "801720.INDX": "建筑装饰",

      "801730.INDX": "电气设备",

      "801740.INDX": "国防军工",

      "801750.INDX": "计算机",

      "801760.INDX": "传媒",

      "801770.INDX": "通信",

      "801780.INDX": "银行",

      "801790.INDX": "非银金融",

      "801880.INDX": "汽车",

      "801890.INDX": "机械设备"}

def get_industry_exposure(order_book_ids):

    df = pd.DataFrame(index=SHENWAN_INDUSTRY_MAP.keys(), columns=order_book_ids)

    for stk in order_book_ids:

        try:

            df[stk][instruments(stk).shenwan_industry_code] = 1

        except:

            continue

    return df.fillna(0)#将NaN赋为0

In [4]:

# 需要传入单个因子值和总市值

def neutralization(factor,mkt_cap = False, industry = True):

  y = factor

  if type(mkt_cap) == pd.Series:

    LnMktCap = mkt_cap.apply(lambda x:math.log(x))

    if industry: #行业、市值

      dummy_industry = get_industry_exposure(factor.index)

      x = pd.concat([LnMktCap,dummy_industry.T],axis = 1)

    else: #仅市值

      x = LnMktCap

  elif industry: #仅行业

    dummy_industry = get_industry_exposure(factor.index)

    x = dummy_industry.T

  result = sm.OLS(y.astype(float),x.astype(float)).fit()

  return result.resid

In [5]:

#使用3sigma离群值处理法

no_extreme_BP = filter_extreme_3sigma(data['BP'])

 #行业市值中性

new_BP_all = neutralization(no_extreme_BP,data['market_cap'])

 #市值中性

new_BP_MC = neutralization(no_extreme_BP,data['market_cap'],industry = False)

#行业中性

new_BP_In = neutralization(no_extreme_BP)

fig = plt.figure(figsize = (20, 8))

ax = no_extreme_BP.plot.kde(label = 'no_extreme_BP')

ax = new_BP_all.plot.kde(label = 'new_BP_all')

ax = new_BP_MC.plot.kde(label = 'new_BP_MC')

ax = new_BP_In.plot.kde(label = 'new_BP_In')

ax.legend()

Out[5]:

接下来查看原数据（去极值后）在各行业的情况

In [6]:

df = pd.DataFrame(no_extreme_BP).reset_index()

#添加申万分类

df['shenwan'] = df['index'].apply(lambda x:instruments(x).shenwan_industry_code)

df = df.set_index('index')

In [7]:

 #求出每个申万行业的BP平均值

shenwan_BP = df.groupby('shenwan')['BP'].apply(lambda x:x.mean())

fig = plt.figure(figsize = (20, 8))

ax = shenwan_BP.plot.bar()

ax.legend()

Out[7]:

In [8]:

#将中性化后的BP与df拼接

df = pd.concat([df,new_BP_all],axis = 1).rename(columns = {0:'new_BP'})

 #求出每个申万行业的中性化BP平均值

shenwan_new_BP = df.groupby('shenwan')['new_BP'].apply(lambda x:x.sum())

print('中性化后的BP和：',df['new_BP'].sum())

print(shenwan_new_BP)

中性化后的BP和： 4.7151615945e-11
shenwan
801010.INDX    1.325884e-12
801020.INDX    8.743006e-13
801030.INDX    4.233947e-12
801040.INDX    3.837486e-13
801050.INDX    1.498801e-12
801080.INDX    3.196110e-12
801110.INDX    7.885914e-13
801120.INDX    1.258660e-12
801130.INDX    1.367906e-12
801140.INDX    1.710937e-12
801150.INDX    3.910650e-12
801160.INDX    1.957989e-12
801170.INDX    1.353917e-12
801180.INDX    1.747491e-12
801200.INDX    1.253886e-12
801210.INDX    4.702350e-13
801230.INDX    7.120415e-13
801710.INDX    9.721390e-13
801720.INDX    1.560252e-12
801730.INDX    2.601475e-12
801740.INDX    6.176171e-13
801750.INDX    2.643663e-12
801760.INDX    1.721456e-12
801770.INDX    1.285860e-12
801780.INDX    3.917977e-13
801790.INDX    8.250067e-13
801880.INDX    2.229328e-12
801890.INDX    4.263256e-12
Name: new_BP, dtype: float64

In [9]:

#取前20%，并根据行业分类

BP_head = df[df['BP']>df['BP'].quantile(0.80)]

BP_count = BP_head.groupby('shenwan')['BP'].count()

new_BP_head = df[df['new_BP']>df['new_BP'].quantile(0.80)]

new_BP_count = new_BP_head.groupby('shenwan')['new_BP'].count()

fig = plt.figure(figsize = (20, 8))

ax = BP_count.plot.bar(color='grey', position=1, width=0.3)

ax = new_BP_count.plot.bar(position=0, width=0.3)

ax.legend()

Out[9]:

你可能感兴趣的:(量化)

基于TRIZ的救援机器人轻量化设计天行健王春城老师 TRIZ 机器人
在救援机器人设计中，轻量化是一个至关重要的目标，它直接关系到机器人的便携性、运输效率以及在复杂环境中的作业能力。TRIZ理论为我们提供了一套系统化的工具和方法，用于解决设计过程中遇到的各种挑战，特别是在实现轻量化目标时，TRIZ能够帮助我们识别并消除设计中的冗余与低效部分，同时保留或增强其关键功能。具体如深圳天行健企业管理咨询公司下文所述：1.功能分析与矛盾识别TRIZ理论强调对系统功能的深入分析
Python和MATLAB及C++信噪比导图(算法模型) 亚图跨际算法交叉知识 Python 视频图像修复模数转换信号链噪音频谱计算量化周期性视觉刺激高斯噪声的矩形脉冲心率失常检测算法
要点视频图像修复模数转换中混合信号链噪音测量频谱计算和量化周期性视觉刺激脑电图高斯噪声的矩形脉冲总谐波失真周期图功率谱密度各种心率失常检测算法胶体悬浮液跟踪检测计算交通监控摄像头图像噪音计算Python信噪比信噪比是科学和工程中使用的一种测量方法，用于比较所需信号水平与背景噪声水平。信噪比定义为信号功率与噪声功率之比，通常以分贝表示。高于1:1（大于0dB）的比率表示信号大于噪声。信噪比是影响处理
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
tushare库获取金融股票数据罔闻_spider python进阶 python
定义：Tushare是一个为金融量化分析师和数据爱好者设计的开源工具，提供从数据采集、清洗加工到数据存储的全流程服务。它能够实时抓取沪深两市的股票和期货市场数据，包括交易价格、成交量、市值、市盈率等关键指标，同时也提供历史数据的采集。Tushare的数据采集功能是其核心优势之一，它支持多种数据类型，包括日K线数据和分钟级数据，满足不同分析需求。Tushare的数据清洗与加工功能提供了强大的工具集，
如何使用并提高批判性思考能力？颍水书生
学会一个技能的最好办法就是不断的使用，学英语如此、学游泳如此、学吉他也是如此。作人类最核心的技能，学会思考的最重要的方法不是学，而是不断的对心智的积极运用。如何使用心智，则是一个相对不容易的事情，因为思考结果的没有明显的反馈，不像游泳，换气、泳姿、游的速度这些都是可以量化，水平的高低，很容易考评，甚至一眼就能看出来。不过不容易也未必是无章可循，就像我们在读书时那样，可以先来个摸底考试，看看自己水平
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
欺诈文本分类检测（十四）：GPTQ量化模型沉下心来学鲁班微调分类人工智能语言模型微调
1.引言量化的本质：通过将模型参数从高精度（例如32位）降低到低精度（例如8位），来缩小模型体积。本文将采用一种训练后量化方法GPTQ，对前文已经训练并合并过的模型文件进行量化，通过比较模型量化前后的评测指标，来测试量化对模型性能的影响。GPTQ的核心思想在于：将所有权重压缩到8位或4位量化中，通过最小化与原始权重的均方误差来实现。在推理过程中，它将动态地将权重解量化为float16，以提高性能，
Docker 安装配置和基本命令详解以及案例示范 J老熊 docker 容器运维面试 linux
1.引言容器化技术的快速发展给软件开发和运维带来了革命性的变化，Docker作为这一领域的领军者，已经成为软件开发和部署流程中的重要工具。Docker的轻量化、快速启动和高效资源利用让开发者能够在不同的环境中实现一致的开发体验。本篇文章将详细讲解如何在CentOS系统中安装Docker，如何配置阿里云镜像加速，Docker的基本命令和语法，以及通过实际的电商交易系统案例来演示如何在Docker环境
2020-04-09奋进的周四深山含笑空凝峡谷
从小就特别希望和别人不一样。瞪着一双很乖的眼睛目不转睛看老师，嘴上不说心里没放下过独特眼光和taste也是从幼年就形成了。要视角不同，创新，玩点别的花样和审美有些概念让自己想起来就会有点兴奋比如life-hacker/量化自我/digitalnormad/自由编舞师/读书社群leader/coach/创作者自我的形成/个体的觉醒/作为创作者，一定要有信心——我做的创作的，即使有人做过类似的了，我做
Python最全的股票数据API接口 w_traveler python 开发语言大数据
python最全的股票数据API接口使用python是一种有效的方式来获取高频股票数据，以便进行股票行情数据分析和量化交易。python是一种广泛应用于金融数据领域的编程语言，可用于与股票数据API接口进行交互。通过调用股票数据API接口，我们可以获取实时的股票数据，包括tick数据和k线历史数据。tick数据提供了每次交易的详细信息，而k线历史数据则提供了一段时间内港股、美股、A股、沪深行情数据
2023-01-16 如何找到属于自己的锚定点呢黄高
之前在网上看到了王健林一天的行程安排，4:55起来健身，然后到公司开会，再去两个城市出差，回到家已经凌晨，非常繁忙且充实。确实，一看上去非常值得尊敬，4:55大多数人都没办法达到，可是对于他来说已经10年如一日，当然最终做的事业也非常的大。昨天我和共读会一会小伙伴也在交流，她说了一个让我印象极深的概念，就是每天精进一点点，可这一点点我们怎样来进行量化呢，自己好好想想，好像我真的没有办法办到，也讲了
从MVC到DDD的架构演进洛蕾计算机 mvc 架构
Python微信订餐小程序课程视频https://edu.csdn.net/course/detail/36074Python实战量化交易理财系统https://edu.csdn.net/course/detail/35475DDD这几年越来越火，资料也很多，大部分的资料都偏向于理论介绍，有给出的代码与传统MVC的三层架构差异较大，再加上大量的新概念很容易让初学者望而却步。本文从MVC架构角度来讲
AWS Nitro架构简介河马虚拟化计算机架构虚拟化 aws 虚拟机架构
AWS（AmazonWebServices）Nitro架构为Amazon的云服务提供了底层的支持。Nitro架构的总体设计思想是：轻量化的hypervisor配合定制化的硬件，让用户无法区分出运行在虚拟机内和运行在裸金属上操作系统的性能差异。为了实现定制化的硬件（ASIC），Amazon和以色列的一家芯片公司——Annapurna实验室合作，并在后面将其收购，其芯片的logo就是Annapurna
月入十万第三十七天赵小虎虎
嘿嘿，今天注册了好多交易所，接下来学会搬砖，这样每天就可以不用早出晚归的去上班啦，理想很丰满，现实也不算太骨感，就看自己的行动能力了。网格交易可能是投入本金较小，网格密度不够，每天盈利1块不到[手动捂脸]，一个月下来连我买阿里云服务器的零头钱都不够[在捂一次脸]。好在对网格交易的理论摸清楚了，轻量化服务器也懂得是个啥东东了。哈哈，学习点东西总要交点学费及智商税。今天下午大盘往下走，one也不知中了
matlab基础之脚本与函数吱吱鼠叔 matlab学习（自用 matlab 数据结构算法
脚本与函数MATLAB命令的两种执行方式：交互式命令执行方式程序执行要充分利用MATLAB数据结构的特点（矩阵运算、矢量化编程），充分利用MATLAB自带的函数M文件：是一个文本文件，拓展名为.m可以用任何编辑程序来建立和编辑，默认matlabM文件就是将处理问题的各种命令融合到一个文件中启动MATLAB编辑器的三种方法：“主页”选项中的新建脚本/双击已有文件/打开命令按钮命令行输入edit（既可
安装jina，并使用jina的向量化和重排序的功能 MonkeyKing.sun milvus numpy
为了在Python的FastAPI项目中使用Jina进行向量化和重排序，您需要按照以下步骤安装和使用Jina。1.安装Jina首先，确保您已经安装了Jina。可以使用pip来安装。pipinstalljina如果需要特定的功能模块，例如自然语言处理相关的向量化模型，可以通过JinaHub获取。pipinstalljina[hub]2.在FastAPI项目中集成Jina接下来，我们将Jina集成到F
QLoRa使用教程云帆@ 训练 peft 人工智能
一、定义定义案例1二、实现定义QLoRa:量化+LoRa.网址：https://huggingface.co/docs/peft/main/en/developer_guides/quantization案例11.4bit量化+LoRaimporttorchfromtransformersimportBitsAndBytesConfigconfig=BitsAndBytesConfig(load_
LLM大模型学习：LLM大模型推理加速七七Seven～学习人工智能 transformer 深度学习 llama
文Mia/叶娇娇推理优化部署、推理加速技术是现在，尤其在大模型时代背景之下，消费级GPU和边端设备仍为主流的状况下。推理加速是实际工程落地的首要考虑因素之一，今天笔者来聊聊涉及到的可以实现大模型推理加速的技术。目录一、模型优化技术二、模型压缩技术三、硬件加速四、GPU加速五、模型并行化和分布式计算技术一、模型优化学习常见的模型优化技术，如模型剪枝、量化、分片、蒸馏等，掌握相应的实现方法。1.1剪枝
程序化自动交易，合约量化交易软件用哪个比较好财云量化 python炒股自动化股票的基础知识股票自动交易合约量化交易通达信 qmt 股票量化接口股票API接口 Python股票接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产合约量化交易软件的特点与选择选择合约
计算机视觉之旅-进阶-图像滤波处理撸码猿计算机视觉图像处理人工智能
1.基本概念1.1.数字图像图像处理的对象是数字图像,它是由像素点阵列表示的图像。需要了解像素、图像分辨率、灰度级、RBG等图像表示方法。用numpy数组表示,每个元素为像素值。例如RGB图像 importnumpyasnp img=np.array([[[255,0,0],[0,255,0]],[[0,0,255],[255,255,255]]]) 1.2.采样和量化数字图像是通过采样和量化得到
AI视频批量自动剪辑软件 2401_87296669 人工智能音视频
小咖批量剪辑助手是一款视频批量自动剪辑软件，具有智能化、批量化、操作简单等特点。该软件适用于自动化处理和生产视频，旨在帮助用户实现批量化生产产品推广视频的功能。三、安装与配置安装步骤：下载程序压缩包：访问官方网站或指定下载地址，下载小咖批量剪辑助手程序压缩包。b.解压程序压缩包：将下载的程序压缩包解压至指定目录。配置要求：操作系统：windows10。b.硬件配置：cpu：i7-4790K内存：1
如何将文本转换为向量？(方法二) DashVector python 开发语言人工智能 embedding 数据挖掘
文本转换为向量有多种方式：方法一：通过模型服务灵积DashScope将文本转换为向量（推荐）方法二：通过ModelScope魔搭社区中的文本向量开源模型将文本转换为向量方法三：通过JinaEmbeddingsv2模型将文本转换为向量方法四：通过百川智能向量化模型将文本转换为向量本文介绍方法二：如何通过ModelScope魔搭社区中的文本向量开源模型将文本转换为向量，并入库至向量检索服务DashVe
软件测试题(1) 妙舞汉宫人软件测试软件测试
1.有关"测试驱动开发"，下列说法正确的有？正确答案:ABCDA.TDD的原理是在开发功能代码之前，先编写单元测试用例代码，测试代码确定需要编写什么产品代码B.TDD的基本思路就是通过测试来推动整个开发得进行，但测试驱动开发并不只是单纯的测试工作，而是把需求分析，设计，质量控制量化的过程。C.TDD的重要目的不仅仅是测试软件，测试工作保证代码质量仅仅是其中一部分，而且是在开发过程中帮助客户和程序员
TensorRT模型量化实践痛&快乐着深度学习 TensorRT c++深度学习
文章目录量化基本概念量化的方法方式1：trtexec（PTQ的一种）方式2：PTQ2.1pythononnx转trt2.2polygraphy工具:应该是对2.1量化过程的封装方式3：QAT(追求精度时推荐)使用TensorRT量化实践（C++版）使用TensorRT量化（python版）参考文献量化基本概念后训练量化PostTrainingQuantization(PTQ)量化过程仅仅通过离线推
大模型算法岗，面试百问百答，7天3个offer拿到手！爱喝白开水a 算法面试职场和发展 ai大模型大语言模型 LLM 大模型面试
导读大模型时代很多企业都在开发自己的大模型，这直接刺激了大模型岗位的需求。本文为大家整理了大模型面试相关的知识点，希望对大家面试求职有所帮助。今天分享大模型面试相关知识点，持续更新。1.RAG技术体系的总体思路数据预处理->分块（这一步骤很关键，有时候也决定了模型的效果）->文本向量化->query向量化->向量检索->重排->query+检索内容输入LLM->输出2.使用外挂知识库主要为了解决什
重构指标之如何监控代码圈复杂度东东程序猿重构
1引言软件应用在发展到适当时机，”重构”，是开发过程中不可避免需要进行的一项工作。重构代码，以适配当前模块设计之初未考虑到的多样化场景，并增加模块的可维护性、健壮性、可测试性。那么，如何明确重构的方向，以及量化重构的结果呢？代码圈复杂度可以是一个供选择的指标。下文介绍如何获取应用的代码圈复杂度做到线上监控，给到复盘程序复杂程度的数据支撑。2背景知识2.1圈复杂度圈复杂度（Cyclomaticcom
长投学堂:还好没错过你 Mouse小栈
理财就是理生活，这句话说的真好，我在长投学堂学习的这些天里，我有一个最大的感官，我感觉自己变得更好了，每天活力满满的学习和思考，养成健康而又规律的生活习惯，每天早睡早起，减少在不必要东西上的花费，只买必要和需要的。首先，我学到的最重要的一点是转变我们的思维，改变对金钱的看法，就像小狗钱钱里面说的，金钱本身是没有好坏的，要看拥有的人怎么用，我们要学会让钱为我们工作，获取被动收入。量化你的时间，你会发
抖音极速版邀请码填写入口，千万不要填错小小编007
新人第一次下载使用抖音极速版app，都不知道在哪里填写极速版邀请码，有的甚至不填写，白白浪费了官方补贴红包，那么新用户怎么填写抖音极速版邀请码，入口在哪呢？下面小编告诉您抖音极速版邀请码：8652135876返点已开到最高！千万不要填错抖音极速版邀请码：8652135876，如图所示，不要搞错了（填写额外提成哦）抖音极速版是一款原创短视频分享平台，该版本为抖音短视频压缩版，不但轻量化了安装内存，还
嵌入式扫描模组在现代化智能流水线生产的实现和意义一只快乐的吉随笔
随着现代化企业的迅速发展，传统生产流水线上，为了提高生产效率与节约成本，辅有条码的生产标签逐渐成为企业快速分拣的一个法宝。很多企业开始向智能化工厂转型，而通过使用新大陆模组的工业固定式读码设备来解决流水线上的条码检测问题，同时也可以通过条码来统计生产数据，以实现批量化操作。针对于现代企业规模化管理的生产流水线，广州远景达小编为大家来简单介绍一下这款应用于工业的新大陆模组，究竟如何实现自动扫描与使用
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发