儒冠多误身

【Python数据处理专题】数据处理和分析的基本流程

儒冠多误身

2019.04.20个人总结

第一步：备份源数据到其他盘符、硬盘、u盘、网盘等

需求分析
数据提取
数据清洗
数据分析
报告撰写
报告分享
投入应用收集反馈

文章目录

1. 目标确定
2. 数据获取

数据来源

3. 数据清洗

3.1 预处理

3.1.1 读取
3.1.2 观察
3.1.3 关联

3.2 缺失值

3.2.1 缺失值统计
3.2.2 缺失值填充

3.3 重复值
3.4 转换

3.4.1 格式转换
3.4.2 字符串转换

3.4.2.1 拆分字符串
3.4.2.2 诊断是否包含
3.4.2.3 替换
3.4.2.4 类别字符串转换为离散变量
apply

3.5 逻辑错误值清洗
3.6 选取行列

3.6.1 sample()
3.6.2 时间采样
3.6.3

3.7 关联性验证

4. 数据整理

4.1 数据规范化
4.1.1 离散化

4.1.2 归一化

4.1.2.1 0~1标准化
4.1.2.2 Z标准化
4.1.2.3 权重叠加

4.2 指标计算

4.2.1 统计计算

4.3 格式转换

5. 数据分析

5.1 单属性（变量）分析

5.1.1 异常值分析

5.1.1.1 缺失值
5.1.1.2 集中趋势、离散趋势
5.1.1.3 离群值

切比雪夫定理

5.1.2结构分析

5.1.2.1 静态结构分析

5.2 双变量

5.2.1 两个变量间的分布关系

5.2.1.1 散点图
5.2.1.2 相关性

5.3 分布分析

5.3.1 极值差
5.3.2 频率分布

5.3.2.1 累计频率-帕累托分析指标
5.3.2.2 可视化

5.1.3 对比

5.4 对比分析

5.4.1 绝对值比较（相减）
5.4.2 相对值比较（相除）
5.4.3 结构分析
5.4.4 比较分析
5.4.5 空间比较分析
5.4.6 动态比较分析
5.1.4 预测
5.1.5 洞察结论，制图-看图说话

5.2 数据建模

5.2.1 线性回归（初学者）
5.2.2 聚类模型（初学者）
5.2.3

6. 可视化

1 分析图表

单维度
多维度
空间图表
关系图表

2 动态交互
3 商业智能

7. 业务理解
8 验证型分析

8.1 假设检验基本流程
8.2 单样本z检验
8.4 单样本t检验
8.5 双样本t检验

可视化

9.6.1 相关性系数

交叉检验

1. 目标确定

2. 数据获取

数据来源

数据可信度

3. 数据清洗

3.1 预处理

3.1.1 读取

pd.read_csv('demo.csv',na_values=['XYZ','NA','-999',0])

3.1.2 观察

基本框架

.shape
.info()
.head()
pd.value_counts(df['col'])
df['col'].value_counts()

数据特征
- 连续型数据
- 离散型数据
索引值是可以重复的
```
df.index.is_unique
```

重命名

df.rename(index=str.lower,columns={'col1':'a','col2':'b'})

3.1.3 关联

pd.merge()，相当于SQL的join

pd.merge(left,right,left_on=,right_on=,suffixes=('_x','__y'))

pd.concat()，堆叠

pd.concat([df1,df2,df3,s1],axis=1)# index
pd.concat([s1,s2,s3])

axis=0,columns

df1.join(df2)，按照index连接

df1.combine_first(df2)，修补

结果会同时包含df1和df2的行与列
df1的缺失值NaN，会被df2对应位置的数值修补

def func(x):
    a = str(x)
    return pd.Series(a+'_a')
df_new=df['col'].apply(func)
df_new.rename(columns={})
df.combine_first(df_new)

s1.combine_first(s2)修补
np.concatenate([arr1,arr2])
- axis=1，左右连接
- axis-0，堆叠

map函数

a = {'col1_1':'a','col1_3':'c'}
df['col1'].map(a)

3.2 缺失值

3.2.1 缺失值统计

是否有缺失值
- 缺失的原因

诊断

len(df['col'].unique())
len(df)
df['col'].duplicatd()
df['col'].drop_duplicates()
df.drop_duplicates(subset=['col1','col3'],keep=False,inpalce=True)

df.isnull().values.any()
df.isnull().any()
df['col'].isnull()
df['col'].isnull().values.any()

统计

df.isnull().sum()
df.isnull().sum().sum()
df.isnull().sum() / df.count()# 缺失值占比

3.2.2 缺失值填充

舍弃

df.dropna()
df.dropna(how='any')
df.dropna(thresh = 3)# 每行缺失值超过3个的都舍弃
df.dropna(how='all',axis=1)# 列

填充

df.fillna(0)
df.fillna({'col1':1,'col3':11})
df.fillna(method='ffill')
df.fillna(method='bfill',limit=3)# 限制填充数量

df['col'].fillna(df['col'].mean())
df['col'].fillna(df.groupby('col')[].transform('mean'))#其结构与df的结构一致

内插法补齐[处理有规律数据，时间戳等]
```
df.interpolate()
```

3.3 重复值

统计

df.duplicated(subset=['col1','col3']).value_counts()

先排序，再去重
```
df.sort_values(by='col1').dropduplicates(subset=['col2','col3'])
```
- 排序会将col1列NaN值放在最下面，可确保去重时不会将该列为NaN的值保留
- 因为去重时，默认保留第一次出现的行
去重的用法
```
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
```
- keep，默认：删除重复项并保留第一次出现的元素
  - 'first','last','False'，False：一行都不保留

3.4 转换

3.4.1 格式转换

要注意判断，是否包含不能转换的元素
```
df.col.astype()
```

3.4.2 字符串转换

3.4.2.1 拆分字符串

拆分字符串
```
Series.str.split(pat=None,
                 n=-1,
                 expand=False)
```
- pat：分隔符，默认为所有空字符，包括空格、换行符\n、制表符\t
- n：切几刀，默认-1，有多少切多少
- expand=
  - False，返回Series
  - True，返回DataFrame
  - 结合df1.combine_first(df_new)
    - 注意column的名称

统计长度不为N的元素的个数

df1 = df['col'].str.split('_').map(len) # 判断切割后的元素长度N
(df1 != N).sum()

3.4.2.2 诊断是否包含

df['col'].str.contains('子字符')
(~df.col1.str.contains('元/平米')).sum()

3.4.2.3 替换

较慢的法子

df['col'].map(
    lambda x:round(float(x.replace('子字符',''))/1000,2))

round(a,2)函数，保留a，2位小数

3.4.2.4 类别字符串转换为离散变量

分类字符串，转换为离散变量

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit(df['col5']) # 遍历一遍
le.transform(df['col5']) # 将分类字符串转换为离散变量

apply

df['col'].apply(str.upper)
df['col'].apply(自定义函数)

def func(x):
    a = x.strip().split(',')
    return np.Series(a[1],a[3])
df['col'].apply(func)

3.5 逻辑错误值清洗

3.6 选取行列

3.6.1 sample()

DataFrame.sample(n=None, frac=None, replace=False,weights=None, random_state=None, axis=None*)

s.sample(n=3)# 选3个随机元素
df.sample(frac = 0.1) # 随机取10%的元素
df.sample(n=3) # 随机取3行

3.6.2 时间采样

降采样
```
s.resample('M').mean()
```

升采样，填充

s.resample('H').ffill()
s.resample('H').bfill()

s1.resample(freq=, # 采样频率字符串
            axis=, # 采样的轴，默认axis=0
            fill_method=,#升采样插值
            closed=, # 降采样中，各时间段的哪一端是闭合的，right(默认)
            label=, # 降采样中，如何设置聚合值的标签
            loffset=, # 面元标签的时间校正值
            limit=, # 填充最大量
            kind= # 聚合到时期或时间戳
           )

3.6.3

结合业务，先删除和分析无关的指标
查看相关系数矩阵
判断各个变量相关性
- 相关性太大的可以考虑删除此列
- 如果变量比较重要，可以考虑主成分/因子分析进行降维处理

3.7 关联性验证

4. 数据整理

4.1 数据规范化

4.1.1 离散化

4.1.2 归一化

Z-score标准化：
- 在分类、聚类算法中，需要使用距离来度量相似性的时刻，Z-score表现更好
- 经过处理的数据符合标准正太分布，即均值0，标准差1
- 数学意义：
  - 一个给定分数距离平均数多少个标准差

4.1.2.1 0~1标准化

def f(df,*cols):
    df_n = df.copy()
    for col in cols:
        ma = df_n[col].max()
        mi = df_n[col].min()
        df_n[col+'_n'] = (df_n[col] - mi)/(ma - mi)
    return(df_n)
df_nc = f(df,'col1','col2')

4.1.2.2 Z标准化

z = (x- u) / std

def f_z(df,*cols):
    df_n = df.copy()
    for col in cols:
        u = df_n[col].mean()
        std = df_n[col].std()
        df_n[col+'_zn'] = (df_n[col]-u)/std
    return(df_n)

df_zn = f_z(df,'col1','col2')

4.1.2.3 权重叠加

八类产品两个指标val1,val2，权重分别为0.6，0.4

权重统计 =（a *3 + b*2 + c *1）/6
先对其0~1标准化，再指标权重叠加

df_nv = f(df,'val1','val2')
df_nv['f'] = df_n['val1_n']*0.6 + df_n['val2_n']*0.4
df_nv.sort_values('f',inplace=True,ascending=False)
df_nv['f'].plot(style='--.k',alpha=0.8,grid=True)

4.2 指标计算

4.2.1 统计计算

4.3 格式转换

转换为制图、指标所需格式

5. 数据分析

5.1 单属性（变量）分析

5.1.1 异常值分析

5.1.1.1 缺失值

df['col'].isnull().sum()
df['col'].dropna()
df['col'].fillna()

5.1.1.2 集中趋势、离散趋势

趋势

df['col'].mean() # 均值
df['col'].median() # 中位数
df['col'].quantile(0.25) # 分位数
df['col'].std() # 标准差
df['col'].kurt() # 峰度
df['col'].skew() # 偏度
df['col'].describe()
df['col'].mode() # 众数

5.1.1.3 离群值

箱线图
- 上边缘：Q1 - 1.5IQR
- 箱体：Q1(第一分位数)，Q3(第三分位数)
- 中横线：中位数
- 四分位差IQR： Q3-Q1
- 下边缘：Q3 + 1.5IQR
```
Q3 = df['col'].quantile(0.75)
Q1 = df['col'].quantile(0.25)
a = Q3 - Q1
# k 取 1.5~3
df['col'][(df['col']>Q1-k*a)&(df['col']<Q3+k*a)]
```

切比雪夫定理

前提（无），经验公式：

至少有75%的数据，位于平均数2个标准差范围内
至少有89%的数据，位于平均数3个标准差范围内
至少有96%的数据，位于平均数5个标准差范围内

切比雪夫定理v2.0

在正态分布中
- 正态分布中，至少有68%的数据，位于平均数1个标准差范围内
- 正态分布中，至少有95%的数据，位于平均数2个标准差范围内
- 正态分布中，至少有99.8%的数据，位于平均数3个标准差范围内

5.1.2结构分析

5.1.2.1 静态结构分析

方法一：

sns.distplot(df['col'],kde=False)# 查看其分布

方法二：

df['col'].value_counts()
df['col'].value_counts(normalize=True) # 显示为比例
df['col'].value_counts(bins=np.arange(df['col'].min(),df['col'].max()+10,10)) # bins为左闭右开

np.histogram(df['col'].values,bins=np.arange()) # bins为左开右闭

方法三：可视化

sns.boxplot() # 箱线图
sns.pointplot() # 折线图
sns.countplot() # 柱状图
sns.displot() # 直方图、密度图
plt.pie() # 饼图

5.2 双变量

5.2.1 两个变量间的分布关系

5.2.1.1 散点图

散点图

sns.jointplot(x='col1',
              y,=col2' ,
              data=df,
              kind='scatter',
              stat_func=<function pearsonr at 0x089DA6A8>, 
              color=None,
              size=6,
              ratio=5, 
              space=0.2,
              dropna=True,
              xlim=None, 
              ylim=None, 
              joint_kws=None,
              marginal_kws=None, 
              annot_kws=None)

类别值间的散点图

# 方法一
sns.stripplot(x='col1', # 类别值
              y='col2', # 类别值
              data=df,
              jitter=True # 让绘图点有浮动效果
             )
# 方法二
sns.swarmplot(x='col1',
              y='col2',
              data=df,
              hue='col3'
             )
sns.swarmplot(x='Survived',y='Age',data=df,hue='Sex')

5.2.1.2 相关性

sns.regplot(x='col1',
            y='col2',
            data=df,
            fit_reg=False,# 不添加预测线，拟合直线
            y_jitter=0.5 # 类别值，添加数据浮动
           )

```
df.corr()
```

5.3 分布分析

定性字段分布：柱状图 + 饼图
定量字段分布：直方图

5.3.1 极值差

# apply法
df[['col1','col2']].apply(lambda x:x.max() - x.min())

# 自定义函数法
def d_range(data,*cols):
    krange=[]
    for col in cols:
        crange=df[col].max() - df[col].min()
        krange.append(crange)
    return(krange)

kcol1='col1'
kcol2='col2'
dr = d_range(df,kcol1,kcol2)
print('%s极差为：%f\n%s极差为：%f'%(kcol1,dr[0],kcol2,dr[1]))

5.3.2 频率分布

连续数据离散化

gcut = pd.cut(df['col1'],bins=10,right=False)
gcut_count = gcut.value_counts(sort=False)
df["%s分组区间"%kcol1]=gcut

5.3.2.1 累计频率-帕累托分析指标

帕累托分析

先由大到小排序

p = df.cumsum() / df.sum() 
key = p[p>0.8].index[0]
key_num = df.index.tolist().index(key)
p.plot(style='--ko',secondary_y=True)
plt.axvline(key_num,color='r',linestyle='--')
plt.text(key_num+0.2,p[key],'累计占比为%.3f%%'%(p[key]*100),color='r')#累计占比超过80%的节点

a = pd.DataFrame(gcut_count).rename({gcut_count.name:'频数'},inplace=True) # 创建分组DataFrame
a['频率']=a['频数'] / a['频数'].sum() # 频率
a['累计频率']=a['频率'].cumsum() # 累计频率

# 转换百分数
a['频率']=a['频率'].apply(lambda x:"%.2f%%"%(x*100))
a['累计频率']=a['累计频率'].apply(lambda x:"%.2f%%"%(x*100))

5.3.2.2 可视化

定量字段分布

柱状图
堆积柱状图
百分比柱状图

plt.rcParams['font.sans-serif']=['SimHei'] # 全局设置为黑体
plt.rcParams['axes.unicode_minus'] = False # 显示负坐标
plt.rcParams['font.size']=20 # 字号
a['频率'].plot.bar(figsize=(12,3),alpha=0.7,grid=True)

# 添加标签
x=len(a)
y=a['频率']
m=a['频数']
for i,j,k in zip(range(x),y,m):
    plt.text(i-0.1,j+0.01,'%i'%k,color='k')
    
# 百分比柱状图
df.div(df.sum(1).astype(float),axis=0).plot.barh(stacked=True,color=['b','r','k','g'],fontsize=15,figsize=(12,6))

定性字段分布

# 柱状图
cxx['频率'].plot.bar(figsize=(12,3))
# 添加标签
x=len(cxx)
y=cxx['频率']
m=cxx['频数']
for i,j,k in zip(range(x),y,m):
    plt.text(i-0.1,j+0.01,'%i'%k,color='k')

# 饼图
plt.figure(num=2) # 饼图在直方图下方显示
plt.pie(cxx['频数'],
        labels=cxx.index,
        autopct='%.2f%%',shadow=True)
plt.axis('equal')

5.1.3 对比

5.4 对比分析

对比分析：两个互相联系的指标进行比较

5.4.1 绝对值比较（相减）

# 折线图
df.plot(kind='line',
        style='--',
        alpha=0.8,
        figsize=(10,3)
        title=('AB产品销量对比——折线图')
       )

# 柱状图
df.plot(kind='bar',
        width=0.8,
       alpha=.8,
       figsize=(10,3),
       title='AB产品销量对比-柱状图')

# 相减
x=range(len(df))
y1=df['A']
y2=-df['B']

fig3 = plt.figure(figsize=(10,6))
plt.subplots_adjust(hspace=0.3)

ax1=fig3.add_subplot(2,1,1)
plt.bar(x,y1,width=1,facecolor='r')
plt.bar(x,y2,width=1,facecolor='g')


ax2 = fig3.add_subplot(2,1,2)
y3 = df['A']-df['B']
plt.plot(x,y3,'--go')
plt.grid() # 添加网格
plt.axhline(0,color='r',linstyle='--')# 辅助线

5.4.2 相对值比较（相除）

5.4.3 结构分析

5.4.4 比较分析

5.4.5 空间比较分析

5.4.6 动态比较分析

5.1.4 预测

5.1.5 洞察结论，制图-看图说话

根据描述分析结论，形成洞察结果

5.2 数据建模

模型选择
模型测试
迭代优化
模型加载

5.2.1 线性回归（初学者）

5.2.2 聚类模型（初学者）

5.2.3

6. 可视化

1 分析图表

单维度

柱状图
折线图
饼图
散点图

多维度

热力图
箱线图
矩阵
散点图

空间图表

关系图表

2 动态交互

Echarts
百度图说
Python与Echarts的结合

3 商业智能

BDP
Tableau
power BI
脉策数据-Datamap

7. 业务理解

8 验证型分析

基本概念
- 随机变量
  - 离散随机变量：取值可能性有限
  - 连续随机变量：有无限个可能取值的随机变量
- 概率分布
  - 连续随机变量概率分布
    - 概率密度函数
- 假设检验
- P-value
  - 5%
  - 1%
  - 0.1%
- 中心极限定理
  - 大量相互独立的随机变量，其均值的分布以正态分布为极限

8.1 假设检验基本流程

提出零假设（我们希望推翻的结论），及备择假设（我们希望证明的结论）
在零假设的前提下，推断当前样本统计量出现的概率
- 统计量可符合不同分布，及对应不同的检验方法
设定一个拒绝零假设的阈值（常见5%，即统计学意义“显著”，significant），如果目前样本统计量在零假设下出现的概率小于阈值，则拒绝零假设，承认备择假设。

单样本
- z检验
- t检验
双样本
- t检验

8.2 单样本z检验

假设：要检验的统计量（近似）满足正态分布
常见用途：检测总体平均值是否等于某个常量
python
零假设：复旦大学男生平均身高175cm
备择假设：复旦大学男生平均身高不是175cm
```
conda install statsmodels

z, pval = statsmodels.stats.weightstats.ztest(X,values=175)
```
- X：样本集

8.4 单样本t检验

适用于样本量较少（n<30）
自由度：样本数量减去1
t分布比正态分布宽（不确定性更高）
python
零假设：复旦大学男生平均身高175cm
备择假设：复旦大学男生平均身高不是175cm
```
conda install scipy

t,pval = scipy.stats.ttest_1samp(X,popmean=175)
```
- 比z检验更常用

8.5 双样本t检验

零假设：复旦大学和上海大学男生平均身高一样
备择假设：复旦大学和上海大学男生平均身高不一样
```
t, pval = scipy.stats.ttest_ind(X1,X2)
```
- 双样本t检验最常见的用法就是比较两组样本的平均值是否一致

可视化

sns.distplot(df['col1']) # 分布图
sns.regplot(x='col1',y='col3',data=df) # 连续变量间的相关性
sns.boxplot(x='col2',y='col3',data=df) # 离散变量与连续变量的相关性

# 热力图
info=['col1','col3','col5','col8']
sns.set(font_scale=0.7) # 设置字体大小
sns.heatmap(df[info].corr(), 相关性
            annot=True, # 显示参数值
            vmin=0, # 
            vmax=1)

9.6.1 相关性系数

皮尔逊系数

[-1,1]，[负相关，正相关]

from scipy.stats.stats import pearsonr
pearsonr(x,y)

```
df.corr()
```

交叉检验

多模型交叉检验

from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForesRegressor
from sklearn.model_selection import cross_val_score

info=['col1','col3','col4','col5']
lr = LinearRegression()
rf = RandomForestRegressor()

models = [lr,rf]
for model in models:
    scores = cross_val_score(model,df[info],df['col10'],cv=5,scoring='neg_mean_absolute_error')
    print(type(model).__name__,np.mean(scores))

你可能感兴趣的:(Learning,Day,数据分析,2019,数据处理,儒冠多误身)

k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
洛谷 P11120 [ROIR 2024 Day 1] 登机题解殇之夜洛谷 c++c语言算法
Part0前言这种题一看就是签到题，也是特水，建议评红或橙。Part1思路就是先将已有位置先填对称，然后将剩余还未添加的乘客以对称方式填入。首先可以特判掉需要的位置大于空位的情况，直接输出Impossible。然后用数组记录.和X的位置，先遍历所有X的位置，然后看他的对称位置是否为空，若为空，则填入X，然后m--。最后若musingnamespacestd;chara[1010][10];stru
配音助手：自媒体神器，内置海量音色的语音，支持多主播配音阿幸软件杂货间媒体
软件介绍内置文字转语音，提供多个主播音色，男声、女声、小孩、方言。支持的场景也是比较多，比如：广告促销、有声读物、广播配音、影视配音、Ai配音等。这个软件是免费的，只不过需要通过手机号码登录就可以使用全部功能了。软件下载夸克下载
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
matlab卷积矩阵绝对值,MATLAB矩阵分析和计算 weixin_39928736 matlab卷积矩阵绝对值
MATLAB矩阵分析和计算编辑锁定讨论上传视频本词条缺少概述图，补充相关内容使词条更完整，还能快速升级，赶紧来编辑吧！《MATLAB矩阵分析和计算》是清华大学出版社出版的一本图书。[1]书名MATLAB矩阵分析和计算作者杜树春出版社清华大学出版社出版时间2019年6月1日定价59元ISBN9787302524816印次1-1印刷日期2019.04.23MATLAB矩阵分析和计算图书内容编辑本书侧重
JAVA 高频八股文 Day03 Conqueror675 java 开发语言
12.TCP和Http的区别是什么TCP是传输层协议，负责建立可靠的点对点连接，确保数据有序、完整地传输（如铁路轨道）；HTTP是应用层协议，基于TCP构建，定义了Web服务交互的报文格式和规则（如货运订单）。TCP关注数据如何可靠送达，通过三次握手建立连接、流量控制等机制保证传输；HTTP关注传输内容的意义，提供请求/响应语义（GET/POST等）和无状态通信。补充：说一下什么是三次握手四次挥手
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
赋能长沙汽车服务升级，神秘顾客调查筑牢竞争壁垒
在汽车消费日益理性的当下，（长沙市场调研）（汽车行业密采）（湖南汽车神秘顾客）服务体验已成为车企突围市场的核心竞争力。湖南群狼市场调研服务有限公司凭借深耕华中地区的行业积淀，以专业的汽车服务神秘顾客调查服务，为长沙及周边地区的汽车企业精准把脉服务短板，助力其在激烈竞争中筑牢优势。作为立足华中地区的专业调研机构，群狼调研辐射湖南、湖北、江西、河南、安徽等百余个省市乡镇，依托多领域专家团队与国际标准的
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
学习日记-spring-day45-7.10 永日45670 学习 spring java
知识点：1.初始化Bean单例池完成getBeancreateBean（1）知识点核心内容重点单例词初始化在容器初始化阶段预先创建单例对象，避免在getBean时动态创建单例词必须在容器初始化时完成加载，否则会触发异常getBean方法逻辑1.从beanDefinitionMap查询BeanDefinition2.根据scope判断单例/多例3.单例：直接从单例词获取4.多例：反射动态创建新对象多
7. TCP 和 UDP 的区别 yqcoder 前端面试-服务协议网络网络协议 http
总结TCP面向连接，需要三次握手建立连接，UDP无连接，不需要握手，直接发送数据。UDP有较好的实时性，效率比TCP高。TCP面向字节流，实际上是TCP把数据看成一连串无结构的字节流，UDP是面向报文的，一次交付一个完整的报文，报文不可分割，报文是UDP数据报处理的最小单位。每一条TCP连接时一对一的，UDP可以一对多，多对一，多对多。UDP分组首部开销小，八个字节，TCP首部开销大约20字节。U
2.4 基于dpdk的用户态协议栈的实现百亿苍狗高性能网络设计专栏开发语言网络
操作系统PosixAPI所提供的网络接口，数据收发是基于用户态与内核态的频繁切换实现。而dpdk实现了绕过内核监管，直接在用户态访问网络硬件，避免频繁状态切换。DPDK安装与配置虚拟机环境配置检查是否支持多队列网卡cat/proc/interrupts|grepens33(获取整个机器的终端)，结果19:4202120IO-APIC19-fasteoiens33，不支持多队列网卡。虚拟机关机，修改
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
Webpack5 多页面实践
特性维度单页面应用-SPA多页面统一目录-MPA多页面单独部署-MPA入口数量单个，只有一个HTML文件多个，多个HTML文件多个，多个HTML文件，分别打包输出资源输出结构所有资源输出到统一目录（如js/,css/）所有页面的资源共用js/,css/等目录每页资源放在各自目录（如index/js/,index/css/）公共资源复用高：依赖打入主包或懒加载chunk，资源完全共享中：可通过spl
Python入门--day04--Python 推导式、常见语句和内置函数总结 the time zips by #Python基础 python 开发语言
文章目录前言一、推导式1.列表推导式2.集合推导式3.字典推导式4.生成器推导式二、常见语句1赋值语句2.控制语句2.1条件语句2.1.1if-elif-else2.1.2match-case2.2循环语句2.2.1for循环2.2.2while循环2.3循环控制语句2.3.1break2.3.2continue2.3.3pass3.range语句3.函数定义语句4.异常处理语句4.1try-ex
flask模型model--多表操作 lpy817 flask python 后端数据库 mysql
外键的设置表之间的关系为一对多时，需要创建两张表，在多的一端表中设置外键。表之间的关系为多对多时，需要创建三张表，两边的表中一般都不设置外键，构建一张中间表对这两个表设置外键。如何知道backref定义的反向属性名，最终可以访问什么？#在A模型中（比如Grade）students=db.relationship('Student',backref='grade')#那么在B模型（Student）中
PythonDay01
这里写目录标题一、注释1、单行注释2、多行注释二、定义变量1、要求2、代码三、关键字四、print函数五、基本数据类型1、整型2、字符串类型3、小数类型4、布尔类型5、空类型六、类型之间的相互转换1、从字符串转成int类型2、字符串转换成浮点型3、float转换成int4、丢失精度时不会去做四舍五入5、布尔类型七、字符串的常见操作1、split切分2、strip去除字符串两边的隐藏字符3、字符串的
Python Day9
@浙大疏锦行PythonDay9.内容：热力图的绘制enumerate()方法子图的绘制代码：list_nums=[1,2,3,4,5,6]forindex,valinenumerate(list_nums):print(f"index={index},val={val}")forvalinlist_nums:print(f"val={val}")importpandasaspdimportmat
AI技术正在深刻重塑A/B测试优化的流程、效率和价值，推动其从传统的“手动实验”向“智能优化引擎”跃迁。 zzywxc787 人工智能
AI技术正在深刻重塑A/B测试优化的流程、效率和价值，推动其从传统的“手动实验”向“智能优化引擎”跃迁。以下是具体变革方向及实际影响：1.实验设计智能化：告别“猜猜看”传统痛点：依赖经验选择测试变量（如按钮颜色、文案），忽略潜在高价值组合。AI解决方案：多臂老虎机算法（MAB）：动态分配流量至表现最优的变体（如：80%流量给当前最优，20%探索新选项），减少流量浪费高达70%（Netflix案例）
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink DataStream API详解（一） bxlj_jcj Flink flink 大数据
一、引言Flink的DataStreamAPI，在流处理领域大显身手的核心武器。在很多实时数据处理场景中，如电商平台实时分析用户购物行为以实现精准推荐，金融领域实时监控交易数据以防范风险，DataStreamAPI都发挥着关键作用，能够对源源不断的数据流进行高效处理和分析。接下来，就让我们一起深入探索FlinkDataStreamAPI。二、DataStream编程基础搭建在开始使用FlinkDa
OpenCV图像数据处理:convertTo,normalize和scaleAdd luofeiju OpenCV函数实战 opencv
在OpenCV图像处理的世界里，有几个函数进行一些基本数据变换：cv::convertTo()：类型转换与线性缩放；cv::normalize()：归一化处理；cv::scaleAdd()：加权叠加运算。cv::addWeighted():与scaleAdd相似，进行加权叠加运算；一、cv::convertTo()：线性变换+数据类型转换voidcv::Mat::convertTo(OutputA
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Flink DataStream API详解（二）
一、引言咱两书接上回，上一篇文章主要介绍了DataStreamAPI一些基本的使用，主要是针对单数据流的场景下，但是在实际的流处理场景中，常常需要对多个数据流进行合并、拆分等操作，以满足复杂的业务需求。Flink的DataStreamAPI提供了一系列强大的多流转换算子，如union、connect和split等，下面我们来详细了解一下它们的功能和用法。二、多流转换2.1union算子union算
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&