笔尖微凉

数据分析10章-数据的合并和分组聚合

1.对非数值型且多类别数据的处理方式
2.groupby

01字符串离散化的案例–对非数值型且多类别数据的处理方式

视频中的数据没有，所以自己制作数据，自己采用的是中电比赛的一个数据：采用了Alarm_equip列中的数据：你们可以自己制作数据来实现

1.导入数据，并删去无数据的行列

import pandas as pd
import numpy as np
file_path = './trainData-V1.csv'

df = pd.read_csv(file_path)
df = df.dropna()

2.对特征中的非数值型多列别的数据进行处理
选择10行的数据进行处理：

#------------对特征有多个类别的时候处理方式------------------
#在series里面，tolist是没有下划线的，在dataFrame里面to_list是有下划线的
#Alarm_list:[[],[],[]]
Alarm_list = df['Alarm_equipment'][:10].str.split(",|，").tolist()
Alarm=[]
for i in Alarm_list:
    Alarm.extend(i)
Alarm = list(set(Alarm))
#-----------------构造为0的数组----------------
zero_df = pd.DataFrame(np.zeros((10,len(Alarm))),columns=Alarm)
#--------------给每个出现的标签赋值1--------------
for i in range(len(zero_df)):
    # zero_df.loc[0,['_r1wt','_r2wt','_r3wt']] = 1
    zero_df.loc[i,Alarm_list[i]] = 1
print(zero_df)

完整代码：

import pandas as pd
import numpy as np
file_path = './trainData-V1.csv'

df = pd.read_csv(file_path)
# print(df.info())
#
# print(df.head(1))
# print(list(df["Alarm_equipment"][:100].str.split(',|，')))
df = df.dropna()

# print(df['Alarm_equipment'][:10].str.split(",|，").tolist())
#------------对特征有多个类别的时候处理方式------------------
Alarm_list = df['Alarm_equipment'][:10].str.split(",|，").tolist()#在series里面，tolist是没有下划线的，在dataFrame里面to_list是有下划线的
#Alarm_list:[[],[],[]]
Alarm=[]
for i in Alarm_list:#或者Alarm = list(set([j for i in Alarm_list for j in i]))
    Alarm.extend(i)
# print(len(Alarm))
# print(len(set(Alarm)))
Alarm = list(set(Alarm))
#-----------------构造为0的数组----------------
# zero_list = np.zeros(len(Alarm))
# zero_df =pd.DataFrame(np.zeros((df.shape[0],len(Alarm))), columns=Alarm)
zero_df = pd.DataFrame(np.zeros((10,len(Alarm))),columns=Alarm)
# print(zero_df)
#--------------给每个出现的标签赋值1--------------
# num = 0
# for j in Alarm_list:
#     for i in j:
#         if i in zero_df.columns:
#             zero_df.loc[num,i]=1
#     num +=1
# 或者
for i in range(len(zero_df)):
    # zero_df.loc[0,['_r1wt','_r2wt','_r3wt']] = 1
    zero_df.loc[i,Alarm_list[i]] = 1
# print(zero_df[zero_df>0])
print(zero_df)

#--------------统计每个分类的数量和----------------
Alarm_count = zero_df.sum(axis=0)
print('每个分类的数量和：',Alarm_count)

#--------------------排序------------------------
# 对数量和进行排序
Alarm_sum = Alarm_count.sort_values()
print(Alarm_sum)

#------------------画图-----------------------
from matplotlib import pyplot as plt
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']

_x = Alarm_sum.index
y = Alarm_sum.values
plt.figure(figsize=(20,8),dpi=80)
plt.bar(range(len(_x)),y)

plt.xticks(range(len(_x)),_x,rotation=90)
plt.yticks(range(3))

#显示X,Y的标签
plt.xlabel("数量")
plt.ylabel("类别")

plt.show()

02数据合并

join的使用----按行索引进行合并，以第一个字典为主

t1 = pd.DataFrame(np.zeros((2,3)),index=['A','B'],columns=list('xyz'))
print(t1)

t2 = pd.DataFrame(np.ones((3,3)))
print(t2)

print(t1.join(t2))

为什么会这样？—需要行索引相同才能正确拼接

所以将t2进行修改：

t2 = pd.DataFrame(np.ones((3,3)),index=['A','B','C'],columns=list('abc'))
print(t2)
print(t1.join(t2))

print(t2.join(t1))

列合并：

t1 = pd.DataFrame(np.ones((2,4)),index=['A','B'],columns=list('abcd'))
print(t1)

t2 = pd.DataFrame(np.zeros((3,3)),index=['A','B','C'],columns=list('xyz'))
print(t2)

t3 = pd.DataFrame(np.zeros((3,3)),columns=list('fax'))
print(t3)

print(t1.merge(t3,on="a"))#按照a列，若t1 t3的a列有相同的数值，则取交集，没有则不合并

因为若t1 t3的a列没有相同的数值，所以不合并。

t3.loc[1,‘a’]=1
print(t3)

print(t1.merge(t3,on="a"))

因为t1中a列有两行都等于1，所以这两列与t3中的进行合并

t3 = pd.DataFrame(np.arange(9).reshape((3,3)),columns=list('fax'))
print(t3)
print(t1.merge(t3,on="a"))#按照a列，若t1 t3的a列有相同的数值，则合并，没有则不合并

t1.loc['A','a']=100
print(t1)
print(t1.merge(t3,on="a"))

修改t1后，可以看到只合并了一行，因为a列中只有一个数（或者说一行）是相等的。

介绍：inner/outer方式
how=‘inner’—取交集
how=‘outer’—取并集

print(t1.merge(t3,on="a",how='inner'))#默认的是how='inner'---取交集

t1 = pd.DataFrame(np.ones((2,4)),index=['A','B'],columns=list('abcd'))
print(t1)
t3 = pd.DataFrame(np.arange(9).reshape((3,3)),columns=list('fax'))
print(t3)
t1.loc['A','a']=100
print(t1)
print(t1.merge(t3,on="a",how='outer'))#默认的是how='outer'---取并集

print(t1.merge(t3,on="a",how='left'))#以左边的t1为主

print(t1.merge(t3,on="a",how='right'))#以右边的t3为主

03数据分组聚合

无数据，自己造的数据：

import pandas as pd
import numpy as np
file_path = './trainData-V1.csv'
df = pd.read_csv(file_path)
df = df.dropna()
#print(df.info())

fault_title_group = df[:20].groupby(by='fault_title')#只选择20行进行操作----对df，通过fault_title列建立groupby,后面可以遍历，调用
print(fault_title_group)

DataFrameGroupBy object at 0x0000000006D847F0>

for i ,j in fault_title_group:
    print(i)
    print("*"*100)
    print(j)
    print(type(j))

#调用聚合方法：统计该列下fault_title的类别和个数
#fault_title_group是'fault_title'组成的group,但他实际是一个DataFrame格式，所以fault_title_group['serv_type']可以获取DataFrame(fault_title_group)中的列，
print(fault_title_group['serv_type'].count())

fault_count = fault_title_group['serv_type'].count()
print(fault_count['设备发生故障'])#显示该列别（'设备发生故障'）的个数,fault_title_group是'fault_title'组成的group,但他实际是一个DataFrame格式，fault_title_group['serv_type'].count可以对其计数，但是还是一个DataFrame格式，fault_title_group['serv_type'].count()['设备发生故障']可以获取DataFrame(fault_title_group['serv_type'].count())中的列['设备发生故障']相关数据。

04数据分组聚合02

import pandas as pd
import numpy as np
file_path = './trainData-V1.csv'
df = pd.read_csv(file_path)
df = df.dropna()
#print(df.info())

fault_data = df[df['fault_title']=='设备发生故障'] #选定‘设备发生故障’的数据
# print(fault_data[:10])
grouped = fault_data[:10].groupby(by="CODE").count()#依据fault_data数据对'CODE'列进行计数
print(grouped)#对DataFrame计数还是一个DataFrame格式

grouped = fault_data[:10].groupby(by="CODE").count()['Alarm_equipment']#对DataFrame提取['Alarm_equipment’]列的数据
print(grouped)

注意上图：CODE是group的依据项，Alarm_equipment是调用计算count后的DataFrame中的列项值


这里两个索引是叫复合索引,后面对复合索引进行举例。

import pandas as pd
file_path = './trainData-V1.csv'
df = pd.read_csv(file_path)
df = df.dropna()
print(df.info())

#数据按照多个条件进行分组
# grouped = df['fault_title'].groupby(by=['Alarm_equipment',"CODE"]).count()  #---不可用，是因为df['fault_title']是series类型，里面根本没有'Alarm_equipment',"CODE"项
grouped = df['fault_title'].groupby(by=[df['Alarm_equipment'],df['CODE']]).count()
print(grouped)
print(type(grouped))#Series类型，主要是看df是使用的啥类型，这里使用的是df['fault_title']，就是Series类型

grouped = df.groupby(by=[df['Alarm_equipment'],df['CODE']]).count()
print(type(grouped))#DataFrame类型，主要是看df是使用的啥类型

注意：两者的区别，最后的类型依赖于所取的df是DataFrame还是Series(df[‘fault_title’])

如果对所取的是df[‘fault_title’]但是仍然需要返回时DataFrame类型，则需要进行如下修改：df[‘fault_title’]—》df[ [‘fault_title’] ]

#如何将返回的Series改为DataFrame类型
grouped1 = df[['fault_title']].groupby(by=[df['Alarm_equipment'],df['CODE']]).count()
grouped2 = df.groupby(by=[df['Alarm_equipment'],df['CODE']])[['fault_title']].count()
grouped3 = df.groupby(by=[df['Alarm_equipment'],df['CODE']]).count()[['fault_title']]
print(type(grouped1))
print(type(grouped2))
print(type(grouped3))

注意：1.注意他们之间的区别，以及series怎么变成DataFrame的
2.df.groupby(by=[df[‘Alarm_equipment’],df[‘CODE’]])[[‘fault_title’]].count()也可以写成：
df.groupby(by=[‘Alarm_equipment’，‘CODE’])[[‘fault_title’]].count()
3.以上三个表示的意思是，以[‘Alarm_equipment’],[‘CODE’]建立group，然后提取出建立group后的[‘fault_title’]列，并统计
4.对单个的df从series转成DataFrame也是一样操作

05数据的索引学习

grouped1 = df[['Alarm_equipment']].groupby(by=[df['fault_title'],df['CODE']]).count()
print(grouped1[:20].index)
print(grouped1[:20])

MultiIndex(levels=[[‘A级’, ‘BBU中断’, ‘BTS掉站’, ‘B级’, ‘C级’, ‘Down’, ‘D级’, ‘E1’, ‘FAULT’, ‘FDD’, ‘IP’, ‘LTE’, ‘Num’, ‘OBD’, ‘OLT’, ‘ONU’, ‘ONU离线(FTTB类)’, ‘PON’, ‘RRU’, ‘RTR’, ‘msgno’, ‘unknown’, ‘不可用’, ‘不可达’, ‘不合格’, ‘交流电异常’, ‘停电’, ‘失败’, ‘巡检异常’, ‘总电压’, ‘断站告警’, ‘本地网’, ‘温度告警’, ‘状态Down’, ‘状态异常’, ‘用户异常’, ‘电池告警’, ‘电路异常’, ‘直流电异常’, ‘网元告警’, ‘网元异常’, ‘设备发生故障’, ‘设备告警’, ‘设备掉电’, ‘设备无效’, ‘设备脱管’, ‘超低告警’, ‘过低告警’, ‘通信中断’, ‘通信链路中断’, ‘通讯异常’, ‘通讯状态’, ‘采集失败’], [‘GZ300190210’, ‘GZ300190211’, ‘GZ300190212’, ‘GZ300190213’, ‘GZ300190214’, ‘GZ300190215’, ‘GZ300190216’, ‘GZ300190217’, ‘GZ300190218’, ‘GZ300190219’, ‘GZ300190220’, ‘GZ300190221’, ‘GZ300190222’]],
labels=[[0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2], [0, 1, 5, 9, 11, 12, 0, 1, 2, 4, 5, 9, 10, 11, 12, 0, 1, 2, 4, 5]],
names=[‘fault_title’, ‘CODE’])

df1= pd.DataFrame(np.ones((2,4)),index=['A','B'],columns=list('abcd'))
print(df1)
print(df1.index)

df1.index=['a','b']
print(df1)
print(df1.index)

print(df1.reindex(['h','a']))#因为a索引存在，所以有值，h索引不存在，所以为Nan
print(df1) #df1没有变，上面只是提取了两行而已

#将某一列作为索引
df1.loc['a','a'] =100
print(df1)
print(df1.set_index('a'))

print(df1.set_index('a',drop=False))#drop=False是指继续保存列

print(df1.set_index("b").index.unique())
print(list(df1.set_index("a").index))

[ 1.]
[100.0, 1.0]

print(df1.set_index(["a","b"]))
print(df1.set_index(["a","b"]).index)

print(df1.set_index(["a","b","c"],drop=False))
print(df1.set_index(["a","b","c"],drop=False).index)

a = pd.DataFrame({'a':range(7),'b':range(7,0,-1),'c':['one','one','one','two','two','two','two'],'d':list('hjklmno')})
print(a)
print(a.set_index(['c','d']))

06数据分组聚合练习和总结

a = pd.DataFrame({'a':range(7),'b':range(7,0,-1),'c':['one','one','one','two','two','two','two'],'d':list('hjklmno')})
print(a)
b = a.set_index(['c','d'])
print(b)

c=b['a']
print(c)

print(type(c))

print(c['one']['j'])
print('-'*100)
print(c['one'])

d = a.set_index(["d","c"])["a"]#这个和c是一样的，都是取a列，只是所使用的行c,d交换了位置
print(d)

print(d.index)
print(d.swaplevel())#交换levels，交换之后就是和前面的c一样啦

print(d.swaplevel()['one'])#与上面的c['one']相同

print(b)#这个type(b)是DataFrame
print("---------------------")
print(b['a']['one']['j'])#只能取到a列上的数
print('***********************')
print(b.loc['one'].loc['j'])#能取到a和b列上的数

print(b.swaplevel().loc[‘h’])

动手实例1：—无数据，所以自己造了数据：

df = pd.DataFrame({'a':range(7),'Brand':range(7,0,-1),'Country':['one','one','one','two','two','two','two'],'d':list('hjklmno')})
df =df.set_index(['a'])
print(df)
grouped = df.groupby(by=['Country']).count()['Brand'].sort_values(ascending=False)
print(grouped)
print(type(grouped))

注意：grouped类型是series

#取索引和values
_x = grouped.index
_y = grouped.values

#画图
from matplotlib import pyplot as plt
plt.figure(figsize=(20,8),dpi=80)
plt.bar(range(len(_x)),_y)

plt.xticks(range(len(_x)),_x)

plt.show()

动手实例2：
生成数据：

df = pd.DataFrame({'a':range(7),'Brand':range(7,0,-1),'Country':['one','one','one','two','two','two','two'],'City':list('hjkllno')})
df =df.set_index(['a'])
print(df)

df = df[df['Country']=='two']
print(df)
grouped = df.groupby(by=['City']).count()['Brand'].sort_values(ascending=True)
print(grouped)
print(type(grouped))

#获取数据
_x = grouped.index
_y = grouped.values
#画图
from matplotlib import pyplot as plt
plt.figure(figsize=(20,8),dpi=80)
plt.barh(range(len(_x)),_y)
# plt.bar(range(len(_x)),_y)

plt.yticks(range(len(_x)),_x)
plt.show()

完整程序：

df = pd.DataFrame({'a':range(7),'Brand':range(7,0,-1),'Country':['one','one','one','two','two','two','two'],'City':list('hjkllno')})
df =df.set_index(['a'])
print(df)

df = df[df['Country']=='two']
print(df)
grouped = df.groupby(by=['City']).count()['Brand'].sort_values(ascending=True)
print(grouped)
print(type(grouped))

_x = grouped.index
_y = grouped.values

from matplotlib import pyplot as plt

plt.figure(figsize=(20,8),dpi=80)
plt.barh(range(len(_x)),_y)
# plt.bar(range(len(_x)),_y)

plt.yticks(range(len(_x)),_x)

plt.show()

动手实例3：不同年份书的数量
没有数据，首先构造数据：

df = pd.DataFrame({'a':range(10),'original_publication_year':range(1956,1966),'average_rating':[5.6,6.0,7.8,8.9,9.0,4.5,5.5,4.6,9.0,5.6],'title':list('abcdefghij')})
df =df.set_index(['a'])
df.loc[3,'original_publication_year'] = None
df.loc[4:6,'original_publication_year'] = 1956
df.loc[8,'original_publication_year'] = 1965
print(df)

去除nan项：

data1 = df[pd.notnull(df['original_publication_year'])]
print(data1)

建立以的groupe,并计算count,然后显示（DataFrame类型）title项

grouped = data1.groupby(by=['original_publication_year']).count()['title'].sort_values()
print(grouped)

画图：


_x = grouped.index
_y = grouped.values

from matplotlib import pyplot as plt
plt.figure(figsize=(20,8),dpi=80)
plt.barh(range(len(_x)),_y)
# plt.bar(range(len(_x)),_y)

plt.yticks(range(len(_x)),_x)

plt.show()

完整代码：

df = pd.DataFrame({'a':range(10),'original_publication_year':range(1956,1966),'average_rating':[5.6,6.0,7.8,8.9,9.0,4.5,5.5,4.6,9.0,5.6],'title':list('abcdefghij')})
df =df.set_index(['a'])
df.loc[3,'original_publication_year'] = None
df.loc[4:6,'original_publication_year'] = 1956
df.loc[8,'original_publication_year'] = 1965
print(df)

data1 = df[pd.notnull(df['original_publication_year'])]
print(data1)

grouped = data1.groupby(by=['original_publication_year']).count()['title'].sort_values()
print(grouped)

_x = grouped.index
_y = grouped.values

from matplotlib import pyplot as plt
plt.figure(figsize=(20,8),dpi=80)
plt.barh(range(len(_x)),_y)
# plt.bar(range(len(_x)),_y)

plt.yticks(range(len(_x)),_x)

plt.show()

动手实例3：不同年份书的平均评分

#构建数据
df = pd.DataFrame({'a':range(10),'original_publication_year':range(1956,1966),'average_rating':[5.6,6.0,7.8,8.9,9.0,4.5,5.5,4.6,9.0,5.6],'title':list('abcdefghij')})
df =df.set_index(['a'])
df.loc[3,'original_publication_year'] = None
df.loc[4:6,'original_publication_year'] = 1956
df.loc[8,'original_publication_year'] = 1965
# print(df)

#去除NAN项
data1 = df[pd.notnull(df['original_publication_year'])]
print(data1)

#计算不同年份书的平均评分
grouped = data1['average_rating'].groupby(by=data1['original_publication_year']).mean().sort_values()
# grouped = data1.groupby(by=['original_publication_year']).mean()['average_rating'].sort_values()#余上面效果一样
print(grouped)

#画图
_x = grouped.index
_y = grouped.values

from matplotlib import pyplot as plt
plt.figure(figsize=(20,8),dpi=80)
plt.barh(range(len(_x)),_y)
# plt.bar(range(len(_x)),_y)

plt.yticks(range(len(_x)),_x)
plt.show()

总结：

你可能感兴趣的:(数据分析,数据分析,非数值型数据处理,groupby,join/merge,index)

数据分析面临的三大挑战该如何解决銨靜菂等芐紶数据挖掘大数据数据分析
转载自品略图书馆http://www.pinlue.com/article/2020/09/0712/2611202048648.html有效的分析已成为决定性因素，很明显，掌握它的人会蓬勃发展。但是，实现这一目标的过程并非没有障碍。最常见的数据分析挑战是什么？公司如何自信地应对它们？下面就来介绍一下。1、浏览预算限制数据分析领导者需要在当下采取行动，但同时也需要考虑未来。平衡这些需求要求他们在制
数据分析过程中，发现数值缺失，怎么办？学掌门大数据数据分析 IT 数据分析数据挖掘
按照数据缺失机制，数据分析过程中，我们可以将其分为以下几类：（1）完全随机缺失（MCAR）：所缺失的数据发生的概率既与已观察到的数据无关，也与未观察到的数据无关。（2）随机缺失（MAR）：假设缺失数据发生的概率与所观察到的变量是有关的，而与未观察到的数据的特征是无关的。MCAR与MAR均被称为是可忽略的缺失形式。（3）不可忽略的缺失（NIM）：亦称为非随机缺失，即如果不完全变量中，数据的缺失既依赖
高级前端面试题-React 圣诞小子 javascript 面试
react概念类组件和函数组件,什么时候用类组件获取组件实例类组件如何实现逻辑复用？高阶组件、renderprops选择hooks的优点状态逻辑复用；状态逻辑集中，易于理解；类组件不利于优化，比如不能很好的压缩为什么要用hooks,解决了什么问题同上react的context的使用场景共享对一个组件树全局的信息，不需要一层层传参受控组件和非受控组件非受控组件：数据只保存在内部state中；受控组件
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
CCF CSP 历年真题 C语言版满分代码集合 (至2021.9 持续更新中 JY_0329 CCF c语言开发语言 csp ccf 算法
CCFCSP历年真题C语言版满分代码集合（全部原创）2021-9-1数组推导2021-9-2非零段划分2021-4-1灰度直方图2021-4-2领域均值2020-12-1期末预测之安全指数2020-12-2期末预测之最佳阈值2020-9-1称检测点查询2020-9-2风险人群筛查2020-6-1线性分类器2020-6-2稀疏向量2019-12-1报数2019-12-2回收站选址2019-9-1小明
对数据库的总结 java
一、数据库基础1.数据库是一个用于存储和操作数据的文件系统2.关系型数据库：是基于二维表存储的，每个表格由列和行组成，列代表属性，行代表约束，数据的组织和查询更加方便和高效。3.库表操作结构：MySQL和Oracle，通用工具Navicat4.SQL语句的库表操作：createtable：创建表altertable：修改表droptable：删除表truncatetable：删除表中的所有数据，但
集睿致远CS5518 Mipi转lvds点屏方案芯片，pin to pin替代国腾GM8775C方案单片机芯片嵌入式
GM8775C型DSI转双通道LVDS发送器产品主要实现将MIPIDSI转单/双通道LVDS功能，MIPI支持1/2/3/4通道可选，最大支持4Gbps速率。LVDS时钟频率最高154MHz，最大支持视频格式为FULLHD（1920x1200）。产品特征MIPI输入：支持MIPI®D-PHY版本1.00.00和MIPI®DSI版本1.02.00；支持1~4个数据通道，1个时钟通道；支持ULPS(超
HTML中的零宽字符 Jinuss 前端 html 前端
概述零宽字符是一组在文本中没有可见宽度的字符，它们通常用于处理文本的布局、分隔和合成。下面是一些常见的零宽字符及其详细介绍：详细介绍零宽空格(ZeroWidthSpace,ZWSP)Unicode码位:U+200BHTML实体:或用途:用于防止文字自动换行。用于在文本中插入不可见的间隔，以控制排版或进行文本分析。零宽非连字符(ZeroWidthNon-Joiner,ZWNJ)Unicode码位:U
机身越「有型」，生态越开「阔」！华为Pura X带来全新应用市场 harmonyos
3月20日，华为Pura先锋盛典及鸿蒙智行新品发布会如期举行，正式推出首款搭载HarmonyOS5的新形态阔折叠手机PuraX，硬件设计实现突破性创新。生态上，鸿蒙应用市场（AppGallery）也完成全新升级，整合了生活、娱乐、办公、金融等多元场景，精准满足用户需求，实现应用高效获取与流畅操作体验。鸿蒙应用市场（AppGallery）打出“找应用，上AppGallery”的口号，通过本次升级，打
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
ucOS的互斥所mutex和信号量semaphore的区别 louis.johnson ucOS 信号量互斥锁 mutex
mutex和semaphore都是计数器，计数器被拿完了，其他任务再想拿（pend函数），就要等有人归还（post函数），mutex可以理解为最大计数值为1的semaphore，只有1个人可以拿到这个球，其他人要玩，只能等这个人归还。
lua 面向对象(继承、封装、多态) yxlalm lua lua 面向对象继承封装多态
封装Object={}Object.id=1functionObject:new()localobj={}self.__index=selfsetmetatable(obj,self)returnobjendlocalmyObj=Object:new()myObj.id=3print(myObj)print(Object)print(myObj.id)继承obj.base=self保存基类方法fu
Lua的面向对象，封装，继承，多态顽石2019
概述我们总所周知对象是由属性和方法组成的，要用lua要描述一个对象，也必然要有这两个特性，属性和方法。lua的基本结构是table，所以Lua的类，其实都是table，因为它可以存储普通的变量又可以存储方法，我们利用table就可以描述一个对象的属性和方法。对象其实lua要模拟一个对象，关键就在于__index设置元表索引这块，它主要起到索引失败后该怎么办，如果它指向一张表，那么__index索引
关于离子滤波小记文弱_书生乱七八糟人工智能计算机视觉算法
粒子滤波（ParticleFilter,PF）粒子滤波是一种基于蒙特卡洛方法的贝叶斯滤波算法，主要用于解决非线性、非高斯的状态估计问题。它广泛应用于机器人定位、目标跟踪、金融建模等领域。1.粒子滤波的基本概念粒子滤波的核心思想是用一组加权的**随机样本（粒子）**来近似后验概率分布，而非采用卡尔曼滤波那样的参数化分布假设（如高斯分布）。设系统的状态模型如下：xk=f(xk−1,uk,wk)x_k=
SQL中where与having的区别 WD技术 #mysql面试 sql 数据库 database
1.where和having的区别2.聚合函数和groupby3.where和having的执行顺序4.where不能使用聚合函数、having中可以使用聚合函数1.where和having的区别where:where是一个约束声明,使用where来约束来自数据库的数据;where是在结果返回之前起作用的;where中不能使用聚合函数。having:having是一个过滤声明;在查询返回结果集以后
【北京迅为】iTOP-RK3568开发板OpenHarmony系统南向驱动开发UART接口运作机制迅为电子 RK3568开发板 RK3568开发板 OpenHarmony
瑞芯微RK3568芯片是一款定位中高端的通用型SOC，采用22nm制程工艺，搭载一颗四核Cortex-A55处理器和MaliG522EE图形处理器。RK3568支持4K解码和1080P编码，支持SATA/PCIE/USB3.0外围接口。RK3568内置独立NPU，可用于轻量级人工智能应用。RK3568支持安卓11和linux系统，主要面向物联网网关、NVR存储、工控平板、工业检测、工控盒、卡拉OK
lua实现面向对象(封装/继承/多态) @M_J_Y@ lua lua
lua实现面向对象封装/继承/多态lua实现面向对象(封装/继承/多态)lua实现面向对象(封装/继承/多态)print("***********面向对象**********")print("*************封装************")--表就是表现类的一种形式--实现了new方法:本质上是创建一个空表，__index,元表--如果子表寻找某元素时在自身找不到时，会去元表的__ind
Flink命令行启动Job任务平凡的运维之路 linux 程序人生
Flink非交互式运行Job任务Flink命令行启动Job任务具体命令flink参数说明-c,--class-d,--detached后台运行-p,--parallelism并行度[test@xxx~]$flinkrun-d-cclass_nameJob-p3./flink-statics-1.0.jar-zookeeper"10.130.41.51:2181,10.130.41.52:2181,
优化Apache Spark性能之JVM参数配置指南 weixin_30777913 jvm spark 大数据开发语言性能优化
ApacheSpark运行在JVM之上，JVM的垃圾回收（GC）、内存管理以及堆外内存使用情况，会直接对Spark任务的执行效率产生影响。因此，合理配置JVM参数是优化Spark性能的关键步骤，以下将详细介绍优化策略和配置建议。通过以下优化方法，可以显著减少GC停顿时间、提升内存利用率，进而提高Spark作业吞吐量和数据处理效率。同时，要根据具体的工作负载和集群配置进行调整，并定期监控Spark应
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
leetcode刷题日记——轮转数组许_安刷题日记 leetcode 算法排序算法
[题目描述]：[思路]：题目要求将一个整数数组向右轮转k个位置，右边超出的数，从左边插入因为是向右轮转k个位置，所以可以直接遍历数组，将其存放位置index加上k，但index+k可能会超出数组长度，即需要轮转到数组前面。由于数组元素个数为numsSize，也就是数组长度，我们可以通过(index+k)%numsSize取余来确定超出元素的位置运行如下voidrotate(int*nums,int
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
TK矩阵系统：高效管理与智能化操作平台 m0_74891046 矩阵
随着TikTok等社交媒体平台的快速发展，短视频创作和内容运营逐渐成为互联网行业的重要组成部分。为了帮助内容创作者、品牌运营商以及数据分析人员更高效地管理多个TikTok账号并优化运营策略，TK矩阵系统提供了一种全新的解决方案，结合了先进的软件技术与硬件设施，旨在简化操作流程，提高工作效率。TK矩阵系统概述TK矩阵系统是一款集成软件与硬件的综合平台，专为TikTok内容管理和数据采集设计。系统使用
说说你对Java里Integer缓存的理解？ java1234_小锋 java java 开发语言
大家好，我是锋哥。今天分享关于【说说你对Java里Integer缓存的理解？】面试题。希望对大家有帮助；说说你对Java里Integer缓存的理解？1000道互联网大厂Java工程师精选面试题-Java资源分享网Java中的Integer缓存是为了提高性能而引入的优化机制，特别是对于频繁使用的小范围整数的情况。具体来说，Integer类对从-128到127范围内的整数值做了缓存。这些整数值被缓存起
开发实战｜commons-lang3库的字符串工具类join方法六月暴雪飞梨花 commons-lang3 StringUtils String join
作者简介：「六月暴雪飞梨花」，专注于研究Java，就职于科技型公司后端工程师近期荣誉：华为云云享专家、阿里云专家博主、腾讯云优秀创作者、腾讯云TDP-KOL、ACDU成员、墨天轮技术专家博主三连支持：欢迎❤️关注、点赞、收藏三连，支持一下博主~文章目录引言来源StringUtils.joinString.join功能对比StringUtils.join支持原生数组支持集合支持迭代器Iterator
一些经纬度知识 AWen_X Java 定位物联网 java
1、横纬竖经2、lng经度：-180~180，东经正数，西经负数3、lat纬度：-90~90，北纬正数，南纬负数4、经纬度1度=60分=3600秒5、地球的子午线总长度大约40008km。纬度1度=大约111km纬度1分=大约1.85km纬度1秒=大约30.8m6、中国的经纬度范围大约为：纬度3.86~53.55，经度73.66~135.057、越北面的地方纬度数值越大，越东面的地方经度数值越大N
【Kafka高级】Kafka性能优化与调优实践全栈追梦人 kafka 性能优化 linq
在大规模数据处理和实时消息传递场景中，Kafka的性能优化至关重要。本文将从生产者性能优化、消费者性能优化以及集群性能调优三个方面展开，结合实际代码示例和配置参数，帮助读者更好地理解和应用Kafka性能优化策略。一、生产者性能优化Kafka生产者的性能直接影响消息发送的效率和系统的吞吐量。以下是一些关键优化策略：1.1批量发送生产者会将消息批量发送到Kafka，减少网络请求次数。以下参数对批量发送
拼多多根据ID取商品详情原数据API接口的开发、运用与收益前端后端运维数据挖掘api
拼多多作为中国电商市场的重要参与者，通过开放平台提供了丰富的API接口，其中根据ID取商品详情原数据的API接口尤为重要。该接口允许开发者通过编程方式获取商品的详细信息，为电商数据分析、竞品分析、价格监测、商品推荐等多个领域带来了丰富的应用场景和显著的收益。本文将深入解析拼多多根据ID取商品详情原数据API接口的开发、运用与收益，并提供相关的代码示例。一、拼多多商品详情API接口的开发拼多多开放平
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
MySQL进阶——提高查询效率之添加索引的全部方式 1加1等于 MySQL sql mysql
索引提高查询效率，本文介绍优化查询时添加索引的多种方式。本文目录一、创建表时添加索引二、使用ALTERTABLE语句添加索引三、使用CREATEINDEX语句添加索引一、创建表时添加索引在使用CREATETABLE语句创建表的同时，可以为表中的列添加索引。适用于在设计表结构时就确定需要添加索引的情况。语法如下：CREATETABLEtable_name(column1datatype,column
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持