sherri_du

用 Python 做数据处理必看：12 个使效率倍增的 Pandas 技巧（上下）

http://datartisan.com/article/detail/81.html

导语

Python正迅速成为数据科学家偏爱的语言，这合情合理。它拥有作为一种编程语言广阔的生态环境以及众多优秀的科学计算库。如果你刚开始学习Python，可以先了解一下Python的学习路线。
在众多的科学计算库中，我认为Pandas对数据科学运算最有用。Pandas，加上Scikit-learn几乎能构成了数据科学家所需的全部工具。本文旨在提供Python数据处理的12种方法。文中也分享了一些会让你的工作更加便捷的小技巧。
在继续推进之前，我推荐读者阅览一些关于数据探索 (data exploration)的代码。
为了帮助理解，本文用一个具体的数据集进行运算和操作。本文使用了贷款预测(loan prediction) 问题数据集，下载数据集请到http://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction。

开始工作

首先我要导入要用的模块，并把数据集载入Python环境。


import pandas as pd

import numpy as np

data = pd.read_csv("train.csv", index_col="Loan_ID")

1.布尔索引(Boolean Indexing)

如何你想用基于某些列的条件筛选另一列的值，你会怎么做？例如，我们想要一个全部无大学学历但有贷款的女性列表。这里可以使用布尔索引。代码如下：


data.loc[(data["Gender"]=="Female") & (data["Education"]=="Not Graduate") & (data["Loan_Status"]=="Y"), ["Gender","Education","Loan_Status"]]

想了解更多请阅读 Pandas Selecting and Indexing

2.Apply函数

Apply是摆弄数据和创造新变量时常用的一个函数。Apply把函数应用于数据框的特定行/列之后返回一些值。这里的函数既可以是系统自带的也可以是用户定义的。例如，此处可以用它来寻找每行每列的缺失值个数：


#创建一个新函数:

def num_missing(x):

  return sum(x.isnull())

#Apply到每一列:

print "Missing values per column:"

print data.apply(num_missing, axis=0) #axis=0代表函数应用于每一列

#Apply到每一行:

print "\nMissing values per row:"

print data.apply(num_missing, axis=1).head() #axis=1代表函数应用于每一行

输出结果：

由此我们得到了想要的结果。
注意：第二个输出使用了head()函数，因为数据包含太多行。
想了解更多请阅读 Pandas Reference (apply)

3.替换缺失值

‘fillna()’ 可以一次解决这个问题。它被用来把缺失值替换为所在列的平均值/众数/中位数。


#首先导入一个寻找众数的函数：

from scipy.stats import mode

mode(data['Gender'])

输出: ModeResult(mode=array([‘Male’], dtype=object), count=array([489]))
返回了众数及其出现次数。记住，众数可以是个数组，因为高频的值可能不只一个。我们通常默认使用第一个：


mode(data['Gender']).mode[0]

现在可以填补缺失值，并用上一步的技巧来检验。


#值替换:

data['Gender'].fillna(mode(data['Gender']).mode[0], inplace=True)

data['Married'].fillna(mode(data['Married']).mode[0], inplace=True)

data['Self_Employed'].fillna(mode(data['Self_Employed']).mode[0], inplace=True)

#再次检查缺失值以确认:

print data.apply(num_missing, axis=0)

由此可见，缺失值确定被替换了。请注意这是最基本的替换方式，其他更复杂的技术，如为缺失值建模、用分组平均数（平均值/众数/中位数）填充，会在今后的文章提到。
想了解更多请阅读 Pandas Reference (fillna)

4.透视表

Pandas可以用来创建 Excel式的透视表。例如，“LoanAmount”这个重要的列有缺失值。我们可以用根据 ‘Gender’、‘Married’、‘Self_Employed’分组后的各组的均值来替换缺失值。每个组的 ‘LoanAmount’可以用如下方法确定：


#Determine pivot table

impute_grps = data.pivot_table(values=["LoanAmount"], index=["Gender","Married","Self_Employed"], aggfunc=np.mean)

print impute_grps

想了解更多请阅读 Pandas Reference (Pivot Table)

5.多重索引

你可能注意到上一步骤的输出有个奇怪的性质。每个索引都是由三个值组合而成。这叫做多重索引。它可以帮助运算快速进行。
延续上面的例子，现在我们有了每个分组的值，但还没有替换。这个任务可以用现在学过的多个技巧共同完成。


#只在带有缺失值的行中迭代：

for i,row in data.loc[data['LoanAmount'].isnull(),:].iterrows():

  ind = tuple([row['Gender'],row['Married'],row['Self_Employed']])

  data.loc[i,'LoanAmount'] = impute_grps.loc[ind].values[0]

#再次检查缺失值以确认：

print data.apply(num_missing, axis=0)

注：

多重索引需要在loc中用到定义分组group的元组(tuple)。这个元组会在函数中使用。
需要使用.values[0]后缀。因为默认情况下元素返回的顺序与原数据库不匹配。在这种情况下，直接指派会返回错误。

6. 二维表

这个功能可被用来获取关于数据的初始“印象”（观察）。这里我们可以验证一些基本假设。例如，本例中“Credit_History” 被认为对欠款状态有显著影响。可以用下面这个二维表进行验证：


pd.crosstab(data["Credit_History"],data["Loan_Status"],margins=True)

这些数字是绝对数值。不过，百分比数字更有助于快速了解数据。我们可以用apply函数达到目的：


def percConvert(ser):

  return ser/float(ser[-1])

  pd.crosstab(data["Credit_History"],data["Loan_Status"],margins=True).apply(percConvert, axis=1)

现在可以很明显地看出，有信用记录的人获得贷款的可能性更高：有信用记录的人有80% 获得了贷款，没有信用记录的人只有 9% 获得了贷款。
但不仅仅是这样，其中还包含着更多信息。由于我现在知道了有信用记录与否非常重要，如果用信用记录来预测是否会获得贷款会怎样？令人惊讶的是，在614次试验中我们能预测正确460次，足足有75%！
如果此刻你在纳闷，我们要统计模型有什么用，我不会怪你。但相信我，在此基础上提高0.001%的准确率都是充满挑战性的。你是否愿意接受这个挑战？
注：对训练集而言是75% 。在测试集上有些不同，但结果相近。同时，我希望这个例子能让人明白，为什么提高0.05% 的正确率就能在Kaggle排行榜上跳升500个名次。
想了解更多请阅读Pandas Reference (crosstab)

感谢您阅读到这里，在下一篇文章中将继续为您介绍其余六个实用技巧，请持续关注数据工匠。
原作者：AARSHAY JAIN
翻译：王鹏宇
原文地址：
http://www.analyticsvidhya.com/blog/2016/01/12-pandas-techniques-python-data-manipulation/

用 Python 做数据处理必看：12 个使效率倍增的 Pandas 技巧（上） http://datartisan.com/article/detail/80.html

7 – 数据框合并

当我们有收集自不同来源的数据时，合并数据框就变得至关重要。假设对于不同的房产类型，我们有不同的房屋均价数据。让我们定义这样一个数据框：


prop_rates = pd.DataFrame([1000, 5000, 12000], index=['Rural','Semiurban','Urban'],columns=['rates'])

prop_rates

现在可以把它与原始数据框合并：


data_merged = data.merge(right=prop_rates, how='inner',left_on='Property_Area',right_index=True, sort=False)

data_merged.pivot_table(values='Credit_History',index=['Property_Area','rates'], aggfunc=len)

这张透视表验证了合并成功。注意这里的 ‘values’无关紧要，因为我们只是单纯计数。
想了解更多请阅读Pandas Reference (merge)

8 – 给数据框排序

Pandas可以轻松基于多列排序。方法如下：


data_sorted = data.sort_values(['ApplicantIncome','CoapplicantIncome'], ascending=False)

data_sorted[['ApplicantIncome','CoapplicantIncome']].head(10)

注：Pandas 的“sort”函数现在已经不推荐使用，我们用 “sort_values”函数代替。
想了解更多请阅读Pandas Reference (sort_values)

9 – 绘图（箱型图&直方图）

许多人可能没意识到Pandas可以直接绘制箱型图和直方图，不必单独调用matplotlib。只需要一行代码。举例来说，如果我们想根据贷款状态Loan_Status来比较申请者收入ApplicantIncome：


data.boxplot(column="ApplicantIncome",by="Loan_Status")


data.hist(column="ApplicantIncome",by="Loan_Status",bins=30)

可以看出获得/未获得贷款的人没有明显的收入差异，即收入不是决定性因素。
想了解更多请阅读Pandas Reference (hist) | Pandas Reference (boxplot)

10 – 用Cut函数分箱

有时把数值聚集在一起更有意义。例如，如果我们要为交通状况（路上的汽车数量）根据时间（分钟数据）建模。具体的分钟可能不重要，而时段如“上午”“下午”“傍晚”“夜间”“深夜”更有利于预测。如此建模更直观，也能避免过度拟合。
这里我们定义一个简单的、可复用的函数，轻松为任意变量分箱。


#分箱:

def binning(col, cut_points, labels=None):

  #Define min and max values:

  minval = col.min()

  maxval = col.max()

  #利用最大值和最小值创建分箱点的列表

  break_points = [minval] + cut_points + [maxval]

  #如果没有标签，则使用默认标签0 ... (n-1)

  if not labels:

    labels = range(len(cut_points)+1)

  #使用pandas的cut功能分箱

  colBin = pd.cut(col,bins=break_points,labels=labels,include_lowest=True)

  return colBin



#为年龄分箱:

cut_points = [90,140,190]

labels = ["low","medium","high","very high"]

data["LoanAmount_Bin"] = binning(data["LoanAmount"], cut_points, labels)

print pd.value_counts(data["LoanAmount_Bin"], sort=False)

想了解更多请阅读 Pandas Reference (cut)

11 – 为分类变量编码

有时，我们会面对要改动分类变量的情况。原因可能是：

有些算法（如罗吉斯回归）要求所有输入项目是数字形式。所以分类变量常被编码为0, 1….(n-1)
有时同一个分类变量可能会有两种表现方式。如，温度可能被标记为“High”， “Medium”， “Low”，“H”， “low”。这里 “High” 和 “H”都代表同一类别。同理， “Low” 和“low”也是同一类别。但Python会把它们当作不同的类别。
一些类别的频数非常低，把它们归为一类是个好主意。

这里我们定义了一个函数，以字典的方式输入数值，用‘replace’函数进行编码。


#使用Pandas replace函数定义新函数：

def coding(col, codeDict):

  colCoded = pd.Series(col, copy=True)

  for key, value in codeDict.items():

    colCoded.replace(key, value, inplace=True)

  return colCoded

 

#把贷款状态LoanStatus编码为Y=1, N=0:

print 'Before Coding:'

print pd.value_counts(data["Loan_Status"])

data["Loan_Status_Coded"] = coding(data["Loan_Status"], {'N':0,'Y':1})

print '\nAfter Coding:'

print pd.value_counts(data["Loan_Status_Coded"])

编码前后计数不变，证明编码成功。
想了解更多请阅读 Pandas Reference (replace)

12 – 在一个数据框的各行循环迭代

这不是一个常见的操作。但你总不想卡在这里吧？有时你会需要用一个for循环来处理每行。例如，一个常见的问题是变量处置不当。通常见于以下情况：

带数字的分类变量被当做数值。
（由于出错）带文字的数值变量被当做分类变量。

所以通常来说手动定义变量类型是个好主意。如我们检查各列的数据类型：


#检查当前数据类型：

data.dtypes

这里可以看到分类变量Credit_History被当作浮点数。对付这个问题的一个好办法是创建一个包含变量名和类型的csv文件。通过这种方法，我们可以定义一个函数来读取文件，并为每列指派数据类型。举例来说，我们创建了csv文件datatypes.csv。


#载入文件:

colTypes = pd.read_csv('datatypes.csv')

print colTypes

载入这个文件之后，我们能对每行迭代，把用‘type’列把数据类型指派到‘feature’ 列对应的项目。


#迭代每行，指派变量类型。

#注，astype用来指定变量类型。

for i, row in colTypes.iterrows(): #i: dataframe索引; row: 连续的每行  

  if row['feature']=="categorical":

    data[row['feature']]=data[row['feature']].astype(np.object)

  elif row['feature']=="continuous":

    data[row['feature']]=data[row['feature']].astype(np.float)

  print data.dtypes

现在信用记录这一列的类型已经成了‘object’ ，这在Pandas中代表分类变量。
想了解更多请阅读Pandas Reference (iterrows)

结语

本文中我们介绍了多个可以帮助我们减轻数据探索、特征工程工作负担的函数。此外，我们也定义了一些函数，这些函数可以在不同的数据集上复用以获得相同效果。
原作者：AARSHAY JAIN
翻译：王鹏宇
原文地址：
http://www.analyticsvidhya.com/blog/2016/01/12-pandas-techniques-python-data-manipulation/

P1027 [NOIP 2001 提高组] Car 的旅行路线稳兽龙 c++算法 spfa
题目描述又到暑假了，住在城市A的Car想和朋友一起去城市旅游。她知道每个城市都有4个飞机场，分别位于一个矩形的4个顶点上，同一个城市中两个机场之间有一条笔直的高速铁路，第i个城市中高速铁路的单位里程价格为Ti，任意两个不同城市的机场之间均有航线，所有航线单位里程的价格均为t。注意：图中并没有标出所有的铁路与航线。那么Car应如何安排到城市B的路线才能尽可能的节省花费呢？她发现这并不是一个简单的问题
同步盘怎么选？2025年这三款网盘的功能和优缺点全在这！ SJ_HP 经验分享远程工作安全百度云
在数字时代，文件存储、多设备同步和团队协作已经成为我们生活和工作中不可或缺的一部分。无论是个人用户还是企业团队，都面临着文件存储空间不足、设备间同步困难以及团队合作效率低下的痛点。同步盘和企业云盘的出现，正是为了解决这些问题。它们不仅提供了便捷的文件存储和管理功能，还通过多设备同步和团队协作功能，极大地提升了工作效率。今天，我们将对比几款热门的同步盘产品，帮助你找到最适合自己的解决方案。亿方云：企
车载音频开发（三）：对wav音频做定浮点转换（采样深度转换） Mr Chris_LI wav音频开发心得音视频
对于wav的采样格式讨论较多的是定浮点采样基于上一节我们对采样点的理解车载音频开发（二）：对音频数据作音量调节_音频数据的音量控制代码-CSDN博客定点常见的有16bit，24bit，和32bit浮点一般用float(32bit)IEEE754浮点数不同位深度的取值范围：16bit定点数:-32,768~32,76724bit定点数:-8,388,608~8,388,60732bit定点数:-2,
数据挖掘十大经典算法详解（附原理解析与代码示例） IT程序媛-桃子华为认证数据挖掘算法经验分享华为
1.PageRank（链接分析）应用场景：搜索引擎排名、社交网络分析核心原理PageRank通过网页之间的链接关系计算网页的重要性，影响力大的网页排名更高。网页影响力=所有入链页面的加权影响力之和阻尼因子D（通常设为0.85）用于模拟用户随机访问网页的行为代码示例importnetworkxasnxG=nx.DiGraph()G.add_edges_from([("A","B"),("A","C"
大学生学完python靠几个接单网站兼职，实现经济独立「已注销」 python 开发语言
大学生学完python靠几个接单网站兼职，实现经济独立程序员就是当今时代的手艺人，程序员可以通过个人的技术来谋生。而在工作之余接私单可以作为一种创富的途径，受到程序员的广泛认可。说句实在话，现在这个时代，很多人仅靠主业顶多维持基本生活，想让自己、家人生活好一点很难。我接的私活并不算多，加起来也就几万左右，只能算一半，我想把一些经验分享出来，毕竟现在生活都不容易，能赚一点是一点。一、程序员接活、新手
UDP通信开发 Charary udp 网络
开发流程：UDP本身不考虑链接，不存在客户和服务器的概念，UDP开发只有三步：创建UDP的套接字socket(AF_INET,SOCK_DGRAM,0)绑定自己的属性bindUDP随意的发送和接收数据sendto/recvfromUDP接口函数：sendto()函数功能：UDP专用的发送函数函数原型：ssize_tsendto(intsockfd,//套接字constvoid*buf,//待发送的
USB转串口芯片CH9102替代CP2102注意事项 Chery1140 单片机嵌入式硬件
CH9102与CP2102可实现pin2pin兼容，可以在不更改硬件设计的前提下实现不同型号间快速切换与产品应用。CH9102系列型号包括：CH9102F（QFN24）和CH9102X（QFN28），CP2102系列型号包括：CP2102、CP2102N-GQFN24、CP2102N-GQFN28。1.应用差异说明1）驱动说明：CH9102芯片为CDC类串口芯片，用户可以选择使用操作系统内置的CD
【计算机毕设任务书】基于微信小程序的宠物寄养平台的设计与实现 Eastonzhang888 计算机毕设任务书参考案例课程设计微信小程序宠物数据库 intellij-idea 计算机毕业设计小程序
一、设计的主要内容、技术参数及工作要求研究目的现在宠物寄养管理中已有一些商家使用了基本的管理软件，这些软件都是依靠客户端，只可以特定人员使用，不能实现信息的共享。虽然可以帮助工作人员减少工作量，但从根本上还是无法满足用户的需求。这些软件都还是基于网络发展之初的要求，没有利用现代网络的技术，体现不了更为实用的功能。依靠客户端的系统开发时没有考虑园际化的问题，所以也满足不了国际化的要求。最近几年来，我
【练习】【二分】力扣热题100 34. 在排序数组中查找元素的第一个和最后一个位置柠石榴输入输出力扣 hot100 leetcode 算法 c++二分
题目给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，返回[-1,-1]。你必须设计并实现时间复杂度为O(logn)的算法解决此问题。示例1：输入：nums=[5,7,7,8,8,10],target=8输出：[3,4]示例2：输入：nums=[5,7,7,8,8,10],target=6输出
EasyX安装及使用于冬恋 java 开发语言
安装链接：EasyXGraphicsLibraryforC++安装完成包含头文件graphics.h即可使用RGB合成颜色（红色部分，绿色部分，蓝色部分）每种颜色的值都是（0~255）坐标默认的原点在窗口的左上角，x轴向右为正，y轴向下为正，度量单位是像素点。设备：简单来说就是绘图表面（在EasyX中，设备分为两种，一种是默认的绘图窗口，一种是IMAGE对象。通过SetWorkinglmage()
AI 大模型：Intelligent Agent—— 开启智能新纪元 AI-入门人工智能学习产品经理面试 agi
在LLM语境下，Agent理解为在某种能自主理解、规划决策、执行复杂任务的智能体，LLM充当着智能体的“大脑”。从软件工程的角度，智能体是一种基于大语言模型的，具备规划思考能力、记忆能力、使用工具函数的能力，能自主完成给定任务的计算机程序。在基于LLM的智能体中，LLM的充当着智能体的“大脑”的角色，同时还有3个关键部分：规划（Planning）:智能体会把大型任务分解为子任务，并规划执行任务的流
顺序表，链表，栈于冬恋链表算法数据结构
（1）顺序表1.顺序表的定义：【1】.静态分配（大小固定，无法改变）#include#include#definemax10usingnamespacestd;typedefstruct{intdate[max];intlenth;}seqlist;voidinitlist(seqlist&L){for(inti=0;i#include#defineinitsize10usingnamespace
Linux常用的命令一 Agome99 linux 运维服务器
目录1.常用命令1.常用命令1）#与$提示的区别'#'表示用户有root权限，一般的以root用户登录提示符为#，'$'提示符表示用户为普通用户2）ifconfig查看ip地址eno1:代表由主板bios内置的网卡ens1：代表主板bios内置的PCI_E网卡enp2s0：PCI-E独立网卡eth0:如果以上都不用，则返回默认的网卡名ens33则属于第二种类型，即说明你的网卡是内置的PCI-E网卡
Anaconda 环境克隆、迁移，用Anaconda里面的conda命令创建虚拟环境并克隆环境或者复旧电脑实验环境包、_conda复制环境好像要长脑子了1 程序员 conda
###9、设置国内镜像http://Anaconda.org的服务器在国外，安装多个packages时，conda下载的速度经常很慢。清华TUNA镜像源有Anaconda仓库的镜像，将其加入conda的配置即可：#添加Anaconda的TUNA镜像condaconfig--addchannelshttps://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/f
网络协议、网络安全架构、网络安全标准 Utopia.️ 网络协议 web安全架构
1.网络协议网络协议是计算机网络中设备之间通信的规则集。熟悉常见的网络协议及其工作原理是确保网络安全的基础。常见协议：TCP/IP协议：这是网络通信的基础协议，确保数据从源端传输到目标端，支持多种传输方式（TCP可靠传输，UDP快速但不可靠）。HTTP/HTTPS：HTTP用于浏览器与服务器之间的通信，HTTPS则是在HTTP上添加了SSL/TLS加密层，用于确保数据传输的安全性。DNS协议：用于
嵌入式音视频开发（二）ffmpeg音视频同步云雨歇音视频 ffmpeg
系列文章目录嵌入式音视频开发（零）移植ffmpeg及推流测试嵌入式音视频开发（一）ffmpeg框架及内核解析嵌入式音视频开发（二）ffmpeg音视频同步嵌入式音视频开发（三）直播协议及编码器文章目录系列文章目录前言一、音视频同步1.1基础概念1.2三种同步方法二、音视频同步的实现2.1时间基的转换问题2.2音频为基准2.2.1实现思路2.2.2代码大纲2.3外部时钟同步2.3.1实现思路2.3.2
2025.2.20总结天真小巫总结总结
今晚评测试报告，评到一半，由于看板数据没有分析完，最后让我搞完再评.尽管工作了多年的同事告诉我，活没干完，差距比较大，没资格评报告，但还是本着试试的态度，结果没想到评审如此严苛.内心多少有些受打击，毕竟，加班加点的工作，只为能取得个好的结果，但感觉无论怎么努力，还是把交代的工作干成了烂泥，有时候也会有些怀疑，到底能否胜任这份工作.为什么努力了，还是没能把事情做好.难道是我工作的方式有问题吗？工作中
Conda 常用命令全解析 melck conda
在Windows系统中，Conda是一款功能强大的包管理和环境管理工具，尤其对于数据分析、科学计算等场景有着重要的作用。本文将详细介绍Conda在Windows系统中的常用命令，帮助你高效地管理虚拟环境和软件包。一、环境管理命令1.1查看Conda版本conda--version该命令用于确认Conda是否成功安装以及查看其版本号。这对于确保Conda的兼容性和功能性非常重要。1.2创建新环境co
CH340N的使用注意事项鹿屿二向箔单片机嵌入式硬件
使用CH340N将MCU的串口（UART）转换为USB输出是一种常见的方案，适用于需要将嵌入式设备连接到电脑的场景。以下是详细的连接方法和步骤：1.CH340N简介功能：CH340N是一款USB转串口芯片，支持USB2.0协议，可将UART信号转换为USB信号。特点：内置晶振，无需外部晶振。支持5V和3.3V电源电压。封装为SOP-8，体积小，适合紧凑设计。2.硬件连接以下是CH340N与MCU（
nginx反向代理jupyter jerry-89 jupyterlab nginx jupyter python
1.jupyter配置打开配置文件/home/jack/.jupyter/jupyter_notebook_config.py2.反向代理配置这个/jack/与上面添加的对应location/jack/{proxy_passhttp://192.168.196.164:8888/jack/;proxy_set_headerHost$host;proxy_set_headerX-Real-IP$re
动态规划之背包问题于冬恋动态规划算法
动态规划是一个重要的算法范式，它将一个问题分解为一系列更小的子问题，并通过存储子问题的解来避免重复计算，从而大幅提升时间效率。目录01背包问题完全背包问题多重背包问题二维费用背包问题（1）01背包问题给定n个物体，和一个容量为c的背包，物品i的重量为wi，其价值为应该如何选择装入背包的物品使其获得的总价值最大。可以用贪心算法，但是不一定能达到最优解，所以用动态规划解决创建一个数组dp[i][j]i
欧*雅WCS项目总结十五001 项目归档后端 java 程序人生
项目介绍使用系统APRISO下发任务与wcs交互，wcs包含与海康agv对接，以及APRISO不纳入管理的库位（包括线边库位、码头库位、暂存区库位、空栈板库位）。wcs的主要定位就是高度定制化贴合生产业务，可以说wcs成为了agv和APRISO之间的桥梁。APRISO下发任务时候，通过生成xml文件实现的，这时候wcs会监听该文件目录新建的xml文件来生成任务。刚开始部署后不到一周出现了监听失效问
生产企业使用系统大全十五001 其他笔记经验分享其他
作为一般企业员工可能只负责或对其中部分系统比较熟悉，其实如果是一个生产型企业完整的系统大全应该包含以下这些，但由于系统之间可能存在的边界模糊，会把其他系统的功能给进行合并，但不影响我们了解成熟系统所对应的职责，以下就是十大系统的功能：图来源于：白话聊IT一、MES（制造执行系统）核心作用：宛如一座桥梁，衔接企业的计划层（由ERP系统代表）与工厂的实际控制系统，专注于对工厂生产现场进行实时、精准的管
JMM(Java内存模型)讲解十五001 基础 java jvm
JMM（JavaMemoryModel，Java内存模型）是Java并发编程中的一个非常重要的概念，它帮助我们理解Java程序在多线程环境下内存操作的行为。别担心，我会用简单易懂的方式来讲解，让你轻松掌握它的核心内容。1.什么是JMM？定义JMM是Java内存模型的简称，它定义了Java程序中内存操作的规则和规范。简单来说，JMM规定了Java程序中的变量存储在内存中的方式，以及线程如何读取和写入
JavaScript 闭包与作用域的深度解析小钟H呀 JS知识手册 javascript 开发语言 ecmascript
引言在JavaScript世界里，闭包和作用域是两个核心概念，理解它们对于编写高效、可维护的代码至关重要。本文将深入探讨JavaScript闭包与作用域的原理、应用及注意事项。一、作用域的概念（一）什么是作用域作用域是指变量和函数的可访问范围。在JavaScript中，主要有全局作用域和局部作用域。全局作用域：在代码的任何地方都可以访问到的变量和函数，通常在脚本的最外层或通过全局对象（如windo
如何快速定位并解决 Linux 系统性能瓶颈：终极全攻略 BitTalk 性能优化 linux 服务器 java
在现代IT环境中，Linux系统被广泛应用于服务器、嵌入式设备和超级计算机等各类场景。随着系统负载的增加，性能瓶颈不可避免地会影响系统的可靠性和效率。因此，了解如何有效地诊断和解决Linux系统中的性能问题至关重要。本篇博客将深入探讨Linux性能瓶颈的可能来源，介绍各种性能评估方法和概念，并最终提供使用Linux命令查找性能瓶颈的实用指南。性能瓶颈的可能来源在Linux系统中，性能瓶颈可能出现在
Python wifi 安装手机app yichengace python
目的当测试机数量越来越多时，测试包的安装会成为一个问题，用wifi安装来解决这个问题，并且用脚本语言来批量控制思路思路就是py调用pc端的adb命令，向手机发送请求，无线是因为，如果未来测试机越来越多，一台电脑的usb接口数量肯定不够准备工具python，adb，pycharm，测试用app，这里选择qq（https://qd.myapp.com/myapp/qqteam/AndroidQQ/mo
【人工智能时代】- AI 聚合平台 xiaoli8748_软件开发人工智能时代人工智能
最近听朋友介绍，国内有个团队开发了一个全功能的AI聚合平台，包含主流的GPT和绘画功能，以及一些其他的衍生功能，几乎应有尽有。于是，对AI很感兴趣的我，便也来瞧瞧这是个什么样的存在，以下便是我的真实使用感受。除此以外，作为一个程序员，我还使用了该平台提供的API接口，开发了一个简单的小程序。文章的末尾，我将提供免费的AI机器人，以及小程序体验地址，记得查收哦~官方网站：https://302.ai
在瑞芯微RK3588平台上使用RKNN部署YOLOv8Pose模型的C++实战指南机＿长 YOLO系列模型有效涨点改进深度学习落地实战 YOLO c++开发语言
在人工智能和计算机视觉领域，人体姿态估计是一项极具挑战性的任务，它对于理解人类行为、增强人机交互等方面具有重要意义。YOLOv8Pose作为YOLO系列中的新成员，以其高效和准确性在人体姿态估计任务中脱颖而出。本文将详细介绍如何在瑞芯微RK3588平台上，使用RKNN（RockchipNeuralNetworkToolkit）框架部署YOLOv8Pose模型，并进行C++代码的编译和运行。注本文全
国内大厂面试一般流程——扫盲 weixin_49526058 面试职场和发展
中国大型互联网企业的面试流程通常分为若干轮，具体轮数和考察内容可能因公司、岗位及招聘需求有所不同，但一般来说，大致可以分为以下几轮：1.简历筛选考察内容：主要看简历是否符合岗位要求，关注工作经历、项目经验、技术栈、学历背景等。如果简历突出，通常会进入下一轮面试。2.电话/视频初面（HR面）考察内容：HR面试主要是了解你的基本情况、动机和软技能。一般会问一些关于简历的问题，了解你对公司的了解、为什么
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end