我当时害怕极了

数据分析学习笔记---碎片知识总结

解决juyter notebook中print时省略显示问题

pd.set_option("display.max_columns",100)     # 最大显示列数
pd.set_option("display.max_rows",100)        # 最大显示行数

字体设置

#1.1
import matplotlib
font = {“family”:“MicroSoft YaHei”,“weight”:“bold”}
matplotlib.rc(“font”,**font)
#1.2
plt.rcParams[“font.sans-serif”] = “SimHei” # 中文显示问题
plt.rcParams[“axes.unicode_minus”] = False #解决负数坐标显示问题

可在Jupyter notebook中可以进行多次自动print操作

from IPython.core.interactiveshell  import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

对于info信息无法展示的情况使用

"""   info(verbose=True,null_counts=True)              """

警告信息的忽视

import warnings 
warnings.filterwarnings("ignore")

numpy中使用get_values ，pandas中使用values

自动获取相应1的各种类型数据

"""  num_features = train.select_dtypes(include=[np.number/np.object]).columns   """

cut/qcut分桶操作时，需要加入参数labels=False,不然出现的就是区间形式

 bin = [i*10 for i in range(20)]

data["new_feature"] = pd.cut(data["power"],bin,labels=False)

对于特征的新增组合

 data["new"+feature] = data.groupby(feature)[target].transform("mean/max/min").values

关于get_dummies编码

“”"

dum = pd.get_dummies(data['col1',"col2"])
data = data.join(dum)
data = data.drop(["col1","col2"],axis=1)

get_dummies()里面的参数可以传入prefix=“前缀描述”：即新增特征的名字的前缀描述

“”""

在图例里面放入名字参数

  plt.legend(["name1","name2"],loc="upper right")

""" 

关于pd.read_csv的参数：
	sep="" 确定切分格式
	headers=None  默认没有首行信息 ， names参数：添加首航信息，列表形式
	index_col=0 :使用第一列作为默认索引
	parse_dates=[0]  :使日期规范化

“”"

“”"
利用groupby的时候最好使用一个reset_index(),重排列索引，避免乱序问题
利用pd.concat拼接的时候也是同理，需要用到reset_index，防止出现不必要的错误，可能出现index列，删除即可！
pd.concat([],axis=0/1)
np.concatenate([])

“”"

“”"
处理数据包括:
1.检查数据
2.清理数据
3.测试数据

一般而言检查数据希望回答一下问题：1.数据格式有什么问题？ 2.数据的数值有什么问题？ 3.数据需要修复或者删除嘛？

干净数据：每一列代表一个特征，每一行代表一个样例

很难判断异常值是由于测量误差引起的，或者是不正确的单位及库数据，或者真正的异常，如果我们决定排除任何数据，
需要记录排除的数据并提供排除的理由。

数据探索的核心:
1.数据质量分析
2.数据特征分析：分布、对比、周期性、相关性、常见统计量等。

“”"

“”"
jieba分词系列以及wordcolud词云图分析
lcut：为精确模式，返回的是一个列表
cut:添加参数cut_all=False才为精确模式，返回的是一个迭代器
wordcolud为自己统计词频，并且绘制出词云图，可以加载停用词表。

“”"

使用add_subplot进行改变图形区域

fig = plt.figure()
ax1 = fig.add_subplot(2,1,1)
cars.plot(x,y,kind="scatter",ax=ax1)

“”"

模型的评价指标

from sklearn.metrics import mean_squared_error ,mean_absolute_error ,roc_auc_score ,roc_curve

“”"

np.random.shuffle()  # 对数据进行洗牌,不会返回值
np.random.permuation()  # 对索引进行洗牌，会返回值，传入的数据是索引，或者数字

“”"

进行交叉验证的一般做法：先对原始数据进行洗牌，然后分别利用索引分成n快，下次洗牌重复操作

交叉验证系列 ---------------现在都在model_selection模块下面
from sklearn.model_selection import KFold,train_test_split,cross_val_score

kf = KFold(n,n_folds,random_state,shuffle)

“”"
机器学习中不识别object字符类型，需要转换为数值型

机器学习关心的是数值，不同的浮动范围的特征，需要进行初始化处理

当用机器学习算法得到一个不满意的结果时，先找数据方面的问题，比如：数据与label之间的关系，数据内部是否有什么问题，
当作数据预处理时是否哪块处理错了，最后采取找模型的参数、算法、评价标准方面的错误。
“”"

“”"
pandas_profiling库的使用

pandas_profiling.ProfileReport(player) #自动生成报表视图

“”"

“”"
#流程：
1.数据背景介绍
2.数据读取与预处理
3.数据切分模块
4.缺失值可视化分析
5.特征可视化展示
6.多个特征之间关系分析
7.报表可视化分析
8。探索有意义变量之间的关系
“”"

“”"
pd.crosstab：用于计算因子的频率表

pd.crosstab(index,columns,values,aggfunc)

如果crosstab只接收两个Series,它将提供一个频率表，用a作为唯一值，统计b唯一值的出现次数

pd.pivot_table透视表是一种进行分组统计的函数，而交叉表时特殊的透视表，当只统计分组频率时更方便。

pd.pivot_table参数如下：

data：DataFrame对象
values：要聚合的列或列的列表
index：数据透视表的index，从原数据的列中筛选
columns：数据透视表的columns，从原数据的列中筛选
aggfunc：用于聚合的函数，默认为numpy.mean，支持numpy计算方法
fill_value: 用于替换缺失值的值
margin: 添加所有行/列
dropna: 不包括条目为 NaN的列，默认为True
margin_name: 当margin为True时，将包含总计的行/列的名称

pd.crosstab()参数:

index:：要在行中分组的值
columns：要在列中分组的值
values：根据因子聚合的值数组，需指定aggfunc
aggfunc：如指定，还需指定value
normalize：将所有值除以值的总和进行归一化 ，为True时候显示百分比
如果crosstab只接收两个Series，它将提供一个频率表。用A的唯一值，统计B唯一值的出现次数：

“”"

legend中的参数设置

plt.legend(loc=“upper right”,fancybox=True,fontsize=8)

random.randint()和np.random.randint()

random.randint()结果为左闭右闭，np.random.randint()结果为左闭右开。

关于子图的设置

fig = plt.figure(figsize,dpi)
ax1 = fig.add_subplot(2,1,1)
ax1.plot(np.random.randint(1,5,5),np.arange(5))

三种常见操作

1.split:从左到右寻找以某个元素为中心，将左右分割成两个元素放入列表中。
2.数据合并之join，join默认吧行行索引相同的数据合并在一起
3.merge：则是按照指定的列将数据按照一定的方式合并在一起，默认合并方式是inner(交集).

pivot_table中实现计数要用 aggfunc=["count“]形式（numpy中无直接的计数形式）

索引重排

1.reset_index() 把索引变成列
2.set_index() 把列变成索引

添加哑变量


```python
categorical_vars = [“col1","col2","col3"]
for var in categorical_vars:
	raw = pd.concat([raw,pd.get_dummies(row[var],prefix=var)],1)
	raw= raw.drop(var,1)

dropna的使用

dropna(axis=0/1,how="any/all",inplace=True)

plt.xticks(range(minruntime,maxruntime+5,5))


pd.DataFrame(np.zeros(shape(df.shape[0],len(genre),dtype=int),columns=genre)

map映射函数

label_map = {"汽车”：1，“财经":2,"科技":3}

df["label"] = df["label"].map(label_map)

添加图例的方法

1.现在plt.plot中添加label参数
2.再用plt.legend()

plt.plot(x,y,label="name")

plt.legend(loc="best")

_xtick_labels = [“hello{}”.format(i) for i in range(32)]

pd.to_datetime的使用

pd.date_range(start,end,period,freq=“D”)
1.start,end,freq配合
2.start、periods、freq配合

np.logspace创建等比数列

在logspace中，开始和结束点是10的幂，
例如 a=np.logspace(0,9,10) ,0表示10的0次方，9表示10的9次方。
若想改变底数，可使用base参数：
a= np.logspace(0,9,base=2)

分两次plot,即可实现一张表出现两条线关于一个变量

plt.xlabel("epoch")
plt.ylabel("MAE")
plt.plot(train_mae_loss,label="train")
plt.plot(test_mae_loss,label="test")
plt.legend()

plt.xticks(旧坐标，新坐标，rotation=旋转角度)

plt.xticks(range(len(_x)),_x,rotation=45)
xticks中的rotation具有倾斜属性

若dataframe中有数值型特征columns,数值型特征column则保留原始值，get__dummies只会改变分类变量object类型。

添加新列

data["new"] = data[["col1","col2"]].mean(axis=1)

Series要变成array,则可以通过np.array()方式实现

data.groupby("col1").agg({column:"nunique" for column in columns_list})

在字典中，若出现重复的键，则位于后面的键值会覆盖前面重复的键值。

关于合并

使用np.c_和np.r_

np.c_ 列向合并吕

np.r_ 横向合并口口

此时的合并与以往的合并不同，此时建立的是一种列表关系：
即:
a=[1,2,3,4,5]
b = [6,7,8,9,0]
np.c_[a,b] 可得【【1，6】，【2，7】，【3，8】，【4，9】，【5，0】】
建立了一种一一对应的列表关系
满足你的特殊需求，说不定哪天就遇见这种问题了。

目前已知的有一下集中合并方式

1.np.concatenate（axis=0/1)
2.np.vstack() np.hstack()
3.np.c_ ///np.r_
4.pd.concat() axis=0/1

ravel函数，降维，按行拉直降为一维的形式。

np.ravel和np.flattern的联系与区别

联系：都是将多维数组降为一维

区别：np.flattern()返回的是一份拷贝，不影响原始的数据

np.ravel()返回的是视图，会影响原始矩阵

pd.DataFrame([x,examples.count(x)] for x in set(example)],columns=["words","count"])

统计学习方法由模型、策略、方法构成。

模型就是索要学习的条件概率分布或者决策函数，模型的假设空间就是包含所有可能的条件概率分布或者决策函数，有了模型的假设空间，接下来就要考虑按什么样的准则学习或者选择最优的模型。

统计学习基于训练数据集，从假设空间中选择最优的模型，最后需要考虑什么样的计算方法求解最优模型。

模型选择旨在避免过拟合并提高模型的预测能力。

监督学习：从给定的有限的训练数据出发，假设数据是独立同分布的，而且假设模型属于某个假设空间，应用某一评价准则，从假设空间中选取一个最优的模型，使他对已给的训练数据以及未知的测试数据，再给定的评价标准意义下有最准确的预测。

data["col"].value_counts().reset_idnex().sort_values("index")
# 通过设置reset_index来设置其Series变成了dataFrame类型。

#dataframe使用其他列的情况进行修改
data["col1"][data["gender"]==1] = data["col2"][data["gender"==1].apply(lambda x: 0 if x<100 else 0 ]

python中apply、map、applymap的使用方法

当我们对数据框中的数据按行或者列操作时用apply,

data.apply(lambda x:x.max() ,axis=0/1)

当我们对数据框中的每一个数据进行操作时用applymap,返回dataframe类型

data.applymap(lambda x:1 if x>0 else 0)

data[["m","s","h"]] = data[["col1","col2","col3"]].applymap(lambda x:2015 if pd.isnull(x)==1 or x==-1 else x)

当我们对于Series类型进行处理的时候对每一个数据进行操作时用map。

data["col"].map(lambda x:1 if x>0 else 0)

要想数据实现就地修改，需要先定位到数据，再用条件定位到需要进行改变的数据，实现新的复制与筛选。

one-hot编码
将数字型进行onehot编码，(但是onehot编码默认为字符型object类型),所以需要对数据先变成str类型，以及使用join方法加入到原数据框，并删除原来的变量。

data[["province","martial"]] = data[["province","mortal"]].applymap(lambda x:str(x))
dum = pd.get_dummies(data[["province","mortal"]])
data = data,join(dum)
data = data.drop(["province","mortal"],axis=1)

data["notrepaired"].replace("-",np.nan,replace=True)

EDA目标

1.载入各种库：numpy、pandas、matplotlib、seaborn、scipy库等。
2.载入数据集：pd.read_csv() 简要观察数据（head() +info()) head().append(df.tail())

data.head().append(data.tail())
data.info()

3.数据总览：通过describe()来熟悉数据的相关统计量。通过info()来熟悉数据的类型，还可以查看不符合实际的异常类型。data.select_dtypes(include=[“object”])

data.info(verbose=True,null_counts=True)   #防止数据太多不显示具体信息

4.判断数据的确实情况。df.isnull().sum(()，查看每列数据的缺失情况，进行异常值检测（初步检测，识别明显的异常值）

#1.使用missingno来识别缺失数据的可视化
import missingno as msno 
msno.matrix(data.sample(500))
msno.matrix(data.sample(500))

#2.使用plt的可视化操作
df = data.isnull().sum()
df = df > 0 
plt.bar(df.idnex,df.values,color="r")

5.了解预测值的分布：总体的分布概况。df[‘label’].describe()。查看数据的偏度和峰度:scipy.stats.skew(),scipy.stats.kurtosis()，进一步对数据进行log变换或者box-cox变换。查看预测值的具体频数，利用直方图或者条形图箱型图之类的。

sns.distplot(data["label"],kde=False,fit=stats.johsonsu)
sns.distplot(data["label"],kde=False,fit=stats.lognorm)

6.特征分类：分为数字特征和分类特征，或者时间、地理特征等。

num_features = data.select_dtypes(include=[np.number])
catrgorical_features = data.select_dtypes(include=[np.object])

7.数字特征分析：相关性分析-绘制热力图(pearson/spearman相关系数）。每个数字特征的分布可视化，可以使用顶级绘图函数会哦这利用迭代的方式。数字特征之间关系的可视化，多变量互项回归关系的可视化操作。

# 相关性分析
numeric = data[numeric_features]
correlation = numeric.corr()
correlation["price].sort_values(ascending=False)
sns.heatmap(correlation,square=True,vmax=0.8)

8.类别特征的可视化分析：unique分许分析-箱型图、条形图、小提琴图，类别频数的可视化，sns.countplot(),plt.bar()给出的时类别的均值。

# 1.使用低配版plt实现可视化操作
plt.rcParams["font.sans-serif"] = "SimHei"
plt.figure(figsize=(10,10))
i=1 
for i in range(len(cate_features)):
	plt.subplots(5,2,i)
	v = data[cat_features[i]].value_counts()
	fig = sns.bar(v.idnex,v.values)
	i+=1
	for  item in fig.getxtickslabel():
		item.set_rotation(90)
plt.light_layout()
plt.show()

# 使用melt顶级绘图函数,pd.melt,sns.FacetGrid()，map实现
def boxplot(x,y,**kwargs):
	sns.boxplot(x=categorical_feature,y="label",data=train)
	x = plt.xticks(rotation=90)
	# 单开一个函数主要是为了设置倾斜属性
f = pd.melt(train,vale_vars=categorica_features,id_vars=["label"])
g = sns.FacetGrid(f,col="variable",col_wrap=2,sharex=False,sharey=False,size=5)
g = g.map(bar_plot,"value","label")

#----------------------------------------------------------------
# 使用distplot直方图函数
f = pd.melt(data,value_vars=numeric_features)
g = sns.FacetGrid(f,col="variable",col_wrap=3,sharex=False,sharey=False)
g = g.map(sns.distplot,"value")

特征的unique分布

for cat_fea in categorical_features:
	print("{}特征有{}个不同的值“.format(cat_fea,data[cat_fea].nunique())
	print(data[col_fea].value_counts())

9.可以使用pandas-profile生成数据分析报告。–数据量大的时候直接崩溃。

import pandas_prodiling 
pfr = pandas_profiling.ProfileReaport(data)
pfr.to_file("./filename.html")

FacetGrid主要用于再数据集的子集中分别可视化变量的分布或者多个变量之间的关系，基本过后哦你工作流程时FacetGrid使用数据集和用于构造网格的变量初始化对象，然后可以通过调用FacetGrid.map()或者将一个或者多个绘图函数用用于每个子集FacetGrid.ma_dataframe().

pairplot参数
参数palette=“husl”
markers = [“o”,“s”,“D”,"+"]
diag_kind =“kde” 改变对角图
kind ="reg"使用回归

特征工程：对于特征进一步分析，并对数据进行处理

常见的特征工程包括：
1.异常处理

通过箱型图3-sigma分析删除异常值
box-cox变换处理有篇分布
长尾阶段

2.特征归一化/标准化

min-max ------ standardscale

3.数据分桶：

等距分桶
等频分桶
卡方分桶

4.缺失值的处理：

不处理（针对类似xgb等树模型自动处理缺失数据）
删除（确实太多时30%）
插值补全（均值中位数众数等
分箱/或者说高维映射

5.特征构造：

构造特征统计量，包括计数、求和、比例、标准差等
时间特征：包括相对时间和绝对时间，节假日、双休日等
地理特征：分箱或者分布编码
非线性变换：包括log/平方/根号等
特征组合：这得靠自己得理解结合有业务背景知识。

6.特征筛选

过滤式（filter)：先对数据进行特征选择，常见方法有相关系数法、方差最大法
包裹式（wrapping):直接把最终要使用的学习器的性能作为特征子集的评价准则常见方法有lvm
嵌入式（embedding):结合过滤式和包裹式，学习器训练过程中自动进行特征选择，常见的lasso回归。

7.降维：

pca ---------LDA-------------ICA

【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
华为OD机试统一考试D卷C卷 - 机器人仓库搬砖 py 愤怒的小青春 java
平安寿险北分和飞鹤职能哪个强度好一些呀，平安寿险北分和飞鹤职能哪个强度好一些呀，两个offer纠结经营分析应该属于什么序列#数据分析#在牛客搜经营分析貌似只有字节有这个单独岗位名字，其他大厂都是在从属于数据分析，所以这俩昇腾计算岗位扩招，绝佳上车AI机会，速来ai芯片业务发展太快，要大量补充人力缺口。嵌入式软件开发、测试，前后端岗位，硬件岗位都招。院校范围很春招补录两个公司总包差不多，都是后台开发
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
Python连接SQL SEVER数据库全流程 m0_74823131 数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
如何避免Bug跟踪系统混乱管理前沿运维人工智能大数据
流程规范化、工具集成化、沟通透明化。其中流程规范化通过明确每个环节的责任分工、标准化Bug报告和处理流程，有效减少混乱和重复劳动，确保Bug跟踪系统高效运转。企业通过数据分析发现，采用标准化流程后Bug处理效率可提升30%以上，这为软件质量控制提供了坚实保障。一、BUG跟踪系统的基本概念与重要性Bug跟踪系统是一种用于记录、管理和解决软件缺陷的工具和流程。它通过集中存储Bug报告、分类处理问题，并
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
零基础上手Python数据分析 (7)：Python 面向对象编程初步 kakaZhui python 数据分析 excel
写在前面回顾一下，我们已经学习了Python的基本语法、数据类型、常用数据结构和文件操作、异常处理等。到目前为止，我们主要采用的是面向过程(ProceduralProgramming)的编程方式，即按照步骤一步一步地编写代码，解决问题。这种方式对于简单的任务已经足够，但当程序变得越来越复杂，代码量越来越大时，面向过程编程可能会显得力不从心，代码难以组织、复用和维护。代码复杂性带来的挑战：面向过程v
Python 数据分析实战：跨境电商行业发展解析萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1跨境电商消费者地域分布分析2.4.2跨境电商商品销售与价格关系分析2.4.3跨境电商行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-跨境电商消费者地域分布分析3.4数据分析-跨境电商商品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集
轻松帮你搞清楚Python爬虫数据可视化的流程 liuhaoran___ python
Python爬虫数据可视化的流程主要是通过网络爬取所需的数据，并利用相关的库将数据分析结果以图形化的方式展示出来，帮助用户更直观地理解数据背后的信息。Python爬虫+数据可视化步骤1.获取目标网站的数据使用`requests`或者`selenium`库从网页上抓取信息。对于动态加载内容的页面可以考虑结合JavaScript渲染引擎。2.解析HTML内容提取有用信息常见工具如BeautifulSo
抖音视频数据获取实战：从API调用到热门内容挖掘爱搞技术的猫猫 API 音视频
在短视频流量为王的时代，掌握抖音热门视频数据已成为内容运营、竞品分析及营销决策的关键。本文将手把手教你通过抖音开放平台API获取视频详情数据，并提供完整的代码实现及商业化应用思路。一、抖音API权限申请与核心接口抖音API需企业资质认证，个人开发者权限受限。以下是接入流程：企业开发者认证•登录开放平台，选择注册，提交信息等材料。•完成认证后，创建应用（如“视频数据分析工具”），获取ClientKe
Python 爬虫实战：社交媒体品牌反馈数据抓取与舆情分析西攻城狮北 python 爬虫媒体
一、引言在当今数字化时代，社交媒体已成为公众表达意见、分享信息的重要渠道。品牌的声誉和市场表现往往受到消费者在社交平台上的反馈和评价的影响，因此品牌舆情分析变得至关重要。本文将介绍如何使用爬虫技术爬取社交媒体上的品牌反馈数据，并通过数据分析技术，分析品牌的舆情动态。二、环境准备在开始之前，确保你的开发环境已经安装了以下必要的Python库：requests:用于发送HTTP请求。beautiful
零基础上手Python数据分析 (6)：Python 异常处理，告别程序崩溃的烦恼！ kakaZhui python 数据分析数据库 excel 数据挖掘
回顾一下，前几篇博客我们学习了Python的基本语法、数据结构和文件操作。现在，我们已经掌握了Python编程的基础知识，可以开始编写更复杂的数据分析代码了。但是，在实际的数据分析工作中，程序并非总能一帆风顺地运行，总会遇到各种意外情况，例如：文件找不到：程序尝试读取一个不存在的数据文件。数据格式错误：数据文件中包含非预期的格式，例如本应是数字的列包含了文本。网络连接中断：程序尝试从网络获取数据，
微软 LIDA 库：基于大模型的自动化数据分析与可视化窝窝和牛牛 microsoft 数据分析
微软LIDA库：基于大模型的自动化数据分析与可视化一、核心架构与LLM交互流程调用LLM生成数据摘要基于LLM推理分析目标LLM生成可视化代码结合图像生成模型优化原始数据Summarizer模块结构化摘要GoalExplorer模块可视化目标列表VizGenerator模块可执行图表代码Infographer模块风格化信息图表二、LLM交互核心功能1.多模型支持架构兼容主流LLM服务商：通过统一接
AWS SAP学习笔记-概念 HainesFreeman AWS aws
1、什么是ETL应用程序，举个例子说明？ETL（Extract,Transform,Load）应用程序是一种用于数据处理和迁移的工具或程序，它主要负责从多个数据源提取数据，对数据进行转换和清洗，然后将处理后的数据加载到目标数据仓库或数据库中。ETL应用程序广泛应用于数据集成、数据仓库构建、数据分析和数据迁移等场景。ETL的三个主要步骤：Extract（提取）：从各种数据源（如数据库、文件、API等
AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能（AI）技术的快速发展，大语言模型（LLM）在应急管理领域的应用逐步扩大。ChatGPT、DeepSeek、Grok等AI模型凭借强大的文本处理、数据分析和推理能力，可为灾害预警、应急响应、风险评估等提供高效支持。本文将对比三大AI模型在应急管理中的优势，并探讨其在未来智能化应急管理体系中的应用前景。2.应急管理中的核心挑战应
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
使用 Nginx 实现镜像流量：提升系统可用性与负载均衡绝顶少年 nginx 负载均衡 java
在现代分布式系统中，确保高可用性和负载均衡是至关重要的。Nginx作为一个高性能的反向代理服务器，不仅可以用于负载均衡，还可以通过镜像流量（TrafficMirroring）功能，将实时流量复制到其他服务器，用于测试、监控或数据分析，而不会影响生产环境。本文将详细介绍如何使用Nginx实现镜像流量。(有时候只是实现单接口的数据共享也同样可以采用单接口配置！如果你遇到按照配置完成后主服务器实现了转发
阻止 Mac 在运行任务时进入休眠状态好好学习 666 macos
掌握`Caffeinate`命令：让您的Mac保持清醒以完成关键任务开发人员经常发现自己在Mac上运行持续时间较长的进程。无论是大量文件上传、广泛的数据分析脚本，还是复杂的构建过程，我们最不希望的就是我们的机器在任务中途进入睡眠状态。输入`caffeinate`命令–macOS的内置解决方案，可在您最需要时保持系统唤醒。##睡眠困境MacOS在设计时考虑了电源效率，这对电池寿命非常有用，但在运行时
使用Seaborn绘制小提琴图 CodeWG python 开发语言
使用Seaborn绘制小提琴图在数据分析与可视化中，小提琴图是一种常用的图表类型。它能够展示数据的分布情况，同时还能显示中位数、四分位数和异常值等统计指标。在Python中，我们可以使用Seaborn库来轻松地绘制小提琴图。下面就来详细介绍一下如何使用Seaborn来创建小提琴图。首先，我们需要导入必要的库和数据集。这里我们使用Seaborn自带的数据集tips作为例子。importseaborn
Elasticsearch + Docker：实现容器化部署指南 IT成长日记 elasticsearch docker 容器化部署
Elasticsearch是一款强大的分布式搜索和分析引擎，广泛应用于日志分析、全文检索、实时数据分析等场景。而Docker作为一种轻量级的容器化技术，能够帮助开发者快速部署和管理应用。将Elasticsearch与Docker结合，不仅可以简化部署流程，还能提高资源利用率和系统可维护性。1环境准备1.1安装Docker安装操作请参考：Docker入门指南：1分钟搞定安装+常用命令，轻松入门容器化
从入门到进阶：Python数据可视化实战技巧 Blossom.118 分布式系统与高性能计算领域信息可视化 python 开发语言网络协议 spring boot java 后端
在数据分析和数据科学领域，数据可视化是将复杂数据以直观图形展示的重要手段。Python作为数据科学领域的首选语言之一，提供了强大的数据可视化库，如Matplotlib、Seaborn、Plotly等。本文将从入门到进阶，逐步介绍Python数据可视化的实战技巧，帮助读者快速提升数据可视化能力。一、入门：Matplotlib基础Matplotlib是Python中最基础、最强大的数据可视化库之一。它
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
Python 数据分析实战：宠物经济行业发展洞察萧十一郎@ python python 数据分析宠物
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1宠物用品用户满意度分析2.4.2宠物用品销售与价格关系分析2.4.3宠物经济行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-宠物用品用户满意度分析3.4数据分析-宠物用品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集改进4.2数据清
专利信息管理知识产权基于Spring Boot SSM QQ1978519681计算机程序 java 前端数据库毕业设计计算机毕业设计 spring boot
目录一、需求分析1.1系统用户角色与权限1.2专利信息管理功能二、数据分析与报表生成三、系统性能与安全性四用户体验与界面设计五扩展性与可维护性六、法律法规与合规性七.技术选型与实现‌7.1技术选型‌：‌7.2实现方式‌：随着科技的不断发展和知识产权保护意识的提升，专利信息管理系统的需求日益增加。基于SpringBoot的专利信息管理系统旨在提供一个高效、便捷的平台，帮助用户全面管理专利信息。该系统
Matplotlib如何创建交互式图表？ EdgarBertram matplotlib
Matplotlib是一个强大的Python绘图库，它可以用于生成高质量的静态图像。然而，Matplotlib同样支持创建交互式图表，这对于数据分析和可视化非常有用。交互式图表允许用户通过交互方式探索数据，例如缩放、平移或者查询数据点。下面我们将详细介绍如何使用Matplotlib创建交互式图表。一、安装与配置首先，确保你已经安装了Matplotlib库。你可以使用pip来安装：bash复制代码p
使用E2B数据分析沙盒进行文件分析 qahaj 数据分析数据挖掘 python
使用E2B数据分析沙盒进行文件分析在现代数据分析中，运行环境的安全性与灵活性是确保数据处理高效可靠的关键因素。E2B提供了一个数据分析沙盒，能够在隔离的环境中安全地执行代码，非常适合构建诸如代码解释器或类似于ChatGPT的高级数据分析工具。在这篇文章中，我将演示如何使用E2B的数据分析沙盒来对上传的文件进行分析，为您提供一个强大的Python代码示例。核心原理解析E2B的数据分析沙盒为开发者提供
数据分析实战：Shopee虾皮网销售数据分析 harvensage 数据分析数据分析数据挖掘
一、背景目标Shopee（虾皮网）是东南亚电商平台，覆盖新加坡、马来西亚、菲律宾、泰国、越南、巴西、墨西哥、哥伦比亚、智利等十余个市场，触达超10亿消费者！2023年Shopee总订单量达82亿，23年Q4总订单数同比增长46%！分析数据样本来自某爬虫系统爬取的Shopee网从2023年4月至2023年5月期间特定产品的销售数据。任务要求任务要求：从数据中获取在2023年5月上市的产品。使用问题1
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring