DreamStar_w

Datawhale数据挖掘新手入门学习笔记——Task2数据分析

一、前言

这是我的第一篇学习笔记的博客，因为新手上路学习数据挖掘，所以不会的东西有点多就写了很多。所以有什么意见欢迎来指点呀！
感谢Datawhale的给出的学习指南：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12281978.0.0.68021b43uFO2bV&postId=95457

二、EDA目标

1.熟悉了解数据集，对数据集进行验证来确定所获得数据集可用于接下来的机器学习或深度学习使用。
2.了解变量间的相互关系以及变量与预测值之间的存在关系。
3.学习数据处理以及特征工程的步骤，使数据集的结构和特征集让接下来的预测问题更加可靠。
4.完成对于数据的探索性分析，对数据进行一些图标或文字总结。

三、学习过程

1.什么是数据集？

数据集（Data set）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。 ——百度百科

2.对于使用的一些python库的简单了解

（1）pandas库
pandas提供了高级数据结构和函数，这些数据结构和函数的设计使得利用结构化、表格化数据的工作快速、简单、有表现力。其中主要使用的pandas对象是DataFrame，它是二维的表格型数据结构，用于实现表格化、面向列、使用行列标签的数据结构；还有Series，它是一种一维标签数组对象。

（2）numpy库
numpy是Numerical Python库的简写，是python数值计算的基石。它提供多种数据结构、算法以及大部分涉及python数值计算所需的接口。

（3）matplotlib库
matplotlib是用于制图及其他二维数据可视化的python库。

（4）seaborn库 ——数据统计可视化
Seaborn是基于matplotlib的Python数据可视化库。它提供了用于绘制引人入胜且内容丰富的统计图形的高级界面。

（5）missingno库
missingno提供了一个灵活且易于使用的缺失数据可视化和实用程序的小工具集。

3.简单的数据导入与数据查看

下面的代码都是基于零基础入门数据挖掘 - 二手车交易价格预测的比赛：https://tianchi.aliyun.com/competition/entrance/231784/information

#coding:utf-8 
#导入warnings包，利用过滤器来实现忽略警告语句。 
import warnings 
warnings.filterwarnings('ignore')
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns 
import missingno as msno

Train_data = pd.read_csv('used_car_train_20200313.csv', sep=' ')
Test_data = pd.read_csv('used_car_testA_20200313.csv', sep=' ')


#简略观察数据(head()+shape) 
Train_data.head().append(Train_data.tail())

pd.read_csv(filename)：从CSV文件导入数据

Train_data.head()：查看对象Train_data的前5行

Train_data.tail()：查看对象Train_data的最后5行

Train_data.shape（）

Train_data.shape：查看行数和列数

4.总览数据概况

Test_data.describe()

Test_data.describe()：查看数值列的汇总统计它有每列的统计量：个数count、平均值mean、方差std、最小值min、中位数25% 50% 75% 、以最大值max

Test_data.info()

Test_data.info()：查看索引、数据类型和内存信息

5.可视化下看缺失值

Train_data.isnull().sum()

Train_data.isnull().sum()：查看对象Train_data的列是否有空值，若没有则返回False；并用sum()将False的个数相加。个数为0就代表没有空值。

# nan可视化 
missing = Train_data.isnull().sum() 
missing = missing[missing > 0]
missing.sort_values(inplace=True) 
missing.plot.bar()

missing[missing > 0] ：将missing>0的以列表形式放入missing中。

missing.sort_values(inplace=True)：将元素排序并且替换原来的数据。

missing.plot.bar()：画出垂直条形图

在这里可以直观得看出哪些列是有空值的、拥有空值的多少。可以帮助我们判断在后续的分析中是否要删除这些空值多的列。

msno.matrix(Train_data.sample(250))

msno.matrix(Train_data.sample(250))：随机抽取Train_data中的250条数据，生成查看缺失值的可视化。

由上图可以看出，白线越多，代表缺失值越多。

msno.bar(Train_data.sample(1000))

msno.bar(Train_data.sample(1000))：简单展示无效数据的条形图。图表显示了给定数据的空值。

6.了解预测值的分布

总体分布概况

import scipy.stats as st
y = Train_data['price'] 
plt.figure(1); plt.title('Johnson SU') 
sns.distplot(y, kde=False, fit=st.johnsonsu)

plt.figure(1); plt.title(‘Johnson SU’) :创建了画板1并命名为Johnson SU

sns.distplot(y, kde=False, fit=st.johnsonsu) ：将对象Johnson SU绘制观测值的单变量分布，不绘制高斯克密度估计。

说明价格不服从正态分布，所以要先转化后进行回归。

查看skewness和kurtosis

sns.distplot(Train_data['price'])
print("Skewness: %f" % Train_data['price'].skew())
print("Kurtosis: %f" % Train_data['price'].kurt())

Train_data.skew():返回对请求的Train_data中的price的无偏倾斜，按N-1归一化。

Train_data[‘price’].kurt()：使用Fisher的峰度定义返回的Train_data中的price上的无偏峰度(normal的峰度==
0.0)，按N-1归一化。

偏度 Skewness是描述数据分布形态的统计量，其描述的是某总体取值分布的对称性，简单来说就是数据的不对称程度。

峰度 Kurtosis是描述某变量所有取值分布形态陡缓程度的统计量，简单来说就是数据分布顶的尖锐程度。

查看预测值的具体频数
由前面查看价格的总体分布概况可知道，大于20000的值极少，因此可以当做特殊值直接填充或者删掉。因此就利用log变换进行预测，这也是预测问题常用的技巧。

plt.hist(np.log(Train_data['price']), orientation = 'vertical',histtype = 'bar', color ='red') 
plt.show()

7.特征分为类别特征和数字特征，并对类别特征查看unique分布

# 分离label即预测值 
Y_train = Train_data['price']
#数字特征
numeric_features = ['power', 'kilometer', 'v_0', 'v_1', 'v_2', 'v_3', 'v_4', 'v_5', 'v_6', 'v_7', 'v_8', 'v_9', 'v_10', 'v_11', 'v_12', 'v_13','v_14']
#类型特征
categorical_features = ['name', 'model', 'brand', 'bodyType', 'fuelType', 'gearbox','notRepairedDamage','regionCode','seller','offerType','createDate']
# 特征nunique分布 
for cat_fea in categorical_features:
    print(cat_fea + "的特征分布如下：")
    print("{}特征有个{}不同的值".format(cat_fea, Train_data[cat_fea].nunique()))
    print(Train_data[cat_fea].value_counts())

str.format()：增强字符串格式化的功能，基本语法是通过{}和：代替以前的%。

Train_data.nunique()：返回Train_data的cat_fea有多个不同观测值的序列。

数字特征分析

（1）相关性分析

numeric_features.append('price')
price_numeric = Train_data[numeric_features] 
correlation = price_numeric.corr() 
print(correlation['price'].sort_values(ascending = False),'\n')

price_numeric.corr()：计算列的两两相关，不包括NA/null值。

correlation.sort_values():按降序排序

f , ax = plt.subplots(figsize = (7, 7))
plt.title('Correlation of Numeric Features with Price',y=1,size=16)
sns.heatmap(correlation,square = True,  vmax=0.8)

sns.heatmap():用颜色编码的矩阵来绘制矩形数据。

（2）查看几个特征的偏度和峰值

for col in numeric_features:
    print('{:15}'.format(col),
          'Skewness: {:05.2f}'.format(Train_data[col].skew()) ,
          '   ' ,
          'Kurtosis: {:06.2f}'.format(Train_data[col].kurt())
         )

（3）每个数字特征得分布可视化

f = pd.melt(Train_data, value_vars=numeric_features) 
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False) 
g = g.map(sns.distplot, "value")

pd.melt():可以选择将数据流从宽格式转换成长格式，设置标识符变量。

sns.FacetGrid()：用于绘制条件关系的多图网格。建立一个有刻度的空白面板。

g.map()：将绘图函数应用于每个方面的数据子集。

可以看出匿名特征相对分布均匀

(4)数字特征相互之间的关系可视化

sns.set()
columns = ['price', 'v_12', 'v_8' , 'v_0', 'power', 'v_5',  'v_2', 'v_6', 'v_1', 'v_14']
sns.pairplot(Train_data[columns],size = 2 ,kind ='scatter',diag_kind='kde') 
plt.show()

sns.pairplot():在数据集中绘制成对关系。参数diag_kind="kde"代表单变量为线形图，其他散点。参数kind ='scatter’代表为类型是散点图。

（5）多变量相互回归关系可视化

fig, ((ax1, ax2), (ax3, ax4), (ax5, ax6), (ax7, ax8), (ax9, ax10)) = plt.subplots(nrows=5, ncols=2,figsize=(24,20))
v_12_scatter_plot = pd.concat([Y_train,Train_data['v_12']],axis = 1) 
sns.regplot(x='v_12',y = 'price', data = v_12_scatter_plot,scatter= True, fit_reg=True, ax=ax1)
                                                                                  
v_8_scatter_plot = pd.concat([Y_train,Train_data['v_8']],axis = 1) 
sns.regplot(x='v_8',y = 'price',data = v_8_scatter_plot,scatter= True, fit_reg=True, ax=ax2)

v_0_scatter_plot = pd.concat([Y_train,Train_data['v_0']],axis = 1) 
sns.regplot(x='v_0',y = 'price',data = v_0_scatter_plot,scatter= True, fit_reg=True, ax=ax3)

power_scatter_plot = pd.concat([Y_train,Train_data['power']],axis = 1) 
sns.regplot(x='power',y = 'price',data = power_scatter_plot,scatter= True, fit_reg=True, ax=ax4)

v_5_scatter_plot = pd.concat([Y_train,Train_data['v_5']],axis = 1) 
sns.regplot(x='v_5',y = 'price',data = v_5_scatter_plot,scatter= True, fit_reg=True, ax=ax5)

v_2_scatter_plot = pd.concat([Y_train,Train_data['v_2']],axis = 1) 
sns.regplot(x='v_2',y = 'price',data = v_2_scatter_plot,scatter= True, fit_reg=True, ax=ax6)

v_6_scatter_plot = pd.concat([Y_train,Train_data['v_6']],axis = 1) 
sns.regplot(x='v_6',y = 'price',data = v_6_scatter_plot,scatter= True, fit_reg=True, ax=ax7)

v_1_scatter_plot = pd.concat([Y_train,Train_data['v_1']],axis = 1) 
sns.regplot(x='v_1',y = 'price',data = v_1_scatter_plot,scatter= True, fit_reg=True, ax=ax8)

v_14_scatter_plot = pd.concat([Y_train,Train_data['v_14']],axis = 1) 
sns.regplot(x='v_14',y = 'price',data = v_14_scatter_plot,scatter= True, fit_reg=True, ax=ax9)

v_13_scatter_plot = pd.concat([Y_train,Train_data['v_13']],axis = 1) 
sns.regplot(x='v_13',y = 'price',data = v_13_scatter_plot,scatter= True, fit_reg=True, ax=ax10)

plt.subplots()：创建一个图形和一组子图。

pd.concat()：将数据根据不同的轴作简单的融合。

sns.regplot()：图数据与线性回归模型拟合。

类别特征分析

我觉得使用最多的是柱形图可视化，因此只做了个别特征的柱形图可视化

for fea in categorical_features:
    print(Train_data[fea].nunique())

运行结果：

99662
248
40
8
7
2
2
7905
2
1

Train_data.nunique()：返回在请求轴上多个不同观测值的序列。

categorical_features = ['model', 'brand', 'bodyType', 'fuelType', 'gearbox', 'notRepairedDamage'] 
for c in categorical_features:
    Train_data[c] = Train_data[c].astype('category')
    if Train_data[c].isnull().any():
        Train_data[c] = Train_data[c].cat.add_categories(['MISSING'])
        Train_data[c] = Train_data[c].fillna('MISSING')
        
def bar_plot(x, y, **kwargs):
    sns.barplot(x=x, y=y)
    x=plt.xticks(rotation=90)
    
f = pd.melt(Train_data, id_vars=['price'], value_vars=categorical_features) 
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False, size=5) 
g = g.map(bar_plot, "value", "price")

8.用pandas_profiling生成数据报告

import pandas_profiling
pfr = pandas_profiling.ProfileReport(Train_data) 
pfr.to_file("./example.html")

四.小结

数据探索会让我们发现数据的一些特性和数据之间的关联性，主要步骤为：
1.查看数据，对数据要有初步的认识。要注意数据是否有缺失值，是否会影响数据中的表现形式，一些无意义的数据可以进行适当的删除。
2.分析记录某些特征值缺失占比30%以上样本的缺失处理，分析特征应该是填充，还是舍去，还是要先做样本分类用不同的特征模型去预测。
3.对异常值做分析，分析特征异常的label是否为异常值，异常值是否要删除，还是用正常值填充，是记录异常还是机器本身异常等等。
4.对label做专门分析，分析标签分布情况等等。
5.进一步分析可通过对特征作图，对特征和特征联合作图，特征和label联合作图，分析关联性。

个人观点：
简单地说，就是将数据做一个简单的预处理。先看数据有没有缺失值，再看缺失值是否有意义，然后再做数据关联分析。

ODBC的基本使用种花的人_ 开发工具数据库
前言在工作中，使用POWERBI做数据分析报表的时候用到ODBC，对于POWERBI语义模式实现连接数据库必须使用到ODBC，那什么是ODBC？1.ODBC的基本概念1.1ODBC驱动程序每种数据库都有相应的ODBC驱动程序，这些驱动程序负责处理与数据库的通信。驱动程序将ODBC调用转换为数据库特定的调用，并将结果返回给应用程序。1.2数据源名称(DSN)DSN是一个配置名称，用于保存连接到数据库
R数据分析：多分类问题预测模型的ROC做法及解释公众号Codewar原创作者 R 数据分析
有同学做了个多分类的预测模型，结局有三个类别，做的模型包括多分类逻辑回归、随机森林和决策树，多分类逻辑回归是用ROC曲线并报告AUC作为模型评估的，后面两种模型报告了混淆矩阵，审稿人就提出要统一模型评估指标。那么肯定是统一成ROC了，刚好借这个机会给大家讲讲ROC在多分类问题情形下的具体使用和做法。ROC曲线回顾ROC曲线（ReceiverOperatingCharacteristicCurve）
我的ROS学习笔记（四） zenpluck 自动驾驶 c++
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档publisher程序代码学习前言一、包含消息类型声明二、创建发布者对象三、创建并填充消息对象四、发布消息五、消息发布循环1.节点是否停止工作的检查2.控制消息发布频率总结前言发布者程序包含了很多之前不懂的知识，刚开始也许只能复制粘贴代码来运行实例，但最终目的还是为了自己能够编写这些代码。因此，弄明白哪部分代码是什么意思非常有必要，不
学习笔记之——3DGS-SLAM系列代码解读 gwpscut 3D Gaussian Splatting (3DGS)3DGS 深度学习三维重建计算机视觉 3d
最近对一系列基于3DGaussianSplatting（3DGS）SLAM的工作的源码进行了测试与解读。为此写下本博客mark一下所有的源码解读以及对应的代码配置与测试记录~其中工作1~5的原理解读见博客：学习笔记之——3DGaussianSplatting及其在SLAM与自动驾驶上的应用调研_3dgaussiansplattingslam-CSDN博客文章浏览阅读5.3k次，点赞53次，收藏92
R数据分析：有调节的中介与有中介的调节的整体介绍公众号Codewar原创作者算法人工智能
单独的有调节的中介或者有中介的调节好多同学还大概能看明白，但是两个东西一起说我发现大部分同学就懵逼了。今天我就尝试将两种方法一起讲讲，重点帮助大家厘清两种方法的异同。先从整体上看下两者的概念：有中介的调节首先落脚在调节，调节作用必须是显著的，并且这个调节作用的实现过程要通过中介变量。theideal-typicalmediatedmoderationisfirstofallasignificant
《CANOpen》学习笔记3 wumingdezu CANopen CANopen sdo 通信
《CANOpen》学习笔记3《CANOpen协议——SDO介绍》注：这里的SDO模式有点类似于TCP/IP中的TCP模式。即『服务器-客户端』模式本文主要以一个实例进行讲解。1.目的：实现节点2的数据传送到节点32.手段：使用SDO进行传送SDO不能实现从节点之间的数据直接传送3.分析：SDO通讯可以描述成客户/服务器模式，SDO的客户/服务器通讯模式如图所示。两个节点中请求进行读写操作的节点为客
CANopen学习笔记卡钦斯基通信协议网络
1.CANopen的预定义报文ID分类CANopen在设计时，对其定义为小网络、控制信号的实时通讯：报文传输采用CAN标准帧格式。即11bit的ID域，以尽量减小传输时间。网络控制报均采用数据最小字节数。比如心跳报文，只有1个字节数据。实时更新的过程数据无需接收方报文应答。即采用生产消费模型，降低总线负载。需要接收方确认的配置参数一般都时采用快速单字传输。即1个报文最多传达1个32bit的参数变量
【数据挖掘实战】房价预测机器学习司猫白数据挖掘人工智能 python 机器学习
本次对kaggle中的入门级数据集，房价回归数据集进行数据挖掘，预测房屋价格。本人主页：机器学习司猫白机器学习专栏：机器学习实战PyTorch入门专栏：PyTorch入门深度学习实战：深度学习ok，话不多说，我们进入正题吧概述本次竞赛有79个解释变量（几乎）描述了爱荷华州艾姆斯住宅的各个方面，需要预测每套住宅的最终价格。数据集描述本次数据集已经上传，大家可以自行下载尝试文件说明train.csv-
【dbt】数据加工大师浅谈一盘胡椒鱼 dbt 数据库数据仓库 etl 数据分析 sql
dbt是dbtlabs公司在2016年推出的一款基于Python的开源数据加工工具。从2019年开始，dbt的用户数量增涨十分迅速。dbtlabs凭借此工具，在2022年估值达到了42亿美金。dbt的价值dbt是面向分析工程师提供服务。【分析工程师】是dbt新定义的岗位，是基于DataOps思想，综合了数据工程师和数据分析师两者。即分析师也应该会代码开发（实际上，现在很多的数据分析师就是在做sql
让旅游更智能：基于AR的旅游导览应用解析 Echo_Wish Python 笔记 Python算法旅游 ar restful
友友们好！我的新专栏《Python进阶》正式启动啦！这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发等。●实战案例：通过丰富的实战案例，带你一步步实现
Redis学习笔记1【数据类型和常用命令】 Rinai_R Redis学习笔记 redis 学习笔记数据库经验分享
Redis学习笔记基础语法1.数据类型String:最基本的类型，可以存储任何数据，例如文本或数字。示例值为helloworld。Hash:用于存储键值对，适合存储对象或结构体。示例值为{"name":"Jack","age":21}。List:有序的字符串列表，适用于队列等场景。示例值为[A->B->C]。Set:不重复的元素集合，适用于需要唯一性的场景。示例值为{A,B,C}。SortedSe
计算机组成原理的学习笔记（1） Rinai_R 计算机组成原理学习笔记
学习笔记前言本文主要是对于b站尚硅谷的计算机组成原理的学习笔记，仅用于学习交流。一、hello.c如何运行起来？1.预处理阶段在编译C程序时，预处理器首先处理代码。预处理器会：插入头文件：例如，当在代码中使用#include时，预处理器会将stdio.h中的内容插入到源代码中。这样，编译器在处理时就得到了所有必要的函数声明和宏定义。宏替换和条件编译：将所有的宏定义替换为实际值，并处理任何条件编译的
【Python学习笔记】简单调用百度API应用白马银枪素征袍 python python 百度开发语言
#本文一切代码及理论均来自于郑秋生、夏敏捷二位老师主编《Python项目案例发从入门到实践》一书，本人仅做微改。创作本文的目的仅为总结本人的学习过程和成果，借此巩固。可能存在许多疏漏之处，还请各位同道多多批评指正。今天学的是调用百度API一个章节，百度大家都熟悉，现如今中国最大的互联网企业之一，坐拥大量曾经的“爆款”，甚至拥有堪称第一代中国现象级软件的“百度贴吧”，创造了无数出圈梗，几乎是一代人的
税务门户网站系统：数据分析与税务政策传播 liuxin33445566 安全 java 开发语言数据库前端
2.1SSM框架介绍本课题程序开发使用到的框架技术，英文名称缩写是SSM，在JavaWeb开发中使用的流行框架有SSH、SSM、SpringMVC等，作为一个课题程序采用SSH框架也可以，SSM框架也可以，SpringMVC也可以。SSH框架是属于重量级别的框架，配置繁琐，不够灵活，修改程序需要修改好多个文件，并且运行起来也占用内存较高，CPU使用率相对也高，SpringMVC是Spring开发的
程序员转行做什么好：数据分析师、AI大模型工程师、产品经理和云计算工程师？雪碧没气阿人工智能产品经理云计算大模型训练 LLM AI大模型程序员
程序员转行做什么好先给结论再说理由：数据分析师、AI大模型工程师、产品经理和云计算工程师。这些领域不仅因应了当前技术发展的趋势，也为程序员提供了转型的广阔舞台和职业发展的新机遇。一起来看看吧！数据分析师：数据驱动决策的关键程序员转行时，应考虑当前市场上的热门行业和岗位需求。例如，AI大模型工程师、数据分析师、前端开发工程师、全栈开发工程师等都是当前市场上需求量较大的职位。就拿数据分析师来说，因其在
25.FFmpeg学习笔记 - 用libavfilter转换原始音频格式2 whoyouare888 FFmpeg
本文用libavfilter的另一种方法来转换原始音频格式，见代码。#include#include#include#include#include"libavutil/channel_layout.h"#include"libavutil/md5.h"#include"libavutil/mem.h"#include"libavutil/opt.h"#include"libavutil/samp
如何查看商品销量 API 接口的性能指标数据前端后端运维数据挖掘api
在当今电商蓬勃发展的时代，数据成为驱动业务决策的关键因素。商品销量作为衡量产品受欢迎程度和销售业绩的核心指标，其获取依赖于高效稳定的API接口。对于电商开发者、数据分析师以及业务决策者而言，了解如何查看商品销量API接口的性能指标数据至关重要。这些性能指标不仅能反映接口的运行状态，还能为优化接口、提升用户体验以及保障业务连续性提供有力依据。本文将深入探讨查看商品销量API接口性能指标数据的方法，并
Flask学习笔记(一):基本框架和HTTP处理洪小帅 flask 学习笔记 python web
文章目录前言flask学习笔记1.基本框架1.1视图函数与路由1.2模板与静态文件2.HTTP与flask2.1Request对象2.2request获取url参数2.2.1args.get()方法2.2.2args.getlist()方法2.3处理请求2.4重定向总结前言兄弟们,flak是真好用吧!本文是笔者学习flask时做的笔记的第一篇,记录了一些最基础且常用的入门级操作.flask学习笔记
基于Python的三种主流网络爬虫技术吃肉肉335 python 爬虫开发语言
一、网络爬虫是什么网络爬虫，通常也被称为网络蜘蛛或网络机器人，是一种按照一定方法，获取网络各种信息的自动化脚本程序，也可以将其理解为一个在互联网上自动提取网页信息并进行解析抓取的程序。网络爬虫的功能不仅局限于复制网页内容、下载音视频文件，更包括自动化执行行为链以及模拟用户登录等复杂操作。在当前大数据背景下，无论是人工智能应用还是数据分析工作，均依赖于海量的数据支持。如果仅依赖人工采集这一种方式，不
Bash语言的数据库交互清妍琉璃包罗万象 golang 开发语言后端
Bash语言的数据库交互引言随着信息技术的飞速发展，数据库在各行各业中扮演着越来越重要的角色。无论是企业管理、数据分析，还是大数据处理，数据库都是基础设施的重要组成部分。对于开发者和系统管理员而言，能够高效地与数据库进行交互是一项必不可少的技能。在众多编程语言中，Bash作为一种脚本语言，以其简洁、高效和易用的特点，逐渐在数据库管理和交互中获得了一席之地。本文将深入探讨如何使用Bash进行数据库交
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
Java 大视界 -- Java 大数据文本分析与自然语言处理：从文本挖掘到智能对话一只蜗牛儿 java 大数据自然语言处理
在当今的信息化时代，数据成为了重要的资源。特别是文本数据，随处可见，如社交媒体、新闻网站、技术文档、客户反馈等，这些都包含着大量的潜在信息。因此，如何从海量的文本中提取有价值的信息，成为了大数据分析领域的重要课题。Java作为一种高效、灵活的编程语言，在大数据文本分析与自然语言处理（NLP）中发挥着至关重要的作用。本文将介绍如何利用Java开发大数据文本分析和自然语言处理（NLP）应用，带领你从文
数据挖掘：定义、挑战与应用黑色叉腰丶大魔王数据挖掘人工智能
一、数据挖掘的定义（一）概念阐述数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它融合了数据库技术、统计学、机器学习、人工智能等多学科的理论和方法，旨在通过对数据的深入分析和处理，发现有价值的模式、关联、趋势等，从而为决策提供支持。（二）与相关概念的区别与联系数据库管理：数据库管理侧重于数据的存储、组织、检索和维护
Adaptive AUTOSAR 学习笔记 3 - AP 背景、技术及特征 aFakeProgramer AP AUTOSAR #AP AUTOSAR 新标准解读系列学习笔记
本系列学习笔记基于AUTOSARAdaptivePlatform官方文档R20-11版本。本文从AUTOSAR_EXP_PlatformDesign.pdf开始，一边学习，一边顺带着翻译一下。尽力而为，不保证精确。你若愿意，也可以当作AUTOSARAdaptivePlatform（AP）中文版来阅读1介绍1.1内容本规范（AUTOSAR_EXP_PlatformDesign.pdf）描述AP设计。
学习笔记一：oracle体系结构组件 coxddta29006 数据库操作系统 java
首先声明一下，我的学习笔记参考书主要是官方教材，oracle9idatabaseadministrationfundamentsed2.0我觉得学习是一个循序渐进的过程,从面到点,从宏观到微观,逐步渗透,各个击破,对于oracle,怎么样从宏观上来理解呢?先来看一个图,这个图取自于上面提到的教材,这个图对于从整体上理解ORACLE的体系结构组件，非常关键.下面来解释下这个图.对于一个数据库系统来说
MDX语言的语法糖 ByteBlossom666 包罗万象 golang 开发语言后端
MDX语言的语法糖及其应用分析引言在当今数据驱动的时代，大数据分析和数据可视化已成为企业决策中不可或缺的一部分。MDX（MultidimensionalExpressions，多维表达式）作为一门专为分析多维数据而设计的查询语言，广泛应用于商业智能（BI）工具中。随着技术的发展，MDX语言逐渐演变，形成了其独特的语法糖，以提高开发者的效率和可读性。本文将深入探讨MDX语言的语法糖特性及其在实际应用
利用E2B环境进行数据分析 - 创建一个简单的OpenAI Agent srudfktuffk 数据分析数据挖掘 python
在AI技术应用中，数据分析是一个关键环节。E2B的云环境为大模型（LLM）的运行提供了一个安全的运行时沙箱，非常适合用来构建代码解释器或进行高级数据分析。在这篇文章中，我们将介绍如何利用E2B的DataAnalysis沙箱，结合OpenAI的API，创建一个简化的自动化数据分析应用。技术背景介绍E2B的DataAnalysis沙箱能够安全地执行代码，是构建自动化数据分析工具的理想选择。该沙箱提供了
Azure数据分析Power BI SmallFatMan #Azure azure 数据分析 microsoft 服务器运维面试面试云计算
Azure数据分析PowerBI一、PowerBI简介二、PowerBI如何匹配角色三、PowerBI构建基块四、使用PowerBI服务一、PowerBI简介MicrosoftPowerBI是一系列的软件服务、应用和连接器，这些软件服务、应用和连接器协同工作，将不相关的数据源转化为合乎逻辑、视觉上逼真的交互式见解。不管你的数据是简单的MicrosoftExcel工作簿，还是基于云的数据仓库和本地混
3章mysql表连接查询_mysql学习笔记（六）--- 多表查询之外键、表连接、子查询、索引... kindle电子书单 3章mysql表连接查询
本章主要内容：一、外键二、表连接三、子查询四、索引一、外键：1、什么是外键2、外键语法3、外键的条件4、添加外键5、删除外键1、什么是外键：主键：是唯一标识一条记录，不能有重复的，不允许为空，用来保证数据完整性外键：是另一表的主键,外键可以有重复的,可以是空值，用来和其他表建立联系用的。所以说，如果谈到了外键，一定是至少涉及到两张表。例如下面这两张表：上面有两张表：部门表(dept)、员工表(em
利用MediaWikiDump解析和处理Wiki数据 srudfktuffk python
MediaWikiXMLDumps包含了Wiki页面及其所有修订的内容，但不包括与站点相关的数据，比如用户帐户、图像和编辑日志。因此，虽然它们没有创建Wiki数据库的完整备份，却在处理Wiki内容时具有独特的价值。技术背景介绍MediaWiki是许多Wiki（例如Wikipedia）后台的开源软件。使用MediaWikiXMLDumps，你可以获得Wiki页面的详细修订历史记录。这在数据分析和内容
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {