不忘初欣丶

机器学习探索性数据分析

文章目录

1. 数据总览
- 1.1 查看数据的维度
- 1.2 查看列的数据类型
- 1.3 查看索引
- 1.4 获取数据值
- 1.5 数据集相关信息概览
- 1.6 查看数据的统计信息
- 1.7 查看前3行数据
2. 缺失值查看与处理
- 2.1 缺失值查看
- 2.2 缺失值处理
3. 异常值检测与处理
- 3.1 异常值检测
- 3.2 异常值处理
4. 特征分析
- 4.1 查看数值型和类别型特征
- 4.2 单一变量分布可视化
- 4.3 相关性分析
5. 生成数据分析报告

数据探索性分析（EDA）目的主要是了解整个数据集的基本情况（多少行、多少列、均值、方差、缺失值、异常值等）；通过查看特征的分布、特征与标签之间的分布了解变量之间的相互关系、变量与预测值之间的存在关系；为特征工程做准备。

1. 数据总览

使用的数据是广告点击率预估挑战赛数据集

读取数据集：

path = r'E:\数据集\竞赛数据\广告点击率预估挑战赛.csv'
df = pd.read_csv(path, encoding='utf-8')

1.1 查看数据的维度

df.shape

# (391825, 13)

共有391825条数据，13个列

1.2 查看列的数据类型

查看所有列的数据类型

# 查看所有列的数据类型
df.dtypes

查看某一列的数据类型

# 查看某一列的数据类型
df['gender'].dtype, df['id'].dtype

# (dtype('O'), dtype('int64'))

1.3 查看索引

查看行索引：

df.index

# RangeIndex(start=0, stop=391825, step=1)

查看列索引：

df.columns

"""
Index(['id', 'date', 'user_id', 'product', 'campaign_id', 'webpage_id',
       'product_category_id', 'user_group_id', 'gender', 'age_level',
       'user_depth', 'var_1', 'isClick'],
      dtype='object')
"""

1.4 获取数据值

# 两者均返回numpy类型数组
df.values 或者 df.to_numpy()

"""
array([[0, '07-02 00:00', 0, ..., 3.0, 0, 0],
       [1, '07-02 00:00', 1, ..., 2.0, 0, 0],
       [2, '07-02 00:00', 1, ..., 2.0, 0, 0],
       ...,
       [391822, '07-06 23:59', 135658, ..., 3.0, 1, 0],
       [391823, '07-06 23:59', 39562, ..., 3.0, 0, 0],
       [391824, '07-06 23:59', 39562, ..., 3.0, 0, 0]], dtype=object)
"""

1.5 数据集相关信息概览

# 包含了所有列的列名及其数据类型，以及每列中非空值的数量，数据大小，索引等
df.info()

"""

RangeIndex: 391825 entries, 0 to 391824
Data columns (total 13 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   id                   391825 non-null  int64  
 1   date                 391825 non-null  object 
 2   user_id              391825 non-null  int64  
 3   product              391825 non-null  int64  
 4   campaign_id          391825 non-null  int64  
 5   webpage_id           391825 non-null  int64  
 6   product_category_id  391825 non-null  int64  
 7   user_group_id        376082 non-null  float64
 8   gender               376082 non-null  object 
 9   age_level            376082 non-null  float64
 10  user_depth           376082 non-null  float64
 11  var_1                391825 non-null  int64  
 12  isClick              391825 non-null  int64  
dtypes: float64(3), int64(8), object(2)
memory usage: 38.9+ MB
"""

1.6 查看数据的统计信息

查看表中数值列的最大值，最小值，均值，标准差，四分位数，中位数等

查看所有列的数据统计信息：

df.describe()

查看age_level列的数据统计信息：

df.age_level.describe()

"""
count    376082.000000
mean          2.777796
std           1.072364
min           0.000000
25%           2.000000
50%           3.000000
75%           3.000000
max           6.000000
Name: age_level, dtype: float64
"""

查看指定列，指定占比的统计信息：


# percentile list 
perc =[.20, .40, .60, .80] 

df.age_level.describe(percentiles = perc, include = include) 

"""
count    376082.000000
mean          2.777796
std           1.072364
min           0.000000
20%           2.000000
40%           2.000000
50%           3.000000
60%           3.000000
80%           4.000000
max           6.000000
Name: age_level, dtype: float64
"""

1.7 查看前3行数据

# 默认显示前5行数据
df.head(3)

# 后5个样本
df.tail(5)

# 随机抽取5个样本
df.sample(5)

2. 缺失值查看与处理

2.1 缺失值查看

缺失值查看：

# 查看整个数据集的值是否为缺失值
df.isnull()  

# 查看某一列的值是否为缺失值
df['age_level'].isnull()

查看每列缺失值的个数：

# 查看每列的空值，并根据空值个数进行大小排序
data.isnull().sum().sort_values(ascending=False)

"""
user_group_id          15743
gender                 15743
age_level              15743
user_depth             15743
id                         0
date                       0
user_id                    0
product                    0
campaign_id                0
webpage_id                 0
product_category_id        0
var_1                      0
isClick                    0
dtype: int64
"""

查看每列的缺失值占比：

# 统计不同类别的缺失值占比
((df.isnull().sum())/df.shape[0]).sort_values(ascending=False).map(lambda x:"{:.2%}".format(x))

"""
user_group_id          4.02%
gender                 4.02%
age_level              4.02%
user_depth             4.02%
id                     0.00%
date                   0.00%
user_id                0.00%
product                0.00%
campaign_id            0.00%
webpage_id             0.00%
product_category_id    0.00%
var_1                  0.00%
isClick                0.00%
dtype: object
"""

可视化含有缺失值的列的缺失占比：

missing = df.isnull().sum()/len(df)
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()

获取缺失值占比大于4%的列：

missing_df = ((df.isnull().sum())/df.shape[0])
missing_columns = (list(missing_df[missing_df >0.04].index))
missing_columns

# ['user_group_id', 'gender', 'age_level', 'user_depth']

2.2 缺失值处理

pandas.DataFrame.fillna(value = None，method = None，inplace = False)

value：用于填充的值，可以是具体值、字典和数组，不能是列表；
method：填充方法，有 ffill 和 bfill 等；ffill：填充上一个值；bfill ：填充下一个值
inplace：默认无False，如果为True，则将修改此对象上的所有其他视图。

# 填充上一个值
df['gender'].fillna(method="ffill", inplace=True)  

# 填充下一个值
df['gender'].fillna(method="bfill", inplace=True) 

# 填充具体值
df['gender'].fillna(value="Female", inplace=True) 

# 众数填充
df['age_level'].fillna(df['age_level'].mode(), inplace=True)

# 均值填充
df['age_level'].fillna(df['age_level'].mean(), inplace=True)

# 中位数填充
df['age_level'].fillna(df['age_level'].median(),inplace=True)

# 将负值（-10）替换为空值，然后空值替换为均值
data['age_level'].replace(-10, np.nan, inplace=True)                    
data['age_level'].replace(np.nan, data['age_level'].mean(), inplace=True)

pandas.DataFrame.dropna(axis, how= None, thresh, subset, inplace)

axis: default 0指行,1为列
how: {‘any’, ‘all’}, default ‘any’指带缺失值的所有行;'all’指清除全是缺失值的
thresh: int,保留含有int个非空值的行
subset: 对特定的列进行缺失值删除处理
inplace: 这个很常见,True表示直接在原数据上更改

# 删除所有空值对应的行
df.dropna(inplace=True)

# 删除指定列空值对应的行
df['age_level'].dropna(inplace=True)

# 删除特定列的空值对应的行
subset = ['age_level', 'gender']
df.dropna(subset=subset, inplace=True)

pandas.DataFrame.drop(labels,axis=0,level=None,columns=None, inplace=False,errors=’raise’)

labels：接收string或array，代表要删除的行或列的标签（行名或列名）。无默认值
axis：接收0或1，代表操作的轴（行或列）。默认为0，代表行；1为列。
level：接收int或索引名，代表标签所在级别。默认为None
inplace：接收布尔值，代表操作是否对原数据生效，默认为False
errors：errors='raise’会让程序在labels接收到没有的行名或者列名时抛出错误导致程序停止运行，errors='ignore’会忽略没有的行名或者列名，只对存在的行名或者列名进行操作。默认为‘errors=‘raise’’。

# 删除 age_level列
df = df.drop(labels='age_level', axis=1)

# 删除 第一行
df = df.drop(labels=0)

# 同时删除多列
df = df.drop(labels=['age_level', 'gender'], axis=1)

# 同时删除多行：删除第一行和第二行
df = df.drop(labels=range(2)) # 等价于df.drop(labels=[0,1]

# 使用del 删除一列，且只能删除一列，不能同时删除多列
del df['age_level']

# 删除缺失值占比大于70%的所有列
missing_df = ((df.isnull().sum())/df.shape[0])
missing_columns = (list(missing_df[missing_df >0.7].index))
df= df.drop(columns = list(missing_columns))

3. 异常值检测与处理

3.1 异常值检测

类别型字段

# 查看类别型字段的取值情况，根据经验判断取值是否合理
for i in df:
    print(i+": "+str(df[i].unique()))      # 查看某一列的唯一值

数值型字段

describe函数

# 可以通过describe函数，查看数值列的统计信息，根据经验判断取值是否合理,例如人的年龄不可能是负数
df.describe()

箱线图（四分位法）

# 查看age_level字段的箱线图
df.age_level.plot.box()

3.2 异常值处理

在数据处理时，异常值的处理方法，需视具体情况而定。有时，异常值也可能是正常的值，只不过异常的大或小，所以，很多情况下，要先分析异常值出现的可能原因，再判断如何处理异常值。

删除含有异常值的记录；
插补，把异常值视为缺失值，使用缺失值的处理方法进行处理，好处是利用现有数据对异常值进行替换，或插补；
不处理，直接在含有异常值的数据集上进行数据分析；

4. 特征分析

4.1 查看数值型和类别型特征

特征一般都是由类别型特征和数值型特征组成，而数值型特征又分为连续型和离散型。

类别型特征有时具有非数值关系，有时也具有数值关系。比如‘grade’中的等级A，B，C等，是否只是单纯的分类，还是A优于其他要结合业务判断。
数值型特征本是可以直接入模的，但往往风控人员要对其做分箱，转化为WOE编码进而做标准评分卡等操作。从模型效果上来看，特征分箱主要是为了降低变量的复杂性，减少变量噪音对模型的影响，提高自变量和因变量的相关度。从而使模型更加稳定。

数值型特征：

# 数值型特征
numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)

"""
['id',
 'user_id',
 'product',
 'campaign_id',
 'webpage_id',
 'product_category_id',
 'user_group_id',
 'age_level',
 'user_depth',
 'var_1',
 'isClick']
"""

类别型特征：

# 类别型特征
category_fea = list(filter(lambda x: x not in numerical_fea,list(data_train.columns)))

# ['date', 'gender']

数值型中的离散型变量

#过滤数值型类别特征
def get_numerical_serial_fea(df,feas):
    numerical_serial_fea = []
    numerical_noserial_fea = []
    for fea in feas:
        temp = df[fea].nunique()
        if temp <= 10:
            numerical_noserial_fea.append(fea)
            continue
        numerical_serial_fea.append(fea)
    return numerical_serial_fea,numerical_noserial_fea
numerical_serial_fea,numerical_noserial_fea = get_numerical_serial_fea(df,numerical_fea)

# 数值型连续特征
numerical_serial_fea
# ['id', 'user_id', 'user_group_id']

# 数值型类别特征
numerical_noserial_fea 
"""
['product',
 'campaign_id',
 'webpage_id',
 'product_category_id',
 'age_level',
 'user_depth',
 'var_1',
 'isClick']
 """

# product离散型变量
df['product'].value_counts()
"""
0    143195
3     93340
1     52374
5     33125
4     19043
7     18261
9     11877
8      8045
2      6621
6      5944
Name: product, dtype: int64
"""

# campaign_id离散型变量
df['campaign_id'].value_counts()
"""
0    92769
2    87450
3    47741
5    29383
6    26042
4    24816
7    23943
8    22417
1    19569
9    17695
Name: campaign_id, dtype: int64
"""

...

如果离散型变量中全部都是一个值，可以直接舍弃这个变量；如果不同类别的比例相差较大，需要根据业务分析原因，考虑是否需要使用

数值型连续变量可视化分析：
在这里为了演示，把id相关的列当做数值型连续变量进行分析

# 每个数字特征得分布可视化，根据上面计算只有三个变量：['id', 'user_id', 'user_group_id']
f = pd.melt(data_train, value_vars=numerical_serial_fea)
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False)
g = g.map(sns.distplot, "value")

查看某一个数值型变量的分布，查看变量是否符合正态分布，如果不符合正太分布的变量可以log化后再观察下是否符合正态分布。
如果想统一处理一批数据变标准化必须把这些之前已经正态化的数据提出
正态化的原因：一些情况下正态非正态可以让模型更快的收敛，一些模型要求数据正态（eg. GMM、KNN）,保证数据不要过偏态即可，过于偏态可能会影响模型预测结果。

# 三种log转换
df['log'] = df['user_group_id'].transform(np.log)
df['log+1'] = (df['user_group_id'] +1).transform(np.log)
df['log(x- min(x)+1)'] = (df['user_group_id']-df['user_group_id'].min() +1).transform(np.log)

# 归一化
df['normalized'] = (df['user_group_id'] - df['user_group_id'].min())/(df['user_group_id'].max()-df['A'].min())

# 标准化
df['standardized'] = (df['user_group_id'] - df['user_group_id'].mean())/df['user_group_id'].std()

非数值型类别型变量分析
根据上面计算，此部分变量有 ['date', 'gender']

df['gender'].value_counts()
"""
Male      332376
Female     43706
Name: gender, dtype: int64
"""

分析方法和数值型离散变量一致

4.2 单一变量分布可视化

类别型变量：采用柱状图可视化频次

sns.countplot(df["gender"])
plt.show()

数值型中的连续型变量分布可以参考上面数值型连续变量可视化分析，也可以采用如下方法:

plt.figure(figsize=(9, 8))
sns.distplot(df['user_group_id'], color='g', bins=100, hist_kws={'alpha': 0.4})

# 若图像偏离正态分布，取 log之后观察
plt.figure(figsize=(9, 8))
sns.distplot(np.log(train['user_group_id']), color='g', bins=100, hist_kws={'alpha': 0.4})

4.3 相关性分析

相关性分析只能比较数值特征，因此字母、字符串特征需先进行编码并转换为数值，才能查看特征间的关联。相关性分析可以很好地过滤掉与标签没有直接关系的特征。若两标签之间完全正相关（多重共线性），则两特征包含几乎相同的信息，可对其进行删除。

# 通过热力图观察变量之间的相关性
corrmat = df.corr()
f, ax = plt.subplots(figsize=(20, 9))
sns.heatmap(corrmat, vmax=0.8, square=True,annot=True)

5. 生成数据分析报告

!pip install pandas_profiling
import pandas_profiling
pfr = pandas_profiling.ProfileReport(df)
pfr.to_file("./example.html")

【1000个GDB技巧之】GDB中使用python脚本的方法以及4个注意事项（define、python、end、gdb.execute、to_string=True）北冥的备忘录 Linux调试方法 python 调试 gdb
要点使用define定义函数在define中使用python…end包围python使用的代码（python代码也可以不在包围中）在python中使用gdb命令用gdb.execute，并且需要指定to_stringsgdb可以单独写成文件然后source进来坑：坑1：python和gdb的end都不值直接注释，需要另起一行坑2：gdb.execute执行后的输出结果包括$xxx获取需要做转换坑3
华为OD机试E卷 - 补种未成活胡杨（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 java 华为od python c语言 c++javascript 华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述近些年来，我国防沙治沙取得显著成果。某沙漠新种植N棵胡杨（编号1-N），排成一排。一个月后，有M棵胡杨未能成活。现可补种胡杨K棵，请问如何补种（只能补种，不能新种），可以得到最多的连续胡杨树？输入描述N总种植数量，1<=N<=100000M未成活胡杨数量，M个空格分隔的数，按编号从小到大排列，1<=M<=NK最多可以补
华为OD机试 - 树状结构查询（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od c++java javascript 华为od机试华为OD机试E卷 python
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述通常使用多行的节点、父节点表示一棵树，比如西安陕西陕西中国江西中国中国亚洲泰国亚洲输入一个节点之后，请打印出来树中他的所有下层节点输入描述第一行输入行数，下面是多行数据，每行以空格区分节点和父节点接着是查询节点输出描述输出查询节点的所有下层节点。以字典序排序示例1输入5bacadcecfdc输出def说明
【Python八股文系列】100个Python的面试/笔试高频考点程序员鑫港 python python 面试开发语言 python面试题 python入门 python笔试题 python入门教程
Python的100个面试/笔试高频考点本文主要整理了关于Python的面试/笔试的一些考点，可用于查漏补缺。前排提示：文末有独家福利！文章目录Python的100个面试/笔试高频考点1\.解释型和编译型语言的区别2\.简述下Python中的字符串、列表、元组和字典3\.简述上述数据类型的常用方法4\.简述Python中的字符串编码5\.一行代码实现数值交换6\.is和==的区别7\.Python
【华为OD-E卷 - 第k个排列 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 python 华为od java c++javascript
【华为OD-E卷-第k个排列100分（python、java、c++、js、c）】题目给定参数n，从1到n会有n个整数：1,2,3,…,n,这n个数字共有n!种排列。按大小顺序升序列出所有排列的情况，并一一标记，当n=3时,所有排列如下:“123”“132”“213”“231”“312”“321”给定n和k，返回第k个排列输入描述输入两行，第一行为n，第二行为k，给定n的范围是[1,9],给定k的
Kali Linux最新版本下无法直接pip安装？教你四招完美解决‘externally-managed-environment’报错！ vortex5 教程 Kali笔记 pip Kali 渗透经验分享
内容预览≧∀≦ゞKaliLinux中解决externally-managed-environment错误的四种方法引言解决方案1：从系统存储库安装Python包解决方案2：使用虚拟环境解决方案3：使用pipx安装（推荐）解决方案4：强制安装（不推荐）总结KaliLinux中解决externally-managed-environment错误的四种方法引言在KaliLinux的最新版本中，很多用户尝
Python基于OpenCV和PyQt5的人脸识别上课签到系统【附源码】 Java老徐 Python 毕业设计 python opencv 人脸识别上课签到系统人脸识别上课签到上课签到系统 PyQt5
博主介绍：✌Java老徐、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2024-2025年Java毕业设计选题推荐Python基于Django的微博热搜、微博舆论可视化系统，附源码基于PythonDjango的北极星招聘数据可视化系统感兴趣的可以先收藏起
如何使用python下载B站视频并使用ffmpeg进行合流操作 Zombie_man python 音视频开发语言 ffmpeg
需要了解的工具：先看看我发的第一期专栏，里面有关开发者模式的介绍，一些相关的请求库与解析库。本期专栏将不再赘诉。下载ffmpeg。下载官网链接：https://ffmpeg.org/download.html。注意：如果想要在cmd中使用，需要先配置环境变量有关于此的介绍与使用详细可以看此链接：https://zhuanlan.zhihu.com/p/356411237本期将导入subproces
云原生周刊：K8s 生产环境架构设计及成本分析 KubeSphere 云原生 k8s 容器平台 kubesphere 云计算
开源项目推荐KubeZoneNetKubeZoneNet旨在帮助监控和优化Kubernetes集群中的跨可用区（Cross-Zone）网络流量。这个项目提供了一种简便的方式来跟踪和分析Kubernetes集群中跨不同可用区的通信，帮助用户优化集群的网络架构、提高资源利用效率并减少网络延迟。通过实时监控和数据分析，KubeZoneNet能有效地识别跨可用区的网络瓶颈，并提供改进建议，以支持Kuber
Python FileNotFoundError: [WinError 2] 系统找不到指定的文件。 zhangda0000001 python python
用Idle运行Python脚本的时候发现如下错误：Traceback(mostrecentcalllast):File"D:\Python\Python36-32\lib\site-packages\selenium-3.4.3-py3.6.egg\selenium\webdriver\common\service.py",line74,instartstdout=self.log_file,st
自动化办公|使用Python重命名并移动文件到对应文件夹游客520 自动化 python全栈学习实用代码 python 自动化
在日常的文件管理和处理过程中，我们可能会遇到需要将文件整理到不同文件夹中的需求。例如，我们有一个包含多个文件的目录，文件名的首字符表示文件应该存放在哪个文件夹中。我们可以使用Python脚本来自动完成这个任务，实现文件的分类整理。本文将介绍如何通过Python编写一个脚本来实现以下功能：检查并删除空文件夹；将文件按照文件名的首字符分类，移动到对应的文件夹中。1.基本需求假设我们有一个文件夹save
python分段线性插值_计算方法（3）——分段插值法（附Python程序） weixin_39900206 python分段线性插值
在上一节计算方法(2)——插值法(附Python程序)当中，主要讲了插值法，介绍了龙格现象，并给出了插值法的代码。这一讲主要分段插值中的分段线性插值和分段Hermite插值，并给出分段插值的Python程序。在此之前需要注意一下，n为区间数，n+1为插值节点的个数。分段线性插值分段线性插值，需要两个列表，一个用于存放各点的x坐标，一个用于存放各点的y坐标。因为分段插值的算法需要x坐标按顺序增长，而
Erlang语言研究综述 weixin_34233856 java shell 数据结构与算法
2019独角兽企业重金招聘Python工程师标准>>>摘要:本文前半部分主要是关于Erlang编程语言相关的内容；着重就一般学习编程语言的一般的关注点来阐述了Erlang编程语言的基本语法点，主要包括：Erlang的变量、Erlang的数据类型、Erlang的语句和Erlang编程语言的函数与模块四个方面；本文的后半部分主要就Erlang语言的并行化编程的实践：Erlang的并行化编程与Erlan
利用Pygame实现Python塔防游戏开发阿卞是宝藏啊
本文还有配套的精品资源，点击获取简介：本项目介绍如何使用Python的pygame库制作塔防游戏，强调游戏开发的各个基本流程和技巧。包括初始化pygame、游戏结构设计、游戏逻辑实现、图像与声音处理，以及游戏优化和调试过程。项目旨在提升开发者在Python编程和游戏开发方面的技能。1.Python与pygame库基础简介Python是一种广泛应用于各个领域的高级编程语言，以其简洁明了的语法和强大的
FileNotFoundError: [WinError 2] 系统找不到指定的文件解决方案诗和远方ya 软件相关问题 python
在windows终端运行python程序时，报错FileNotFoundError:[WinError2]系统找不到指定的文件，但是检查完文件路径后发现并没有错，考虑到是不是需要加环境变量，以及通过sys.path.append在python文件中加上引用的其他文件的绝对路径。还是不管用。解决方案是：找到python源代码中的subprocess.py文件，将shell=False改为shell=
[使用Claude API构建回文检查应用的指南] qwe54165a4wd easyui 前端 javascript python
技术背景介绍AnthropicAPI提供了对Claude的访问功能，Claude是一个强大的语言模型，能够回答各种文本相关的问题。通过该API，我们可以开发应用程序，比如让Claude帮助我们实现一个检查字符串是否为回文的Python函数。核心原理解析回文是指正读和反读都相同的字符串。通过ClaudeAPI，我们可以让Claude生成用于检查回文的Python代码。AnthropicAPI的最大优
计算机系统原理：一些断言梅见十柒计算机系统原理经验分享笔记
0虚拟机和解释器在Java中，JVM既充当了一个虚拟机的角色，也包含了用于执行字节码的解释器。同样地，Python的CPython实现也是先将源代码编译成字节码，然后由Python虚拟机执行。1从源代码中提取token的过程就是词法分析词法分析是编译过程的第一个阶段，它的主要职责是从源代码中读取字符序列，并根据语言的词法规则将它们组合成具有独立意义的最小语法单元——Token。词法分析器会去除无关
AIGC - 深度洞察如何对大模型进行微调以满足特定需求网罗开发 AI 大模型人工智能 AIGC
网罗开发（视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：COC上海社区主理
【填坑】ESP-IDF 环境安装常见报错信息和解决方案清凉简装 ESP32 ESP-IDF 物联网 ESP32S2
文章目录Windows平台ESP-IDF环境安装常见报错信息和解决方案一、install时报错**Q1：错误信息：Downloadfailed操作超时或者installationhasfailedwithexitcode-2****Q2：错误信息：Downloadfailed:anerroroccurredinthesecurechannelsupport****Q3：错误信息：'python'：
如何使用 Python 实现简单的算法与数据结构全栈探索者chen python python 算法数据结构开发语言 javascript 数据分析性能优化
如何使用Python实现简单的算法与数据结构算法和数据结构是计算机科学的基础，理解它们不仅有助于解决复杂问题，还能提高编程效率和代码质量。在Python中，由于其简洁和高效的语法，学习和实现算法与数据结构更加轻松。本文将从以下几个方面探讨如何用Python实现常见的数据结构和基本算法，帮助你从基础开始掌握核心概念。一、数据结构1.数组（Array）数组是一种线性数据结构，存储一组相同类型的元素。P
AIGC视频生成国产之光：ByteDance的PixelDance模型好评笔记 AIGC-视频补档 AIGC 计算机视觉人工智能深度学习机器学习论文阅读面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言输入训练和推理时的数据处理总结相关工作视频生成长视频生成方法模型架构
使用Amazon Bedrock API调用Anthropic的Claude模型 dwa46a56w4d easyui 前端 javascript python
在AI模型应用领域，亚马逊的BedrockAPI提供了便捷的方式来访问诸如Anthropic的Claude这样强大的模型。通过AmazonBedrock，开发者可以在云端直接调用Claude进行各种自然语言处理任务。本指南将引导您如何在Python中通过Bedrock来使用Claude模型。技术背景介绍Claude是由Anthropic开发的AI模型，提供强大的自然语言处理能力。通过AmazonB
STLG_05_04_Python - 函数魔都天健开发语言前端笔记 python
Python函数是一种可重用的代码块，用于执行特定任务。它通过def关键字定义，可以接受参数作为输入，并通过return语句返回值。函数能够提高代码的模块化和可读性，方便维护和调试。无论是内置函数还是自定义函数，它们都是Python编程中实现功能和逻辑的重要工具。1.函数的定义和调用1.1函数的定义在Python中，函数是一段可重复使用的代码块，用于执行特定的任务。函数可以帮助我们将代码模块化，提
Python_线性插值胡小记 python
1、语法解释线性插值主要用到的是numpy中的interp函数interp(x,xp,fp,left=None,right=None,period=None)其中x为要插值点的横坐标，xp为x的坐标值（必须是递增），fp为y的坐标值left是可选择参数，如果x小于xp，则会默认返回xp[0]对应的fp值，right同理。period可设定横坐标的周期，该选项打开时，则忽略left和right。具体
如何用selenium来链接并打开比特浏览器进行自动化操作（1）写python的鑫哥爬虫实战进阶 selenium pyppeteer puppeteer 比特浏览器比特指纹浏览器链接打开
前言本文是该专栏的第76篇，后面会持续分享python爬虫干货知识，记得关注。本文，笔者将基于“比特浏览器”，通过selenium来实现链接并打开比特浏览器，进行相关的“自动化”操作。值得一提的是，在本专栏之前，笔者有详细介绍过“使用selenium或者pyppeteer（puppeteer）来链接并打开指纹浏览器AdsPower”的方法和详细教程。笔者将相关文章的链接，整理如下（对此领域，感兴趣
基于纵横交叉算法优化的最小交叉熵图像多阈值分割 python 图像算法打怪图像分割算法 python 开发语言
基于纵横交叉算法优化的最小交叉熵图像多阈值分割python文章目录基于纵横交叉算法优化的最小交叉熵图像多阈值分割python1.最小交叉熵阈值分割原理2.基于纵横交叉优化的多阈值分割3.算法结果：4.参考文献：5.Python代码摘要：本文介绍基于最小交叉熵的图像分割，并且应用纵横交叉算法进行阈值寻优。1.最小交叉熵阈值分割原理1993年，Li等人将交叉熵的概念引入到图像处理领域，提出了基于一维灰
多查询分析中的并发处理实践 FADxafs python
在进行查询分析时，某些技术可能会生成多个查询。在这种情况下，我们需要记得执行所有查询并合并结果。本文将通过一个简单的示例（使用模拟数据）展示如何实现这一点。技术背景介绍在数据分析和信息检索领域，查询分析技术能够帮助我们生成和优化查询以提高搜索效率。然而，当同时生成多个查询时，处理这些查询并有效地合并结果就显得尤为重要。本次我们将使用langchain库来演示如何处理多查询情况。核心原理解析通过生成
PHP语言的编程范式代码驿站520 包罗万象 golang 开发语言后端
PHP语言的编程范式引言PHP（PHP:HypertextPreprocessor）是一种广泛使用的开源脚本语言，特别适合于Web开发。虽然最初被设计用于生成动态网页，但随着技术的发展，PHP已逐渐演化为一种功能强大的编程语言，广泛应用于服务器端编程、命令行脚本以及桌面应用程序的开发。目前，PHP的应用范围涵盖了网站开发、数据分析、内容管理系统等多个领域。本文将深入探讨PHP语言的编程范式，包括面
Python--WinError 2 的常见解决方案 Ambition_LAO python
报错信息：FileNotFoundError:[WinError2]系统找不到指定的文件。这个错误提示FileNotFoundError:[WinError2]系统找不到指定的文件说明在调用subprocess.Popen时，系统找不到指定的文件或可执行程序。在代码中，这个问题主要是因为找不到JavaJAR文件meteor-1.5.jar，也就是用于计算METEOR分数的评估工具。可能的原因和解决
Python 数据类型之数字型梅子大魔王 python全栈学习笔记 python
Python数据类型之数字型1.整型int1）整型的介绍2）整型的运算3）int()函数2.浮点型float1）浮点型的介绍2）浮点型的运算3）float()函数3.复数型complex1）复数的介绍2）复数的运算3）complex()函数4.布尔型1)布尔型的介绍2）布尔值的运算3）bool()函数数字类型在Pyhton中非常常见，经常用于数字之间的运算、大小比较、条件判断等等。数字类型包括：整
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

机器学习 探索性数据分析