humashanshao

数据分析业务逻辑

本文参考资料有：DataWhale《动手学数据分析》及互联网资源

本章难点突破：

数据分块读取

文本类数据标签转换

正则表达式应用于提取构建新的字符类特征

数据表的合并

难点补充学习

1.读取数据

载入数据时我们应当了解数据的存储格式，常见文件后缀有.txt, .xlsx, .csv, .json ，以上格式数据可使用pandas下的read_table,read_csv和read_json读取。如果数据量过大，还可设置具体的按块读取。

2.认识数据

当我们拿到数据表时，首先应当学会认识它们。回想我们使用excl浏览数据时观察的数据维度，可发现行（row），列（column）标签，各列的总数据量、是否存在null值、它们的数据类型，每个数据表的首尾几列数据都是我们认识数据的第一步。在python中，我们使用data.info()查看数据板信息，data.head()和data.tail()查看首尾数据，data.isnull()查看null值数据，data.describe()查看描述性统计分析等。初步了解数据行列信息及数据空值，数据类型情况后我们需要对数据表按条件处理，接下来会涉及数据的删除、填充、筛选、新数据列的形成、新数据关系维度表建立等。

3.数据处理

删除

#删除列
del df['a']
df.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)

填充
排序

frame.sort_values(by='c',ascending=False)
frame.sort_index(axis=1,ascendign=False)
frame.sort_values(by=['a','c'])

筛选

print((df["Age"]<10).head(3))
midage=df[(df["Age"]>10)&(df["Age"]<50)]
midage=midage.reset_index(drop=True)
print(midage.head(3))
print(midage.loc[[100],['Pclass','Sex']])
print(midage.loc[[100,105,108],['Pclass','Name','Sex']])
print(midage.iloc[[100,105,108],[2,3,4])

新列
新表

4.构建特征

对特征进行观察，可将其按数据类型（文本型、数值型等）分类，数值型数据可直接用于模型训练，文本型数据则需转换为数值型特征。

数值型分箱

df['AgeBand']=pd.cut(df['Age'],5,labels=['1','2','3','4','5'])
df['AgeBand']=pd.cut(df['Age'],[0,5,15,30,50,80],labels=['1','2','3','4','5'])
df['AgeBand']=pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels=['1','2','3','4','5'])

文本型转换

#将类别文本转换为12345

#方法一: replace
df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2])
df.head()

#方法二: map
df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})
df.head()

#方法三: 使用sklearn.preprocessing的LabelEncoder
from sklearn.preprocessing import LabelEncoder
for feat in ['Cabin', 'Ticket']:
    lbl = LabelEncoder()  
    label_dict = dict(zip(df[feat].unique(), range(df[feat].nunique())))
    df[feat + "_labelEncode"] = df[feat].map(label_dict)
    df[feat + "_labelEncode"] = lbl.fit_transform(df[feat].astype(str))

df.head()

#将类别文本转换为one-hot编码

#方法一: OneHotEncoder
for feat in ["Age", "Embarked"]:
#     x = pd.get_dummies(df["Age"] // 6)
#     x = pd.get_dummies(pd.cut(df['Age'],5))
    x = pd.get_dummies(df[feat], prefix=feat)
    df = pd.concat([df, x], axis=1)
    #df[feat] = pd.get_dummies(df[feat], prefix=feat)
    
df.head()

从纯文本Name特征里提取出Titles的特征(所谓的Titles就是名字中的Mr,Miss,Mrs等)

df['Title']=df.Name.str.extract('([A-Za-z]+)\.',expand=False)
print(df.head())




   PassengerId  Survived  Pclass  ... Embarked AgeBand  Title
0            1         0       3  ...        S       2     Mr
1            2         1       1  ...        C       5    Mrs
2            3         1       3  ...        S       3   Miss
3            4         1       1  ...        S       4    Mrs
4            5         0       3  ...        S       4     Mr

[5 rows x 14 columns]
[Finished in 1.6s]

将两个表按横纵方向合并

#使用concat
text_left_up = pd.read_csv("C:/Users/HP/Desktop/doc/data/u2/data/train-left-up.csv")
text_left_down = pd.read_csv("C:/Users/HP/Desktop/doc/data/u2/data/train-left-down.csv")
text_right_up = pd.read_csv("C:/Users/HP/Desktop/doc/data/u2/data/train-right-up.csv")
text_right_down = pd.read_csv("C:/Users/HP/Desktop/doc/data/u2/data/train-right-down.csv")

list_up=[text_left_down,text_right_down]
result_up=pd.concat(list_up,axis=1)
print(result_up.head())

list_down=[text_left_down,text_right_down]
result_down=pd.concat(list_down,axis=1)
result=pd.concat([result_up,result_down])
print(result.head())

#使用DataFrame的join和append
result_up=text_left_up.join(text_right_up)
result_down=text_left_down.join(text_right_down)
result=result_up.append(result_down)
print(result.head())

#使用DataFrame的merge方法和append
result_up=pd.merge(text_left_up,text_right_up,left_index=True,right_index=True)
result_down=pd.merge(text_left_down,text_right_down,left_index=True,right_index=True)
result=result_up.append(result_down)
print(result.head())

计算数值得到新特征

text=pd.read_csv('C:/Users/HP/Desktop/doc/data/u2/result.csv')
df=text['Fare'].groupby(text['Sex'])
means=df.mean()
print(means)

survived_sex=text['Survived'].groupby(text['Sex']).sum()
print(survived_sex.head())

survived_pclass=text['Survived'].groupby(text['Pclass'])
print(survived_pclass.sum())

print(text.groupby(['Pclass','Age'])['Fare'].mean().head())

result=pd.merge(means,survived_sex,on='Sex')
print(result)

survived_age=text['Survived'].groupby(text['Age']).sum()
survived_age[survived_age.values==survived_age.max()]

5.数据可视化

这里将学习【Seaborn和Matplotlib】，Seaborn相比matplotlib封装了一些对数据的组合和识别的功能；用Seaborn出一些针对seaborn的图表是很快的，比如说分布图、热图、分类分布图等。如果用matplotlib需要先group by先分组再出图；

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt 
text=pd.read_csv(r'C:/Users/HP/Desktop/doc/data/u2/result.csv')
print(text.head())
sex=text.groupby('Sex')['Survived'].sum()
sex.plot.bar()#柱状图
plt.title('survived_count')
plt.show()

#比例柱状图
text.groupby(['Sex','Survived'])['Survived'].count().unstack().plot(kind='bar',stacked='True')
plt.title('survived_count')
plt.ylabel('count')

#排序后绘折线图
fare_sur=text.groupby(['Fare'])['Survived'].value_counts().sort_values(ascending=False)

fig=plt.figure(figsize=(20,18))
fare_sur.plot(grid=True)
plt.legend()
plt.show()

#排序前绘折线图
fare_sur1=text.groupby(['Fare'])['Survived'].value_counts()

fig=plt.figure(figsize=(20,18))
fare_sur1,plot(grid=True)
plt.legend()
plt.show()

pclass_sur=text.groupby(['Pclass'])['Survived'].value_counts()

import seaborn as sns
sns.countplot(x='Pclass',hue='Survived',data=text)

facet=sns.FacetGrid(text,hue="Survived",aspect=3)
facet.map(sns.kdeplot,'Age',shade=True)
facet.set(xlim=(0,text['Age'].max()))
facet.add_legend()

6.模型建立和评估

之前已经对数据信息有了基本了解，并进行了探索性分析和数据重构，还对数据进行了可视化分析。那么接下来我们需要将之前的工作集中运用到模型建立中。模型建立和评估包括特征工程、模型搭建、模型评估三部分，其中特征构成对应着数据重构，这部分内容中，我们主要对数据进行缺失值填充、编码分类变量；模型搭建中将切割数据集为训练集和测试集，切割的方法有按比例切割，一般测试集的比例有30%、25%、20%、15%、10% ；按目标变量分层进行等比切割；设置随机种子以便结果能复现。切割数据集是为了后续能评估模型泛化能力。

sklearn之train_test_split()函数各参数含义

X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)

train_data：所要划分的样本特征集

train_target：所要划分的样本结果

test_size：样本占比,可以为浮点、整数或None，默认为None

①若为浮点时，表示测试集占总样本的百分比
②若为整数时，表示测试样本样本数
③若为None时，test size自动设置成0.25

train_size：可以为浮点、整数或None，默认为None

①若为浮点时，表示训练集占总样本的百分比
②若为整数时，表示训练样本的样本数
③若为None时，train_size自动被设置成0.75

random_state：可以为整数、RandomState实例或None，默认为None

①若为None时，每次生成的数据都是随机，可能不一样
②若为整数时，每次生成的数据都相同

stratify：可以为类似数组或None

①若为None时，划分出来的测试集或训练集中，其类标签的比例也是随机的
②若不为None时，划分出来的测试集或训练集中，其类标签的比例同输入的数组中类标签的比例相同，可以用于处理不均衡的数据集

简单来说， random_state保证了每次得到一样的随机数，stratify保证了training集和testing集的类的比例与原来的比例一致
#https://www.cnblogs.com/Yanjy-OnlyOne/p/11288098.html

【思考】

什么情况下切割数据集的时候不用进行随机选取

#思考回答
在数据集本身已经是随机处理之后的，或者说数据集非常大，内部已经足够随机了

train = pd.read_csv('train.csv')
train.head()


	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Parch	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	0	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	0	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	0	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	0	373450	8.0500	NaN	S

6.1缺失值填充

对分类变量缺失值：填充某个缺失值字符(NA)、用最多类别的进行填充
对连续变量缺失值：填充均值、中位数、众数

使用fillna函数

# 对分类变量进行填充
train['Cabin'] = train['Cabin'].fillna('NA')
train['Embarked'] = train['Embarked'].fillna('S')

# 对连续变量进行填充
train['Age'] = train['Age'].fillna(train['Age'].mean())

6.2编码分类变量

# 取出所有的输入特征
data = train[['Pclass','Sex','Age','SibSp','Parch','Fare', 'Embarked']]

# 进行虚拟变量转换
data = pd.get_dummies(data)

data.head()


Pclass	Age	SibSp	Parch	Fare	Sex_female	Sex_male	Embarked_C	Embarked_Q	Embarked_S
0	3	22.0	1	0	7.2500	0	1	0	0	1
1	1	38.0	1	0	71.2833	1	0	1	0	0
2	3	26.0	0	0	7.9250	1	0	0	0	1
3	1	35.0	1	0	53.1000	1	0	0	0	1
4	3	35.0	0	0	8.0500	0	1	0	0	1

6.3切割数据集

from sklearn.model_selection import train_test_split

# 一般先取出X和y后再切割，有些情况会使用到未切割的，这时候X和y就可以用
X = data
y = train['Survived']

# 对数据集进行切割
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

# 查看数据形状
X_train.shape, X_test.shape

6.4模型建立

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

# 默认参数逻辑回归模型
lr = LogisticRegression()
lr.fit(X_train, y_train)
# 查看训练集和测试集score值
print("Training set score: {:.2f}".format(lr.score(X_train, y_train)))
print("Testing set score: {:.2f}".format(lr.score(X_test, y_test)))

#Training set score: 0.80
#Testing set score: 0.78

# 调整参数后的逻辑回归模型
lr2 = LogisticRegression(C=100)
lr2.fit(X_train, y_train)     
print("Training set score: {:.2f}".format(lr2.score(X_train, y_train)))
print("Testing set score: {:.2f}".format(lr2.score(X_test, y_test)))

#Training set score: 0.80
#Testing set score: 0.79

# 默认参数的随机森林分类模型
rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)
print("Training set score: {:.2f}".format(rfc.score(X_train, y_train)))
print("Testing set score: {:.2f}".format(rfc.score(X_test, y_test)))

#Training set score: 0.98
#Testing set score: 0.81

# 调整参数后的随机森林分类模型
rfc2 = RandomForestClassifier(n_estimators=100, max_depth=5)
rfc2.fit(X_train, y_train)
print("Training set score: {:.2f}".format(rfc2.score(X_train, y_train)))
print("Testing set score: {:.2f}".format(rfc2.score(X_test, y_test))) 

#Training set score: 0.85
#Testing set score: 0.83

6.5输出模型预测结果

输出模型预测分类标签
输出不同分类标签的预测概率

比如此处输出的pred[:10]就是训练集中的前十行数据中每一行数据对应的预测结果，即每一位乘客的存活情况，若存活，则为1，反之为0; pred_proba[:10] 表示前十行数据中每一行数据对应的存活和未存活的概率。

6.6模型评估

模型评估是为了知道模型的泛化能力。
交叉验证（cross-validation）是一种评估泛化性能的统计学方法，它比单次划分训练集和测试集的方法更加稳定、全面。
在交叉验证中，数据被多次划分，并且需要训练多个模型。
最常用的交叉验证是 k 折交叉验证（k-fold cross-validation），其中 k 是由用户指定的数字，通常取 5 或 10。
准确率（precision）度量的是被预测为正例的样本中有多少是真正的正例
召回率（recall）度量的是正类样本中有多少被预测为正类
f-分数是准确率与召回率的调和平均

R 列表：深入解析与高效应用沐知全栈开发开发语言
R列表：深入解析与高效应用引言在R语言中，列表（List）是一种非常重要的数据结构，它允许我们将不同类型的数据组合在一起。列表在数据分析和统计建模中扮演着至关重要的角色。本文将深入探讨R列表的概念、创建方法、操作技巧以及在实际应用中的高效使用。R列表概述定义R列表是一种可以包含多种数据类型的数据结构，如数值、字符、逻辑值、其他列表等。列表可以看作是一个容器，可以存储任意数量的元素。类型R列表分为两
Python 数据分析实践：车辆行驶数据处理心得 lzzy-lt-0415 python 数据分析开发语言
在数据驱动决策的大趋势下，Python凭借其丰富的数据分析库，成为处理各类数据的得力工具。近期我围绕车辆行驶数据展开分析，过程中收获诸多实战经验，在此分享用Python进行数据处理与分析的心得，也结合代码讲讲实际运用思路。一、数据导入与初步探索：开启分析第一步importpandasaspd#导入数据df=pd.read_excel(r'../../数据层/数据集合/车辆行驶记录表单2.xlsx'
Python 数据分析与可视化 Day 14 - 建模复盘 + 多模型评估对比（逻辑回归 vs 决策树）蓝婷儿 python python 数据分析逻辑回归
✅今日目标回顾整个本周数据分析&建模流程学会训练第二种模型：决策树（DecisionTree）掌握多模型对比评估的方法与实践输出综合对比报告：准确率、精确率、召回率、F1等指标为后续模型调优与扩展打下基础一、本周流程快速回顾步骤内容第1天高级数据操作（索引、透视、变形）第2天缺失值和异常值处理第3天多表合并与连接第4天特征工程（编码、归一化、时间）第5天数据集拆分（训练集/测试集）第6天逻辑回归模
用mysql作excel数据分析_怎样用 Excel 做数据分析？一只帅鸟
基本Excel快捷键【最好用的复制命令】Ctrl+R向右复制Ctrl+D向下复制【选择格式粘贴】Ctrl+Alt+V【求和功能】Alt+=然后按回车键【格式调整】Ctrl+Shift+7加上外边框Ctrl+Shift+-去掉边框Ctrl+Shift+5改成%数值格式【视图调整及编辑】Ctrl+Shift+=插入行Ctrl+-删除【终极】开始工具栏所有的命令都可以通过Alt-H-调用(如下图键入相应
Spring Boot 牵手EasyExcel：解锁高效数据处理姿势灵犀学长 Spring Boot 全栈开发 spring boot java 架构微服务后端
引言在日常的Java开发中，处理Excel文件是一个极为常见的需求。无论是数据的导入导出，还是报表的生成，Excel都扮演着重要的角色。例如，在企业的财务管理系统中，需要将每月的财务数据导出为Excel报表，方便财务人员进行数据分析和审计；在人力资源管理系统中，可能需要导入员工的基本信息、考勤记录等数据到系统中。然而，传统的Excel处理方式，如使用POI等工具，虽然功能强大，但在面对复杂的业务场
Linux: perf: debug问题一例，cpu使用率上升大约2%；多线程如何细化cpu及perf数据分析 mzhan017 kernel 系统性能 linux 服务器网络
文章目录前提面临的问题内核级别函数的差别继续debug总结根据pid前提一个进程安置在一个CPU上，新功能上线之后，固定量的业务打起来，占用的CPU是42%。之前没有新功能的情况下，CPU占用是40%。差了大约2%。而且这个进程里的线程数非常多，有50多个线程。从差距看变化不大，没有别的办法，只能使用perf来抓取数据来看。但是使用perf也要面临很多的问题。面临的问题面临的问题有一堆：两次per
量子化学仿真软件：NWChem_（17）.NWChem与其他软件的接口 kkchenjj 化工仿真2 数据库服务器前端化工仿真
NWChem与其他软件的接口在量子化学仿真中，NWChem经常需要与其他软件进行接口连接，以便利用其他软件的优势或扩展其功能。本节将详细介绍NWChem与其他常用软件的接口，包括电子结构软件、分子动力学软件、数据分析工具等。我们将探讨如何通过这些接口实现数据交换、功能调用和联合仿真。1.NWChem与Gaussian的接口Gaussian是另一款广泛使用的量子化学软件，具有强大的电子结构计算功能。
推客系统全栈开发指南：从架构设计到商业化落地 ywyy6798 系统小程序分销系统短剧系统海外短剧系统推客系统推客小程序
一、推客系统概述推客系统（TuiKeSystem）是一种结合社交网络与内容分发的创新型平台，旨在通过用户间的相互推荐机制实现内容的高效传播。这类系统通常包含用户关系管理、内容发布、智能推荐、数据分析等核心模块，广泛应用于电商导购、知识分享、新闻资讯等领域。推客系统的核心价值在于：利用社交关系链实现内容病毒式传播通过激励机制提升用户参与度基于用户行为数据优化推荐算法构建内容生产者与消费者的良性互动生
《支持向量机（SVM）在医疗领域的变革性应用》 CodeJourney. 支持向量机算法机器学习
在医疗科技日新月异的今天，先进的数据分析与机器学习技术正逐渐成为提升诊疗水平、助力医学研究的关键力量。支持向量机（SVM），凭借其独特的优势，在医疗这片复杂且对精准度要求极高的领域崭露头角，带来诸多令人瞩目的应用成果。一、疾病诊断：癌症早期筛查的“火眼金睛”癌症，作为全球健康的“头号杀手”，早期诊断对提升患者生存率意义非凡。在乳腺癌筛查领域，SVM发挥着重要作用。医疗科研人员收集大量乳腺组织的影像
产品经理-埋点分析文档（DRD） - AxureMost AxureMost NPDP 产品经理开源知识库产品经理
埋点分析文档（DRD）-AxureMost数据埋点文档是产品、数据分析师和开发人员之间沟通的桥梁，用于明确需要收集哪些用户行为数据，以及如何收集这些数据。它详细记录了数据埋点的需求、规范和实施细节，确保数据收集的准确性和一致性。以下是数据埋点文档的定义、内容、作用以及规范的详细说明：定义数据埋点文档是一种技术文档，它详细描述了在产品中需要埋点的位置、事件类型、数据字段、统计逻辑等信息。它是产品需求
【数据分析】Python实现线性回归和多元线性回归（全代码）干了这一碗BUG 线性回归回归算法
老规矩，涉及到的数学原理，想深入了解的可以自行查阅相关资料，这里直接上干货用Python实现。目录逻辑回归中涉及的术语线性回归Python实现多元线性回归Python实现逻辑回归中涉及的术语以下是逻辑回归中一些常见的术语：自变量：应用于因变量预测的输入特征或预测因子。因变量：逻辑回归模型中的目标变量，即我们试图预测的变量。逻辑函数：用于表示自变量和因变量之间关系的公式。逻辑函数将输入变量转换为0到
QtitanRibbon打造现代办公软件新体验：提升效率的专业界面解决方案界面开发小八哥 QtitanRibbon qt ribbon 界面控件 UI开发 c++
在现代办公环境中，无论是日常公文处理、文档编辑、任务协同还是数据分析，桌面办公软件仍扮演着不可替代的角色。然而，许多传统系统依旧使用菜单繁杂、图标混乱、交互老旧的界面，用户操作效率低、上手慢、满意度差。QtitanRibbon是一款基于Qt构建、全面实现MicrosoftOffice风格的Ribbon控件组件，旨在帮助开发者为办公类桌面应用打造现代化、高可用、可拓展的用户界面，提升软件体验的同时，
R 语言安装使用教程小奇JAVA面试安装使用教程 r语言开发语言
一、R语言简介R是一种用于统计分析、数据挖掘和可视化的编程语言和环境。它在学术界和数据分析领域中广泛使用，拥有丰富的统计函数库和绘图功能。二、安装R语言2.1下载R安装包前往CRAN官网下载适合你操作系统的安装程序：官网地址：https://cran.r-project.org/2.2Windows安装下载.exe安装包；双击安装程序，按默认选项一路安装即可；安装完成后，可通过RGUI或命令行启动
ClickHouse【理论篇】01：什么是ClickHouse
ClickHouse是一款开源的列式数据库管理系统（Column-OrientedDBMS），专为高性能实时数据分析（OLAP,OnlineAnalyticalProcessing）场景设计。它由俄罗斯搜索引擎公司Yandex开发（2016年开源），目前由独立基金会ClickHouse,Inc.维护，广泛应用于大数据分析、日志处理、用户行为洞察等领域。一、核心定位：OLAP场景的“性能标杆”传统关
Node.js特训专栏-实战进阶：13. ORM/ODM工具选型与使用爱分享的程序员 Node.js javascript 前端 node.js
欢迎来到Node.js实战专栏！在这里，每一行代码都是解锁高性能应用的钥匙，让我们一起开启Node.js的奇妙开发之旅！Node.js特训专栏主页专栏内容规划详情ORM/ODM工具选型与使用在当今的软件开发领域，数据库交互是众多应用程序的核心环节。无论是Web应用、移动后端，还是数据分析平台，高效、可靠地操作数据库至关重要。对象关系映射（ORM）和对象文档映射（ODM）工具应运而生，它们简化了数据
光伏发电园区管理系统 - Three.js + Django 实现方案小赖同学啊 test Technology Precious javascript django 开发语言
光伏发电园区管理系统-Three.js+Django实现方案我将设计一个基于Three.js和Django的光伏发电园区管理系统，包含3D可视化、实时监控和数据分析功能。系统架构设计API请求数据存储数据存储数据存储获取获取前端-Three.jsDjango后端数据库外部API光伏设备数据气象数据发电数据实时天气电价信息技术栈与依赖前端：Three.js(r128)-3D渲染Chart.js-数据
数据分析全流程：从收集到可视化的高效实战晨曦543210 python
1.数据收集来源：数据库、API、传感器、日志文件、社交媒体、问卷调查等。工具：Python（requests、Scrapy）、SQL、Excel、Kafka（实时流数据）。2.数据清洗处理缺失、重复、错误或不一致的数据：缺失值：删除、填充（均值/中位数/众数）、插值或预测。异常值：使用箱线图、Z-score或IQR方法检测并处理。格式标准化：统一日期、单位、文本格式（如大小写、去除空格）。去重：
R语言的游戏开发柳婉晴包罗万象 golang 开发语言后端
R语言在游戏开发中的应用随着科技的发展，游戏行业已经成为一个巨大的市场。虽然通常我们会认为游戏开发主要是使用C++、C#、JavaScript等语言，但实际上，R语言在游戏开发中也有其独特的应用，尤其是在数据分析和可视化方面。本文将探讨R语言在游戏开发中的应用，涵盖它的基础、游戏设计的复杂性、实际案例分析、以及未来的发展方向。一、R语言基础R语言是一种用于统计计算和数据分析的编程语言。它具有强大的
R语言的软件开发工具纪霁然包罗万象 golang 开发语言后端
R语言的软件开发工具引言R语言因其强大的数据分析能力和丰富的统计包，自发布以来便广受欢迎。随着数据科学和分析的迅猛发展，R语言也逐渐成为数据分析、机器学习和统计建模领域的重要工具。为了更好地利用R语言进行软件开发，许多软件开发工具和环境应运而生。本文将深入探讨R语言的主要开发工具，帮助开发者更高效地进行数据处理和分析。1.R和RStudio基础R语言本身是一个用于统计计算和图形绘制的编程语言，而R
喜讯 | Navicat 蝉联 2025 年 DBTA 100 强名单 Navicat中国 Navicat 17 焕新上市 navicat 数据库
Navicat在“DBTA1002025-数据领域最重要的公司”榜单中获得表彰。该奖项旨在表彰在数据管理与分析领域的领先创新者。数据库趋势与应用集团出版人TomHogan表示：“企业正寻求扩大人工智能的应用范围，采用新的技术与应用，增加数据分析/商业智能的使用，并对现有应用进行现代化改造”，“每年，《数据库趋势与应用》杂志都会推出DBTA100榜单，旨在表彰具有创新精神、能够为客户带来新产品新体验
摸鱼神器分享：3分钟搞定网页自动下滑，效率翻倍还能快乐摸鱼！✨ 铸剑师欧冶子电子牛马养成计划影刀RPA 经验分享笔记数据分析 facebook 个人开发其他
一、痛点场景：为什么我们需要网页自动化工具？作为一名程序员/数据分析师/运营人员，你是否经常遇到这些令人抓狂的情况？海量数据加载：打开FacebookMessenger等社交平台，上千条消息根本刷不到底！无效操作：按End键只能拉到当前加载处，手动下滑几分钟手都酸了...数据采集困难：想要抓取完整消息记录或页面底部信息，等待时间令人绝望关键词：网页自动化、RPA工具、数据采集、效率提升二、现有解决
【V18.0 - 飞升篇】我把“大模型”装进电脑后，我的AI学会了改稿！——本地部署LLM终极保姆级教程爱分享的飘哥人工智能语言模型 python LLM ai
在过去的十几篇文章中，我们已经将我们的AI打造成了一个顶级的“分析师”。它能看、能听、能读，能预测多维度的价值指标，甚至能用SHAP解释自己的决策。它很强大，但它的能力，始终停留在“分析”和“诊断”的层面。它能告诉我“你的开头不行”，但无法告诉我“一个好的开头应该怎么写”。这就像我的副驾驶是一位顶级的F1数据分析师，他能告诉我每个弯道的最佳速度和刹车点，但他自己并不会开车。我需要一次终极的升级，我
Jupyter安装指南及Python配置 CodeWG python jupyter ide Python
Jupyter是一个非常流行的交互式计算环境，广泛用于数据分析、机器学习和科学计算等领域。本文将详细介绍如何安装Jupyter并配置Python环境。步骤1：安装Python首先，我们需要安装Python。请按照以下步骤进行操作：打开Python官方网站（https://www.python.org）并下载适用于您操作系统的最新版本的Python。运行下载的安装程序，并按照向导的指示进行安装。在安
Python scikit-learn 【机器学习库】全面讲解
让AI成为我们的得力助手：《用Cursor玩转AI辅助编程——不写代码也能做软件开发》scikit-learn（简称sklearn）是Python最流行的机器学习库之一，提供简单高效的数据挖掘和数据分析工具。它基于NumPy、SciPy和Matplotlib构建，广泛应用于工业界和学术界。核心优势统一API设计：所有模型使用一致的接口（fit()、predict()、score()）丰富的算法：覆
Oracle数据库中JOIN连接查询的高效应用与性能优化教程 caifox菜狐狸 Oracle相关知识笔记 Oracle PL/SQL 编程入门数据库 oracle JOIN LEFT JOIN FULL JOIN INNER JOIN 连接查询
在Oracle数据库的日常使用中，JOIN连接查询是实现多表数据关联查询的核心手段。无论是企业级的数据分析，还是日常的业务报表生成，JOIN操作都扮演着不可或缺的角色。然而，JOIN查询的性能优化一直是数据库开发和运维人员面临的挑战。一个低效的JOIN查询可能会导致查询响应时间过长，甚至拖垮整个数据库系统的性能。因此，掌握JOIN连接查询的高效应用技巧和性能优化方法，对于提升数据库的整体性能和用户
历史数据分析——中证医药人大博士的交易之路大数据数据挖掘数学建模程序员创富缠中说禅道琼斯结构
中证医药简介代码：000933成分来源：在沪深300指数成分股中筛选的医药卫生行业股票，聚焦医药核心资产行业分布：覆盖化学制药、生物科技、医疗器械、医疗服务Top10权重股（2025Q2）：恒瑞医药(12%)迈瑞医疗(11%)药明康德(10%)爱尔眼科(7%)百济神州(6%)片仔癀(5%)长春高新(4%)智飞生物(4%)凯莱英(4%)云南白药(3%)中证医药值得关注的原因：1.在中国人口老龄化即将
【Python爬虫进阶】从网页抓取到数据清洗与存储——完整实战教程 Python爬虫项目 python 爬虫开发语言 javascript 自然语言处理 selenium
1.为什么网页抓取后需要数据清洗？在实际项目中，抓取的原始数据往往是杂乱的、不完整的、格式各异的。如果不清洗，直接用来建模、分析，会导致：脏数据干扰（如乱码、重复数据）异常值影响结果（如薪资异常高）格式不统一（比如地点有中文名和英文名混杂）所以，抓取数据后，必须进行系统清洗与标准化，才能用于后续的：数据分析可视化展示机器学习建模2.项目概览：从抓取到存储的完整流程本项目流程如下：确定抓取目标（某招
构建“城市生活指数”爬虫系统：抓取物价、租金、工资等数据并可视化实战程序员威哥生活爬虫 python 开发语言 selenium beautifulsoup
一、项目背景“城市生活指数”是一种综合反映城市居民生活成本和经济水平的指标。通过抓取不同网站上的物价、租金、工资等数据，结合数据分析和可视化，可以帮助用户直观比较各城市生活压力和经济实力，为工作、生活决策提供数据支持。二、数据来源与选取1.物价数据典型网站：物价类统计网站、超市/电商价格（如淘宝、京东）、地方统计局官网示例网站：国家统计局物价数据、各城市生活成本调查网站2.房租数据典型网站：链家、
Python 爬虫实战：高效存储与数据清洗技巧，助你轻松处理抓取数据程序员威哥 python 爬虫开发语言
在进行大规模数据抓取时，数据的存储与清洗是爬虫项目中不可或缺的环节。抓取到的数据往往是杂乱无章的，包含了许多无关的内容，需要经过处理才能用于分析和应用。如何高效地存储数据，并对其进行清洗、去重、格式化等操作，是每个爬虫开发者必须掌握的重要技能。本文将介绍如何使用Python实现数据存储与清洗的常见技巧，帮助你提升数据处理效率，为后续的数据分析和应用打下坚实的基础。一、为什么数据存储与清洗如此重要？
Python 爬虫实战：如何在东方财富网抓取股票行情数据，提升投资决策精准度
前言随着金融市场的快速发展，投资者越来越依赖于实时的股票行情数据来做出决策。在这个过程中，股票数据爬取成为了许多投资者、数据分析师和金融工程师的重要技能。通过编写一个高效的股票数据爬虫，我们可以快速抓取大量股票信息，并进行实时监控与分析，从而帮助做出更加精准的投资决策。本文将展示如何通过Python爬虫从东方财富网（东财网）抓取股票行情数据，并提供一些简单的数据分析手段，帮助用户更好地理解如何利用
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方