小黑--

数据分析—03数据分析绘图库

文章目录

一、数据分析绘图库matplotlib
- 1、简单介绍
- 2、绘图基础知识
- 3、常用图形
- 4、绘图步骤
- 5、单图绘制和多图绘制
- 6、绘制散点图和折线图
- 7、绘制柱状图
二、数据分析绘图库seaborn
三、K近邻算法分类可视化分析
四、K邻近算法回归可视化分析

一、数据分析绘图库matplotlib

1、简单介绍

matplotlib是python比较底层的可视化库，可定制性强、图表资源丰富、简单易用、达到出版质量级别。

2、绘图基础知识

导入模块

import matplotlib.pyplot as plt

创建画板

figure = plt.figure(figsize=(10, 10))

创建子图(画纸)
参数（2，1，1）代表将画板分为2行1列，第1个
参数（2，1，2）代表将画板分为2行1列，第2个

ax1 = plt.subplot(2, 1, 1)
ax2 = plt.subplot(2, 1, 2)

绘制
polt代表折线图，marker表示点的形状，linestyle线段的形状
legend表示显示图例，也就是图形里的内容

ax.plot(x, y, color='red', marker='*', linestyle='-.')
plt.legend()

3、常用图形

基本的视觉元素有三种：点、线、柱状。

4、绘图步骤

其中maker样式:

颜色样式：

5、单图绘制和多图绘制

单图：

# 1.导入绘图库
import matplotlib.pyplot as plt
import numpy as np
# 2.创建画板figure
figure = plt.figure(figsize=(10, 10))
# 3. 创建子图subplot/Axes  画纸
# 1行1列第1个
ax = plt.subplot(1, 1, 1)
# 4. 准备数据
# 从0~50分成100份
x = np.linspace(0, 10, 100)
y = np.sin(x)
# 5. 绘制
ax.plot(x, y, color='red', marker='*', linestyle='-.')
ax.set_title('y = sinx')
ax.set_xlabel ('x')
ax.set_ylabel ('y')
#6. 显示图像
plt.show()

运行结果：

其实因为只有一个图，所以可以不用创建子图，直接在画板上作图：

# 导入绘图库
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

# 1. 准备数据
x = np.linspace(0, 10, 100)
y = np.sin(x)

#2. 画板里只有一个图，可以直接绘图
plt.plot(x, y)
plt.title('y = sinx')
plt.xlabel ('x')
plt.ylabel ('y')

plt.show()

多图：

# 1.导入绘图库
import matplotlib.pyplot as plt
import numpy as np
# 2.创建画板figure
figure = plt.figure(figsize=(10, 10))
# 3. 创建子图subplot/Axes  画纸
# 生成2行1列的子图：1行1列：sinx  2行1列：cosx
ax1 = plt.subplot(2, 1, 1)  # 第一个
ax2 = plt.subplot(2, 1, 2)  # 第二个
# 4. 准备数据
# 从0~50分成100份
x = np.linspace(0, 10, 100)
y1 = np.sin(x)
y2 = np.cos(x)
# 5. 绘制
ax1.plot(x, y1, color='red', marker='*', linestyle='-.')
ax1.set_title('y = sinx')
ax1.set_xlabel ('x')
ax1.set_ylabel ('y')

ax2.plot(x, y2, color='yellow', marker='o', linestyle='-.')
ax2.set_title('y = cosx')
ax2.set_xlabel ('x')
ax2.set_ylabel ('y')
#6. 显示图像
plt.show()

运行结果：

6、绘制散点图和折线图

需求：基于某函数，并在其一定范围震动的离散图。

怎么实现一定范围内震动呢？y加个随机数

import matplotlib.pyplot as plt
import numpy as np

def trans(x):
    # 随机数范围 -5 ~ 5; x.shape x的长度50  50个0~1的数字
    random_data = -5 + 10 * np.random.random(x.shape)
    # y加了一个随机数
    y = 1 / 100 * x ** 4 - 8 / 300 * x ** 3 - 3 + np.log(x) + random_data
    return y

if __name__ == '__main__':
    x = np.linspace(-10, 10, 50)
    y = trans(x)

    # 散点图
    # plt.scatter(x, y, marker='x', color='g')
    # plt.show()

    # 曲线图
    plt.plot(x, y, marker='x', color='g',label = 'y=1/100x^4-8/300x^3-3+ln(x)')
    plt.legend()  # 加上图例，就是显示label
    plt.show()

7、绘制柱状图

条形图（bar chart），也称为柱状图，是一种以长方形的长度为变量的统计图表，长方形的长度与它所对应的变量数值呈一定比例
下面是一个关于男生女生购买饮用水的调查结果：

import matplotlib.pyplot as plt
import numpy as np

# 解决中文乱码
plt.rcParams['font.sans-serif']= ['SimHei']

# 创建画板
figure = plt.figure()
# 创建子图 1行2列
ax1 = plt.subplot(1, 2, 1)
ax1.set_title('男生购买情况')
ax2 = plt.subplot(1, 2, 2)
ax2.set_title('女生购买情况')
# 数据信息
waters = ['碳酸饮料','奶茶','矿泉水','茶']
boy_num = [6, 3, 9, 10]
girl_num = [7, 8, 5, 7]

# 绘制条形图
ax1.bar(waters, boy_num, width=0.4, color='y')
# 横向的条形图
# ax1.barh(waters, boy_num, height=0.4, color='o')
ax2.bar(waters, girl_num, width=0.4, color='g')

plt.show()
# plt.savefig('bar.png')  #保存

运行结果：

图形中会出现中文，解决中文的乱码问题:

# 解决中文乱码
plt.rcParams['font.sans-serif']= ['SimHei']

想要绘制横向的条形图：

# 横向的条形图
ax1.barh(waters, boy_num, height=0.4, color='o')

保存：

plt.savefig('bar.png')

如果将男生女生的数据放在一个图中，则绘制并列的柱状图：

import matplotlib.pyplot as plt
import numpy as np

# 中文乱码
plt.rcParams['font.sans-serif']= ['SimHei']

# 数据信息
waters = ['碳酸饮料','奶茶','矿泉水','茶']
boy_num = [6, 3, 9, 10]
girl_num = [7, 8, 5, 7]

# 调整条形图的横坐标
bar_width=0.4
boy_index = np.arange(len(waters))  # [0,1,2,3]
girl_index = boy_index + bar_width  # [0.4,1.4,2.4,3.4] np的传播机制，自动加起来

# 绘制条形图
plt.bar(boy_index, boy_num, bar_width, color='y', label='男生')
plt.bar(girl_index, girl_num, bar_width, color='g', label='女生')
plt.legend()  

# 修改无意义的横坐标为有意义的
plt.xticks(boy_index + bar_width/2, waters)  # 位置，文字
plt.title('购买饮水情况的调查结果')
plt.ylabel('购买量')

plt.show()

运行结果：

二、数据分析绘图库seaborn

官方网址: https://seaborn.pydata.org/introduction.html

Seaborn共提供5种主题风格，分别为darkgrid、whitegrid、dark、 white以及ticks。利用set()和set_style()两个函数对整体风格进行控制

安装seaborn

pip install -i https://pypi.douban.com/simple seaborn

mport matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

x = np.linspace(0, 10, 100)
y = np.sin(x)

# 设置seaborn主题样式
sns.set(style='ticks')

plt.plot(x, y)
plt.title('y = sinx')
plt.xlabel ('x')
plt.ylabel ('y')

#去掉上边框和右边框 在绘图之后进行设置
sns.despine(top=True, right=True)

plt.show()

运行结果：

将不同子图设置为不同风格：

# 1.导入绘图库
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns   

figure = plt.figure(figsize=(10, 10))

x = np.linspace(0, 10, 100)
y1 = np.sin(x)
y2 = np.cos(x)

# 5. 绘制，子图选择不同风格
with sns.axes_style(style='dark'):
    ax1 = plt.subplot(2, 1, 1)
    ax1.plot(x, y1, color='red', marker='*', linestyle='-.')
    ax1.set_title('y = sinx')
    ax1.set_xlabel ('x')
    ax1.set_ylabel ('y')

with sns.axes_style(style='darkgrid'):
    ax2 = plt.subplot(2, 1, 2)
    ax2.plot(x, y2, color='yellow', marker='o', linestyle='-.')
    ax2.set_title('y = cosx')
    ax2.set_xlabel ('x')
    ax2.set_ylabel ('y')

plt.show()

运行结果：

三、K近邻算法分类可视化分析

原理:
K近邻算法: 近朱者赤，近墨者黑。新的数据点离谁(一个或多个近邻点)最近，就和谁属于同一类。

在skilit-learn中内置了若干个玩具数据集(Toy Datasets), 还有一些API可以自己动手生成数据集
生成一系列数据集当作机器学习的训练数据集后，接下来就是根据KNN算法找一个模型，然后根据模型对未知数据进行分类。

# K近邻算法可以用来做分类
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier

# 创建K近邻分类的数据集 (训练集)
# random_state=8：随机种子:保证每次随机生成的样本信息一致
# 样本数  几个特征  根据特征分几类 随机种子
# X特征 y第几类
X, y= make_blobs(n_samples=200, n_features=2, centers=2, random_state=8)

# # 给定一个新的特征信息，分析它属于哪一类
# test_data = [6, 4.82]
#
# plt.scatter(X[:, 0], X[:, 1], edgecolors='yellow', color='white')  # 所有，第一列   所有，第二列
# plt.scatter(test_data[0], test_data[1], marker='*', color='r')
# plt.show()

# 如何去寻找一个模型，根据模型判断测试数据属于哪一类
# 机器学习：寻找一个函数/模型的过程

#K近邻分类的对象
clf = KNeighborsClassifier()
# 训练，拟合，找模型的过程
clf.fit(X, y)
test_data = [6, 3]  # 测试集：测试模型正确率的数据集
# 进行预测
class_name = clf.predict([test_data])  # 会很多数据，用列表，这里只有一个
print('新数据点的分类是：',class_name)

四、K邻近算法回归可视化分析

K近邻算法也可以用于回归，原理和分类相同。计算每个数据点的预测值时，模型会选择离该数据点最近的若干个点，并将它们的y值取平均值，并作为新数据点的预测值。

from sklearn.datasets import make_regression
from sklearn.neighbors import KNeighborsRegressor
import matplotlib.pyplot as plt
import  numpy as np

# 解决中文乱码
plt.rcParams['font.sans-serif']= ['SimHei']
plt.rcParams['axes.unicode_minus'] = False  # 有负数时

# 产生回归的数据集(训练集)
# 特征，y值
# n_features=1,n_informative=1： 也是一些特征    noise=50：算是误差吧 噪声
X, y = make_regression(n_samples=100, n_features=1,n_informative=1, noise=50, random_state=8)

# 通过K近邻的回归器寻找模型
reg = KNeighborsRegressor()
reg.fit(X,y)

# 给定一些新的数据，预测y值(测试集)
# np.linspace(-3, 3, 100)  # 一维的
test_x = np.linspace(-3, 3, 100).reshape(-1, 1)  # 生成n行1列
# reg.predict([[1],[2]])  # 预测时需要传递的  二维
test_y = reg.predict(test_x)
print('准确度：', reg.score(X, y))

# 绘制图形
plt.scatter(X, y, marker='*', color='orange', edgecolors='black', label='训练集')
plt.plot(test_x, test_y, color='black', label='测试集')
plt.title('KNN Regressor')
plt.legend()
plt.show()

运行结果：

你可能感兴趣的:(数据分析,数据分析)

MATLAB 操作指南（结尾附实操案例） vvvae1234 信息可视化
一、MATLAB简介MATLAB（矩阵实验室）是一个高级技术计算语言和交互环境，它主要用于数值计算、数据分析、算法开发和可视化。MATLAB的核心功能是矩阵运算，它能够处理向量和矩阵为中心的数学问题，方便用户进行算法的开发和数据可视化。主要特点高效的数值计算：MATLAB内置了许多用于数学和工程计算的函数，用户可以轻松地进行数值运算。可视化功能：MATLAB提供了丰富的工具，用于生成各种类型的图形
该如何升级Tableau server呢？
在现代数据分析的世界中，Tableau作为一个强大的企业级数据可视化工具，受到众多公司喜爱。但是由于Tableau退出中国市场，如果仍在使用Tableau的企业，一定要做好TableauServer升级。随着技术的不断更新，升级TableauServer变得越来越重要，以确保您能够利用最新的功能和安全性。在这篇文章中，我们将详细探讨如何进行TableauServer升级，步骤、注意事项以及最佳实践
数据分析及人工智能框架汇总 xihuanyuye 机器学习
一、数据分析二、人工智能1、Tensorflow1、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。Tenso
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
AI 大模型应用数据中心的数据分析架构 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《AI大模型应用数据中心的数据分析架构》关键词：数据中心、AI大模型、数据分析、架构设计、应用实践摘要：本文深入探讨了AI大模型在数据中心数据分析架构中的应用，从数据中心背景、AI大模型架构与技术、数据处理与分析技术、AI大模型应用与实践等多个方面，全面解析了AI大模型如何助力数据中心实现高效数据分析和智能处理，为读者提供了系统的理论指导和实际案例分析。第一部分:数据中心背景与AI大模型概述第1章
极致出海友好，融云 IM 支持消息免打扰设置时区 im融云社交
归纳来看，业务全球化难题，其实是无数细微本地化挑战的叠加。时区差异就是应用出海的关键本地化挑战之一，需要在产品设计中充分考虑时间显示、通知推送、内容时效、用户互动、数据分析和团队协作等方面。在应用的社交模块，时区差异更是全球化产品必须考虑的核心要素。比如，若产品支持消息免打扰设置时段，就要针对不同时区进行相应的计算和实现。大多通信服务商提供的解决方案以UTC（世界标准时间）为准，需要业务根据目标市
百度官方！打造「大模型全开发周期系列课程」，AI应用开发入门课率先发布！（内含英雄帖）
在这个大模型技术日新月异的时代，AI的潜力正被无限释放，改变着我们的工作和生活方式。你是否渴望成为这场变革的参与者？你是否也想在这个大模型时代中抢占先机？那“学习AI”、“使用AI”、“入局AI”我们真的可以受益吗？学习辅助：将AI使用融入学习当中，依据当前学习情况，整理重点难点，让复习有的放矢，更高效掌握知识点。效率提升：帮助处理繁琐重复的工具，如数据分析师使用AI识别数据中的关键信息，自动整理
数据处理与图形绘制的多领域应用案例，学会了你也是高手！ A达峰绮经验分享数据处理图形绘制经典案例
一、引言在当今数字化时代，数据处理与图形绘制已成为各领域不可或缺的技术手段。从科学研究到商业分析，从工程设计到日常决策，海量的数据需要高效处理，而直观清晰的图形则能帮助人们迅速理解数据背后的信息。本教程将通过多个具体应用案例，涵盖多种编程语言，深入讲解数据处理与图形绘制的实践方法，助力学习者解决学习过程中的难题，提升相关技能。二、Python在数据处理与图形绘制中的应用（一）金融数据分析案例数据获
Python 爬虫实战：开放数据集抓取与大数据分析应用西攻城狮北 python 爬虫数据分析
引言在数据驱动的时代，开放数据集成为了各领域研究和应用的宝贵资源。通过抓取和分析开放数据集，我们可以挖掘出有价值的信息，为决策提供支持。本文将详细介绍如何使用Python爬虫技术抓取开放数据集，并进行大数据分析应用。一、项目背景与目标1.项目背景随着信息技术的飞速发展，越来越多的机构和组织开始开放其数据集，以促进创新和研究。这些开放数据集涵盖了各个领域，如气象、交通、医疗、金融等。通过抓取和分析这
Python 爬虫基础教程盛子涵666 python 爬虫开发语言
爬虫的背景与应用诞生爬虫（WebCrawling）是自动化程序，用于从互联网上获取信息。爬虫的基本任务是自动访问网站，通过抓取网页内容并提取有用数据来构建数据库、索引或者进行进一步的数据分析。爬虫通常会模拟浏览器的行为，以避免被服务器识别为机器人，并且能够在大规模范围内高效地抓取信息。爬虫技术最早由搜索引擎开发者提出，目的是自动收集网页信息并将其索引，便于用户搜索时快速检索相关内容。随着互联网的快
Python中Pandas常用函数及案例详解程序员爱技术 python pandas 开发语言数据分析大数据
Pandas是一个强大的Python数据分析工具库，它为Python提供了快速、灵活且表达能力强的数据结构，旨在使“关系”或“标签”数据的操作既简单又直观。Pandas的核心数据结构是DataFrame，它是一个二维标签化数据结构，可以看作是一个表格，其中可以存储不同类型的数据。下面是Pandas中一些关于导入、导出、查看、检查、选取、清理、合并、统计等常用函数的详解以及案例说明：第一、导入函数P
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
Python全栈开发爬虫+自动化办公+数据分析教程 jijihusong006 程序 python 爬虫自动化
以下是一份系统化的Python全栈开发综合教程，涵盖Web开发、网络爬虫、自动化办公和数据分析四大核心领域，采用模块化结构进行深度技术解析：Python全栈开发综合实战教程1、Python全栈开发教程、+爬虫+自动化办公+数据分析课程https://pan.quark.cn/s/9bbb9c39e9652、传送资料库查询https://link3.cc/aa99第一部分全栈开发体系1.1技术架构全
Python数据分析NumPy和pandas（十七、pandas 二进制格式文件处理） FreedomLeo1 Python数据分析 python 数据分析 pandas HDF5 PyTables h5py Excel
以二进制格式存储（或序列化）数据的一种简单方法是使用Python的内置pickle模块。同时，pandas构造的对象都有一个to_pickle方法，该方法以pickle格式将数据写入磁盘。我们先把之前示例用到的ex1.csv文件加载到pandas对象中，然后将数据以二进制pickle格式写入examples/frame_pickle文件中：importpandasaspdframe=pd.read
什么是营销自动化工具？简单的营销自动化流程如何设计？ part210 自动化运维
作为营销人，日常工作中有大量重复&琐碎的日常工作，比如社群发消息通知、多个社交媒体平台管理、营销策划方案中几个项目管理表的同步、营销日报数据管理、广告数据分析等等场景。营销自动化的意思，就是借助技术&营销自动化工具来把工作上部分流程固定的流程&工作，自动化的处理，不但可以大大提升营销人的工作效率，通过技术也可以真正的实现用户的千人千面营销，避免过多的垃圾信息干扰。国外主流的营销自动化工具&营销自动
Python深度学习033：Python、PyTorch、CUDA和显卡驱动之间的关系若北辰 Python深度学习 python 深度学习 pytorch
Python、PyTorch、CUDA和显卡驱动之间的关系相当紧密，它们共同构成了一个能够执行深度学习模型的高效计算环境。下面是它们之间关系的简要概述：PythonPython是一种编程语言，广泛用于科学计算、数据分析和机器学习。它是开发和运行PyTorch代码的基础环境。PyTorchPyTorch是一个开源的机器学习库，用于应用如自然语言处理和计算机视觉的深度学习模型。它提供了丰富的API，使
《SQL应用场景解析：如何通过SQL解决实际业务问题》
新手程序员如何用三个月成为SQL高手？万字自学指南带你弯道超车在数据为王的时代，掌握SQL已成为职场新人的必修课。你可能不知道，仅用三个月系统学习，一个零基础的小白就能完成从数据库萌新到SQL达人的蜕变。去年刚毕业的小王就是典型例子，通过本文的学习路线，他不仅成功转行数据分析师，薪资更是翻了两倍。本文将为你揭秘这条高效的学习路径，让你少走90%的弯路。[]()一、为什么每个职场新人都需要SQL这把
远程控制与数据分析：工业中台助力港口起重机智能化钡铼技术物联网关 linux 边缘计算
在现代化港口运营中，起重机作为核心设备，其运行效率和安全性直接影响到整个港口的吞吐能力和经济效益。然而，传统的起重机监控方式往往依赖于人工巡检和定期维护，不仅效率低下，而且难以实时掌握设备状态。随着工业物联网（IIoT）技术的快速发展，工业物联中台（IndustrialIoTPlatform）应运而生，为港口起重机的远程监控提供了全新的解决方案。工业物联中台，简称“工业中台”，是一种集数据采集、处
hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读 weixin_39756416 hive 数字转换字符串
1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)2、Hive是什么Hive的使用场景是什么？基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive是SQL解析引擎，它将SQL语句转译成M/RJob然后在Hadoop执行。由Facebook开源，
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
二级Python必考！一文吃透程序分支结构：单/双/多分支实战解析奕澄羽邦 python linux 开发语言
一、为什么分支结构是Python考试的"拦路虎"？根据近三年NCRE二级Python真题数据分析，程序流程控制类题目平均分仅为62.7分，主要痛点集中在：语法细节易错：缩进错误、条件符号混淆（=vs==）逻辑思维薄弱：无法正确绘制分支流程图实战应用脱节：熟悉基本语法却不会设计实际场景的条件判断以2023年6月考题为例：python#根据输入分数输出评价（含小数点后1位）score=float(in
深入了解京东商品详情API接口数据捕手19970108018 爬虫技能晋升路线 java 前端 python 大数据
一、接口概述京东商品详情API接口是京东开放平台为开发者提供的用于获取京东平台上商品详细信息的通道。通过调用该接口，开发者能够获取到丰富的商品相关数据，以满足各种业务需求，例如在电商应用、价格比较工具、数据分析平台等场景中展示商品信息、进行数据统计分析等。从数据层面来看，该接口可返回的信息涵盖多个方面。商品基本信息包括商品名称、商品编号、所属品牌、商品分类等；价格信息有当前售价、历史价格走势、促销
业务数据分析极简通用方法论人工智能取经人数据分析数据挖掘数据分析数据挖掘
近年来，数据分析师成为了热门高薪岗位，越来越多的朋友选择跨行数据分析师岗位。他们期待着自己能成为驱动业务的军师，“运筹帷幄，决胜千里之外”。但是现实中他们很多人却成为一个取数机器，每天有取不完的数，并且也渐渐发现，自己取数需求做得越多，分析能力就越得不到提升。而分析能力得不到提升，业务方和领导就越当你是取数工具人，于是又有更多的取数需求。此外，面对领导提出的业务问题，除了罗列业务数据、业务指标之外
《数据分析学习进阶：如何用Tableau和Power BI提升可视化能力？》
《从Excel民工到数据分析师：我的500小时逆袭实操手册》写在前面：被Excel支配的恐惧2019年寒冬，作为某互联网大厂HR的我，正在经历职业生涯最魔幻的场景——凌晨两点，会议室里飘着六盒冷掉的饺子，我和同事盯着满屏VLOOKUP公式的Excel表，试图从3万条招聘数据中找到“为什么技术岗离职率飙升42%”的答案。领导推门进来只说了一句话：“我要的是洞见，不是表格美容报告。”正是这次暴击，让我
ClickHouse 学习笔记金州饿霸 Big Data 分布式数据库 clickhouse 学习笔记
1.连接到ClickHouse服务器clickhouse-client--host=10.16.226.100--user=default--password2.在ClickHouse中，如果你想要单独删除一行记录，且使用的是Distributed表引擎（或者其他不支持ALTERTABLEDELETE的引擎），你将无法直接通过删除操作来实现这一目标。ClickHouse是为大规模数据分析设计的，它
DeepSeek在供热行业中的应用杨航 AI 人工智能深度学习 python 机器学习算法
目录引言1.1DeepSeek技术概述1.2供暖行业业务挑战1.3DeepSeek在供暖行业的应用前景DeepSeek技术基础2.1深度学习与机器学习2.2自然语言处理（NLP）2.3图像识别与处理2.4数据挖掘与分析供暖行业应用场景3.1设备监控与维护3.1.1设备状态监控3.1.2故障预测与诊断3.1.3维护计划优化3.2能源管理与优化3.2.1能耗数据分析3.2.2热负荷预测3.2.3节能优
23章11节：自助抽样及其在R语言中的实现与验证 DAT｜R科学与人工智能用R探索医药数据科学 r语言开发语言 r-4.2.1 microsoft 信息可视化
在统计学中，数据分析的核心任务之一是如何在样本数据的基础上推断总体的性质。传统方法往往依赖于已知的概率分布假设和解析推导，但在现实问题中，我们往往无法准确得知总体分布，或者数据样本量较小，难以满足经典统计推断方法的要求。自助抽样作为一种非参数的计算方法，为我们提供了基于样本数据“自我重复”构建抽样分布的途径。1977年，斯坦福大学的B.Efron在著名论文《BootstrapMethods:Ano
[每日一学]数据分析与可视化：anaconda与pythoncharm使用上的区别之处及优越点，使用哪款比较好用拼命绽放 python 开发语言
anaconda、.jupyter·jupyter的基本使用，开发环境与pythoncharm有什么区别？在数据分析和可视化使用中有什么区别？哪个在数据分析和可视化上更占优势？如果用pythoncharm如何去实现数据分析与可视化有影响吗？一、Anaconda是一个开源的Python发行版本，集成了多个常用的数据科学、机器学习、深度学习等相关工具，例如JupyterNotebook、Spyder、
Math.NET Numerics 库怎么装 9677 .net
你提到的缺少的库是Math.NETNumerics。关于Math.NETNumericsMath.NETNumerics是一个用于.NET平台的开源数学库，提供了以下功能：线性代数（矩阵运算、求解线性方程组等）。数值计算（积分、微分、优化等）。统计和概率分布。回归分析（包括多元线性回归）。它是C#中进行科学计算和数据分析的常用工具。安装Math.NETNumerics你可以通过NuGet包管理器安
用Python在Excel工作表中创建数据透视图
数据透视图是基于数据透视表创建的Excel图标，它能够帮助我们从复杂的数据集中提炼出有价值的信息，提供直观且易于理解的数据视图。对于需要频繁更新或处理大量数据集的人员以及任何依赖数据做出决策的人来说，用Python在Excel中创建数据透视图能够根据最新的数据快速调整和生成新的分析图表，从而提高工作效率并增强数据分析的灵活性。本文将介绍如何使用Python在Excel工作表中创建数据透视图。用Py
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他