无水先生

自动执行探索性数据分析（EDA），更快、更轻松地理解数据

一、说明

EDA是 exploratory data analysis (探索性数据分析 )的缩写。所谓EDA就是在数据分析之前需要对数据进行以此系统性研判，在这个研判后，得到基本的数据先验知识，在这个基础上进行数据分析。本文将在R语言和python语言的探索性处理。

摄影：Charlotte Karlsen on Unsplash

二、什么是 EDA？

EDA是 exploratory data analysis (探索性数据分析 )的缩写。那么什么叫探索性数据分析？就是在进行正式分析前，将一些先验性信息探索出来。比如，数据分布属于哪个类型。

EDA是我们需要做的最重要的事情之一，作为更好地理解数据集的方法。几乎所有数据分析或数据科学专业人员在生成见解或进行数据建模之前都会执行此过程。在现实生活中，这个过程花费了很多时间，这取决于我们拥有的数据集的复杂性和完整性。当然，更多的变量会让我们在执行后续步骤之前进行更多探索，以获得所需的摘要。

这就是为什么使用R或Python（最常见的编程语言）进行数据分析的原因，一些包有助于更快，更轻松地完成该过程，但不是更好。为什么不更好？因为它只向我们展示了一个摘要，在我们专注于更深入地探索我们认为“有趣”的任何变量之前。

“80/20法则”适用：数据分析师或科学家80%的宝贵时间都花在查找、清理和组织数据上，只剩下20%用于执行分析。

三、在R语言中处理

2.1使用哪些库？

在 R 中，我们可以使用以下库：

dataMaid
DataExplorer
SmartEDA

在 Python 中，我们可以使用这些库：

ydata-profiling
dtale
sweetviz
autoviz

让我们尝试上面列出的每个库，以了解它们的外观以及它们如何帮助我们进行探索性数据分析！在这篇文章中，我将使用通常用于学习如何在R或Python中编码的数据集。iris

在 R 中，可以使用以下代码加载数据集：iris

# iris is part of R's default, no need to load any packages
df = iris 
# use "head()" to show the first 6 rows
head(df)

图像 1.在 R 中加载“鸢尾花”数据集

在 Python 中，您可以使用以下代码加载数据集：iris

# need to import these things first 
from sklearn.datasets import load_iris
import numpy as np 
import pandas as pd
# use load_iris 
iris = load_iris()
# convert into a pandas data frame
df = pd.DataFrame(
  data= np.c_[iris['data'], iris['target']], 
  columns= iris['feature_names'] + ['species']
)
# set manually the species column as a categorical variable
df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)
# use ".head()" to show the first 5 rows
df.head()

图像 2.在 Python 中加载“鸢尾花”数据集

2.2 R：datamaid

首先，我们需要执行下面的简单代码：

# install the dataMaid library
install.packages("dataMaid")
# load the dataMaid library
library(dataMaid) 
# use makeDataReport with HTML as output
makeDataReport(df, output = "html", replace = TRUE)

从第一个快照（图 3）中，我们已经获得了有关数据集的大量信息：iris

观测值数为 150。
变量数为 5。
根据每个变量的数据类型执行变量检查，例如识别错误编码的缺失值、具有 6 个 obs <的水平和异常值。

图像 3.使用鸢尾花数据集的“dataMaid”创建的报表的第一个快照

从第二个快照（图 4）：

变量的汇总表包括变量类、唯一值、缺失观测值以及检测到的任何问题。我们可以看到，变量检测到了问题。Sepal.WidthPetal.Length
Sepal.Length提供了包括直方图在内的中心测量值，为我们提供了单变量分布。
Sepal.Width具有列出的可能异常值。这就是摘要表显示检测到问题的原因。

图像 4.使用鸢尾花数据集的“dataMaid”创建的报表的第二个快照

从第三个快照（图 5）：

Petal.Length具有列出的可能异常值。
Petal.Width提供了包括直方图在内的中心测量值，为我们提供了单变量分布。
Species作为目标变量检测为 a，并且每种类型的数据计数相等，即 50。factor

图像 5.使用鸢尾花数据集的“dataMaid”创建的报表的第三个快照

基于上面在 R 中创建的数据报告，我们已经通过执行一行代码获得了有关数据集的大量信息。dataMaidiris

2.3 R：数据资源管理器

首先，我们需要执行下面的简单代码：

# install the DataExplorer library
install.packages("DataExplorer")
# load the DataExplorer library
library(DataExplorer) 
# use create_report 
create_report(df)

从第一个到第六个快照（图像 6、7、8、9、10、11），我们得到的信息与以前的包没有太大区别。

图像 6.使用鸢尾花数据集的“数据资源管理器”创建的报表的第一个快照

图像 7.使用鸢尾花数据集的“数据资源管理器”创建的报表的第二个快照

图像 8.使用鸢尾花数据集的“数据资源管理器”创建的报表的第三个快照

图像 9.使用鸢尾花数据集的“数据资源管理器”创建的报表的第四个快照

图像 10.使用鸢尾花数据集的“数据资源管理器”创建的报表的第五个快照

图像 11.使用鸢尾花数据集的“数据资源管理器”创建的报表的第六个快照

从第七个快照（图 12）中，我们得到了数据集中每个数值变量的 QQ 图。iris

图像 12.使用鸢尾花数据集的“数据资源管理器”创建的报表的第七个快照

从第八张快照（图 13）中，我们得到了数据集中每个变量的相关矩阵。我们可以看到一些信息，例如：iris

Petal.Width并且具有0.96的强正相关性，这意味着在数据集中，花瓣宽度越宽，花瓣长度越长。Petal.Lengthiris
Species_setosa并且具有-0.92的强负相关，这意味着在数据集中，花瓣长度越短，该物种是setosa的可能性就越高。Petal.Lengthiris
使用上述示例，请使用此相关矩阵提供您的发现。

图像 13.使用鸢尾花数据集的“数据资源管理器”创建的报表的第八个快照

从第九个快照（图14）开始，使用主成分分析（PCA），提供了解释的方差百分比，它显示62%，越高越好。对于PCA的解释，我想我需要另一篇文章。

图像 14.使用鸢尾花数据集的“数据资源管理器”创建的报表的第九个快照

从第十个快照（图15）开始，仍然使用主成分分析（PCA），提供了每个变量的相对重要性，它显示具有最高百分比，几乎为0.5。Petal.Length

图像 15.使用鸢尾花数据集的“数据资源管理器”创建的报表的第十个快照

2.4 R：智能EDA

首先，我们需要执行下面的简单代码：

# install the SmartEDA library
install.packages("SmartEDA")
# load the SmartEDA library
library(SmartEDA) 
# use ExpReport
ExpReport(df, op_file = 'SmartEDA_df.html')

从图 16、17、18、23 和 24 中，我们得到的信息与之前的包没有太大区别。

图像 16。使用鸢尾花数据集的“SmartEDA”创建的报告的第一个快照

图像 17.使用虹膜数据集的“SmartEDA”创建的报告的第二个快照

图片 18.使用虹膜数据集的“SmartEDA”创建的报告的第三个快照

从图 19 中，向我们展示了每个变量的密度图，包括偏度和峰度测量值，用于告诉我们数据是否呈正态分布。偏度和峰度的解释也需要另一篇文章，我猜

图片 19.使用虹膜数据集的“SmartEDA”创建的报告的第四个快照

从图 20、21 和 22 中，向我们展示了数据集中可用的数值变量之间的散点图，直观地告诉我们相关性。它为我们提供了与数字格式的相关矩阵类似的信息。iris

图像 20.使用虹膜数据集的“SmartEDA”创建的报告的第五个快照

图像 21.使用虹膜数据集的“SmartEDA”创建的报告的第六个快照

图像 22.使用虹膜数据集的“SmartEDA”创建的报告的第七个快照

图像 23。使用鸢尾花数据集的“SmartEDA”创建的报告的第九个快照

图片 24.使用虹膜数据集的“SmartEDA”创建的报告的第十个快照

2.5 R：结论

使用上面的三个包，我们获得了有关数据集的大量信息，比我们尝试手动创建数据集要快得多，但这还不够，这就是为什么我在标题中说“......更快、更容易...“，因为它只能让我们一瞥数据集，但至少它给了我们可以开始处理哪些事情，而不是寻找起点，例如：irisiris

没有缺失的变量/没有错误编码的变量，我们可以跳过这些步骤。
在某些变量中检测到异常值，我们可以通过使用任何适当的方法来开始清理数据来处理异常值，而不是手动逐个查找哪些变量具有异常值。
如果需要，我们可以开始处理非正态分布的变量。
根据相关矩阵和散点图，我们瞥见了哪些变量具有强相关性或弱相关性。
使用 PCA，我们知道解释的变量百分比和数据集的相对重要性。iris

四、Python语言的处理

4.1 Python：ydata-profiling

首先，我们需要执行下面的简单代码：

# install the ydata-profiling package
pip install ydata-profiling
# load the ydata_profiling package
from ydata_profiling import ProfileReport
# use ProfileReport
pr_df = ProfileReport(df)
# show pr_df
pr_df

大多数情况下，它显示类似的信息。我将尝试提及一些与以前的软件包完全不同的信息：

在图 26 中，我们得到了关于哪些变量具有高度相关性的句子摘要。
总体而言，与以前的包相比，输出更具交互性，因为我们可以单击以移动到其他选项卡，并选择要显示的特定列。

图片 25.使用鸢尾花数据集的“ydata_profiling”创建的报表的第一个快照

图像 26。使用鸢尾花数据集的“ydata_profiling”创建的报表的第二个快照

图像 27.使用鸢尾花数据集的“ydata_profiling”创建的报表的第三个快照

图像 28.使用鸢尾花数据集的“ydata_profiling”创建的报表的第四个快照

图像 29.使用鸢尾花数据集的“ydata_profiling”创建的报表的第五个快照

图像 30.使用鸢尾花数据集的“ydata_profiling”创建的报表的第六个快照

图片 31.使用鸢尾花数据集的“ydata_profiling”创建的报表的第七个快照

图像 32.使用鸢尾花数据集的“ydata_profiling”创建的报表的第八个快照

图像 33.使用鸢尾花数据集的“ydata_profiling”创建的报表的第九个快照

4.2 Python： dtale

首先，我们需要执行下面的简单代码：

# install the dtale package
pip install dtale
# load the dtale
import dtale
# use show 
dtale.show(df)

这个包的输出和以前的包有很大的不同，在如何使用方面，内容也差不多，但是让我们可以更好地探索。

图像 34.使用鸢尾花数据集的“dtale”创建的报表的第一个快照

图像 35。使用鸢尾花数据集的“dtale”创建的报表的第二个快照

图像 36.使用鸢尾花数据集的“dtale”创建的报表的第三个快照

图像 37.使用鸢尾花数据集的“dtale”创建的报表的第四个快照

4.3 Python： sweetviz

首先，我们需要执行下面的简单代码：

# install the sweetviz package
pip install sweetviz
# load the sweetviz
import sweetviz
# use analyze 
analyze_df = sweetviz.analyze([df, "df"], target_feat = 'species')
# then show 
analyze_df.show_html('analyze.html')

使用这个包，UI和UX有很大的不同，请欣赏表演！

图像 38.使用鸢尾花数据集的“甜可视化”创建的报表的第一个快照

图像 39.使用鸢尾花数据集的“甜美可视化”创建的报表的第二个快照

人类是视觉生物，这意味着人脑处理图像的速度比文本快60万倍，传输到大脑的信息中有000%是视觉的。可视化信息使协作变得更加容易，并产生影响组织绩效的新想法。这是数据分析师将最大时间花在数据可视化上的唯一原因。

4.4 Python： autoviz

首先，我们需要执行下面的简单代码：

# install the dtale package
pip install autoviz
# load the autoviz
from autoviz import AutoViz_Class
# set AutoViz_Class()
av = AutoViz_Class()
# produce AutoVize_Class of df
avt = av.AutoViz(
    "",
    sep = ",",
    depVar = "",
    dfte = df,
    header = 0,
    verbose = 1,
    lowess = False,
    chart_format = "server",
    max_rows_analyzed = 10000,
    max_cols_analyzed = 10,
    save_plot_dir=None
)

使用上面的代码，在浏览器中生成一些选项卡。我们可以使用此包看到的新内容：

输出在浏览器中的多个选项卡中生成，以前的包在一个选项卡中显示所有输出。
每个变量的小提琴图。它是箱线图和核密度图的混合版本。与以前的包相比，仍然显示类似的信息。

图像 40.使用鸢尾花数据集的“autoviz”创建的报表的第一个快照

图像 41.使用鸢尾花数据集的“autoviz”创建的报表的第二个快照

图像 41.使用鸢尾花数据集的“autoviz”创建的报表的第三个快照

图像 42.使用鸢尾花数据集的“autoviz”创建的报表的第四个快照

图像 43.使用鸢尾花数据集的“autoviz”创建的报表的第五个快照

4.5 Python：结论

使用上面的四个包，我们得到了很多关于数据集的信息，与R包相比没有太大的区别，但是当有更多的视角通常比拥有更少的视角更好时。一些注意事项：iris

与 R 包相比，Python 包的输出大多更具交互性。
安装软件包时，可能会出现一些错误。对于，常见的错误是 about 和。您可以通过参考这篇文章来获得解决方案。dtalejinjaescape
在某些包中，代码不像在R包中那么简单，但我认为这不是一个大问题，只要我们不懒惰地阅读手动指令，我认为一切都很好。

五、结论

我必须使用哪一个？哪一个是最好的？哪一个与我的数据集最兼容？

这要看情况。我认为我们可以减少我们需要做EDA的时间已经是一件好事了。让我们尝试探索上面解释的每个包并明智地使用它，而不是作为主要解决方案。 以我的拙见，探索数据应该是数据分析的“有趣”部分，所以不要害怕通过手动进行EDA来“弄脏”，有时非自动化方法仍然是最好的。

Android 11 DAC和MAC Optimus●Prime android frameworks Android DAC MAC 权限控制
在Android11中，DAC（DiscretionaryAccessControl，自主访问控制）和MAC（MandatoryAccessControl，强制访问控制）是两种不同的访问控制机制，主要用于权限管理、安全性以及进程间访问控制。1.DAC（自主访问控制）DAC（DiscretionaryAccessControl，自主访问控制）是Android的传统权限管理机制，基于用户ID（UID）
如果，你想找 AI大模型相关的工作，这三个建议你一定要看！我爱学大模型人工智能 chatgpt AI大模型 AI 大模型入门转行程序员
01各种大厂小厂创业团队和AI擦边的面试难度，由难到简单，依次是：大模型算法（⭐⭐⭐⭐⭐）模型部署加速（⭐⭐⭐⭐）RAG等相关技术（⭐⭐⭐）纯应用（⭐⭐）Prompt工程师等其他自媒体（⭐）会简单应用就行02这结果方向，B站找几个视频看看，这里推荐用Qwen7B，开源的模型，一个3060都能跑。例如这个，如何微调Qwen开源模型。https://www.bilibili.com/video/BV1
你了解TikTok的矩阵玩法吗？这一策略能帮助你实现精准引流！ m0_74891046 矩阵
TikTok已经不再是一个单纯的娱乐平台，它逐渐成为了很多人商业变现的利器。今天，咱们来聊聊TikTok矩阵玩法，看看如何利用多个账号协同作战，实现精准的引流和推广。什么是TikTok矩阵玩法？矩阵玩法是一种通过多个TikTok账号配合运营，进行内容推广和流量引导的策略。通过精细化分工和协同作战，每个账号都有不同的目标和任务，从而实现更高效的流量转化和用户增长。矩阵玩法的优势：精准引流每个账号针对
【NLP 39、激活函数 ⑤ Swish激活函数】 L_cl NLP 自然语言处理人工智能
我的孤独原本是座荒岛，直到你称成潮汐，原来爱是让个体失序的永恒运动——25.2.25Swish激活函数是一种近年来在深度学习中广泛应用的激活函数，由GoogleBrain团队在2017年提出。其核心设计结合了Sigmoid门控机制和线性输入的乘积，通过引入平滑性和非单调性来提升模型性能。一、数学定义与变体1.基础形式Swish的标准表达式为：Swish(x)=x⋅σ(βx)其中：σ(x)是Sigm
Monorepo与pnpm：前端项目管理的完美搭档秋の本名前端 pnpm 前端框架 mojo
一、什么是pnpmpnpm又称performantnpm，翻译过来就是高性能的npm。1.节省磁盘空间提高安装效率pnpm通过使用硬链接和符号链接（又称软链接）的方式来避免重复安装以及提高安装效率。硬链接：和原文件共用一个磁盘地址，相当于别名的作用，如果更改其中一个内容，另一个也会跟着改变符号链接（软链接）：是一个新的文件，指向原文件路径地址，类似于快捷方式官网原话：当使用npm时，如果你有100
ES6语法详解八月五前端前端 es6
ES的全称是ECMAScript,它是由ECMA国际标准化组织,制定的一项脚本语言的标准化规范。ES6实际上是一个泛指，泛指ES2015及后续的版本。目录1.let关键字和const关键字let关键字const关键字2.解构赋值数组解构赋值对象解构赋值解构赋值用于传参3.字符串新增特性模板字符串字符串实例新增方法4.数值新增特性新增二进制和八进制表示方法Number构造函数本身新增方法和属性安全整
Halcon 3月License 持续更新 lkasi haclon 计算机视觉 c++
大家新年快乐啊！3月License:仅仅支持以下版本24.05和24.1111月:呜呜呜呜，才装的23，又要装24了12月:yeah!我是24.05！！！1月:新的一年，24还是可以用大家春节快乐呀2月:新的一年，24依然可以用3月:24.0524.11依然可以用！！！链接:https://pan.baidu.com/s/1GmymNfYVFlokESK2r1HnmA?pwd=agey提取码:ag
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
Go 语言使用Protobuf 进行序列化详解尘鹄 Go 语言学习之路 golang 开发语言后端 rpc go
文章目录Go语言使用Protobuf进行序列化详解1.Protobuf是什么?2.安装Protobuf及Go依赖3.编写.proto文件4.实现序列化和反序列化Go语言使用Protobuf进行序列化详解1.Protobuf是什么?以下是Protobuf官方中文文档的概述:Protobuf(ProtocolBuffers)是一种语言中立、平台中立的可扩展机制，用于序列化结构化数据。它类似于JSON，
Towards Multimodal Large-Language Models for Parent-Child Interaction: A Focus on Joint Attention UnknownBody LLM Daily Multimodal 语言模型人工智能大数据
摘要共同注意是儿童早期语言发展的关键组成部分，也是亲子互动有效性的重要指标。然而，目前对共同注意的检测和分析研究仍然有限，尤其是在多模态大语言模型（MLLMs）方面。本研究通过分析由两位语言病理学家标注的26段亲子互动视频，评估了多模态大语言模型理解共同注意的能力。这些标注识别出了共同注意程度高和低的片段，作为评估模型解释能力的基准。我们的研究结果显示，由于当前的多模态大语言模型对儿童发起的眼神交
关联规则算法：揭秘数据中的隐藏关系，从理论到实战秋声studio 机器学习算法详解关联规则算法数据挖掘 Apriori算法 FP-Growth算法大数据优化数据预处理增量式更新
引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
灵犀X2：人形机器人的新篇章 Anima.AI 机器人
简介灵犀X2是智元机器人推出的最新款人形机器人，很可能是其前代产品灵犀X1的升级版本。灵犀X1作为一款开源的模块化机器人，其机械设计和软件代码完全公开，全球开发者都可以参与优化和创新。这款机器人身高130厘米，体重33公斤，具备34到44个自由度（DegreesofFreedom,DoF，即关节活动范围），能够执行轻型任务，如端茶送水、整理房间等。灵犀X2在继承这些特性的基础上，可能进一步提升了动
大语言模型(LLM)入门学习路线图_llm教程，从零基础到精通，理论与实践结合的最佳路径！ AGI学习社语言模型学习人工智能 LLM 大模型大数据自然语言处理
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
webpack 码上跑步 webpack 前端 node.js
webpack介绍webpack是一个构建工具,实现了模块化管理项目.他的工作方式是用各种loader将各种资源转化为js文件或者对js文件进行压缩编译亦或对静态资源进行处理.官网:webpack由来模块化存在一些问题1.ESM的兼容性问题2.模块文件过多,网络请求频繁3.前端的所有资源包括html和css都需要模块化构建工具应运而生,需要一个集编译,模块打包,支持不同的资源的模块打包工具.Web
Vue初体验码上跑步 vue.js 前端
Vue基础Vue是什么？Vue是javascript的渐进式框架。Vue初识Vue工作时必须要创建一个Vue的实例，并且传入一个配置对象。root容器里的代码是符合html的语法但是新添加了一些Vue语法，在这些地方Vue会自动进行解析。root容器里的代码称为Vue模版。Vue实例和容器是一一对应的。在实际开发中只有一个Vue，配合组件使用。在vue里的插值{{}}内部只要写js表达式就能正常解
AI-大模型中的流式输出与非流式输出岂不闻 AI 人工智能开发语言 AI编程
1.前言在大模型API开发中，流式与非流式输出对应着两种不同的数据交互，在代码中stream中通过参数true与false来进行设定。2.流式输出与非流式输出的原理2.1.非流式输出-请求一次响应返回完整数据非流式输出，传统的请求-响应模式，发起请求-等待完整内容生成后一次性返回给客户端。完整性：返回经过处理和验证的完整响应。单次传输：采用标准HTTP请求与响应模式，一次传输所有数据。等待时间：用
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
一文理清概念：数据中台(DMP)-数据仓库(DW)-数据湖(DL)-湖仓一体-数据治理(DG) Debug_Snail Hadoop Big Data Data Science 数据仓库大数据数据中台数据湖数据治理
数据仓库、数据中台、数据湖、湖仓一体是数据管理和分析领域的重要概念，它们在功能、架构和应用场景上各有特点，同时也在演进中相互关联和补充。以下是对它们的定义和关系的详细解析：1.核心概念（1）数据仓库（DataWarehouse,DW）定义：一种面向主题的、集成的、稳定的数据存储系统，用于支持企业决策分析（如BI、报表）。数据通常经过ETL（抽取、转换、加载）处理，以结构化形式存储，采用Schema
【Unity】灯光Light xiaoaiyu___ unity 游戏引擎
Type：光照类型，一共有四种Directionallight：方向光，类似太阳的日照效果。Pointlight：点光源，类似蜡烛。Spotlight：聚光灯，类似手电筒。AreaLight：区域光，无法用作实时光照，一般用于光照贴图烘培Color：光源的颜色，自己选Mode：光照模式Realtime实时：运行时每帧计算并更新实时灯光。没有预先计算实时灯光。Mixed混合：一种提供烘焙和实时功能的
前端实现版本更新自动检测✅ 水煮白菜王前端 Vue JavaScript 前端 vue.js javascript
作者简介：水煮白菜王，一位资深前端劝退师文章专栏：前端专栏，记录一下平时在博客写作中，总结出的一些开发技巧和知识归纳总结✍。感谢支持目录一、背景二、实现原理2.1逻辑2.2一些好处三、具体实现3.1工程化封装3.2关键方法解析脚本哈希获取：对比逻辑：四、全部代码4.1vue34.2vue2五、注意事项与常见问题5.1可能出现的问题5.2浏览器兼容方案一、背景在现代Web应用中，部署前端版本更新后及
【推荐项目】044-中医门诊管理系统蜗牛 | ICU 推荐项目 java 前端框架毕设 spring mybatis
044-中医门诊管理系统介绍javaspringbootvuejs中医门诊管理系统为了帮助您更清晰地整理中医门诊管理系统的功能，我将按照您提供的角色和功能进行归类和整理。以下是整理后的功能列表：角色划分核心管理员医生药师用户（普通患者）管理端功能（核心管理员）统计用户统计（按注册时间、活跃度等）药物销售统计处方统计咨询统计用户管理用户列表（查看、编辑、删除）用户角色分配用户权限管理医生管理医生列表
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
由 Mybatis 源码畅谈软件设计（五）：ResultMap 的循环引用方圆想当图灵由 Mybatis 源码畅谈软件设计 mybatis 代码规范
本节我们来了解Mybatis是如何处理ResultMap的循环引用，它的解决方案非常值得在软件设计中参考。另外作为引申，大家可以了解一下Spring是如何解决Bean的循环注入的。以单测org.apache.ibatis.submitted.permissions.PermissionsTest#checkNestedResultMapLoop为例，它对应表结构和表中的数据为：createtabl
批量共享，一步到位的软件神器维度哥批量共享
今天介绍一个可以一键共享文件夹的软件神器，更厉害的是可以批量设置共享并编辑共享和安全权限。批量共享一键批量共享文件夹这个软件下载之后打开就能直接使用，不需要安装。选择好文件之后设置访问权限以及共享权限，就可以直接共享给别人了。可以根据需求自己增删系统用户。也可以选择指定的用户进行共享。这里可以方便你更好的查看、管理共享用户和对应的权限。在共享设置里，如果不清楚怎么设置，可以全选设置即可。如果还有一
CSS入门指南：从零开始学习网页开发——（一）简介 GIS小白吃 css 学习前端
一、什么是CSS？CSS（CascadingStyleSheets，层叠样式表）是一种用于描述网页的外观和布局的样式表语言。它通过定义网页元素的样式（如颜色、字体、边距等）来与HTML内容分离，提升了网页的可维护性和设计的灵活性。CSS的核心目的是增强网页的表现力。早期的网页仅使用HTML来进行内容的展示，但由于HTML只能描述内容的结构，页面设计和内容变得难以管理。于是，CSS作为一种辅助技术应
学习笔记09——并发编程之线程基础码代码的小仙女高级开发必备技能学习笔记 python
线程基础1.1进程与线程的区别，Java中线程的实现（用户线程与内核线程）进程是操作系统分配资源的基本单位，而线程是CPU调度的基本单位。每个进程有独立的内存空间，而同一进程内的线程共享内存.可以从资源分配、切换开销、通信方式和独立性四个方面来比较两者的区别资源分配进程：操作系统分配资源（如内存、文件句柄等）的基本单位，拥有独立的地址空间。线程：隶属于进程，共享进程的资源（如内存、文件等），是CP
【高级RAG技巧】使用二阶段检索器平衡检索的效率和精度深度学习机器大语言模型深度学习入门人工智能语言模型
一传统方法之前的文章已经介绍过向量数据库在RAG（RetrievalAugmentedGenerative）中的应用，本文将会讨论另一个重要的工具-Embedding模型。一般来说，构建生产环境下的RAG系统是直接使用Embedding模型对用户输入的Query进行向量化表示，并且从已经构建好的向量数据库中检索出相关的段落用户大模型生成。但是这种方法很明显会受到Embedding模型性能的影响，比
AI大模型零基础金融人如何一周自学大模型，从零基础到入门，看这篇就够了！冻感糕人~ 人工智能金融 AI大模型 LLM 大模型技术大模型学习路线大模型基础
前几天参加了字节跳动在上海举办的火山引擎Force原动力大会，OpenAI也连续开了12天发布会，最近堪称科技界的春晚了。如果说2022年ChatGPT横空出世把人工智能的发展带上了一个新的台阶，那么2024年末，大模型对工作、生活的全面“侵入”让我们越来越接近库兹韦尔所描述的那个奇点时刻。作为金融民工，我们想通过这篇文章讲讲从用户的角度如何一周快速掌握大模型，以及为什么我建议每一个金融从业人员（
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，

自动执行探索性数据分析 （EDA），更快、更轻松地理解数据

一、说明

二、什么是 EDA？

三、在R语言中处理

2.1使用哪些库？

2.2 R：datamaid

2.3 R：数据资源管理器

2.4 R： 智能EDA

2.5 R：结论

四、Python语言的处理

4.1 Python：ydata-profiling

4.2 Python： dtale

4.3 Python： sweetviz

4.4 Python： autoviz

4.5 Python：结论

五、结论

你可能感兴趣的:(数据挖掘和量化分析,人工智能,深度学习)

自动执行探索性数据分析（EDA），更快、更轻松地理解数据

2.4 R：智能EDA