山林里的迷路人

python代码实现数据可视化

数据可视化

使用python代码实现对数据进行可视化
包含柱状图，折线图，堆积图，小提琴图，散点图等

代码

#!/usr/bin/env python
# coding: utf-8

# In[1]:


from IPython.display import clear_output 
get_ipython().system('pip install fast_ml ')
clear_output()


# In[2]:



import pandas as pd 
import seaborn as sns  
import plotly.express as px 
import matplotlib.pyplot as plt
import warnings 
warnings.filterwarnings("ignore")


# In[3]:


from fast_ml.outlier_treatment import OutlierTreatment 
from sklearn.feature_selection import VarianceThreshold 
from sklearn.preprocessing import LabelEncoder 
from sklearn.tree import DecisionTreeClassifier   
from sklearn.model_selection import train_test_split
from sklearn import tree


# ID：ID
# Warehouse block：仓库区块
# Mode of shipment：运输方式
# Customer care calls：客户服务电话
# Customer rating：客户评价
# Cost of the product：产品成本
# Prior purchases：先前购买
# Product importance：产品重要性
# Gender：性别
# Discount offered：提供的折扣
# Weight in gms：克重
# Reached on time：准时到达
# ![1639989747%281%29.png](attachment:1639989747%281%29.png)

# In[39]:


df = pd.read_csv(r"Train.csv")


# Data Overview

# In[5]:


df.head()


# Data types

# In[6]:


df.dtypes


# Information about data

# In[7]:


df.info()


# Checking null Values

# In[8]:


df.isna().sum()


# In[9]:


df.shape


# Ware_house block

# In[105]:


df['Warehouse_block'].value_counts()


# In[106]:


sns.countplot(x = 'Warehouse_block',data = df)
plt.show()


# 由上图可以看出，F区块数量远多于其余区块数量；
# 柱形图是一种对数据分布情况的图形表示，可以更直观的看到各个数值的数量分布

# In[10]:


object_columns = df.select_dtypes(include=['object'])


# In[11]:


object_columns = df.select_dtypes(include=['object'])
warehouse = object_columns["Warehouse_block"].value_counts().reset_index() 
warehouse.columns = ['warehouse',"values"] 
fig = px.pie(warehouse,names='warehouse',values='values',color_discrete_sequence=px.colors.sequential.matter_r) 
fig.show()


# 仓库一共分为五个区块，分别为A,B,C,D,F，由图表可直观看出，F区数量最多，其余区块数量相同；饼图是用圆形及圆内扇形的角度来表示数值大小的图形，它主要用于表示一个样本（或总体）中各组成部分的数据占全部数据的比例

# gender

# In[40]:


df['Gender'].value_counts()


# In[41]:


sns.countplot(x = 'Gender',data = df)
plt.show()


# 由上图看出该电子商务公司中用户的男女数量比较接近；

# In[12]:


gender = object_columns['Gender'].value_counts().reset_index() 
gender.columns = ["Gender","Counts"]  
gender.drop("Gender",axis=1,inplace=True)
gender["Gender"] = ["Male","Female"]
fig = px.pie(gender,names='Gender',values='Counts',color_discrete_sequence=px.colors.sequential.Electric) 
fig.update_traces(textinfo='percent+label')


# 由上图看出该电子商务公司用户男性占比略高于女性；

# Mode of shipment

# In[42]:


df['Mode_of_Shipment'].value_counts()


# In[43]:


sns.countplot(x = 'Mode_of_Shipment',data = df)
plt.show()


# 由上图可以看出该电子商务的运输方式中，选用轮船运输的次数远多于其他航空运输以及公路运输；

# In[13]:


transport = object_columns["Mode_of_Shipment"].value_counts().reset_index() 
transport.columns = ["Mode","Values"] 
fig = px.pie(transport,names='Mode',values='Values',color_discrete_sequence=px.colors.sequential.Magenta_r) 
fig.update_traces(textinfo='percent+label')


# 由上图可以看出该电子商务公司运输方式中，选用轮船运输的次数比其余两种运输方式加和后的次数还多；

# Product importance

# In[44]:


df['Product_importance'].value_counts()


# In[45]:


sns.countplot(x = 'Product_importance',data = df)
plt.show()


# 由上图可以看出，该电子商务公司所售卖出去的商品中，重要性低的数量略多与重要性中的，重要性高的售卖出去的数量较低；

# In[14]:


product = object_columns['Product_importance'].value_counts().reset_index() 
product.columns = ['Importance','Values'] 
fig = px.pie(product,names='Importance',values='Values',color_discrete_sequence=px.colors.sequential.Emrld_r) 
fig.update_traces(textinfo='percent+label')


# 由上图可以看出，售卖出去的商品中，产品重要性为低以及中的数量远多于重要性高的；

# In[15]:


integer_columns = df.select_dtypes(include=['int64'])


# In[16]:


integer_columns


# Customer_care calls

# In[17]:


customer = df["Customer_care_calls"].value_counts().reset_index() 
customer.columns = ["Number of times","Value"] 
fig = px.pie(customer,names="Number of times",values="Value") 
fig.update_traces(textinfo='percent+label')


# 由上图可以看出，所售卖出去的商品中，单个货品的客服电话数量为7个，最少为2个，其中所有货品中，客服电话为4个的占比最大，为32.3%，客服电话为2个的占比最低，为2.24%；

# Customer ratings

# In[18]:


customer = df["Customer_rating"].value_counts().reset_index() 
customer.columns = ["Ratings","Value"]  


# In[19]:


customer["Ratings"] = ["Rating_"+str(i) for i in customer["Ratings"].tolist()]


# In[20]:


fig = px.pie(customer,names="Ratings",values="Value",color_discrete_sequence=px.colors.sequential.algae_r) 
fig.update_traces(textinfo='percent+label')


# 图中Rating为客户评价，Rating_1为最低，Rating_5为最高，看饼图可以看出，客户对商品的评价处于一个平均的状态，均大概有20%左右人；

# Prior_Purchases

# In[21]:


Prior_purchases = df["Prior_purchases"].value_counts().reset_index() 
Prior_purchases.columns = ["Prior_purchases","Value"] 
Prior_purchases = Prior_purchases[["Prior_purchases","Value"]]


# In[22]:


text1 = ["Experienced "+str(i)+" times before ordering" for i in Prior_purchases["Prior_purchases"].values.tolist()]


# In[23]:


Prior_purchases["Prior_purchases"] = text1
fig = px.pie(Prior_purchases,names="Prior_purchases",values="Value",color_discrete_sequence=px.colors.sequential.Darkmint_r) 
fig.update_traces(textinfo='percent+label')


# 图中表示的是用户在先前购买商品的数量，其中在之前购买过3次的人占比最高为36%，在之前购买6次以上的人占比最少，占比低于2%，由此可见，需要加强对老用户的维护

# Reached On time delivery

# In[24]:


Reached = df["Reached.on.Time_Y.N"].value_counts().reset_index() 
Reached.columns = ["Reached","Value"]  
Reached.drop("Reached",axis=1,inplace=True) 
Reached["Reached"] = ["successfully Reached","Not Successfully Reached"]
fig = px.pie(Reached,names="Reached",values="Value",color_discrete_sequence=px.colors.sequential.Darkmint_r) 
fig.update_traces(textinfo='percent+label')


# 上图代表的是货品准时到达以及延迟到达的占比，可以看出准时到达的占比为59.7%,未准时到达的占比为40.3%,需要对未准时到达的原因进行分析，提高到达准确率；

# Cost of the product

# In[27]:


sns.displot(data=df,x="Cost_of_the_Product",height=8,aspect=3,kde=True)


# 图中直方图表示的是产品成本的价格，由此可以看出产品成本多处于150到250间；直方图又称质量分布图，它是表示资料变化情况的一种主要工具。用直方图可以解析出资料的规则性，比较直观地看出产品质量特性的分布状态，对于资料分布状况一目了然，便于判断其总体质量分布情况

# In[28]:


df.columns


# In[29]:


sns.displot(data=df,x="Discount_offered",height=8,aspect=3,kde=True)


# 图中表示的是商品提供的折扣，由图看出，产品提供的折扣在0-10的数量最多；直方图又称质量分布图，它是表示资料变化情况的一种主要工具。用直方图可以解析出资料的规则性，比较直观地看出产品质量特性的分布状态，对于资料分布状况一目了然，便于判断其总体质量分布情况

# In[53]:


ots = OutlierTreatment() 
ots.fit(df,["Discount_offered"])  
df = ots.transform(df)


# In[54]:


plt.figure(figsize=(20,8))
df.boxplot(column="Discount_offered")


# 图中表示的是提供折扣的箱线图，折扣的中位数大概在6.8左右；箱线图(boxplot)属于到描述性统计(descriptive statistics), 描述性统计的作用简单的来说就是用数值来描述数据有何相同的地方又有何不同的地方,就是对数据做总结归纳. 而箱线图是一种使用五个数值(下边缘,第一分位数,中位数,第三分位数,上边缘)来描述数据集分布的方法, 就是观察数据集大概是集中再什么区域, 分布的情况是否是对称的还是说向左或向右偏, 有没有一些数据偏离的很离谱等等.
# 

# In[47]:


# making a lineplot to check the relation between customer care calls, customer ratings and gender

plt.figure(figsize = (18, 9))
sns.lineplot(x = 'Customer_care_calls', y = 'Customer_rating', hue = 'Gender', data = df,
             palette = 'rocket', ci = 0)
plt.title('Relation between Customer Care Calls and Customer Rating of Males and Females\n',
          fontsize = 15)
plt.show()


# 图中表示的是男性与女性用户在，客服电话数量对产品评价程度的影响关系，由图中可以看出，当客服数量为6个时，客户评价也最高；折线统计图不仅可以表示数量的多少，而且可以反映同一事物在不同时间里的发展变化的情况

# In[27]:


mode = df.groupby(["Mode_of_Shipment"])["Warehouse_block"].value_counts().to_frame()


# In[28]:


mode.columns = ["Count"] 
df1 = mode.reset_index(level=[0,1]) 
df1.head()


# Mode of shipment belongs to Various ware_house blocks

# In[29]:


px.sunburst(df1,path=["Mode_of_Shipment","Warehouse_block"],values="Count",color_discrete_sequence=px.colors.sequential.Greys_r)


# 图形表示的是各运输渠道下，仓库区块的分布，从图中可以看出无论实在轮船运输还是航空运输或公路运输下F区块的数量都是最多的，所以可适当增加F仓块的数量；旭日图中每个级别的数据通过1个圆环表示，离原点越近代表圆环级别越高，最内层的圆表示层次结构的顶级，然后一层一层去看数据的占比情况。越往外，级别越低，且分类越细。因此，它既能像饼图一样表现局部和整体的占比，又能像矩形树图一样表现层级关系。

# Mode_of_shipment related to their product_importance

# In[30]:


importance = df.groupby(["Mode_of_Shipment"])["Product_importance"].value_counts().to_frame() 
importance.columns = ["Count"] 
importance = importance.reset_index(level=[0,1]) 


# In[31]:


px.sunburst(importance,path=["Mode_of_Shipment","Product_importance"],values="Count",color_discrete_sequence=px.colors.sequential.GnBu_r)


# 图形表示的是各运输渠道下，各货品重要性的分布情况，从图中可以看出无论实在轮船运输还是航空运输或公路运输下，商品重要性为高的数量都是最小的，且低于重要性低的以及中等的，所以可适当增加F仓块的数量；旭日图中每个级别的数据通过1个圆环表示，离原点越近代表圆环级别越高，最内层的圆表示层次结构的顶级，然后一层一层去看数据的占比情况。越往外，级别越低，且分类越细。因此，它既能像饼图一样表现局部和整体的占比，又能像矩形树图一样表现层级关系。

# which type of shipment can carry more weight

# In[35]:


Product_importance = df.groupby(["Product_importance"])["Reached.on.Time_Y.N"].value_counts().to_frame() 
Product_importance.columns = ["Count"] 
Product_importance = Product_importance.reset_index(level=[0,1]) 
Product_importance["Reached.on.Time_Y.N"] = ["Reached","Not Reached","Reached","Not Reached","Reached","Not Reached"] 
px.sunburst(Product_importance,path=["Product_importance","Reached.on.Time_Y.N"],values="Count")


# 图中表示的是货品不同重要性下，货品是否准时到达，由图中可以看出，就算在不同重要性下，也没有对货品是否准时到达产生很大的影响；旭日图中每个级别的数据通过1个圆环表示，离原点越近代表圆环级别越高，最内层的圆表示层次结构的顶级，然后一层一层去看数据的占比情况。越往外，级别越低，且分类越细。因此，它既能像饼图一样表现局部和整体的占比，又能像矩形树图一样表现层级关系。

# How many items are delivered on time based on product_importance

# In[32]:


load = df.groupby(["Mode_of_Shipment"])["Weight_in_gms"].sum().reset_index() 
px.bar(load,x="Mode_of_Shipment",y="Weight_in_gms",color_discrete_sequence=px.colors.sequential.ice)


# 图中表示的是各运输方式所承载的货物的重量，其中轮船运输所承载的货物重量远高于航空运输以及公路运输；柱形图 图形显示的比较清晰、直观，并能同时对比各个项目在某特定时间内的差异

# At what range of product_weight reaches delivery on time?

# In[45]:


plt.figure(figsize=(20,8))
sns.histplot(data=df,x="Weight_in_gms",hue="Reached.on.Time_Y.N",element='poly')


# 图中表示的是货物的重量对货品准时到达的影响，由图中可以看出货品越重，货品未准时到的可能性也越大；直方图又称质量分布图，它是表示资料变化情况的一种主要工具。用直方图可以解析出资料的规则性，比较直观地看出产品质量特性的分布状态，对于资料分布状况一目了然，便于判断其总体质量分布情况

# Whether rating depends upon the cost_of_the_product

# In[47]:


plt.figure(figsize=(20,8))
sns.catplot(data=df,x="Customer_rating",y="Cost_of_the_Product",color="darkblue",kind="swarm")


# 由图中看出，客户的评价与产品成本之间没有什么关系；用两组数据构成多个坐标点，考察坐标点的分布，判断两变量之间是否存在某种关联或总结坐标点的分布模式。散点图将序列显示为一组点。值由点在图表中的位置表示。类别由图表中的不同标记表示。散点图通常用于比较跨类别的聚合数据

# In[55]:


#创建散点图，看看产品成本和折扣之间的关系，以及看产品是否能按时到达

plt.figure(figsize = (15, 7))
sns.scatterplot(x='Discount_offered', y='Cost_of_the_Product', data=df, hue='Reached.on.Time_Y.N')

plt.show()


# 图中表示的是产品折扣与产品成本间的关系是否影响货物准时到达；由图中可以看出产品的折扣约大，产品准时到达的数量越大；用两组数据构成多个坐标点，考察坐标点的分布，判断两变量之间是否存在某种关联或总结坐标点的分布模式。散点图将序列显示为一组点。值由点在图表中的位置表示。类别由图表中的不同标记表示。散点图通常用于比较跨类别的聚合数据
# 

# In[57]:


#2000 - 4000 and 6000+ gram products are not delivered on time every time.
#Delivered on time products' weights changing between 1000-2000 and 4000-6000 grams.
fig, ax = plt.subplots(figsize=(9, 5))
sns.scatterplot(x="Weight_in_gms",y="Cost_of_the_Product",hue="Reached.on.Time_Y.N",data=df,edgecolor=colors_dark[0],palette="deep")
ax.legend(["Not delivered on time","Delivered on time"],loc='upper center', bbox_to_anchor=(0.5, -0.2), ncol=2, borderpad=1, frameon=True, fontsize=10)
plt.ylabel("Cost_of_the_Product",fontsize=12, fontweight='light', color=colors_dark[0])
plt.xlabel("Weight_in_gms",fontsize=12, fontweight='light', color=colors_dark[0])
plt.title("Weight_in_gms - Cost_of_the_Product", fontsize=18, fontweight='bold', color=colors_dark[0])
plt.show()


# In[51]:


figure = plt.figure(figsize=(15,8))
sns.scatterplot(x="Cost_of_the_Product",y="Discount_offered",hue="Reached.on.Time_Y.N",style="Customer_rating",
               data=df)
plt.show()


# In[48]:


fig = px.histogram(data_frame = df,x = 'Warehouse_block',color='Reached.on.Time_Y.N',title = "Warehouse vs Reached on Time or not")
fig.update_layout(bargap=0.2)
fig.show()


# 从图中可以看出大约60%货物准时到达；反映数据细分和总体情况，我们常常会使用到堆积条形图，这种图形让我们既能看到整体推移情况，又能看到某个分组单元的总体情况，还能看到组内组成部分的细分情况，一举多得

# In[49]:


fig = px.histogram(data_frame = df,x = 'Mode_of_Shipment',color='Reached.on.Time_Y.N',title = "mode of shipment vs Reached on Time or not")
fig.update_layout(bargap=0.2)
fig.show()


# 无论采用何种装运方式，几乎60%的货物都能按时到达

# In[60]:


import matplotlib.pyplot as plt
import math
import numpy as np
import pandas as pd
# from plotnine.themes.seaborn_rcmod import mpl
import numpy as np
from matplotlib import pyplot as plt
from matplotlib import cm,colors


# In[52]:


pd.set_option('display.max_rows', 500)

pd.set_option('display.max_columns', 500)

pd.set_option('display.width', 1000)
x = df.drop(['Warehouse_block','Mode_of_Shipment','Product_importance','Gender'],axis = 1)
for i in x.columns:
    sns.violinplot(x = i, data = x,color = 'yellowgreen')   
    plt.xlabel(i)
    plt.show()


# 小提琴图 小提琴图类似于箱线图，不同之处在于它们还显示了数据在不同值下的概率密度。这些图包括数据中位数的标记和指示四分位距的框，如标准箱线图所示。叠加在此箱线图上的是核密度估计。与箱线图一样，小提琴图用于表示不同“类别”之间的变量分布（或样本分布）的比较。

# In[52]:


plt.figure(figsize=(20,8)) 
sns.heatmap(df.corr(),annot=True,vmin=-1,vmax=1,center=0,linewidths=3,linecolor='darkgreen')


# 由图中可以看出各个变量间的相关性关系；热力图可以更加直观的比较出各个变量间的相关性关系，可以看数据表里多个特征两两的相似度

网盘分享的文件：数据可视化.html
链接：https://pan.baidu.com/s/1BOTi4iwprfngd6sZjfEPYw
提取码：832V

Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
python 函数—文档、类型注释和内省想知道哇 python python 开发语言
Python文档、类型注释和内省目录引言函数文档docstring的使用help()函数类型注释基本类型注释复杂类型注释内省技术基本内省方法inspect模块的高级内省综合示例建议引言Python提供了丰富的文档和内省机制，使开发者能够编写自解释的代码并在运行时检查对象属性。本教程详细介绍了函数文档、类型注释和内省技术。函数文档docstring的使用Python使用三引号字符串（'''或"""）
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
python异步--asyncio HWQlet python python异步编程
在python2.x和python3.x早期版本的时候，协程的主流实现方法是gevent，这个我之前讲过asyncio在python3.4后内置在python中了，在后面还有async/await，更后面有aiohttp，flask实现就有参照aiohttpasync和await分别又来替换早期协程的asyncio.coroutine和yieldfrom。从此以后，协程就是python中一个新的语
Python异步编程 - asyncio库孤寒者 Python全栈系列教程 python 异步编程 asyncio yield 协程
目录：每篇前言：异步IOPython中的异步编程实现方式：协程Python传统协程示例：实现生产者-消费者模型消费者：生产者：运行流程：整体流程：传统协程——>现代协程：asyncio库async/await每篇前言：作者介绍：【孤寒者】—CSDN全栈领域优质创作者、HDZ核心组成员、华为云享专家Python全栈领域博主、CSDN原力计划作者本文已收录于爬虫必备前端技术栈专栏：《爬虫必备前端技术栈
python输出星号等腰三角形_python打印直角三角形与等腰三角形实例代码 weixin_39644139 python输出星号等腰三角形
python打印直角三角形与等腰三角形实例代码前言本文通过示例给大家详细介绍了关于python打印三角形的相关，分享出来供大家参考学习，下面话不多说了，来一起看看详细的介绍吧1、直角三角形#i控制行数j控制*的个数foriinrange(5):i+=1forjinrange(i):print('*',end='')#end=‘'输出空格print()/2、等腰三角形row=int(input('p
python绘制等边三角形的代码_Python打印等边三角形 weixin_39621178
示例1:#!/usr/bin/python#-*-coding:UTF-8-*-#根据输入打印rows=int(raw_input('pleaseinputnumber:'))#等边三角形foriinrange(0,rows+1):forjinrange(0,rows-i):print"",j+=1forkinrange(0,2*i-1):ifk==0ork==2*i-2ori==rows:ifi
Python写倒三角森之林 python
4.(程序题)编程显示如下所示的三角形图案。要求程序运行时，输入一个正整数，显示该整数行高度的三角形图案。#############h=int(input("请输入高度："))foriinrange(h):forjinrange(i,h):print("#",end="")forrinrange(0,i):print("",end="")print("")
python+flask计算机毕业设计基于Android平台的景区移动端旅游软件系统（程序+开题+论文） Node.js彤彤程序 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景随着移动互联网技术的飞速发展，智能手机已成为人们日常生活中不可或缺的一部分，特别是在旅游领域，移动端应用以其便捷性、实时性和个性化服务的特点，极大地改变了人们的旅游体验方式。当前，旅游市场日益繁荣，游客对于旅游信息获取、行程规划、景点导航、票务预订及个性化服务的需
ALO蚁狮优化算法：从背景到实战的全面解析 der丸子吱吱吱智能优化算法 ALO算法
目录引言背景2.1蚁狮优化算法的起源2.2自然启发式算法的背景2.3ALO的发展与应用原理3.1蚁狮的生物行为3.2ALO的数学建模3.3算法流程与关键步骤实战应用4.1函数优化问题4.2工程优化案例4.3组合优化与约束优化代码实现与结果分析5.1Python代码实现5.2实验设计与结果分析5.3性能评估与优化建议学习资源6.1工具推荐6.2网站与文献资源6.3ALO与AI结合的方法结论1.引言在
全面掌握Python：从安装到基础再到进阶的系统学习之路（附代码，建议新手收藏） der丸子吱吱吱 python 学习开发语言新手入门代码
Python，作为一种现代化的高级编程语言，因其简洁易懂的语法和强大的功能，成为了数据科学、人工智能、Web开发等多个领域的首选语言。在这篇文章中，我们将从大学课本的结构来详细介绍Python，帮助大家从零基础开始，逐步深入掌握Python的各个方面。目录第一章：Python简介与安装1.1Python语言概述1.2安装Python1.3Python的开发环境1.4第一个Python程序第二章：基
Centos7软件包管理(rpm、yum) Bulut0907 Linux centos 软件包管理 rpm yum yum源修改
目录1.rpm2.yum2.1修改yum源1.rpmRPM(RedHatPackageManager)，redhat系列操作系统里面的打包安装工具查询命令：查询安装的所有rpm软件包：rpm-qa查询指定rpm软件包，并显示详细信息：rpm-qipython3卸载命令：卸载软件包，不管是否有其它软件包依赖该软件包：rpm-e--nodeps软件包名称安装命令：安装rpm包，并显示详细信息和进度条(
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
TK矩阵系统：高效管理与智能化操作平台 m0_74891046 矩阵
随着TikTok等社交媒体平台的快速发展，短视频创作和内容运营逐渐成为互联网行业的重要组成部分。为了帮助内容创作者、品牌运营商以及数据分析人员更高效地管理多个TikTok账号并优化运营策略，TK矩阵系统提供了一种全新的解决方案，结合了先进的软件技术与硬件设施，旨在简化操作流程，提高工作效率。TK矩阵系统概述TK矩阵系统是一款集成软件与硬件的综合平台，专为TikTok内容管理和数据采集设计。系统使用
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
python中Flask模块的使用 weixin_30315905 python json
1.简介在服务器上运行Flask接口，就能使用requests模块获取该接口的值。先运行接口文件，再运行requests文件，即可获取值。2.示例2.1一个简单的flask接口1importjson2fromflaskimportFlask,request34#python类型5data={6'name':'John',7'age':18,8'location':'nanjing'910}1112
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
python中的静态方法绛洞花主敏明 python
问题：pycharm中建立新的方法，出现如下的警告：在python中建立类一般使用如下的方法：classDog(object):defrun(self):print("running")run方法是类中的普通方法声明和创建静态方法，在方法上加上staticmethod注明一下classDog(object):@staticmethoddefrun(self):print("running")如下的
一文弄懂Python 变量初始化与内存管理宇寒风暖 python编程 python 开发语言笔记学习
在Python中，变量的初始化并不一定会开辟新的内存空间。Python的内存管理机制非常灵活，它会根据变量的值、类型以及Python的内部优化策略来决定是否复用已有的内存空间。1.变量初始化的基本概念在Python中，变量是对象的引用。当你初始化一个变量时，Python会执行以下操作：创建一个对象（如果该对象不存在）。将变量名绑定到该对象。例如：a=10b="hello"a是一个整数对象的引用。b
python静态方法_Python静态方法 cunchi4221 python java 深度学习设计模式 javascript ViewUI
python静态方法Python静态方法(Pythonstaticmethod)Inthisquickpost,wewilllearnhowtocreateanduseaPythonstaticmethod.Wewillalsohavealookatwhatadvantagesanddisadvantagesstaticmethodsofferascomparedtotheinstancemeth
python中的类方法，静态方法，对象方法 a174817529
原文地址：http://blog.chinaunix.net/uid-26602509-id-3087296.htmlclassA:count=100def__init__(self,instancedata):self.instancedata=instancedata@staticmethod#静态方法不能访问类参数和实例参数defsm():print"sm"@classmethod#类方法不
Python 静态方法和类方法 a540366413 Python python
静态方法我们知道在其他语言中静态方法一般使用static修饰，静态方法的主要特点是不需要new出对象，直接通过类名就可以访问，也可以通过对象访问。需要使用staticmethod装饰器装饰方法举例：classA:@staticmethoddefstaticfunc():print("A")A.staticfunc()#A类方法类方法和静态方法类似，也可以直接通过类名访问，不过要使用classmet
Python静态方法 Frank_Yee python
在Python中，静态方法是一种不会自动接收类（cls）或实例（self）作为第一个参数的方法。它可以通过类直接调用，而不需要类的实例。静态方法通常用于实现与当前类的对象状态无关的功能，或者提供一些通用的工具函数。一、使用场景1.工具函数：当方法不需要访问对象属性或类属性时，可以将其定义为静态方法。2.常量类：有时候，你可能需要一个类仅仅作为一个容器，用来存储常量。3.工厂方法：在某些情况下，你可
拼多多根据ID取商品详情原数据API接口的开发、运用与收益前端后端运维数据挖掘api
拼多多作为中国电商市场的重要参与者，通过开放平台提供了丰富的API接口，其中根据ID取商品详情原数据的API接口尤为重要。该接口允许开发者通过编程方式获取商品的详细信息，为电商数据分析、竞品分析、价格监测、商品推荐等多个领域带来了丰富的应用场景和显著的收益。本文将深入解析拼多多根据ID取商品详情原数据API接口的开发、运用与收益，并提供相关的代码示例。一、拼多多商品详情API接口的开发拼多多开放平
day11 学习笔记豆豆学习笔记 python
文章目录前言一、类方法二、静态方法三、构造方法四、魔术方法前言通过今天的学习，我掌握了更多Python中有关面向对象编程思想中方法的概念与操作，包括类方法，静态方法，构造方法，魔术方法一、类方法类方法是属于类的行为，一般使用类而非对象进行调用类方法需要使用@classmethod装饰器定义类方法至少有一个形参用于绑定类，约定为cls类和该类的实例都可以调用类方法，但一般不用实例进行调用类方法不能访
Python 正则表达式小结1 大收藏家 Python 正则表达式 python
[声明]：本文参考了白夜黑雨老师的网页讲解。如有侵权，请与我联系！！！Python正则表达式小结11.正则表达式验证2.特殊元字符及含义3匹配某种字符类型4.正则表达式举例大收藏家说1.正则表达式验证提供两个网站用于正则表达式的验证，可以敲入文本与正则表达式。通过该网站，验证正则表达式的正确性。非常好用！英文网站中文网站2.特殊元字符及含义元字符含义.表示要匹配除了换行符之外的任何单个字符*星号-
python离线语音转文本_使用Python将语音转换为文本的方法 weixin_39760619 python离线语音转文本
使用Python将语音转换为文本的方法,语音,转换为,文本,您的,麦克风使用Python将语音转换为文本的方法易采站长站，站长之家为您整理了使用Python将语音转换为文本的方法的相关内容。语音识别是计算机软件识别口语中的单词和短语，并将其转换为可读文本的能力。那么如何在Python中将语音转换为文本？如何使用SpeechRecognition库在Python中将语音转换为文本？我们不需要从头开始
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
8、Python 字符串处理与正则表达式实战指南 wolf犭良 python python 正则表达式
Python字符串处理与正则表达式实战指南文章概述本文深入探讨Python字符串处理核心方法与正则表达式实战技巧，涵盖字符串编码转换、分割替换、正则表达式语法精髓，并通过日志解析、数据清洗等真实场景案例展示高阶应用。最后提供10道阶梯式练习题（附完整答案代码），助你从基础到进阶全面掌握文本处理技能。一、字符串处理核心三剑客1.1编码转换（encode/decode）text="中文文本"utf8_
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

python代码实现数据可视化

数据可视化

代码

Data Overview

Data types

Information about data

Checking null Values

Ware_house block

gender

Mode of shipment

Product importance

Customer_care calls

Customer ratings

Prior_Purchases

Reached On time delivery

Cost of the product

Mode of shipment belongs to Various ware_house blocks

Mode_of_shipment related to their product_importance

which type of shipment can carry more weight

How many items are delivered on time based on product_importance

At what range of product_weight reaches delivery on time?

Whether rating depends upon the cost_of_the_product

你可能感兴趣的:(python,开发语言,数据分析)