卓小曙

某酒店预定需求分析

分析流程

了解数据信息

分析问题作出假设

数据清洗-缺失值/异常值处理

探索性分析-结合可视化

做出结论

1. 了解数据信息

使用pandas_profiling中的profilereport能够得到关于数据的概览；

import pandas_profiling

file_path = "F:/jupyter/kaggle/数据集/1、Hotel booking demand酒店预订需求\hotel_booking_demand.csv"
hb_df = pd.read_csv(file_path)

# hb_df.profile_report()
pandas_profiling.ProfileReport(hb_df)

简单了解各字段分布后，我打算从以下三个方面分析：

分析方向
酒店运营情况——取消数、入住率、人均每晚房间价格、不同月份人均每晚价格
旅客情况——来自国家、餐食选择情况、居住时长、提前预定时长
预定渠道情况——不同市场细分下的价格

2. 数据清洗

2.1 缺失值

hb_df.isnull().sum()[hb_df.isnull().sum()!=0]

确定含缺失值的字段

输出：

children         4
country        488
agent        16340
company     112593

处理：

处理方法
假设agent中缺失值代表未指定任何机构，即nan=0
country则直接使用其字段内众数填充
childred使用其字段内众数填充
company因缺失数值过大，且其信息较杂（单个值分布太多），所以直接删除

代码如下：

hb_new = hb_df.copy(deep=True)
hb_new.drop("company", axis=1, inplace=True)

hb_new["agent"].fillna(0, inplace=True)
hb_new["children"].fillna(hb_new["children"].mode()[0], inplace=True)
hb_new["country"].fillna(hb_new["country"].mode()[0], inplace=True)

2.2 异常值

此数据集中异常值为那些总人数（adults+children+babies)为0的记录，同时，因为先前已指名“meal”中“SC”和“Undefined”为同一类别，因此也许处理一下。

代码如下：

hb_new["children"] = hb_new["children"].astype(int)
hb_new["agent"] = hb_new["agent"].astype(int)

hb_new["meal"].replace("Undefined", "SC", inplace=True)
# 处理异常值
# 将 变量 adults + children + babies == 0 的数据删除
zero_guests = list(hb_new["adults"] +
                  hb_new["children"] +
                  hb_new["babies"] == 0)
# hb_new.info()
hb_new.drop(hb_new.index[zero_guests], inplace=True)

此时数据基本已经没有问题，可以开始结合可视化的探索性分析了。

3. 探索性分析（+可视化）

3.1 酒店运营方面

3.1.1 取消数、入住率

plt.rcParams["font.sans-serif"] = ["SimHei"]
plt.rcParams["font.serif"] = ["SimHei"]
# 从预定是否取消考虑
rh_iscancel_count = hb_new[hb_new["hotel"]=="Resort Hotel"].groupby(["is_canceled"])["is_canceled"].count()
ch_iscancel_count = hb_new[hb_new["hotel"]=="City Hotel"].groupby(["is_canceled"])["is_canceled"].count()

rh_cancel_data = pd.DataFrame({"hotel": "度假酒店",
                              "is_canceled": rh_iscancel_count.index,
                              "count": rh_iscancel_count.values})

ch_cancel_data = pd.DataFrame({"hotel": "城市酒店",
                              "is_canceled": ch_iscancel_count.index,
                              "count": ch_iscancel_count.values})
iscancel_data = pd.concat([rh_cancel_data, ch_cancel_data], ignore_index=True)

plt.figure(figsize=(12, 8))
w, t, autotexts = plt.pie(hb_new["hotel"].value_counts(), autopct="%.2f%%",textprops={"fontsize":18})
plt.title("酒店总预定数分布", fontsize=16)
plt.legend(w, (iscancel_data.loc[iscancel_data.is_canceled==1, "hotel"].value_counts().index)[::-1], loc="upper right",
          fontsize=14)
# plt.savefig("F:/文章/酒店总预定数分布.png")
plt.show();

此为获得图形：

plt.figure(figsize=(12, 8))

cmap = plt.get_cmap("tab20c")
outer_colors = cmap(np.arange(2)*4)
inner_colors = cmap(np.array([1, 2, 5, 6]))

w , t, at = plt.pie(hb_new["is_canceled"].value_counts(), autopct="%.2f%%",textprops={"fontsize":18},
                   radius=0.7, wedgeprops=dict(width=0.3), pctdistance=0.75, colors=outer_colors)
plt.legend(w, ["未取消预定", "取消预定"], loc="upper right", bbox_to_anchor=(0, 0, 0.2, 1), fontsize=12)


val_array = np.array((iscancel_data.loc[(iscancel_data.hotel=="城市酒店")&(iscancel_data.is_canceled==0), "count"].values,
       iscancel_data.loc[(iscancel_data.hotel=="度假酒店")&(iscancel_data.is_canceled==0), "count"].values,
       iscancel_data.loc[(iscancel_data.hotel=="城市酒店")&(iscancel_data.is_canceled==1), "count"].values,
       iscancel_data.loc[(iscancel_data.hotel=="度假酒店")&(iscancel_data.is_canceled==1), "count"].values))

w2, t2, at2 = plt.pie(val_array, autopct="%.2f%%",textprops={"fontsize":16}, radius=1,
       wedgeprops=dict(width=0.3), pctdistance=0.85, colors=inner_colors)
plt.title("不同酒店预定情况", fontsize=16)

bbox_props = dict(boxstyle="square,pad=0.3", fc="w", ec="k", lw=0.72)
kw = dict(arrowprops=dict(arrowstyle="-", color="k"), bbox=bbox_props, zorder=3, va="center")
for i, p in enumerate(w2):
#     print(i, p, sep="---")
    text = ["城市酒店", "度假酒店", "城市酒店", "度假酒店"]
    ang = (p.theta2 - p.theta1) / 2. + p.theta1
    y = np.sin(np.deg2rad(ang))
    x = np.cos(np.deg2rad(ang))
    horizontalalignment = {-1: "right", 1: "left"}[int(np.sign(x))]
    connectionstyle = "angle, angleA=0, angleB={}".format(ang)
    kw["arrowprops"].update({"connectionstyle": connectionstyle})
    plt.annotate(text[i], xy=(x, y), xytext=(1.15*np.sign(x), 1.2*y),
                horizontalalignment=horizontalalignment, **kw, fontsize=18)

可以看到，城市酒店的预定数要大于度假酒店，但城市酒店的取消率也相对较高。

3.1.2 酒店人均价格

接下来可以从人均价格入手，看看两家酒店的运营情况。

因为babies年龄过小，所以人均价格中未将babies带入计算。
$\frac{adr}{adults+children}$
此时来查看不同月份下的平均酒店价格，代码如下：

# 从月份上看人均平均每晚价格

room_price_monthly = full_data_guests[["hotel", "arrival_date_month", "adr_pp"]].sort_values("arrival_date_month")

ordered_months = ["January", "February", "March", "April", "May", "June", "July", "August",
                 "September", "October", "November", "December"]
month_che = ["一月", "二月", "三月", "四月", "五月", "六月", "七月", "八月", "九月", "十月", "十一月", "十二月", ]

for en, che in zip(ordered_months, month_che):
    room_price_monthly["arrival_date_month"].replace(en, che, inplace=True)
room_price_monthly["arrival_date_month"] = pd.Categorical(room_price_monthly["arrival_date_month"],
                                                         categories=month_che, ordered=True)
room_price_monthly["hotel"].replace("City Hotel", "城市酒店", inplace=True)
room_price_monthly["hotel"].replace("Resort Hotel", "度假酒店", inplace=True)
room_price_monthly.head(15)

plt.figure(figsize=(12, 8))
sns.lineplot(x="arrival_date_month", y="adr_pp", hue="hotel", data=room_price_monthly,
            hue_order=["城市酒店", "度假酒店"], ci="sd", size="hotel", sizes=(2.5, 2.5))
plt.title("不同月份人均居住价格/晚", fontsize=16)
plt.xlabel("月份", fontsize=16)
plt.ylabel("人均居住价格/晚", fontsize=16)
# plt.savefig("F:/文章/不同月份人均居住价格每晚")

输出图形：

同时，我认为结合15-17年内平均人流量（即未取消预定下的不同月份的预定数），会有一个更加清晰的认识：

注意：因为求的是均值，所以最后绘图前需要把不同月份的总预定数除以此月份的计数（15-17年这个月份出现过几次）。

# 查看月度人流量
rh_bookings_monthly = full_data_guests[full_data_guests.hotel=="Resort Hotel"].groupby("arrival_date_month")["hotel"].count()
ch_bookings_monthly = full_data_guests[full_data_guests.hotel=="City Hotel"].groupby("arrival_date_month")["hotel"].count()

rh_bookings_data = pd.DataFrame({"arrival_date_month": list(rh_bookings_monthly.index),
                                "hotel": "度假酒店",
                                "guests": list(rh_bookings_monthly.values)})
ch_bookings_data = pd.DataFrame({"arrival_date_month": list(ch_bookings_monthly.index),
                                "hotel": "城市酒店",
                                "guests": list(ch_bookings_monthly.values)})
full_booking_monthly_data = pd.concat([rh_bookings_data, ch_bookings_data], ignore_index=True)

ordered_months = ["January", "February", "March", "April", "May", "June", "July", "August",
                 "September", "October", "November", "December"]
month_che = ["一月", "二月", "三月", "四月", "五月", "六月", "七月", "八月", "九月", "十月", "十一月", "十二月"]

for en, che in zip(ordered_months, month_che):
    full_booking_monthly_data["arrival_date_month"].replace(en, che, inplace=True)

full_booking_monthly_data["arrival_date_month"] = pd.Categorical(full_booking_monthly_data["arrival_date_month"],
                                                      categories=month_che, ordered=True)

full_booking_monthly_data.loc[(full_booking_monthly_data["arrival_date_month"]=="七月")|\
                             (full_booking_monthly_data["arrival_date_month"]=="八月"), "guests"] /= 3
full_booking_monthly_data.loc[~((full_booking_monthly_data["arrival_date_month"]=="七月")|\
                             (full_booking_monthly_data["arrival_date_month"]=="八月")), "guests"] /= 2
plt.figure(figsize=(12, 8))
sns.lineplot(x="arrival_date_month",
            y="guests",
            hue="hotel", hue_order=["城市酒店", "度假酒店"],
            data=full_booking_monthly_data, size="hotel", sizes=(2.5, 2.5))
plt.title("不同月份平均旅客数", fontsize=16)
plt.xlabel("月份", fontsize=16)
plt.ylabel("旅客数", fontsize=16)
# plt.savefig("F:/文章/不同月份平均旅客数")

得到图形：

结合上述两幅图可以了解到：

在春秋两季城市酒店价格虽然高，但其入住人数一点也没降低，反而处于旺季；

而度假酒店在6-9月份游客数本身就偏低，可这个时间段内的价格却在持续上升，远高于其他月份；

不论是城市酒店还是度假酒店，冬季的生意都不是特别好。

3.2 游客简易画像

3.2.1 游客分布

可以简单了解一下选择这两家酒店入住的旅客都来自于哪些国家。

这次使用了plotly中的一个map图形，有一定交互性，便于查看。

map = px.choropleth(country_data, locations="country", color="总游客数", hover_name="country",
                          color_continuous_scale=px.colors.sequential.Plasma,
                         title="游客分布")
map.show()

可以明显看到游客主要还是集中在欧洲地区。

3.2.2 餐食选择

现在我们可以了解以下对餐食的选择是否会影响游客取消预定这一行为。

meal_data = hb_new[["hotel", "is_canceled", "meal"]]
# meal_data

plt.figure(figsize=(12, 8))
plt.subplot(121)
plt.pie(meal_data.loc[meal_data["is_canceled"]==0, "meal"].value_counts(), 
        labels=meal_data.loc[meal_data["is_canceled"]==0, "meal"].value_counts().index, 
       autopct="%.2f%%")
plt.title("未取消预订旅客餐食选择", fontsize=16)
plt.legend(loc="upper right")

plt.subplot(122)
plt.pie(meal_data.loc[meal_data["is_canceled"]==1, "meal"].value_counts(), 
        labels=meal_data.loc[meal_data["is_canceled"]==1, "meal"].value_counts().index, 
       autopct="%.2f%%")
plt.title("取消预订旅客餐食选择", fontsize=16)
plt.legend(loc="upper right")

很明显，取消预订旅客和未取消预订旅客有基本相同的餐食选择。

我们不能因为一位游客bed&breakfast选择的是就说他一定会取消预定，我们赶紧不要管他；或者说他一定不会取消预订，这位客人很重要。

3.2.3 居住时长

那么在不同酒店居住的旅客通常会选择住几天呢？我们可以使用柱形图来看一下其时长的不同分布；

首先计算出总时长：总时长=周末停留夜晚数+工作日停留夜晚数

full_data_guests["total_nights"] = full_data_guests["stays_in_weekend_nights"] + full_data_guests["stays_in_week_nights"]

因为居住时长独立值过多，所以我新建一个变量来将其变为分类型数据：

# 新建字段：total_nights_bin——居住时长区间
full_data_guests["total_nights_bin"] = "住1晚"
full_data_guests.loc[(full_data_guests["total_nights"]>1)&(full_data_guests["total_nights"]<=5), "total_nights_bin"] = "2-5晚"
full_data_guests.loc[(full_data_guests["total_nights"]>5)&(full_data_guests["total_nights"]<=10), "total_nights_bin"] = "6-10晚"
full_data_guests.loc[(full_data_guests["total_nights"]>10), "total_nights_bin"] = "11晚以上"

此时，再来绘图：

ch_nights_count = full_data_guests["total_nights_bin"][full_data_guests.hotel=="City Hotel"].value_counts()
rh_nights_count = full_data_guests["total_nights_bin"][full_data_guests.hotel=="Resort Hotel"].value_counts()

ch_nights_index = full_data_guests["total_nights_bin"][full_data_guests.hotel=="City Hotel"].value_counts().index
rh_nights_index = full_data_guests["total_nights_bin"][full_data_guests.hotel=="Resort Hotel"].value_counts().index

ch_nights_data = pd.DataFrame({"hotel": "城市酒店",
                               "nights": ch_nights_index,
                              "guests": ch_nights_count})
rh_nights_data = pd.DataFrame({"hotel": "度假酒店",
                               "nights": rh_nights_index,
                              "guests": rh_nights_count})
# 绘图数据
nights_data = pd.concat([ch_nights_data, rh_nights_data], ignore_index=True)
order = ["住1晚", "2-5晚", "6-10晚", "11晚以上"]
nights_data["nights"] = pd.Categorical(nights_data["nights"], categories=order, ordered=True)

plt.figure(figsize=(12, 8))
sns.barplot(x="nights", y="guests", hue="hotel", data=nights_data)
plt.title("旅客居住时长分布", fontsize=16)
plt.xlabel("居住时长", fontsize=16)
plt.ylabel("旅客数", fontsize=16)

plt.legend()

输出：

不论哪家游客基本选择都在1-5晚，而其中度假酒店中的旅客还有另外一种选择——6-10晚。

3.2.4 提前预定时长

提前预定期对旅客是否选择取消预订也有很大影响，因为lead_time字段中的值分布多且散乱，所以使用散点图比较合适，同时还可以绘制一条回归线。

lead_cancel_data = pd.DataFrame(hb_new.groupby("lead_time")["is_canceled"].describe())
# lead_cancel_data
# 因为lead_time中值范围大且数量分布不匀，所以选取lead_time>10次的数据（<10的数据不具代表性）
lead_cancel_data_10 = lead_cancel_data[lead_cancel_data["count"]>10]

y = list(round(lead_cancel_data_10["mean"], 4) * 100)

plt.figure(figsize=(12, 8))
sns.regplot(x=list(lead_cancel_data_10.index),
           y=y)
plt.title("提前预定时长对取消的影响", fontsize=16)
plt.xlabel("提前预定时长", fontsize=16)
plt.ylabel("取消数 [%]", fontsize=16)
# plt.savefig("F:/文章/提前预定时长对取消的影响")

输出：

可以明显看到：不同的提前预定时长确定对旅客是否取消预定有一定影响；

通常，离入住日期越早约定，越不容易取消酒店房间预定。

3.3 市场细分

最后还可以查看以下不同市场细分下的预定分布情况。

segment_count = list(full_data_guests["market_segment"].value_counts())
segment_ls = list(full_data_guests["market_segment"].value_counts().index)

# 查看市场细分分布
plt.figure(figsize=(12, 8))
fig = px.pie(values=segment_count, names=segment_ls, title="市场细分预订分布（未取消预订）", template="seaborn")
fig.update_traces(rotation=90, textposition="inside", textinfo="label+percent+value")

还可以查看一下，通过不同的市场预定两家酒店的价格有何不同。

# 不同市场细分下的人均价格每晚
plt.figure(figsize=(6, 8))
# plt.subplot(121)
sns.barplot(x="market_segment", 
           y="adr_pp",
           hue="hotel",
           data=hb_new, ci="sd", errwidth=1, capsize=0.1, hue_order=["City Hotel", "Resort Hotel"])
plt.title("不同市场细分下人均每晚价格", fontsize=16)
plt.xlabel("市场细分", fontsize=16)
plt.ylabel("人均每晚价格", fontsize=16)
plt.xticks(rotation=45)
plt.legend(loc="upper left", facecolor="white", edgecolor="k", frameon=True)

可以看到，人们大多通过线上旅行社完成预定，既因为其便捷性，也因为其价格合理；

而航空公司的价格则很高，同时通过其预定的人数也最少。

4. 做出结论

从以上三个维度的分析中可以看到：

度假酒店在6-9月份预定数偏少时其价格较同年的其他月份都要高，建议可以适当降低一些；城市酒店在春秋两季的房间价格最高，可此时预定数也最多，但在7、8月份预定数急速下降，虽然此时房间价格也降下来了，明显价格的降低并没有吸引住旅客；

离入住日期越近的旅客越有可能入住，同时，在这两家酒店的周边国家的旅客也更不可能取消预定；

线上旅行社是人们与家人朋友出行的首选。

上述分析数据来自kaggle——酒店预定需求；

有更好的角度分析的，欢迎大家来讨论。
（部分图形代码参考自https://www.kaggle.com/marcuswingen/eda-of-bookings-and-ml-to-predict-cancelations）
欢迎关注微信，一起学习！

《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
python数据分析张俊红_Python数据分析实战基础 | 初识Pandas weixin_39678531 python数据分析张俊红
这是Python数据分析实战基础的第一篇内容，主要是和Pandas来个简单的邂逅。已经熟练掌握Pandas的同学，可以加快手速滑动浏览或者直接略过本文。01重要的前言这段时间和一些做数据分析的同学闲聊，我发现数据分析技能入门阶段存在一个普遍性的问题，很多凭着兴趣入坑的同学，都能够很快熟悉Python基础语法，然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中，硬着头皮啃完之后，好像
python数据分析第9天雪球滚滚滚数据分析 python 数据挖掘
python数据分析第9天电商网站用户/订单/活动数据分析项目商业模式B2B：商家对商家（企业卖家对企业买家），交易双方都是企业，最典型的案例就是阿里巴巴，汇聚了各行业的供应商，特点是订单量一般较大。B2C：商家对个人（企业卖家对个人买家），例如：唯品会，聚美优品。B2B2C：商家对商家对个人，例如：天猫、京东。C2C：个人（卖家）对个人（买家），例如：淘宝、人人车。O2O：线上（售卖）到线下（提
Python数据处理三剑客：NumPy、Pandas和xarray全面详解 AI开发学习分享 python 数据分析 python numpy pandas
在Python数据分析领域，NumPy、Pandas和xarray是最核心的三个库。本文将详细介绍它们的功能、用法和区别，并提供大量实用代码示例。一、NumPy：科学计算基础库NumPy是Python科学计算的基础包，提供了高性能的多维数组对象和各种计算工具。1.1基本数组操作importnumpyasnp#创建数组arr1=np.array([1,2,3,4])#一维数组arr2=np.arra
100个Pandas练习题：从入门到精通的实战指南陆骊咪Durwin
100个Pandas练习题：从入门到精通的实战指南100-pandas-puzzles100datapuzzlesforpandas,rangingfromshortandsimpletosupertricky(60%complete)项目地址:https://gitcode.com/gh_mirrors/10/100-pandas-puzzles前言Pandas作为Python数据分析的核心库，
Python 数据分析与可视化实践与python数据分析绘图表的实现，和实际的完整案例 Q_ytsup5681 python 数据分析开发语言 plotly matplotlib
本文链接：Python数据分析与可视化实践与python数据分析绘图表的实现，和实际的完整案例-CSDN博客学习Python数据可视化对于数据分析和数据科学领域是至关重要的，它有着许多作用，包括但不限于以下几个方面：1.数据理解与探索：可视化使得数据更加直观，通过图表和图形，可以更容易地观察数据的分布、趋势和模式。这有助于深入理解数据，识别异常值和发现潜在的关联性。2.决策支持：数据可视化为决策提
python数据分析期末测验,python数据分析基础题库 Leospanb87 python 开发语言人工智能
大家好，小编来为大家解答以下问题，python数据分析与应用选择题答案，python数据分析与应用课后题，现在让我们一起来看看吧！文章目录一、选择题二、填空题三、判断题四、代码分析题五、程序题一、选择题1.sum(range(0,101)的结果是（）A.5050B.5151C.0D.101A2.下面哪个不是python合法的标识符（）A.int32B.70XLC.selfD.__name__B3.
python数据分析与可视化蓝宗林 python 数据分析信息可视化
一、Python数据分析概述Python是一种解释型、交互式的编程语言，其设计理念强调代码的可读性和简洁性。Python的语法结构简单，支持面向对象、过程式和函数式三种编程范式，使得Python成为一种强大而灵活的编程语言。Python数据分析主要包括数据清洗、数据探索和数据可视化三个部分。数据清洗是数据分析的重要环节，主要是对数据进行预处理，包括缺失值处理、异常值处理、数据类型转换等。数据探索则
Python数据分析与可视化理论知识
Python数据分析概述Python数据分析依赖的两个对象表格对象实现统计分析数据预处理Matplotlib数据可视化总结Python数据分析概述数据分析的概述数据分析：用适当的统计分析方法将收集来的大量数据进行分析，将他们加以汇总和理解并消化，以求最大化地开发数据的功能，发挥数据的作用。为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的类别：描述性数据分析、探索性数据分析
3648766 天浊海 python pycharm sklearn
1.Python数据分析介绍及环境搭建1.1python数据分析简介【了解】1.1.1python做数据分析的优势可以独立完成数据分析的各种任务功能强大,有海量的开源包(pandas,numpy…)处理海量数据效率高开源免费1.1.2常用python数据分析开源库numpy:用于数组计算pandas:分析结构化数据的工具集series:类似一维数组的对象(一行数据或者一列数据)dataframe:
Python数据分析的基本步骤在焦虑的沙漠里种一棵树 python 数据分析开发语言
数据分析的基本步骤（基于Python）一、引言在当今数字化时代，数据已成为企业、科研机构等组织的重要资产。有效地进行数据分析可以帮助我们从海量的数据中提取有价值的信息，从而支持决策制定、优化流程、发现趋势等。Python作为一种强大的编程语言，拥有丰富的数据分析库，如Pandas、NumPy、Matplotlib等，为数据分析工作提供了极大的便利。本文将详细阐述基于Python的数据分析基本步骤，
Python数据分析从小白到高手--数据可视化分析王国平信息可视化 python 数据分析人工智能大数据数据挖掘开发语言
Python是一种功能强大的编程语言，也是一种流行的数据分析工具，其数据可视化能力也非常强大，本章我们将结合实际案例介绍Python的主要数据可视化库，包括Matplotlib、Pyecharts、Seaborn、Plotly、Altair、NetworkX等。7.1Matplotlib7.1.1Matplotlib库简介Matplotlib是Python中最流行的数据可视化库之一，基于Numpy
【无痛学Python】Pandas数据载入与预处理，看这一篇就够了！ Skrrapper Python python pandas 数据库
【Python数据分析】Pandas数据载入与预处理，看这一篇就够了！对于数据分析而言，数据大部分来源于外部数据，例如CSV文件、Excel文件以及数据库文件等等。我们要把各种格式的数据转换成Pandas可处理的Series和DataFrame数据格式，进行完数据分析与处理之后再重新存储到外部文件中，这就是Pandas的数据载入与预处理。数据载入其实对于读/写文件和存储文件来说，不同类型文件的函数
Python 数据分析：NumPy 库的使用小张在编程 python 数据分析 numpy
引言：为什么说NumPy是Python数据分析的“基石”？在Python数据分析领域，有这样一句话：“没有NumPy，就没有Pandas、Matplotlib和Scikit-learn”。作为Python科学计算的核心库，NumPy（NumericalPython）凭借高效的多维数组（ndarray）和向量化运算能力，成为了所有数据分析工具的底层支撑。无论是处理百万级别的销售数据，还是实现复杂的机
python数据分析期末_Python数据分析期末作业 xander Sun python数据分析期末
Python数据分析期末作业(50分)一、名称：国民经济核算季度数据分析可视化处理；二、需求：根据文件《国民经济核算季度数据.npz》提供的各年中每个季度的数据，完成如下操作处理：1、绘制直方图：(1)在一个画板中绘制2000年、2017年第一季度国民生产总值产业构成分布、行业构成分布直方图，其效果形式如下；(2)要求：?每个图形的标题、轴标签、刻度、图形颜色、柱形宽度与效果图中的完全一致；?在每
1、Python数据分析：数据的采集数字化与智能化 Python数据分析 python数据分析 python数据的采集
一、数据的采集数据采集是系统性工程，需平衡技术、成本与合规性。在实际操作中，建议从最小可行采集方案（MVP）起步，逐步迭代优化，同时建立数据治理规范，确保长期可持续性。1.数据采集的核心目标全面性：覆盖关键维度，避免信息缺失。准确性：确保数据真实反映现实，减少误差。时效性：数据需满足实时或近实时需求（如金融交易监控）。合规性：遵守隐私保护（如GDPR）、数据安全等法律法规。2.数据来源分类（1）第
如何进行Python数据分析？正确的“入门之路”三部曲白帽黑客麦叔 Python python 数据分析开发语言职场和发展 Python教程
前言Python是一种面向对象、直译式计算机程序设计语言，由于他简单、易学、免费开源、可移植性、可扩展性等特点，Python又被称之为胶水语言。下图为主要程序语言近年来的流行趋势，Python受欢迎程度扶摇直上。由于Python拥有非常丰富的库，使其在数据分析领域也有广泛的应用。一、为什么要用Python做数据分析？在我看来，大概有3大理由。广度：各行各业都有自己的商业场景，每一个行业都需要使用数
如何进行Python数据分析？正确的“入门之路”三部曲！_python医学数据分析入门 2401_84301948 程序员网络安全学习面试
给大家的福利零基础入门对于从来没有接触过网络安全的同学，我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。同时每个成长路线对应的板块都有配套的视频提供：因篇幅有限，仅展示部分资料网络安全面试题绿盟护网行动还有大家最喜欢的黑客技术网络安全源码合集+工具包所有资料共282G，朋友们如果有需要全套《网络安全入门+黑客进阶学习资源包》，可以扫描下方二维码
【数据分析】第四章 pandas简介（1）神秘敲码人数据分析 python pandas
4.1pandas:Python数据分析库pandas是一个专门为数据分析量身定制的开源Python库。在当今的Python数据科学界，无论是专业研究还是进行统计分析和决策，pandas都是每一位数据专业人士不可或缺的基础工具。这个强大的库由WesMcKinney于2008年开始设计和开发。到了2012年，他的同事SienChang也加入了开发团队。正是他们二人的共同努力，造就了Python社区中
一篇文章搞定Python数据分析用到的所有库花小姐的春天跟着花姐学Python python 数据分析开发语言 0基础学Python Python教程 Python基础教程数据挖掘
想做数据分析，却不知道从哪里入手？别担心，花姐今天就来告诉你，想搞定数据分析，掌握以下这些Python库就够了！准备好了吗？跟着我一起看看这些实用的库吧！1.数据处理库在数据分析的世界里，数据处理是最基础也是最重要的部分。如果你想要做一份高质量的报告，或者让数据“乖乖”地为你服务，首先必须得把数据弄清楚、整理好。今天，我们就从四个强大的数据处理库说起——pandas、numpy、dask和modi
Python编码系列—Python数据分析：NumPy与Pandas的实战应用学步_技术 Python编码 python 数据分析 numpy
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
Python, 数据分析, 电商运营, 用户行为 detayun Python python 数据分析开发语言
在电商行业日益内卷的今天，如何通过用户行为数据挖掘商业价值已成为企业制胜的关键。本文将结合Python数据分析工具链，从实战角度解读电商用户行为分析的全流程，并提供可直接复用的代码框架。一、为什么需要用户行为分析？电商用户行为数据是隐藏的"商业密码本"，通过分析可实现：精准营销：识别高价值用户群体（如"双11"前浏览未购买用户）体验优化：发现购物车弃置率高的环节（如支付流程卡点）库存优化：基于销量
Python 数据分析基础源来是这样 Java场景面试宝典 Python 数据分析 Pandas Matplotlib
Python数据分析基础在当今数据驱动的世界里，Python已经成为数据分析的首选语言之一。它不仅拥有强大的库支持，而且语法简洁易懂，使得非程序员也能快速上手。本文将介绍Python中一些常用的数据分析库，并通过一个简单的例子演示如何使用它们来处理数据。常用数据分析库Pandas：用于数据操作和分析的强大库，提供了丰富的数据结构和数据分析工具。NumPy：提供多维数组对象和一系列操作数组的函数，是
python数据分析1 13月开始的1号 python 数据分析开发语言
Pandas数据处理与可视化实战指南csv文件可下载1.数据读取与基础检查importpandasaspdimportos#方法1：原始字符串路径file_path=r'C:\Users\admin\Desktop\Video_Games_Sales.csv'ifos.path.exists(file_path):try:raw_data=pd.read_csv(file_path,encodin
python数据分析与可视化期末_python数据分析与可视化期末 weixin_39765209
简介：想在1天内快速搞定实时业务数据大屏吗？想用最短路径逆袭成为数据可视化大神吗？想在除了PRD外什么都没有的情况下，体验职场真人版绝境求生吗？概念：LADV是以上例子中，生成的可视化图表，均可以在DataV的环境下做进一步的样式调优和数据接入，最终发布为一个实时数据驱动展示的页面。1.LADV解决了什么问题？简单来说，就是大幅降低数据可视化的设计成本。让用户在制作数据可视化应用时，可以将更多的精
Python数据分析【Numpy系列】np.linspace()用法详解若北辰 numpy
np.linspace()是NumPy库中一个非常有用的函数，它用于在指定的区间内生成等间距的样本值。这个函数非常适合在数值分析、数据可视化和信号处理等领域生成数据点。函数语法numpy.linspace(start,stop,num=50,endpoint=True,retstep=False,dtype=
Python数据分析实战：物流业数据分析 AI天才研究院 AI Agent 应用开发计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
文章目录Python数据分析实战：物流业数据分析1.背景介绍1.1问题的由来1.2研究现状1.3研究意义1.4本文结构2.核心概念与联系2.1物流数据类型2.2数据分析流程2.3常用分析方法2.4Python在数据分析中的角色2.5核心概念之间的联系3.核心算法原理&具体操作步骤3.1算法原理概述3.1.1时间序列预测-ARIMA模型3.1.2聚类分析-K-means算法3.1.3分类算法-随机森
# Python在数据分析中的应用在当今快速发展的数据时代，数据分析已经成为各行各业不可或缺的一部分。而**Python**因其简洁易读的语法和强大的数据处理库，成为数据分析领域的热门选择。本文将介绍 2501_91769822 python 数据分析信息可视化
Python在数据分析中的应用在当今快速发展的数据时代，数据分析已经成为各行各业不可或缺的一部分。而Python因其简洁易读的语法和强大的数据处理库，成为数据分析领域的热门选择。本文将介绍Python在数据分析中的应用，包括库的使用、数据预处理、可视化以及分析实例。1.Python数据分析库简介Python有众多强大的库可以支持数据分析，常用的有：NumPy：用于数值计算和数组操作。Pandas：
用Python优雅的送上母亲节祝福 weixin_34174132 python
作者：xiaoyu微信公众号：Python数据科学知乎：python数据分析师今天是母亲节！作为儿女，当然要送上满满的祝福。人活着就需要感恩。但是，并不是所有的母亲都在自己身边，那么除了说一句：“妈妈，祝您节日快乐”之外，还有什么样的祝福呢？今天我要用Python来实现对母亲节节日的祝福。我在这里祝自己的母亲和关注我的朋友们还有所有人的母亲们节日快乐！最后，cmdline比心！获取代码，公众号后台
Python 通过loc/iloc修改DataFrame数据（ Pandas篇-09）侯小啾 Python数据分析宝典 python pandas 开发语言数据分析
Python通过loc/iloc修改DataFrame数据（Pandas篇-09）博主侯小啾感谢您的支持与信赖。☀️꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ꧔ꦿ ✨本博客收录于专栏Python数据分析宝典.。✨更多精彩内容敬请期待࿰
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?