今天你DEBUG了吗

使用Python对淘宝用户行为进行数据分析

淘宝用户数据分析

1 分析背景与意义
2 分析思路
3 分析内容

3.1 提出问题
3.2 理解数据
3.3 数据清洗

3.3.1 数据导入
3.3.2 缺失值分析
3.3.3 选取时间范围
3.3.4 时间格式处理

3.4 构建模型

3.4.1 用户行为转化（AARRR模型）
3.4.2 用户活跃时间
3.4.3 用户价值分析（RFM模型）
3.4.4 用户产品偏好

4 结论与建议
参考资料

1 分析背景与意义

淘宝网是中国深受欢迎的网购零售平台，拥有近5亿的注册用户数，每天有超过6000万的固定访客，同时每天的在线商品数已经超过了8亿件，平均每分钟售出4.8万件商品。
用户行为分析则是电商平台的重要事务，通过对用户行为的分析，有助于企业根据用户的行为习惯，找出网站、推广渠道等企业营销环境存在的问题，从而让企业的营销更加精准、有效，提升企业的广告收益。

2 分析思路

针对数据集中的用户、商品、商品种类、用户行为、时间等信息，使用Python对数据进行切片分类汇总等多种数据分析手段，从不同角度挖掘蕴含的价值。本次通过以下四个方向探索淘宝用户行为：

3 分析内容

3.1 提出问题

本次通过对淘宝用户行为数据分析，期望解决以下业务问题：

1）用户从浏览到最终购买整个过程的流失情况，确定夹点位置。
2）找出用户最活跃的日期以及活跃时间段，了解用户的行为时间模式。
3）找出最具价值的核心付费用户群。
4）找出最受用户青睐的产品。

3.2 理解数据

数据集：UserBehavior.csv。本次报告随机采集了在2017年11月25日至2017年12月3日之间，淘宝用户的行为，其中行为包括浏览、加购物车、收藏、购买等。数据集主要包含：用户数量约3万（37,376），商品数量约9万（930,607），商品类目数量7106以及总的淘宝用户行为记录数量为3百万（3,835,329）。
数据来源：https://tianchi.aliyun.com/dataset/dataDetail?dataId=649&userId=1
字段含义：

列名称	说明
User ID	整数类型，序列化后的用户ID
Item ID	整数类型，序列化后的商品ID
Category ID	整数类型，序列化后的商品所属类目ID
Behavior type	字符串，枚举类型，包括(‘pv’, ‘buy’, ‘cart’, ‘fav’)
Timestamp	行为发生的时间戳

用户行为类型共有四种，它们分别是：

行为类型	说明
pv	商品详情页pv，等价于点击
buy	商品购买
cart	将商品加入购物车
fav	收藏商品

3.3 数据清洗

3.3.1 数据导入

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

path = './data/UserBehavior.csv'
data_user = pd.read_csv(path)
cols = ['UserID', 'ItemID', 'CatogoryID', 'BehaviorType', 'TimeStamps']
data_user.columns = cols
data_user.head()

3.3.2 缺失值分析

data_user.apply(lambda x: sum(x.isnull()))

仅一条数据含有缺失值，删除即可。

3.3.3 选取时间范围

import time

def get_unixtime(timeStr):
    formatStr = "%Y-%m-%d %H:%M:%S"
    tmObject = time.strptime(timeStr, formatStr)
    tmStamp = time.mktime(tmObject)
        
    return int(tmStamp)
    
# 数据集描述的时间范围
startTime = get_unixtime("2017-11-25 00:00:00")
endTime = get_unixtime("2017-12-3 23:59:59")

# 筛选出符合时间范围的数据
data_user['TimeStamps'] = data_user['TimeStamps'].astype('int64')
data_user = data_user.loc[(data_user['TimeStamps'] >= startTime) & (data_user['TimeStamps'] <= endTime)]

3.3.4 时间格式处理

#时间处理
data_user['time'] = data_user['TimeStamps'].apply(lambda t: time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(t)))
data_user['date'] = data_user['time'].str[0:10]
data_user['hour'] = data_user['time'].str[11:13].astype(int)
data_user['date'] = pd.to_datetime(data_user['date'])

data_user.head()

3.4 构建模型

3.4.1 用户行为转化（AARRR模型）

跳失率计算：
跳失率 = 只浏览一个页面就离开的访问次数 / 该页面的全部访问次数
结果显示只有点击行为没有收藏、加购物车以及购买行为的总用户数是2196，除以总用户数37376得到跳失率为5.88%。说明用户对商品详情页的关注很大，商品详情页的商品描述，细节等吸引点不足，是流失用户的的重要原因之一。具体造成用户在浏览商品详情页后流失的原因，要根据实际情况分析，建议可以采用在线问卷调查的方式get用户的痛点，针对性调整。

日ARPPU计算：
ARPPU全称为Average Revenue Per Paying User，也就是每付费用户平均收益。这个指标考核的是某时间段内平均每个付费用户为应用创造的收入。在用户数量上，ARPPU只考虑某一时间段内的付费用户，而非该时间段内所有的活跃用户。
对于同一时间的同一应用而言，ARPPU的数值会明显高于ARPU。
ARPPU能够反映付费用户为你的应用带来了多少收益，显示出一个忠诚付费用户实际上愿意支付的金额。同时，这个指标也可以显示用户对一些付费项目的反应。

data_user_buy1 = data_user[data_user.BehaviorType == 'buy'].groupby(['date','UserID']).count()['BehaviorType'].reset_index().rename(columns={'BehaviorType':'total'})

data_user_buy2 = data_user_buy1.groupby('date').sum()['total'] / data_user_buy1.groupby('date').count()['total']

plt.figure(figsize=(10,7))
data_user_buy2.plot()
plt.ylabel('日ARPPU')
plt.title('ARPPU变化情况')
plt.savefig('ARPPU变化情况')

由图像可以看出，在12月2日及12月3日的日ARPPU为最低位，分析可能是由于高的PV值但实际消费的用户数并不多。

日ARPU计算：
ARPU的全称是Average Revenue Per User，也就是每用户平均收入。这个指标计算的是某时间段内平均每个活跃用户为应用创造的收入。
ARPU的计算中，所有的用户都被纳入了计算范围——无论是付费用户或非付费用户。ARPU是评估应用变现有效性的指标：ARPU越高，就代表用户在这段时间内为应用带来的变现收入就越多。
ARPU可用于评估应用中的变动是否能有效提升变现收益：如果ARPU提升，证明应用的变动有利于提升应用变现收益；如果ARPU不升反降，应用开发者可能就需要确认一下变动的有效性了。

data_user['operation'] = 1
data_user_buy2 = data_user.groupby(['date', 'UserID', 'BehaviorType'])['operation'].count().reset_index().rename(columns = {'operation':'total'})

#每天消费总次数/每天总活跃人数
data_user_buy2.groupby('date').apply(lambda x: x[x['BehaviorType'] == 'buy'].total.sum()/len(x.UserID.unique()) ).plot()
plt.ylabel('日ARPU')
plt.title('ARPU变化情况')
plt.savefig('ARPU变化情况')

#（付费率）每天消费人数/每天总活跃人数
data_user_buy2.groupby('date').apply(lambda x: x[x['BehaviorType'] == 'buy'].total.count()/len(x.UserID.unique()) ).plot()
plt.ylabel('付费率')
plt.title('付费率变化情况')
plt.savefig('付费率变化情况')

日ARPU图像、付费率图像相似，均在12月2日和12月3日处于低位，而在工作日处于较高的水平。

用户行为情况

# 多子图绘制 如：将上面用到的图形一起绘制
# 导入subplots（类似matplotlib）
from plotly.subplots import make_subplots

labels = df_userbehavior['behavior']

# Create subplots: use 'domain' type for Pie subplot
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'domain'}, {'type':'domain'}]])
fig.add_trace(go.Pie(labels=labels, values=data_user_count.values, name="淘宝用户行为"),
              1, 1)
fig.add_trace(go.Pie(labels=labels, values=df_userbehavior['count'], name="淘宝独立用户行为"),
              1, 2)

# Use `hole` to create a donut-like pie chart
fig.update_traces(hole=.4, hoverinfo="label+percent+name")

fig.update_layout(
    title_text="淘宝用户行为情况 | 左：淘宝用户行为， 右：淘宝独立用户行为",
    # Add annotations in the center of the donut pies.
    annotations=[dict(text='非独立', x=0.18, y=0.5, font_size=20, showarrow=False),
                 dict(text='独立', x=0.8, y=0.5, font_size=20, showarrow=False)])
fig.show()

用户点击行为占总行为数的89.5%，收藏和加购行为加起来的行为数只占总行为数的8.47%，而对于独立用户来说，点击行为的占比明显缩小为35.2%。推测用户可能在挑选产品环节浪费了较多的时间。

from pyecharts import options as opts
from pyecharts.charts import Funnel
from pyecharts.faker import Faker

attr = ['浏览', '放入购物车', '收藏', '购买']
value = [3431904, 213634, 111140, 76707]    #这里有个bug
funnel = Funnel()
funnel.add("淘宝用户行为", [list(z) for z in zip(attr, value)])
funnel.set_global_opts(title_opts=opts.TitleOpts(title="淘宝用户行为"))
funnel.render("funnel_base.html") 
funnel.render_notebook()

项目	流失率
pv_to_cart	93.78%
cart_to_fav	47.98%
fav_to_buy	30.98%
pv_to_buy	97.76%

从点击到购买的全过程中，流失率主要集中在点击到加入购物车这一环节，流失率高达93.78%，收藏及加入购物车后购买商品的可能性增大。

用户留存率
留存用户：在某段时间开始使用产品，经过一段时间后仍然继续使用产品的用户，即为留存用户。
留存率=仍旧使用产品的用户量/最初的总用户量。
根据时间维度进行分类，留存率经常分为次日留存、3日留存、7日留存以及30日留存等。

from datetime import timedelta

#建立n日留存率计算函数
def cal_retention(data,n): #n为n日留存
    user=[]
    date=pd.Series(data.date.unique()).sort_values()[:-n] #时间截取至最后一天的前n天
    retention_rates=[]
    new_users=[]
    retention_user=[]
    for i in date:
        new_user=set(data[data.date==i].UserID.unique())-set(user) #识别新用户，本案例中设初始用户量为零
        user.extend(new_user)  #将新用户加入用户群中
        #第n天留存情况
        user_nday=data[data.date==i+timedelta(n)].UserID.unique() #第n天登录的用户情况
        a=0
        for UserID in user_nday:
            if UserID in new_user:
                a+=1
        b = len(new_user)
        retention_rate=a/b #计算该天第n日留存率
        retention_rates.append(retention_rate) #汇总n日留存数据
        new_users.append(b) #汇总n日的新用户数
        retention_user.append(a) #汇总n日留存的用户数
    data_new_user = pd.Series(new_users, index=date)
    data_retention_user = pd.Series(retention_user, index=date)
    data_retention_rate = pd.Series(retention_rates,index=date)
    data_retention = pd.concat([data_new_user,data_retention_user,data_retention_rate], axis=1)
    data_retention.columns=['new_user','retention_user','retention_rate']
    return data_retention

data_retention1=cal_retention(data_user,1)
data_retention2=cal_retention(data_user,2)
data_retention6=cal_retention(data_user,6)

用户的次日留存率及3日留存率均约为60%-70%的范围内，现有数据可以看出7日的留存率较高，推测是由于临近双十二，商家纷纷举办活动，促使留存率提高。可继续观测留存率等指标，以确定留存率的变化规律。

复购

data_rebuy[data_rebuy>=2].count()/data_rebuy.count()

复购率=54.94%

淘宝平台和用户的粘性很高，9日内的复购率达到54.94%。但有的用户购买次数高达到84次。9天里有84次的购买行为，平均一天有9次购买行为，这不符合常理，为什么他们的购买次数如此高呢？是否存在刷单现象？进一步分析验证购买次数较高的用户平时购买情况，以及账户，购物，物流等信息才能判断。这里数据有限，不深入探究其原由。

3.4.2 用户活跃时间

找出用户最活跃的日期以及活跃时间段，了解用户的行为时间模式。

按日统计流量指标

pv_daily = data_user.groupby('date').count()['UserID']
uv_daily = data_user.groupby('date')['UserID'].apply(lambda x: x.drop_duplicates().count())

pv_uv_daily = pd.concat([pv_daily,uv_daily], axis=1)
pv_uv_daily.columns=['pv','uv']
pv_uv_daily

可以发现，PV与UV的每日变化趋势大致相同：工作日维持在低值，其中周二（11-27）的访问量达到统计范围内最低值；而11月25日、11月26日和12月2日、12月3日同为周末，但后者却有更多的活跃用户，环比增长率约为32%，推测可能是平台做促销活动。检索可知正值“双十二”前夕，各类预热活动促进用户访问增长。

按小时统计流量指标

结合人们日常作息规律，0点至6点是休息时间，点击量处于低谷阶段；6点至10点，人们慢慢开始工作，点击量开始回暖；10点至18点为正常工作时间，点击量保持平稳；18点至20点，人们相继下班休息，点击量不断升高；在21点至22点期间，点击量到达高峰。

项目	数值
pv	3833385
uv	264304
pv/uv	14.50

3.4.3 用户价值分析（RFM模型）

因为本数据集没有提供M（消费金额）列，因此只能通过R（最近一次购买时间）和F（消费频率）的数据对客户价值进行打分。

RFM	业务含义	1分	2分
R	最近交易日期与2017.12.4距离天数	3~9	0~3
F	购买次数	0~2	2~84

其中，
RF=11为重要挽回客户；
RF=12为重要唤回客户；
RF=21为重要深耕客户：
RF=22为重要价值客户。

trace_basic = [go.Bar(x = rfm['rank'].value_counts().index,
                     y = rfm['rank'].value_counts().values,
                     marker = dict(color='orange'), opacity=0.50)]
layout = go.Layout(title='用户等级情况', xaxis=dict(title='用户重要度'))
figure_basic = go.Figure(data=trace_basic, layout=layout)
figure_basic

trace = [go.Pie(labels=rfm['rank'].value_counts().index,
                values = rfm['rank'].value_counts().values,
               textfont = dict(size=12,color='white'))]
layout = go.Layout(title='用户等级比例')
figure_pie = go.Figure(data=trace, layout=layout)
figure_pie

3.4.4 用户产品偏好

商品

fig = plt.figure(figsize=(16,12))
#柱形图
ax1 = fig.add_subplot(111)
ax1.bar(data_item_count.index, data_item_count.values)
for a,b in zip(data_item_count.index,data_item_count.values):
    plt.text(a, b+100,'%s'% b, ha='center', va= 'bottom',fontsize=10)


#平滑化
from scipy import interpolate

x = data_item_count.index
y = df_item_count['percentage']
tck = interpolate.splrep(x, y, s=0)
xnew = np.linspace(x.min(),x.max(),100)
ynew = interpolate.splev(xnew, tck, der=0) 

#折线图
ax2 = ax1.twinx()
ax2.plot(xnew, ynew, label="percentage", color='red')

ax1.set_ylabel('商品数目')
ax2.set_ylabel('所占百分比')
ax2.set_xlabel('购买次数')
plt.title('商品销售分布', fontsize=25)
plt.savefig('商品销售分布')
plt.show()

没有出现购买数量非常集中的商品，说明店铺盈利主要依靠长尾商品的累积效应。在电子商务行业中，相较于传统零售行业成本减少，使得后80%的商品也可以销售出去，并且实现盈利，因此将长尾部分的商品优化推荐好，能够给企业带来更大的收益。

商品种类

ax1 = df_catogory_buy[['buy', 'fav', 'cart', 'pv']].plot.bar()

ax2 = ax1.twinx()
df_catogory_buy.index = df_catogory_buy.index.astype(str)
ax2.plot(df_catogory_buy.index, df_catogory_buy[['buy/pv']])

ax1.set_ylabel('次数')
ax2.set_ylabel('转化率')
plt.title('购买次数前二十的商品种类')
plt.savefig('购买次数前二十的商品种类')

import plotly.express as px
fig = px.treemap(
    df_buy, path=['CatogoryID'], values='购买次数', title='购买次数前二十的商品种类'
)
fig.show() 

fig = px.treemap(
    df_item_buy, path=['CatogoryID','ItemID'], values='count', title='商品购买情况(销量前100)'
)
fig.show()

4 结论与建议

本报告基于AARRR模型和RFM模型，从四个维度提出关于淘宝业务问题。
A. 通过AARRR模型分析用户行为转化的各个环节

获取用户（Acquisition）
根据12月2日和12月3日活跃用户明显增长，推测在此期间店铺举办了营销活动。检索可知正值“双十二”前夕，各类预热活动促进用户访问增长。
获取用户意味着需要拓展页面流量，相对较大型的电商营销活动至少可以从以下三个方面获取流量：

充分利用站内资源
跨行合作
产品功能辅助流量增长（场次预约、SNS后置奖品分享）

激活用户（Activation）
计算跳失率为5.88%，独立访客从浏览到购买的转化率为xxx%，说明产品详情页对用户有着不错的吸引力；但从用户行为转化漏斗来看，用户行为转化夹点位置在点击-加购环节，其中用户点击行为占总行为数的89.50%，而收藏和加购行为加起来的行为数只占总行为数的8.47%，推测用户可能在挑选产品环节浪费了较多的时间，另外低购买意愿转化率还可能与刚完成的双11大促有关。

提高加购转化率的建议：

优化搜索引擎，利用用户画像优化商品匹配，个性化地推荐用户感兴趣的商品
优化商品界面加购与收藏按键布局，以便用户触达
分析双十一活动对双十二的影响，合理设置活动内容

留存用户（Retention）
用户留存其指标之于电商就是回访率。用户的次日留存率及3日留存率均约为60%-70%的范围内，现有数据可以看出7日的留存率较高，推测是由于临近双十二，商家纷纷举办活动，促使留存率提高。
活动基本都会划分为三个阶段：

预热期：预约造势，通过sns、定金裂变等玩法吸引用户关注
正式期：前面如果证实是好的激励体系，可以让活动健康持续发展
高潮期：进一步引爆高潮，使用的激励方式，成长值会员体系、签到体系、积分任务体系等

增加收入（Revenue）
在有购买行为的用户中，54.94%的用户选择重复购买。
对于用户复购情况，9天内网站有复购现象的用户数接近60%，但是总体上约30%的用户产生了80%的消费次数，复购次数多的用户偏少，可能与双11刚结束，双12未开始的特殊时段有关，建议拉长分析区间分析复购情况。
提高收入的建议：

开展营销活动，比如淘宝的达成金主的条件限制，鼓励用户复购
在客户发生首购行为后，定时通过客服/短信发放特殊优惠，以提高复购率
优惠券的和优惠策略的在制定时需考虑成本，充分使用推广资金

自传播（Refer）
通过自传播获取用户的成本很低，而且效果有可能非常好，唯一的前提是产品自身要足够好，有很好的口碑。因此平台需要建立对产品的质量监控机制，如在产品的差评率较高时需对产品进行检测。

优化产品，保证产品的质量
提高服务售前及售后质量

B. 研究用户时间模式，找到用户在不同时间周期下的活跃规律
a) 分析2017年11月25日至12月3日9天里用户每天的点击量：

发现工作日维持在低值，其中周二（11-27）的访问量达到统计范围内最低值；而11月25日、11月26日和12月2日、12月3日同为周末，但后者却有更多的活跃用户，环比增长率约为32%，推测可能是平台做促销活动。检索可知正值“双十二”前夕，各类预热活动促进用户访问增长。

b) 分析2017年11月25日至12月3日9天里用户每时段的点击量：

结合人们日常作息规律，0点至6点是休息时间，点击量处于低谷阶段；6点至10点，人们慢慢开始工作，点击量开始回暖；10点至18点为正常工作时间，点击量保持平稳；18点至20点，人们相继下班休息，点击量不断升高；在21点至22点期间，点击量到达高峰。高峰期用户最活跃，建议商家在用户该时段，经常更新产品信息，黄金展位，活动推荐商品等。

C. 通过RFM模型对用户价值分层
通过RFM模型分析得到的不同类型的用户，应该采取不同的激励方案。
对于RF=22的重要价值客户，应该提高满意度，增加留存。
对于RF=21的重要深耕客户，可通过折扣或捆绑销售等活动，提高购买频率。
对于RF=12的重要唤回客户，分析其偏好，更精准地推送商品，以防流失。
对于RF=11的重要挽回客户，可考虑发放限时优惠券，促进关注与消费。

D. 找出用户产品偏好，制定商品营销策略
用户偏好商品类别里并没有出现购买数量非常集中的商品，说明商品售卖主要依靠长尾商品的累积效应，而非爆款商品的带动，这也是双11之后用户的补充采买的特征，同时发现此时用户购买的品类以及商品的浏览量很低，用户的个人喜好特征表现明显，同时浏览量高的商品购买转化率低。
对于高浏览量商品，可以将重心转移至定价上，实行差异化定价，同时改善商品页面、详情页以及评论区的管理，以提高购买量
对于高购买率商品，建议提高曝光率，结合多平台宣传，提高浏览量
对于明星商品，建议平台给予表扬与内部公开，以保证持续的优质

参考资料

[1] http://www.zuopm.com/data/188.html
[2] https://blog.csdn.net/MsSpark/article/details/86727058
[3] https://zhuanlan.zhihu.com/p/63853715

Julia语言的学习路线樟松包罗万象 golang 开发语言后端
Julia语言学习路线指南引言在编程语言层出不穷的今天，Julia作为一门新兴的高级编程语言，以其出色的性能和易用性逐渐获得了越来越多的关注。特别是在科学计算、数据分析和机器学习等领域，Julia的表现十分出色，成为研究人员和开发者的热门选择。本文将为希望学习Julia语言的读者提供一条详细的学习路线，包括基础知识、工具、库、项目和实践经验等，帮助大家有效地掌握这门语言。一、了解Julia语言在开
架构模式之黑板模式 weixin_30518397 c/c++游戏数据库
一、定义黑板模式是一种常用的架构模式，应用中的多种不同数据处理逻辑相互影响和协同来完成数据分析处理。黑板模式允许多个消息读写者同时存在，消息的生产者和消费者完全分开。这就像一个黑板，任何一个教授（消息的生产者）都可以在其上书写消息，任何一个学生（消息的消费者）都可以从黑板上读取消息，两者在空间和时间上可以解耦，并且互不干扰。这种模式对于没有确定解决方案策略的问题是有用的。二、模式组成黑板模式由3个
使用Python爬取豆瓣用户信息：从入门到实战 Python爬虫项目 2025年爬虫实战项目 python 开发语言人工智能爬虫大数据
引言豆瓣作为一个知名的社交平台，拥有丰富的用户信息。对于数据分析师、研究人员或普通用户来说，获取豆瓣用户信息具有重要的价值。本文将详细介绍如何使用Python及其相关库来爬取豆瓣用户信息，并展示如何利用最新的技术手段来实现这一目标。1.准备工作在开始编写爬虫之前，我们需要准备一些工具和环境：Python3.x：确保你已经安装了Python3.x版本。Requests库：用于发送HTTP请求。Bea
深入 Python 网络爬虫开发：从入门到实战南玖yy python python爬虫
一、为什么需要爬虫？在数据驱动的时代，网络爬虫是获取公开数据的重要工具。它可以帮助我们：监控电商价格变化抓取学术文献构建数据分析样本自动化信息收集二、基础环境搭建1.核心库安装pipinstallrequestsbeautifulsoup4lxmlseleniumscrapy2.开发工具推荐PyCharm（专业版）VSCode+Python扩展JupyterNotebook（适合调试）三、爬虫开发
数组中最长递增子序列问题的深入研究 cloudman08 算法
目录摘要一、引言二、问题定义三、问题分析3.1暴力枚举法的困境3.2动态规划的应用3.3二分查找优化四、算法设计4.1动态规划算法4.2二分查找优化算法4.3代码实现（Python）4.4代码解释五、复杂度分析5.1动态规划算法复杂度5.2二分查找优化算法复杂度六、实际应用6.1数据分析6.2生物信息学6.3信号处理七、结论摘要在数组处理的算法领域，寻找最长递增子序列是一个经典且具有广泛应用的问题
Python 爬虫实战：国际航班数据抓取与全球航班网络分析西攻城狮北 python 爬虫开发语言
一、引言随着全球化的加速，国际航班网络已成为现代交通体系的重要组成部分。通过分析国际航班数据，我们可以深入了解全球航空枢纽、热门航线以及航班流量的变化趋势。本文将介绍如何通过爬取国际航班数据，分析全球航班网络的情况，并给出实现爬虫和数据分析的详细过程及代码。二、项目背景与目标2.1项目背景航空交通是全球经济和旅游业的核心部分，了解全球航班网络有助于掌握各大航空公司之间的竞争格局、全球机场的枢纽作用
不知道天气咋样？一起用Python爬取天气数据分析告诉你 Dragon少年 Python python 爬虫图表可视化
前言今天我们分享一个小案例，获取天气数据，进行可视化分析，带你直观了解天气情况！一、核心功能设计总体来说，我们需要先对中国天气网中的天气数据进行爬取，保存为csv文件，并将这些数据进行可视化分析展示。拆解需求，大致可以整理出我们需要分为以下几步完成：通过爬虫获取中国天气网7.20-7.21的降雨数据，包括城市，风力方向，风级，降水量，相对湿度，空气质量。对获取的天气数据进行预处理，分析河南的风力等
Python 爬虫实战：于好大夫在线抓取医生评价数据，选择优质医疗服务西攻城狮北 python 爬虫实战案例好大夫在线
目录引言一、爬虫基础预备知识1.1爬虫的基本概念1.2必备库介绍二、抓取医生评价数据2.1目标网站分析2.2发送HTTP请求2.3解析网页内容2.4保存数据三、数据分析与可视化3.1数据清洗3.2数据分析3.3数据可视化四、选择优质医疗服务4.1选择标准4.2推荐医生4.3分享推荐五、总结与展望5.1总结5.2展望引言在当今医疗信息爆炸的时代，选择一位合适的医生对于患者来说至关重要。好大夫在线是一
Python处理CSV文件的12个高效技巧宇宙大豹发 python 开发语言
今天，我们的Python之旅，目标是那片由逗号分隔的宝藏——CSV文件。别看它简单，掌握这些技巧，你的数据处理能力将直线上升，轻松驾驭千行万列的数据海洋。让我们一起，用Python的魔力，让CSV舞动起来吧！1.初次见面，你好，CSV！安装pandas，是这场冒险的起点。它，是Python数据分析的瑞士军刀。pipinstallpandas导入我们的英雄——pandas，并亲切地叫它pd。impo
DeepSeek 使用教程及部署指南：从入门到实践点我头像干啥 Ai 信息可视化 python 人工智能分类数据挖掘深度学习
目录引言第一部分：DeepSeek简介1.1什么是DeepSeek？1.2DeepSeek的核心功能1.3DeepSeek的应用场景第二部分：DeepSeek使用教程2.1注册与登录2.2创建项目2.3数据导入2.4数据分析2.5文本挖掘2.6信息检索2.7保存与分享第三部分：DeepSeek部署指南3.1本地部署3.1.1环境准备3.1.2安装DeepSeek3.1.3启动DeepSeek3.2
怎样通过企业数据资产管理推动企业数字化转型阿桂天山数据资产化理论篇
企业数据资产管理在推动企业数字化转型中发挥着关键作用，以下是其主要推动方式：1.提升数据质量数据资产管理通过对数据进行清洗、整合和标准化处理，消除数据冗余和错误，提高数据的准确性和一致性。这为企业后续的数据分析和应用奠定了坚实基础，确保企业能够基于高质量的数据做出科学决策。2.促进数据共享与协同在数字化转型过程中，企业内部不同部门之间的数据共享和协同至关重要。数据资产管理通过建立统一的数据标准和规
数字孪生对于新基建的价值浅析，算是抛砖引玉。大牛工控设计师人工智能信息可视化前端
数字孪生（DigitalTwin）作为一项融合物理世界与数字世界的关键技术，在新基建中扮演着虚实协同、智能决策、全生命周期管理的核心角色，其价值贯穿于基础设施的设计、建设、运维到优化全流程。一、核心价值：虚实映射与智能决策实时动态映射通过传感器、IoT设备实时采集物理实体（如工厂、城市、电网）的运行数据，构建高精度虚拟模型，实现**“所见即所控”**的透明化管理。模拟预测与优化利用AI和大数据分析
浅谈StarRocks数据库简介及应用微笑的曙光（StevenLi）数据库数据库
StarRocks是一款高性能的实时分析型数据库，专为复杂的SQL查询提供极高的性能，尤其适用于数据分析场景。它是一款开源的新一代极速全场景MPP（MassivelyParallelProcessing，大规模并行处理）数据库，致力于构建极速和统一的分析体验。StarRocks兼容MySQL协议，用户可以使用MySQL客户端和常用的BI（BusinessIntelligence，商业智能）工具进行
用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
解锁高性能Web应用：Gunicorn、Flask与Docker的高并发部署秘籍我是瓦力前端 gunicorn flask
引言在当今的互联网时代，高并发Web应用已成为许多企业的核心需求。无论是电商平台、社交网络还是实时数据分析系统，高并发能力直接影响到用户体验和业务成败。本文将带你深入探讨如何利用Gunicorn、Flask和Docker，实现高性能、高并发的Web应用部署。Gunicorn、Flask和Docker的基本概念Gunicorn：GreenUnicorn(简称Gunicorn)是一个PythonWSG
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
基础知识《Redis解析》 Hum8le redis 数据库缓存安全 web安全
Redis详细解析与介绍Redis（RemoteDictionaryServer）是一个开源的高性能键值对（Key-Value）数据库，支持多种数据结构（如字符串、哈希、列表、集合等），广泛应用于缓存、消息队列、实时数据分析等场景。核心特点：内存存储：数据主要存储在内存中，读写性能极高（10万+/秒QPS）。持久化支持：支持RDB（快照）和AOF（追加日志）两种持久化方式。多数据结构：支持字符串、
使用 Excel 实现绩效看板的自动化 chenchihwen 自动化运维
引言在日常工作中，团队的绩效监控和管理是确保项目顺利进行的重要环节。然而，面临着以下问题：数据分散：系统中的数据难以汇总，缺乏一个宏观的团队执行情况视图。看板缺失：系统本身可能无法提供合适的Dashboard，导致数据分析困难。手动操作繁琐：数据采集、汇总和分析过程繁琐且耗时。本文将介绍如何利用免费的软件和工具（如Python、MySQL、Excel等）实现绩效看板的自动化。通过邮件自动推送和接收
MATLAB 操作指南（结尾附实操案例） vvvae1234 信息可视化
一、MATLAB简介MATLAB（矩阵实验室）是一个高级技术计算语言和交互环境，它主要用于数值计算、数据分析、算法开发和可视化。MATLAB的核心功能是矩阵运算，它能够处理向量和矩阵为中心的数学问题，方便用户进行算法的开发和数据可视化。主要特点高效的数值计算：MATLAB内置了许多用于数学和工程计算的函数，用户可以轻松地进行数值运算。可视化功能：MATLAB提供了丰富的工具，用于生成各种类型的图形
该如何升级Tableau server呢？
在现代数据分析的世界中，Tableau作为一个强大的企业级数据可视化工具，受到众多公司喜爱。但是由于Tableau退出中国市场，如果仍在使用Tableau的企业，一定要做好TableauServer升级。随着技术的不断更新，升级TableauServer变得越来越重要，以确保您能够利用最新的功能和安全性。在这篇文章中，我们将详细探讨如何进行TableauServer升级，步骤、注意事项以及最佳实践
数据分析及人工智能框架汇总 xihuanyuye 机器学习
一、数据分析二、人工智能1、Tensorflow1、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。Tenso
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
AI 大模型应用数据中心的数据分析架构 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《AI大模型应用数据中心的数据分析架构》关键词：数据中心、AI大模型、数据分析、架构设计、应用实践摘要：本文深入探讨了AI大模型在数据中心数据分析架构中的应用，从数据中心背景、AI大模型架构与技术、数据处理与分析技术、AI大模型应用与实践等多个方面，全面解析了AI大模型如何助力数据中心实现高效数据分析和智能处理，为读者提供了系统的理论指导和实际案例分析。第一部分:数据中心背景与AI大模型概述第1章
极致出海友好，融云 IM 支持消息免打扰设置时区 im融云社交
归纳来看，业务全球化难题，其实是无数细微本地化挑战的叠加。时区差异就是应用出海的关键本地化挑战之一，需要在产品设计中充分考虑时间显示、通知推送、内容时效、用户互动、数据分析和团队协作等方面。在应用的社交模块，时区差异更是全球化产品必须考虑的核心要素。比如，若产品支持消息免打扰设置时段，就要针对不同时区进行相应的计算和实现。大多通信服务商提供的解决方案以UTC（世界标准时间）为准，需要业务根据目标市
百度官方！打造「大模型全开发周期系列课程」，AI应用开发入门课率先发布！（内含英雄帖）
在这个大模型技术日新月异的时代，AI的潜力正被无限释放，改变着我们的工作和生活方式。你是否渴望成为这场变革的参与者？你是否也想在这个大模型时代中抢占先机？那“学习AI”、“使用AI”、“入局AI”我们真的可以受益吗？学习辅助：将AI使用融入学习当中，依据当前学习情况，整理重点难点，让复习有的放矢，更高效掌握知识点。效率提升：帮助处理繁琐重复的工具，如数据分析师使用AI识别数据中的关键信息，自动整理
数据处理与图形绘制的多领域应用案例，学会了你也是高手！ A达峰绮经验分享数据处理图形绘制经典案例
一、引言在当今数字化时代，数据处理与图形绘制已成为各领域不可或缺的技术手段。从科学研究到商业分析，从工程设计到日常决策，海量的数据需要高效处理，而直观清晰的图形则能帮助人们迅速理解数据背后的信息。本教程将通过多个具体应用案例，涵盖多种编程语言，深入讲解数据处理与图形绘制的实践方法，助力学习者解决学习过程中的难题，提升相关技能。二、Python在数据处理与图形绘制中的应用（一）金融数据分析案例数据获
Python 爬虫实战：开放数据集抓取与大数据分析应用西攻城狮北 python 爬虫数据分析
引言在数据驱动的时代，开放数据集成为了各领域研究和应用的宝贵资源。通过抓取和分析开放数据集，我们可以挖掘出有价值的信息，为决策提供支持。本文将详细介绍如何使用Python爬虫技术抓取开放数据集，并进行大数据分析应用。一、项目背景与目标1.项目背景随着信息技术的飞速发展，越来越多的机构和组织开始开放其数据集，以促进创新和研究。这些开放数据集涵盖了各个领域，如气象、交通、医疗、金融等。通过抓取和分析这
Python 爬虫基础教程盛子涵666 python 爬虫开发语言
爬虫的背景与应用诞生爬虫（WebCrawling）是自动化程序，用于从互联网上获取信息。爬虫的基本任务是自动访问网站，通过抓取网页内容并提取有用数据来构建数据库、索引或者进行进一步的数据分析。爬虫通常会模拟浏览器的行为，以避免被服务器识别为机器人，并且能够在大规模范围内高效地抓取信息。爬虫技术最早由搜索引擎开发者提出，目的是自动收集网页信息并将其索引，便于用户搜索时快速检索相关内容。随着互联网的快
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源