中意灬

世界杯数据可视化分析

1.数据来源

2.字段解释

世界杯成绩信息表：WorldCupsSummary

世界杯比赛比分汇总表：WorldCupMatches.csv

世界杯球员信息表：WorldCupPlayers.csv

3.数据分析及可视化

世界杯已经告一段落，作为一个学习大数据的学生，就像借此来做做分析玩，本次数据来源于天池大赛官网，大家可以去天池大赛官网自己下载，也可以通过我的网盘，链接放下面了。

1.数据来源

天池大赛官网链接：

https://tianchi.aliyun.com/competition/entrance/532045/information

百度网盘下载链接：

python源代码也放入进去了（现在只有一个表的分析，后面会更新剩下两个表的分析）

https://pan.baidu.com/s/1GuiqtTLCwdR-yfobdhnX6w?pwd=zytt 提取码：zytt

2.字段解释

世界杯成绩信息表：WorldCupsSummary

包含了所有21届世界杯赛事（1930-2018）的比赛主办国、前四名队伍、总参赛队伍、总进球数、现场观众人数等汇总信息，包括如下字段：

Year: 举办年份
HostCountry: 举办国家
Winner: 冠军队伍
Second: 亚军队伍
Third: 季军队伍
Fourth: 第四名队伍
GoalsScored: 总进球数
QualifiedTeams: 总参赛队伍数
MatchesPlayed: 总比赛场数
Attendance: 现场观众总人数
HostContinent: 举办国所在洲
WinnerContinent: 冠军国家队所在洲

世界杯比赛比分汇总表：WorldCupMatches.csv

包含了所有21届世界杯赛事（1930-2014）单场比赛的信息，包括比赛时间、比赛主客队、比赛进球数、比赛裁判等信息。包括如下字段：

Year: 比赛（所属世界杯）举办年份
Datetime: 比赛具体日期
Stage: 比赛所属阶段，包括小组赛（GroupX）、16进8（Quarter-Final）、半决赛（Semi-Final）、决赛（Final）等
Stadium: 比赛体育场
City: 比赛举办城市
Home Team Name: 主队名
Away Team Name: 客队名
Home Team Goals: 主队进球数
Away Team Goals: 客队进球数
Attendance: 现场观众数
Half-time Home Goals: 上半场主队进球数
Half-time Away Goals: 上半场客队进球数
Referee: 主裁
Assistant 1: 助理裁判1
Assistant 2: 助理裁判2
RoundID: 比赛所处阶段ID，和Stage字段对应
MatchID: 比赛ID
Home Team Initials: 主队名字缩写
Away Team Initials: 客队名字缩写

世界杯球员信息表：WorldCupPlayers.csv

RoundID: 比赛所处阶段ID，同比赛信息表的RoundID字段
MatchID: 比赛ID
Team Initials: 队伍名
Coach Name: 教练名
Line-up: 首发/替补
Shirt Number: 球衣号码
Player Name: 队员名
Position: 比赛角色，包括：C=Captain, GK=Goalkeeper
Event: 比赛事件，包括进球、红/黄牌等

3.数据分析及可视化

在这里，我是对一个表一个表分析可视化来的，首先对世界杯成绩信息表：WorldCupsSummary进行分析。

我们先导入所需要用到的库

import pandas as pd
import numpy as np
from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.charts import Line
from pyecharts.charts import Map

然后导入数据

#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)
#设置value的显示长度为100，默认为50
pd.set_option('max_colwidth',100)
df=pd.read_csv('WorldCupsSummary.csv',index_col=0)#将第一列作为索引列，即将时间作为索引

首先，我先分析进入半决赛的国家次数，夺冠次数，获得亚军次数，获得季军次数，获得第四名次数，由于给的数据都比较规则，不存在什么缺失值和异常值，故这里没怎么进行数据处理，但是在国家这里，国家名称存在着问题，如Germany FR 与Germany，这里需要对其进行合并，最终代码如下

#国家获得冠军数量
groupbyed=df.groupby(['Winner']).groups
for i in groupbyed :
    groupbyed[i]=len(groupbyed[i])
groupbyed['Germany']=groupbyed['Germany FR']+groupbyed['Germany']#合并Germany与Germany FR
del groupbyed['Germany FR']
groupbyed=pd.DataFrame([groupbyed]).T
groupbyed.columns=['nums']

#获得亚军数量
Second=df.groupby('Second').groups
for i in Second :
    Second[i]=len(Second[i])
Second['Germany']=Second['Germany FR']+Second['Germany']
del Second['Germany FR']
Second=pd.DataFrame([Second]).T
Second.columns=['nums']


#获得季军数
Third=df.groupby('Third').groups
for i in Third :
    Third[i]=len(Third[i])
Third['Germany']=Third['Germany FR']+Third['Germany']
del Third['Germany FR']
Third=pd.DataFrame([Third]).T
Third.columns=['nums']

#第四名数
Fourth=df.groupby('Fourth').groups
for i in Fourth :
    Fourth[i]=len(Fourth[i])
Fourth['Germany']=Fourth['Germany FR']
del Fourth['Germany FR']
Fourth=pd.DataFrame([Fourth]).T
Fourth.columns=['nums']

groupbyed.reset_index(inplace=True)
Second.reset_index(inplace=True)
Third.reset_index(inplace=True)
Fourth.reset_index(inplace=True)
groupbyed=pd.merge(groupbyed,Second,how='outer',on='index')
groupbyed=pd.merge(groupbyed,Third,how='outer',on='index')
groupbyed=pd.merge(groupbyed,Fourth,how='outer',on='index')
groupbyed.columns=['国家','冠军数','亚军数','季军数','第四名数']
groupbyed.fillna(0,inplace=True)
groupbyed['总数']=groupbyed['冠军数']+groupbyed['亚军数']+groupbyed['季军数']+groupbyed['第四名数']
groupbyed.sort_values(by='总数',inplace=True,ascending=False)
print(groupbyed)
c = (
    Bar(init_opts=opts.InitOpts(width='1500px'))
    .add_xaxis(list(groupbyed['国家']))
    .add_yaxis("冠军数", list(groupbyed['冠军数']),category_gap='15%')
    .add_yaxis("亚军数", list(groupbyed['亚军数']),category_gap='15%')
    .add_yaxis("季军数", list(groupbyed['季军数']),category_gap='15%')
    .add_yaxis("第四名数", list(groupbyed['第四名数']),category_gap='15%')
    .add_yaxis('总数',list(groupbyed['总数']),category_gap='15%')
    .set_global_opts(title_opts=opts.TitleOpts(title="按照获奖总数排序",pos_left='20%'),
                     xaxis_opts=opts.AxisOpts(name='国家',axispointer_opts={'interval':'0'},axislabel_opts=opts.LabelOpts(rotate=35,font_size=12)),
                     yaxis_opts=opts.AxisOpts(name='数量'),
                     legend_opts=opts.LegendOpts(textstyle_opts=opts.TextStyleOpts(font_size=15)))
    .render("前四名.html")
)

从上述可看出，进入半决赛最多的是德国队，其次就是巴西队、意大利队等，想不到韩国也进过半决赛，懂得都懂。

然后我们分析一下举办年份，按照四年一届世界杯，看看中间是否有过缺席

#统计未举办年份
Year=list(df.index)
count={}
for i in range(1930,2019,4):
    count[str(i)]=Year.count(i)
count=pd.DataFrame([count]).T
count.columns=['是否举办']
print(count[count['是否举办']==0])

发现1942年和1946年未举办，估计这是由于正在打二战所导致的

然后我们统计分析一波，总进球数，总比赛场数，总参赛队伍数，并简单计算一下场均进球数

GoalsScored=df.loc[:,'GoalsScored']
changjun=np.array(GoalsScored)/np.array(df.loc[:,'MatchesPlayed'])
changjun=[round(i,1) for i in changjun]
# print(changjun)
bar = (
    Bar(init_opts=opts.InitOpts(width='1500px'))
    .add_xaxis(list(GoalsScored.index))
    .add_yaxis("总进球数", GoalsScored.tolist(),category_gap='15%',z=0)
    .add_yaxis('总参赛队伍数',list(df.loc[:,'QualifiedTeams']),category_gap='15%',z=0)
    .add_yaxis("总比赛场数",list(df.loc[:,'MatchesPlayed']),category_gap='15%',z=0)
    .set_global_opts(
                     xaxis_opts=opts.AxisOpts(axispointer_opts={'interval':'0'},axislabel_opts=opts.LabelOpts(rotate=35,font_size=12),name='Time'),
                     yaxis_opts=opts.AxisOpts(name='Numbers'),
                     legend_opts=opts.LegendOpts(textstyle_opts=opts.TextStyleOpts(font_size=15))))
line=(
    Line(init_opts=opts.InitOpts(width='1500px'))
        .add_xaxis(GoalsScored.index.tolist())
        .add_yaxis("场均进球数",y_axis=changjun,is_smooth=True,is_symbol_show=True)
        .set_global_opts(title_opts=opts.TitleOpts(title="折线图-基本示例"))
)
bar.overlap(line)
bar.render('场均进球.html')

可看出参赛队伍从1930年的13支增加到了18年的32支，这么多支队伍，中国都进不去啧啧啧，参赛队伍的增加，导致了总进球数和比赛场次的增加，但54年和58年像是个意外，队伍不多，进的球还不少，难不成刚二战结束，踢球都带有民族情绪，而场均进球数，从1930年到2018年呈下降趋势，这可能与早期足球参赛队伍少，比赛场次少有关吧，数量少了，偶然性就大嘛，而54年的场均进球数最高，平均每场都得进5、6个，搞得我还去百度了一下54年世界杯发生啥了，踢的这么激烈。

接着咱们看看世界杯现场观众数量的变化

people=[round(i,2) for i in df.loc[:,'Attendance']/10000]
c = (
    Line(init_opts=opts.InitOpts(width='1150px'))
    .add_xaxis(df.index.tolist())
    .add_yaxis("现场观众总人数", people, is_smooth=True,
               markpoint_opts=opts.MarkPointOpts(data=[opts.MarkLineItem(type_='max',symbol_size = [80,50],name='max'),opts.MarkLineItem(type_='min',symbol_size = [80,50],name='min')]))
    .set_global_opts(
                     tooltip_opts=opts.TooltipOpts(
                         is_show=True, trigger="axis", axis_pointer_type="cross"
                     ),
                     xaxis_opts=opts.AxisOpts(
                         name='Time',
                         type_="category",
                         axispointer_opts=opts.AxisPointerOpts(is_show=False, type_="shadow"),
                     ),
                     yaxis_opts=opts.AxisOpts(
                         name='numbers(10000)'
                     ))
    .set_series_opts(label_opts=opts.LabelOpts(is_show=False)
                     )
    .render("现场观众总人数.html")
)

世界杯现场观众数整体是上升的，从最初只有60万人到2018年有303万人现场观看，上涨了近5倍，其中在1934年现场人数最少，只有36万人左右，可能是要打仗了吧=-=，而在1994年，现场人数最多，达到了358万人，是在美国所举办=-=。但我估计今年卡塔尔世界杯可能会破新高。

然后我们分析一下哪些国家举办国世界杯的吧，这里队日本和韩国的数据要处理一下，他们联合举办，就当他们都举办过的吧=-=，当然这里的德国和联邦德国依旧合并，而这里的USA需要更改为United States，England 也需要更改，不然Map画不出来=-=。

HostCountry=df.groupby(df.loc[:,'HostCountry']).groups
for i in HostCountry:
    HostCountry[i]=len(HostCountry[i])
HostCountry['Korea']=1
HostCountry['Japan']=1
del HostCountry['Korea/Japan']
HostCountry['United States']=HostCountry['USA']
del HostCountry['USA']
HostCountry['United Kingdom']=HostCountry['England']
del HostCountry['England']
HostCountry=[[i,HostCountry[i]] for i in HostCountry]

c=(
    Map(init_opts=opts.InitOpts(width='1150px'))
        .add(
            series_name="举办国家",
            data_pair=HostCountry,
            maptype="world",
        )
        # 全局配置项
        .set_global_opts(
            # 设置标题
            title_opts=opts.TitleOpts(title="世界地图"),
            # 设置标准显示
            visualmap_opts=opts.VisualMapOpts(max_=2, is_piecewise=False),
        )
        # 系列配置项
        .set_series_opts(
            # 标签名称显示，默认为True
            label_opts=opts.LabelOpts(is_show=False, color="blue"),showLegendSymbol=False
        )
        # 生成本地html文件
        .render("世界地图.html")
        )

只能说有的国家都举办二轮了，有的国家连一轮都没举办过，当然这和地区经济也有关，可以看在亚洲举办的次数最少，在欧洲举办的次数是最多的，像墨西哥，巴西，法国等都举办了两次了。

然后再看看夺冠国家的分布吧，这里英国的名字需要自己修改一下，不如又识别不了

Winner=df.groupby(['Winner']).groups
for i in Winner :
    Winner[i]=len(Winner[i])
Winner['Germany']=Winner['Germany FR']+Winner['Germany']
del Winner['Germany FR']
Winner['United Kingdom']=Winner['England']
del Winner['England']
Winner=[[i,Winner[i]] for i in Winner]
# Winner.columns=['nums']
c=(
    Map(init_opts=opts.InitOpts(width='1150px'))
        .add(
            series_name="夺冠国家",
            data_pair=Winner,
            maptype="world",
        )
        # 全局配置项
        .set_global_opts(
            # 设置标题
            title_opts=opts.TitleOpts(title="世界地图"),
            # 设置标准显示
            visualmap_opts=opts.VisualMapOpts(max_=5, is_piecewise=True),
        )
        # 系列配置项
        .set_series_opts(
            # 标签名称显示，默认为True
            label_opts=opts.LabelOpts(is_show=False, color="blue"),showLegendSymbol=False
        )
        # 生成本地html文件
        .render("夺冠国家分布.html")
        )

可以看出，巴西强呀，拿过五次冠军，德国也不弱呀，也拿了四次，整体来看，还是欧洲实力强劲，欧洲总共拿了12次冠军，剩下的就是南美洲拿了，其他洲呢呜呜呜，搞得像是个南美与欧洲的游戏似的。

然后我们开始分析第二个表，就是世界杯比赛比分汇总表：WorldCupMatches.csv这个表。

先导入模块，这里因为我是分呈两个py文件写的，所以我又导了一遍模块，这里说明一下吧，就没有具体的步骤是对数据进行清洗和处理的，因为数据原本已经很规整了，但里面一下国家名字需要处理，都在用到的时候进行处理，比如德国和联邦德国=-=。

import pandas as pd
from pyecharts import options as opts
import seaborn as sns
from pyecharts.charts import Bar,Pie
from pyecharts.charts import Line
import matplotlib.pyplot as plt

还是要导入数据

#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)
#设置value的显示长度为100，默认为50
pd.set_option('max_colwidth',100)
df=pd.read_csv('WorldCupMatches.csv',index_col=0)#将第一列作为索引列，即将时间作为索引

然后我先分析了一下主客场对的取胜有没有影响，这里我就统计了一下主客场胜率

主客队队比赛胜利的影响
#主场队胜
win=int(df[df.loc[:,'Home Team Goals']>df.loc[:,'Away Team Goals']].count()[0])
#平
draw=int(df[df.loc[:,'Home Team Goals']==df.loc[:,'Away Team Goals']].count()[0])
#主场队输
loss=int(df[df.loc[:,'Home Team Goals']

 
   
    
   从中可以发现，主场优势是真实存在的，当作为主场方的，其胜率达到了58%，而客场的胜率只有20%，也确实是这样，以前在重庆看力帆打上海申花，全程都是一片红，只有一点蓝，然后加油的时候，申花傻逼直上云霄哇哈哈哈 
  然后统计一下在举办世界杯的年份中，未举办16强，半决赛，决赛等的年份，顺带统计一下这些比赛的场均观众人数吧 
  #统计一下小组赛，16进8，半决赛，决赛场均观众人数

df.loc[df['Stage'].str.contains('Group'),'Stage']='Group'
df.loc[df['Stage']=='First round','Stage']='Group'
df.loc[df['Stage']=='Preliminary round','Stage']='Group'
df.loc[df['Stage']=='Round of 16','Stage']='Quarter-finals'
df.loc[df['Stage']=='Third place','Stage']='Match for third place'
df.loc[df['Stage']=='Play-off for third place','Stage']='Match for third place'

Stage=list(set(df['Stage']))
Year=list(set(df.index))
Index={}
for i in Stage:
    a=[]
    for j in Year:
        a.append((j,i))
    Index[i]=a

groupbyed=df.groupby(['Year','Stage']).agg('mean')

Index=[list(i) for i in groupbyed.index]
Index.sort(key=lambda x: x[1])
Final=[]
Group=[]
Third=[]
Quarter=[]
Semi=[]

Index=[tuple(i) for i in Index]
for i in Index:
    if i[1]=='Final':
        Final.append(i)
    elif i[1]=='Group':
        Group.append(i)
    elif i[1]=='Match for third place':
        Third.append(i)
    elif i[1]=='Quarter-finals':
        Quarter.append(i)
    else:
        Semi.append(i)
Year=[i[0] for i in groupbyed.loc[Group,:].index]
Group=groupbyed.loc[Group,'Attendance']
Quarter=groupbyed.loc[Quarter,'Attendance']
data=pd.merge(Group,Quarter,how='outer',on='Year')
Semi=groupbyed.loc[Semi,'Attendance']
data=pd.merge(data,Semi,how='outer',on='Year')
Third=groupbyed.loc[Third,'Attendance']
data=pd.merge(data,Third,how='outer',on='Year')
Final=groupbyed.loc[Final,'Attendance']
data=pd.merge(data,Final,how='outer',on='Year')
data.columns=['小组赛','16进8','半决赛','季军赛','决赛']

for i in data.columns:
    print('未举办'+i+"的年份:",list(data[data[i].isna()][i].index))

c = (
    Line(init_opts=opts.InitOpts(width='1150px',height='550px'))
    .add_xaxis(Year)
    .add_yaxis("小组赛", data.iloc[:,0].tolist(), is_connect_nones=True,is_smooth=True)
    .add_yaxis("16进8", data.iloc[:,1].tolist(), is_connect_nones=True,is_smooth=True)
    .add_yaxis("半决赛", data.iloc[:,2].tolist(), is_connect_nones=True,is_smooth=True)
    .add_yaxis("季军赛",  data.iloc[:,3].tolist(), is_connect_nones=True,is_smooth=True)
    .add_yaxis("决赛",  data.iloc[:,4].tolist(), is_connect_nones=True,is_smooth=True)
    .set_global_opts(title_opts=opts.TitleOpts(),
                     tooltip_opts=opts.TooltipOpts(is_show=True,axis_pointer_type= "cross",trigger="axis"),
                     xaxis_opts=opts.AxisOpts(name='Time'),
                     yaxis_opts=opts.AxisOpts(name='Numbers'))
    .set_series_opts(label_opts=opts.LabelOpts(is_show=False),)
    .render("不同比赛现场观众.html")
) 
   
    
  从中可以指导1950年没有举办决赛，为此我还去百度了一下，1950年巴西世界杯，真没有正式的决赛，当也还没有半决赛=-=，好像是中途有几个国家退出了，咱们也不知道。从场均现场观众数来看，基本都是决赛>季军赛>半决赛>16进8>小组赛，但在1986年的季军赛，谁打谁呀，观众少的可怜，百度一下，法国打比利时=-=，法国4：2比利时，但为什么没人看呢 
  然后统计分析一下球队的进球数，失球数吧 
  #统计球队历史总进球数,失球数
df.loc[df['Home Team Name'].str.contains('Germany'),'Home Team Name']='Germany'
df.loc[df['Away Team Name'].str.contains('Germany'),'Away Team Name']='Germany'
# print(df.loc[df['Home Team Name'].str.contains('German')])
inGoals=pd.DataFrame(df.groupby(['Home Team Name']).agg('sum')['Home Team Goals']+df.groupby(['Away Team Name']).agg('sum')['Away Team Goals'])
outGoals=pd.DataFrame(df.groupby(['Home Team Name']).agg('sum')['Away Team Goals']+df.groupby(['Away Team Name']).agg('sum')['Home Team Goals'])
inGoals.index.names=['Team Name']
outGoals.index.names=['Team Name']

Goals=pd.merge(inGoals,outGoals,how='inner',on='Team Name')
Goals['Total Goals']=Goals.iloc[:,0]+Goals.iloc[:,1]
Goals.columns=['inGoals','outGoals','Total Goals']
Goals=Goals.sort_values(by='Total Goals',ascending=False)
Goals.fillna(0,inplace=True)

#场均进球
count1=df.groupby(['Home Team Name']).agg('count')['Datetime']
count1.index.name='Team Name'

count2=df.groupby(['Away Team Name']).agg('count')['Datetime']
count2.index.name='Team Name'

Goals=pd.merge(Goals,count1,how='inner',on='Team Name')
Goals=pd.merge(Goals,count2,how='inner',on='Team Name')
Goals['times']=Goals.iloc[:,3]+Goals.iloc[:,4]
Goals.drop(Goals.columns[[3,4]],axis=1,inplace=True)
Goals['avginGoals']=Goals.loc[:,'inGoals']/Goals.loc[:,'times']
Goals['avgoutGoals']=Goals.loc[:,'outGoals']/Goals.loc[:,'times']
# print(Goals)
c = (
    Bar(init_opts=opts.InitOpts(width='1150px'))
    .add_xaxis(Goals.index.tolist())
    .add_yaxis("总进球数", Goals.iloc[:,0].tolist())
    .add_yaxis("总失球数", Goals.iloc[:,1].tolist())
    .add_yaxis("总球数", Goals.iloc[:,2].tolist())
    .add_yaxis("场均进球数", [round(i,2) for i in Goals.iloc[:,4].tolist()])
    .add_yaxis("场均失球数", [round(i,2) for i in Goals.iloc[:,5].tolist()])
    .add_yaxis("总比赛场数", Goals.iloc[:,3].tolist())
    .set_global_opts(
        title_opts=opts.TitleOpts(),
        datazoom_opts=opts.DataZoomOpts(),
        xaxis_opts=opts.AxisOpts(name='Team Name'),
        yaxis_opts=opts.AxisOpts(name='Numbers'),
    )
    .render("总球数.html")
) 
   
   
   这个图是动态的嘛，反正可以拖动，进球多的反正都是那些强队，也没啥好说的，咱们来看看中国队，唯一一次进世界杯，但好像一个球没进，丢了9个球，打了三场，哎，看着今年的日本、韩国和沙特，真觉得国足在干嘛呀呜呜。 
  然后我们具体来看看冠军球队的进球和失球数吧 
  #统计一下冠军对的进球数失球数和场均进球失球，这里需要从另外个表获取一下数据
df1=pd.read_csv('WorldCupsSummary.csv',index_col=0)#将第一列作为索引列，即将时间作为索引
#国家获得冠军数量
groupbyed=df1.groupby(['Winner']).groups
for i in groupbyed :
    groupbyed[i]=len(groupbyed[i])
groupbyed['Germany']=groupbyed['Germany FR']+groupbyed['Germany']#合并Germany与Germany FR
del groupbyed['Germany FR']
groupbyed=pd.DataFrame([groupbyed]).T
groupbyed.columns=['nums']
groupbyed.sort_values(by='nums',ascending=False,inplace=True)
guanjun=groupbyed[groupbyed['nums']>=1].index

c = (
    Bar(init_opts=opts.InitOpts(width='1150px'))
    .add_xaxis(guanjun.tolist())
    .add_yaxis("总进球数", Goals.loc[guanjun,'inGoals'].tolist())
    .add_yaxis("总失球数", Goals.loc[guanjun,'outGoals'].tolist())
    .add_yaxis("总球数", Goals.loc[guanjun,'Total Goals'].tolist())
    .add_yaxis("场均进球数", [round(i,2) for i in Goals.loc[guanjun,'avginGoals'].tolist()])
    .add_yaxis("场均失球数", [round(i,2) for i in Goals.loc[guanjun,'avgoutGoals'].tolist()])
    .add_yaxis("总比赛场数", Goals.loc[guanjun,"times"].tolist())
    .add_yaxis("夺冠次数", groupbyed.loc[guanjun,"nums"].tolist())
    .set_global_opts(
        title_opts=opts.TitleOpts(title='按照夺冠次数排名'),
        datazoom_opts=opts.DataZoomOpts(),
        xaxis_opts=opts.AxisOpts(name='Team Name'),
        yaxis_opts=opts.AxisOpts(name='Numbers'),
    )
    .render("冠军球数.html")
) 
   
    
  在比赛场次中，德国打的最多，其次就是巴西，加之两者实力也差不多，所以德国进球数和失球数都高于巴西也是正常，虽然巴西比德国多一个冠军呢，而在场均进球和失球数上看，巴西都好于德国，同时巴西是场均进球最多的，但只有巴西和德国场均进球破2了，说明这两只是进攻性较强的队伍，而法国的场均失球是最少的，一场比赛一个球都不一定能丢，说明法国队防守挺厉害的，  
   接下来，咱们看看比分最大的10场比赛是哪10场 
  #比分最大的比赛
df['maxGoals']=abs(df.loc[:,'Home Team Goals']-df.loc[:,'Away Team Goals'])
df.sort_values(by='maxGoals',ascending=False,inplace=True)
df['VS']=df.loc[:,'Home Team Name']+' VS '+df.loc[:,'Away Team Name']
df['result'] = df['Home Team Goals'].astype(str)+"-"+df['Away Team Goals'].astype(str)
# print(df.iloc[:10,df.columns.get_loc('VS')])
plt.figure(figsize=(12, 10))
ax = sns.barplot(y=df.iloc[:10,df.columns.get_loc('VS')], x=df.iloc[:10,df.columns.get_loc('maxGoals')])
sns.despine(right=True)
plt.ylabel('Match',fontsize=15)
plt.xlabel('Score Difference',fontsize=15)
plt.yticks(size=12)
plt.xticks(size=12)
plt.title('Top10 Score Gap', size=20)

for i, s in enumerate("Stadium " + df.iloc[:10,df.columns.get_loc('Stadium')] + ", Date: " + df.iloc[:10,df.columns.get_loc('Datetime')] + "\n" +
                        ", match result: " + df.iloc[:10,df.columns.get_loc('result')]):
    ax.text(1, i, s, fontsize=12, color='white', va='center')
plt.show() 
   哇哦，比分差距最大的是9，这么大的比分，压对了得多大的赔率呀哇哈哈哈 
  最后咱们来看看，参与3届世界杯以上的主裁吧，希望马宁下次能当主裁（偷笑） 
  #参与三届世界杯的主裁
Referee=df.groupby(['Referee']).groups
times=[]
for i in Referee:
    times.append(len(list(set(Referee[i]))))
    Referee[i]=list(set(Referee[i]))


Referee=pd.DataFrame().from_dict(Referee,orient='index')
Referee['Times']=times
Referee.index.name='Referee Name'
Referee.columns=['时间1','时间2','时间3','次数']
# Referee.columns=['Times']
Referee.sort_values(by='次数',inplace=True,ascending=False)

plt.figure(figsize=(12, 10))
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
ax = sns.barplot(y=Referee[Referee['次数']==3].index, x=Referee.loc[Referee[Referee['次数']==3].index,'次数'])
sns.despine(right=True)
plt.ylabel('主裁',fontsize=15)
plt.xlabel('次数',fontsize=15)
plt.yticks(size=12)
plt.xticks(size=12)
plt.title('参与三次世界杯的主裁', size=20)

for i, s in enumerate("主裁世界杯时间：" + Referee.loc[Referee[Referee['次数']==3].index,'时间1'].astype(int).astype(str)+'年、'+ Referee.loc[Referee[Referee['次数']==3].index,'时间2'].astype(int).astype(str) +'年、'+ Referee.loc[Referee[Referee['次数']==3].index,'时间3'].astype(int).astype(str)+'年'):
    ax.text(1, i, s, fontsize=12, color='white', va='center')
plt.show() 
    
  这些裁判估计都很厉害吧，咱们也不认识，我也懂足球，咱们就不对他们分析了  
  然后这里只分析了第两个个表，后面还有一个表的数据没有分析，我后面会更新在后面，现在先把前面的写了，怕后面忘了哇哈哈哈

探索HTML5 Canvas的无限可能：一个丰富多彩的开源项目黎情卉Desired
探索HTML5Canvas的无限可能：一个丰富多彩的开源项目去发现同类优质开源项目:https://gitcode.com/在这个充满活力的数字时代，JavaScript、HTML和CSS已经成为构建互动式网页体验的核心技术。今天，我们向您推荐一个独特而有趣的开源项目，它将这些技术结合在一起，创造出一系列生动活泼的可视化元素，包括时钟、计时器、地图、国际象棋、温度计等，让您在学习和实践中感受HTM
【广告架构day1】爱奇艺广告系统的演进之路：实践中的一些经验软件真理与光业务技术架构后端
本文来自爱奇艺的分享孙立伟。近年来爱奇艺快速发展，优质内容层出不穷，爱奇艺广告也随之发展和壮大，广告在线服务同时服务于品牌、中小、DSP等不同客户，形成了可以满足不同需求类型的较为完善的商业广告变现布局，广告库存涵盖视频、信息流、泡泡社交（爱奇艺的社交平台）和开机屏等多种场景。爱奇艺效果广告是2015年开始全新搭建的一个广告投放平台，随着信息流业务的增长，整个投放平台也经历了一次大的架构调整和多次
网络安全-信息收集 One_Blanks 网络安全网络安全
声明学习视频来自B站UP主泷羽sec，如涉及侵权马上删除文章。笔记的只是方便各位师傅学习知识，以下网站只涉及学习内容，其他的都与本人无关，切莫逾越法律红线，否则后果自负。目录X一、Whois信息1.思路2.工具3.社工库二、搜索1.Google、bing、baidu三、Github四、搜索引擎FOFA：[https://fofa.info/](https://fofa.info/)360网络空间测
Python 3 介绍（二十二）--mysql-connector-python 小蘑菇二号零基础学 Python--快速入门 Python 快速入门 adb
目录安装mysql-connector-python基本使用示例1.连接到数据库2.插入数据3.更新数据4.删除数据进阶功能1.使用事务2.批量插入数据3.使用字典游标错误处理总结mysql-connector-python是一个用于Python的MySQL数据库驱动程序，它允许Python应用程序与MySQL数据库进行交互。这个驱动程序提供了高级别的API，支持多种Python版本，并且兼容多种
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
业务概念模型，你必须知道的建模分析工具 SystemEngineeringLab 统一建模语言需求分析
引言回想经历过不同的团队、不同的产品线、大量的产品需求迭代建设，在系统建设（多数是业务系统）中往往偏重于方案域求解，比如，而弱化或忽视对问题域的分析建模。这篇短文章浅谈一下“业务概念模型”，希望对大家有所帮助。什么是业务概念模型对于概念模型我们并不陌生，其本质是模型，是对某个域信息的建模，例如常见的E-R图是对数据模型的建模。多数情况下，作为技术我们更多的接触的是技术域的分析与建模。业务概念模型（
Python - 爬虫；爬虫-网页抓取数据-工具curl MinggeQingchun Python 爬虫 curl python
一、爬虫关于爬虫的合法性通用爬虫限制：Robots协议【约定协议robots.txt】robots协议：协议指明通用爬虫可以爬取网页的权限robots协议是一种约定，一般是大型公司的程序或者搜索引擎等遵守几乎每一个网站都有一个名为robots.txt的文档，当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页
Python爬虫：数据抓取工具及类库详解 2401_84692751 程序员 python 爬虫开发语言
wget也是一个利用URL语法在命令行环境下进行文件传输的工具,其基本用法为wget[URL地址][参数],如:wgethttps://www.baidu.com其常用参数如下:下面例子演示如何使用wget镜像一个网站到本地并启动:使用wget--mirror命令将整个网站的镜像下载到本地wget--mirror-p--convert-linkshttp://www.httpbin.org切换到下
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
python arm64_PyTorch-aarch64 人类0663号 python arm64
PyTorch源码编译步骤：1、源码编译环境：操作系统：debian9.12交换空间：1GPython版本：3.5硬件：CPU：RK3399(aarch64)内存：4G2、下载依赖包：下载pytorch及其依赖包时，默认从github上下载，如果网络不好、容易断开时，可在gitee上找到对应包克隆链接，然后修改对应配置文件，进行下载。需要细致耐心。3、编译主要参数：设置最大作业数：exportMA
交叉编译python3.8 岁月金刀 python linux 开发语言
参考链接：交叉编译移植Python到arm架构下的Linux系统-白菜没我白-博客园Python3交叉编译步骤（二）-三方库的交叉编译-秀才哥哥-博客园一、先安装Ubantu虚拟机上的python：1，下载python3.8安装包2，安装依次执行如下步骤：./configureprefix=/usr/local/python3//prefix是指定安装目录，你可以自己新建目录安装到那里makema
31天Python入门——第10天:深入理解值传递·引用传递以及深浅拷贝问题安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录1.什么是对象2.对象类型3.引用传递3.1基本概念3.2不可变对象和可变对象的引用传递不可变对象可变对象3.3函数参数传递中的引用传递不可变对象作为参数可变对象作为参数3.4如何避免可变对象引用传递带来的问题3.5总结:值传递和引用传递4.深浅拷贝问题4.1浅拷贝4.2深拷贝4.3使用场景1.什么是对象如果你学过驾驶，八成被教练骂过吧？可能你的脑海中现在还回荡着教练粗
定时任务调度框架xxl-job与quartz的区别 java程序员CC java
XXL-Job和Quartz都是Java项目中常用的定时任务框架，它们有以下几点区别：xxl-job和Quartz都是用于任务调度的开源框架，它们之间有一些区别，主要体现在以下几个方面：语言支持：Quartz主要是基于Java的任务调度框架，支持Java语言。xxl-job是一个分布式任务调度平台，它提供了Java版本的调度中心，同时还提供了Python、PHP等语言的任务执行器，因此支持多种语言
python科学绘图-matplotlib绘制三维函数图像，并且在函数底部绘制等值线 zhan114514 python科学绘图 python matplotlib 开发语言
python使用matplotlib库绘制三维函数图像，并且在底部绘制等值线。三维图像函数surface=ax.plot_surface(X,Y,zss,camp=色带)等值线函数contour=ax.contour(xs,ys,zss,zdir=在哪个轴绘制,offset=在该轴什么位置绘制,camp=色带,zorder=图层位置)颜色条函数plt.colorbar(surface,shrink
python使用matplotlib库绘制饼图 zhan114514 python科学绘图 python matplotlib 开发语言
使用python的matplotlib库绘制饼图，包括普通饼图、堆叠饼图、嵌套饼图，并一一封装成了方法，直接调用使用。先安装matplotlib库，pipinstallmatplotlib代码如下：fromtypingimportSequenceimportmatplotlib.pyplotaspltimportmatplotlibimportnumpyasnpmatplotlib.rcParam
python科学绘图-matplotlib中标记marker的使用方法 zhan114514 python科学绘图 python matplotlib 开发语言
python使用matplotlib库，在绘制点图、线图的时候，标记初始的数据用图标记所有标记，可以拿出来对比使用代码：importmatplotlibimportnumpyasnpfrommatplotlibimportpyplotaspltimportmatplotlib.linesasmlinesmatplotlib.use("TkAgg")plt.rcParams['font.sans-s
python：@classmethod zcxvdzv python
python提供了@classmethod和@staticmethod来定义静态方法1、实例方法，该实例属于对象，该方法的第一个参数是当前实例，拥有当前类以及实例的所有特性。2、@classmethod类方法，该实例属于类，该方法的第一个参数是当前类，可以对类做一些处理，如果一个静态方法和类有关但是和实例无关，那么使用该方法。3、@staticmethod静态方法，该实例属于类，但该方法没有参数，
Tinyflow AI 工作流编排框架 v0.0.7 发布自不量力的A同学人工智能
目前没有关于TinyflowAI工作流编排框架v0.0.7发布的相关具体信息。Tinyflow是一个轻量的AI智能体流程编排解决方案，其设计理念是“简单、灵活、无侵入性”。它基于WebComponent开发，前端支持与React、Vue等任何框架集成，后端支持Java、Node.js、Python等语言，助力传统应用快速AI转型。该框架代码库轻量，学习成本低，能轻松应对简单任务编排和复杂多模态推理
景联文科技入选中国信通院发布的“人工智能数据标注产业图谱” 景联文科技科技人工智能
近日，由中国信息通信研究院、中国人工智能产业发展联盟牵头，联合中国电信集团、沈阳市数据局、保定高新区等70多家单位编制完成并发布《人工智能数据标注产业图谱》。景联文科技作为人工智能产业关键环节的代表企业，入选图谱中技术服务板块。图谱按照国家数据局技术创新、行业赋能、生态培育、标准应用、人才就业、数据安全等六个方面任务展开，由上游资源提供方、中游数据标注核心服务方、下游配套支撑方三部分组成。其中上游
Python classmethod函数晓之以理的喵~~ Python python 开发语言
在Python编程中，classmethod()函数是一个内置函数，用于定义类方法。类方法是绑定到类而不是实例的方法，可以通过类名直接调用，并且可以访问类的属性和方法。本文将深入探讨Python中的classmethod()函数，包括基本用法、与实例方法的区别、应用场景，并提供丰富的示例代码来帮助更好地理解和使用classmethod()函数。什么是classmethod()函数？classmet
python画图怎么调色_Python气象数据处理与绘图(19)：如何使用NCL色板(调色盘思路相同)... weixin_39710295 python画图怎么调色
一、使用NCL色板(使用调色盘文件思路相同)NCL的色板十分丰富，几乎可以涵盖平常所需。详见：传送门那么我们能否将NCL的色板用在python中呢？答案当然是可以的。我在气象家园发现了个帖子，楼主自己封装了一个包，可以在python中调用NCL的色板，详见：传送门，一般来说这个包足够大家日常使用了。一些想进一步了解原理并且进行扩展应用的朋友，可以接着往下看。其基本原理就是读取NCL色板的.rgb文
【微服务架构】SpringCloud（二）：Eureka原理、服务注册、Euraka单独使用道友老李架构师进阶-微服务架构 #SpringCloud 架构微服务 spring cloud
文章目录SpringCloudEureka原理RegisterRenewFetchRegistryCancelTimeLagCommunicationmechanism服务注册客户端配置选项服务器端配置选项Eureka单独使用Rest服务调用/eureka/status服务状态注册到eureka的服务信息查看注册到eureka的具体的服务查看服务续约更改服务状态删除状态更新删除服务元数据客户端个人
python中的@classmethod 无脑敲代码，bug漫天飞编程 python
@classmethod是一个装饰器，用于指示一个方法是一个类方法;类方法是通过类本身来调用的，而不是通过类的实例来调用。类方法接收的第一个参数是类本身（通常命名为cls），而不是类的实例。用处：创建类的实例。使用类方法作为工厂函数，可以隐藏对象的创建细节，并在创建对象时执行一些额外的逻辑.由于类方法接收的是类本身作为第一个参数，因此它们可以用于修改类级别的状态或属性。代码案例：classMyCl
PYQT5的UI转换报错：fatal python error: _pyinterpreterstate_get(): no current thread state解决办法 QX大黄蜂 python ui qt python
使用QT可视化工具设计界面，在将UI文件转换为py文件的时候报错：fatalpythonerror:_pyinterpreterstate_get():nocurrentthreadstatepythonrun原因可能是python版本与QT不兼容，具体原因不知道解决办法：使用以下配置将UI转换为py，再将py文件给其它程序调用python版本：3.7.1pyqt5版本：5.11.3pyqt5-t
Python 数据分析实战：宠物经济行业发展洞察萧十一郎@ python python 数据分析宠物
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1宠物用品用户满意度分析2.4.2宠物用品销售与价格关系分析2.4.3宠物经济行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-宠物用品用户满意度分析3.4数据分析-宠物用品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集改进4.2数据清
一文搞懂python中常用的装饰器（@classmethod、@property、@staticmethod、@abstractmethod......） NosONE python python
本文分为两部分，第一部分是介绍python中常见的装饰器。另一部分是自定义装饰器，包括了一些非常好用的自定义装饰器。一文搞懂python中常用的装饰器常见的几个装饰器介绍及示例@classmethod装饰器基本用法@property、@setter装饰器基本用法@staticmethod装饰器基本用法@abstractmethod装饰器基本用法自定义装饰器类装饰器非常好用的自定义装饰器常见的几个装
Matplotlib 内置的170种颜色映射（colormap）数据分析师Weiss 数据分析 Python matplotlib 数据可视化 python 颜色映射热力图
Matplotlib提供了许多内置的颜色映射（colormap）选项，可以将数值数据映射到色彩范围——热力图、温度图、地图等可视化经常会用到。#colormap有两种引用形式plt.imshow(data,cmap='Blues')plt.imshow(data,cmap=cm.Blues)颜色映射可以分为连续的（Continuous）和离散的（Discrete）两大类。前者适用于连续数据，颜色映
python @classmethod Mmnnnbb123 python java 开发语言
1..什么是classmethodclassmethod是用来指定一个类的方法为类方法长的像下面这个样子123classcc:@classmethoddeff(cls,arg1,arg2,...):...cls通常用作类方法的第一参数跟self有点类似（__init__里面的slef通常用作实例方法的第一参数)。即通常用self来传递当前类对象的实例，cls传递当前类对象。self和cls没有特别
Fatal Python error: init_stdio_encoding: failed to get the Python codec name of the stdio encoding CCLZMY python 开发语言后端
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导入导出导入D:\Metag
信号传输与通信：光纤通信中的信号处理_（11）.相干光通信技术 kkchenkx 信号处理技术仿真模拟信号处理
相干光通信技术相干光通信技术是一种在光纤通信系统中广泛应用的技术，通过使用相干检测方法来提高信号的传输性能。与传统的强度调制/直接检测（IM/DD）系统相比，相干光通信技术能够实现更高的数据传输速率和更长的传输距离，这是因为相干检测技术能够有效地提取信号的相位和幅度信息，从而在接收端实现更精确的信号恢复。1.相干光通信的基本概念相干光通信系统的核心在于相干检测，通过使用本地振荡器（LocalOsc
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

世界杯数据可视化分析

1.数据来源

2.字段解释

世界杯成绩信息表：WorldCupsSummary

世界杯比赛比分汇总表：WorldCupMatches.csv

世界杯球员信息表：WorldCupPlayers.csv

3.数据分析及可视化

你可能感兴趣的:(数据分析,数据分析,数据挖掘,python,信息可视化,大数据)