ElementQi

Analysis for INFO 212 Data Science Programming I Project

数据集

数据集由三部分组成：样本数据集samples，设备数据集devices和app处理数据集app_processes

题目描述

此次的题目是从3个组里面选择2个组，6个小题里面选择4个小题，来进行作答
英文的话是这样

Group 1

1.1. Determine the ten brands of devices that, according to the Greenhub dataset, appear in more samples. Do the same for device models. What are the most prevalent models in the dataset, in terms of presence in the samples? Are there cases of brands that appear in the list under different names?

1.2. Create two pie charts, one showing the slices corresponding to the ten brands and one chart where the slices correspond to the proportions for the ten models. Include in each pie chart an additional slice corresponding to the other brands and models. The radius of this other slice should, of course, be representative of the percentage of the samples that corresponds to the devices of other models and brands.

Group 2

2.1. Determine the ten apps that are not system apps (is_system_app == 1) that appear more often according to the dataset. Use the name of the apps but, when reporting the results, present both the name and the application_label.

2.2. Establish the twenty smartphone brands with the most models in the dataset. From those, select all the brands that are Chinese and those that are South Korean. Now contrast the apps that appear more often in samples associated with those brands (similarly to the previous task, but constrained to these brands) with the most popular apps running on devices of South Korean brands.

Group 3

3.1. When studying the energy impact of different apps, we are usually interested in discharge sequences. A discharge sequence is a sequence of samples where the device_id is the same, timestamps are contiguous, and every sample in the sequence has battery_state == 'Discharging'. You can identify the beginning of a discharge sequences by identifying moments (between two consecutive samples for the same device_id) when battery_state transitioned from any other state (Full, Not Charging, or Charging) to Discharging and the end of a sequence when consecutive samples for the same device_id transition from Discharging to any other state. Build code to organize the samples in dataset-samples so as to associate discharge sequence codes (you’re responsible for creating a sequence of them) to the ids of the samples in the corresponding discharge sequence. What is the length of the longest discharge sequence, in terms of the difference between the timestamp of the last sample in the sequence and the timestamp of the first one.

3.2. Determine the 10 apps (again, not system apps) that appear more often in discharge sequences.

初步的话，看着组1、2是比较简单的，就选这俩了

第1组

1.1 根据Greenhub数据集，确定在所有样本中出现次数最多的设备的10个brands。对设备models执行相同的操作。就样本中的存在而言，数据集中最流行的model是什么？列表中是否有使用不同名称出现的品牌案例？

1.2 创建两个饼图，一个饼图显示与十个brands相对应的切片，而另一个饼图与十个models的比例相对应。在每个饼图中都包含一个与其他品牌和型号相对应的附加切片。当然，此其他切片的半径应代表与其他型号和品牌的设备相对应的样本百分比。

第2组

2.1 根据数据集确定出现频率更高（最高）的十个非系统应用（is_system_app == 1）。将应用程序的name与频率结合，但是在报告（在report上展示）结果时，要同时显示name和application_label。

根据数据集的确定name出现频率更高（最高）的十个非系统应用（is_system_app == 0）

2.2 建立数据集中models最多的20个智能手机brands。从这些中，选择所有Chinese brands和South Korean brands。现在，将与这些brands相关的samples中出现频率更高的apps（与之前的任务类似，但仅限于这些brands）与在South Korean brands的设备上运行的最受欢迎的apps进行对比。

题目分析

GROUP1

1.1

题目描述的不是很清晰，说实在的，有点歧义存在的。在devices数据集里面，对于每一个安卓手机都有其对应的id以及对应的信息：model;manufacturer;brand;os_version;is_root;created_at。

但是，他说

Determine the ten brands of devices that, according to the Greenhub dataset, appear in more samples.

这个品牌在越多的样本中出现，那么它就越会成为这top10中的一员，那么这个samples样本指的是什么？是仅仅统计各个参与Greenhub统计的手机信息中的品牌，还是统计在samples或（逻辑或）在app_processes数据集中含有该品牌数据字段的数量呢？

往简单的方面想，仅仅是统计前者吧，如果是后者，需要将对应id映射到brand，而且要读取异常大的数据量。

考虑到他在说明文档最后对report撰写要求中提到的：

An explanation about how the team scaled up the solution so as to deal with the large size of the dataset, specially for groups 2 and 3.

他要做题者解释一下如何处理大数据，特别是对GROUP2和3，在这儿他没有提起GROUP1，那么题目1.1的解法极大概率是分析的前者情况了。

但是，后来一想，存在这个samples数据集，而且数据量为165个文件，并不是非常大，而且如果仅仅分析前者非常简单，不像是团队项目要完成的任务量。

综上所述，要对每一个id对应的brand映射好，构造brand字典，遍历samples数据，将数据统计到brand字典当中。

Are there cases of brands that appear in the list under different names?

后来外教又声明了一下：

About the question “Are there cases of brands that appear in the list under different names?”, what I want to know is if there are smartphone manufacturers in the dataset that appear with similar but different names? If not, tell me so. If yes, which ones?

这句话就是说有没有手机制造商相似（同）但是名字却不同？

我认为这句话就是说，是否同一个品牌以不同的名字出现。存在。因为有HUAWEI和Huawei，这个可以用统一大写和不进行操作得到，操作之后brand变多了！这个几乎和2.2的第一小问解法一样。

1.2

要做两个饼图，
饼图1：10个top10以及1个other的brands（的比例）信息；
饼图2：10个top10以及1个other的models（的比例）信息。

其中对于slice的解释，在WordNet上搜索，

piece, slice – (a serving that has been cut from a larger portion; “a piece of pie”; “a slice of bread”)

这里的slice解释可以为扇区，就是饼图的一块，一部分。

其中最难理解的是对radius的解释，按常理这应该翻译为半径，但是饼图不是按照面积大小来反映比例吗？怎么成半径了？难不成是玫瑰图？在网上搜了，玫瑰图是饼图的变种图，所以说可以说玫瑰图是饼图。在知乎上搜了搜：

https://zhuanlan.zhihu.com/p/345262150

起初还想radius是不是弧度，如果是弧度的话就是纯饼图了，但是弧度的英文是radian，那么此题就是要画玫瑰图，形状为上图的左上图。

由于涉及到了其他项，把数据总量当成分母进行运算即可。

GROUP1

2.1

数据处理是针对app_processes数据集。

根据布尔表达式is_system_app == 1来确定是否保留字段，字段属性值仅保留name和application_label，根据个人猜测，name和application_label是一一对应的，那么，如要减少内存占用量，可先将映射关系保存在字典中。

但是name和application_label不是一一对应的，比如说存在：

com.google.android.music:main;Google Play Music
com.google.android.music:main;Google Play Música

也就是说一个name如com.google.android.music:main对应了多于一个application_label如Google Play Music和Google Play Música。

2.2

又是意义不明确的一句：

Establish the twenty smartphone brands with the most models in the dataset.

the dataset到底是哪个数据集呀？这儿个人的分析是devices数据集，就是仅仅用该数据集创造一个{brands:num of models}的字典，字典的键是智能手机品牌，值是该品牌拥有的不同型号（因为存在一个品牌的同一型号出现多次）数量。

其次，要构造出{brands:countries}的字典，但是搜了三个数据集的属性值，仅有的是samples数据集中的timezone和country_code属性，其中存在这样的值：

America/Chicago;us
Europe/Lisbon;pt

但是你想，这是时区和其对应的国家代码，有可能中国生产的手机但是美国人在用啊！所以我认为品牌是中国还是韩国的还是要在网络上进行搜索并构造出映射表。因为仅仅有top20的品牌，所以比较容易遍历完。

做题

2.1

对于将两个字典进行合并是很重要的，而且不光是要求并集，而且要把相同的数值进行相加处理：

def sum_dict(a,b):
    temp = dict()
    for key in a.keys()| b.keys():
        temp[key] = sum([d.get(key, 0) for d in (a, b)])
    return temp

2.2.1

path = '../dataset-devices/devices.query.1.csv'
df = pd.read_csv(path,sep=';')
df.head()

可见

思路是：把brand和model抽取出来，进行去重处理，统计每个brand的数量就是每个brand所拥有的model数量。

于是构造出一个函数：

def get_top20_brand_model_type_counts():
    path = '../dataset-devices/'
    frames=[]
    for file in os.listdir(path):
        path_f = path+file
        df = pd.read_csv(path_f,sep=';')
        data = df.loc[:,['model','brand']]
        frames.append(data)
    data = pd.concat(frames)
    return data.drop_duplicates().brand.value_counts()[:20]

查看一下结果：

get_top20_brand_model_type_counts()

samsung     1321
lge          534
alps         496
TCL          418
HUAWEI       378
ZTE          286
Lenovo       268
htc          195
Sony         193
TECNO        188
asus         187
Micromax     186
OPPO         179
BLU          173
QMobile      154
motorola     153
Huawei       152
vivo         143
Android      141
ADVAN        121
Name: brand, dtype: int64

可以看到HUAWEI和Huawei是同一个品牌啊，但是他们却分成了不一样的类别，所以应该提前进行数据清洗，把所有的改成大写或者改成小写。

在进行去重之前，首先对model和brand列进行全大写归一化处理：

    data.model=data.model.apply(lambda x:str(x).upper())
    data.brand=data.brand.apply(lambda x:str(x).upper())

之后运算的结果为：

SAMSUNG     1392
LGE          533
HUAWEI       531
ALPS         495
TCL          418
ZTE          302
LENOVO       269
TECNO        220
HTC          200
SONY         193
MICROMAX     190
ASUS         189
OPPO         179
BLU          175
QMOBILE      164
MOTOROLA     156
LAVA         156
ANDROID      149
VIVO         144
INTEX        138
Name: brand, dtype: int64

其实这样算出来是错误的，三十多万个数据怎么这么少？在写其他代码的时候发现了这一点，就是索引不一致的问题，在concat合并的时候一定要：

    data = pd.concat(frames).reset_index()

其中还有个drop参数。

最后的结果是这样的：

SAMSUNG     84342
XIAOMI      28558
OPPO        22095
VIVO        15454
HUAWEI      14709
MOTOROLA    12741
LGE         10909
LENOVO       8745
ASUS         5533
TCL          5189
TECNO        5113
ITEL         4572
MICROMAX     4227
ZTE          3659
NOKIA        3639
ADVAN        3571
LAVA         3537
INFINIX      3033
HONOR        2760
SONY         2712
Name: brand, dtype: int64

其实这样也是错误的，原因：

虽然reset了index，但是index这一列没有删除，这就导致去重无效。

SAMSUNG     1392
LGE          533
HUAWEI       531
ALPS         495
TCL          418
ZTE          302
LENOVO       269
TECNO        220
HTC          200
SONY         193
MICROMAX     190
ASUS         189
OPPO         179
BLU          175
QMOBILE      164
LAVA         156
MOTOROLA     156
ANDROID      149
VIVO         144
INTEX        138
Name: brand, dtype: int64

所以说结果是没错的。

还有一点，有着HUAWEI.这样的brand，可以用如下函数对比发现：

# only keep upper characters and numbers
def drop_duplicate(x):
    temp=''
    for i in x:
        if 48<=ord(i)<=57 or 65<=ord(i)<=90:
            temp+=i
    return temp

再对brand操作一下：

	data.brand=data.brand.apply(drop_duplicate)

得到的结果：

SAMSUNG     1392
LGE          533
HUAWEI       532 <- 531
ALPS         495
TCL          418
ZTE          302
LENOVO       269
TECNO        220
HTC          200
SONY         194 <- 193
MICROMAX     190
ASUS         189
OPPO         179
BLU          175
QMOBILE      168 <- 164
MOTOROLA     156
LAVA         156
ANDROID      149
VIVO         144
INTEX        138
Name: brand, dtype: int64

2.2.1的完整代码如下：

import pandas as pd 
import os 

def get_top20_brand_model_type_counts():
    path = '../dataset-devices/'
    frames=[]
    for file in os.listdir(path):
        path_f = path+file
        df = pd.read_csv(path_f,sep=';')
        data = df.loc[:,['model','brand']]
        frames.append(data)
    data = pd.concat(frames).reset_index()
    data.model=data.model.apply(lambda x:str(x).upper())
    data.brand=data.brand.apply(lambda x:str(x).upper())
    
    return data.drop_duplicates().brand.value_counts()[:20]

经过在网络上查找，可以获取到品牌对应的国家：

southKorean=['SAMSUNG','LGE']
Chinese=['XIAOMI','OPPO','VIVO','HUAWEI','LENOVO','ASUS','TCL','TECNO','ITEL','ZTE','INFINIX','HONOR']

经过更改，是这样的：

Korean=['SAMSUNG','LGE']
Chinese=['HUAWEI','TCL','ZTE','LENOVO','TECNO','HTC','ASUS','OPPO','VIVO']

2.2.2

要构造出来一个手机id与生产国家对应的，如1:‘China’,3:‘southKorean’，这样的；然后再在app_processes里面进行遍历与统计，类似于2.1。

samples里面的id对应app_processes里面的sample_id
samples里面的device_id对应devices里面的id
想要知道app_processes里面的sample_id对应什么device_id，从而知道是什么品牌
app_processes里面有id;sample_id，id用不着，找sample_id到device_id的映射
就是找samples里面的id到他的device_id的映射
取smaples里的id和device_id这两列再搞映射关系即可

首先，要在devices-dataset里面获取到device_id和国家名的映射关系，因为samples-dataset里面有id和device_id，所以根据上面获得的映射关系，将device_id映射到国家，可以获得id和国家的映射关系，也就是sample_id和国家的映射关系。
之后遍历app_processes-dataset中的所有文件，首先筛选出非系统文件，取出sample_id列和name列，将之前的sample_id-country映射字典应用在sample_id列上，再以中国和韩国为不同的统计对象进行应用名的统计即可，且在文件的不断访问中不断拼接统计的数据。
最后得到的数据分别是中国、韩国的前十个出现次数最多的非系统应用，对于相同的应用名，采用饼图进行对比。

def get_sampleid_deviceid_map():
    path = '../samples/'
    res_dict = {}
    for file in os.listdir(path):
        path_f = path+file
        df = pd.read_csv(path_f,sep=';')      
        res_dict = {**res_dict,**dict(df.loc[:,['id','device_id']].values)}
    return res_dict

这个文件太大了，而且没有必要把所有的映射都弄上去，只弄韩国和中国的就行了，要不然非常大，而且非常耗时，这需要结合布尔表达式在每次处理文件的时候筛掉。

所以进行了精简

%%time
southKorean=['SAMSUNG','LGE']
Chinese=['XIAOMI','OPPO','VIVO','HUAWEI','LENOVO','ASUS','TCL','TECNO','ITEL','ZTE','INFINIX','HONOR']
# process daevices
path = '../dataset-devices/'
frames=[]
for file in os.listdir(path):
    path_f = path+file
    df = pd.read_csv(path_f,sep=';')
    data = df.loc[:,['id','brand']]
    frames.append(data)
data = pd.concat(frames).reset_index(drop=True)
data.brand=data.brand.apply(lambda x:str(x).upper())
deviceid_country_map=dict(zip(data.id.values,data.brand.apply(conf_country).values))
# process samples
path2 = '../samples/'
res_dict = {}
for file in os.listdir(path2)[:20]:
    path_f2 = path2+file
    df2 = pd.read_csv(path_f2,sep=';')
    df2=df2.loc[:,['id','device_id']]
    df2.device_id=df2.device_id.map(deviceid_country_map)
    processed_dict=dict(zip(df2.dropna().id,df2.dropna().device_id))
    res_dict = {**res_dict,**processed_dict}

读取完20个文件需要29.5 s，而且用

float(sys.getsizeof(res_dict))/(2**20)

计算得到的字典的内存占用量仅为160MB，那么再测试一下全部165个文件的情况。

全部文件用时5min 30s，占用1280MB、1.25GB内存，可以接受。

这几乎和之前得到的相差了20000000个数值。

但是结果仍然很离谱，如果按照这个速度仅仅进行映射，需要跑27个小时才能跑完…

令人非常兴奋的是，我找到了一个解法！这么长的时间，一猜就是进行了遍历，就是说，要遍历完字典中所有的值才会结束。但是直接在字典中索引一个值是不会消耗很长的时间的，所以：

def deom(x):
    try:
        return res_dict[x]
    except KeyError:
        return None

path6='../app_processes/app_processes.query.1.csv'
df6=pd.read_csv(path6,sep=';')
df7=df6[df6.is_system_app==0]
df7.sample_id.apply(deom)

对比一下：

这是何等的差距！

df8=df7.copy()
df8.sample_id=df8.sample_id.apply(deom)
df8[~df8.sample_id.isna()]

在测试中出现了一个报错：

A value is trying to be set on a cop`在这里插入代码片`y of a slice from a DataFrame

这个处理方式是用data2=data1.copy()，然后操作data2。

如下代码是获取映射字典的函数：

def conf_country(x):
    if x in southKorean:
        return 'Korean'
    elif x in Chinese:
        return 'Chinese'
    else:
        return None
# 获取sample_id，country映射字典：
def get_sampleid_country_map():
    southKorean=['SAMSUNG','LGE']
    Chinese=['XIAOMI','OPPO','VIVO','HUAWEI','LENOVO','ASUS','TCL','TECNO','ITEL','ZTE','INFINIX','HONOR']
    # process daevices
    path = '../dataset-devices/'
    frames=[]
    for file in os.listdir(path):
        path_f = path+file
        df = pd.read_csv(path_f,sep=';')
        data = df.loc[:,['id','brand']]
        frames.append(data)
    data = pd.concat(frames).reset_index(drop=True)
    data.brand=data.brand.apply(lambda x:str(x).upper())
    deviceid_country_map=dict(zip(data.id.values,data.brand.apply(conf_country).values))
    # process samples
    path2 = '../samples/'
    res_dict = {}
    for file in os.listdir(path2):
        path_f2 = path2+file
        df2 = pd.read_csv(path_f2,sep=';')
        df2=df2.loc[:,['id','device_id']]
        df2.device_id=df2.device_id.map(deviceid_country_map)
        processed_dict=dict(zip(df2.dropna().id,df2.dropna().device_id))
        res_dict = {**res_dict,**processed_dict}
    return res_dict

以下是完整的操作中国和韩国品牌对应的非系统应用使用频率情况：

def sum_dict(a,b):
    temp = dict()
    for key in a.keys()| b.keys():
        temp[key] = sum([d.get(key, 0) for d in (a, b)])
    return temp

# 在使用之前要注意res_dict是否被定义，res_dict=get_sampleid_country_map()
def map_func(x):
    try:
        return res_dict[x]
    except KeyError:
        return None

def app_name_CN_KR(start=1,num=10,allData=False):
    path = '../app_processes/'
    all_path_list = [path+i for i in os.listdir(path)]
    ChinaDict = {}
    KoreanDict = {}
    for file in all_path_list if allData==True else all_path_list[start-1:start-1+num]:
        df = pd.read_csv(file,sep=';',error_bad_lines=False, warn_bad_lines=False)
        data = df[df.is_system_app==0]
        data2=data.copy()
        data2.sample_id=data2.sample_id.apply(map_func)
        data2=data2[~data2.sample_id.isna()]
        
        ChinaDict = sum_dict(ChinaDict,dict(data2[data2.sample_id=='Chinese'].name.value_counts()))
        KoreanDict = sum_dict(KoreanDict,dict(data2[data2.sample_id=='Korean'].name.value_counts()))
        ChinaDict = dict(sorted(ChinaDict.items(),key=lambda x:x[1],reverse=True))
        KoreanDict = dict(sorted(KoreanDict.items(),key=lambda x:x[1],reverse=True))
        
    return (list(ChinaDict)[:10], list(KoreanDict)[:10])

操作100个文件需要32.2s，粗略计算，5912个文件，总共32.2*(5912/100)=1903.664s，31.73min。

又从第3000个文件往后读取了200个文件：

其实如果代码是正确的，在jupyter notebook上可以忽略提示，在网上查找是使用如下代码：

import warnings
warnings.filterwarnings('ignore')

但是没用。

还有人说可以这样用：

pd.option.mode.chained_assignment = None

但是：

module 'pandas' has no attribute 'option'

经过查找发现read_csv里面还有一个参数可以使用：

data = pd.read_csv(path, error_bad_lines=False, warn_bad_lines=False)

中韩的结果：

({'com.mansoon.BatteryDouble': 7048682,
  'com.google.android.googlequicksearchbox:interactor': 5614711,
  'com.google.android.googlequicksearchbox:search': 4320737,
  'com.google.android.gms.persistent': 4037772,
  'org.simalliance.openmobileapi.service:remote': 3127717,
  'com.facebook.orca': 2565712,
  'com.facebook.lite:fbns': 2165906,
  'com.whatsapp': 2130342,
  'com.facebook.katana': 2121389,
  'com.instagram.android:mqtt': 1884579},
 {'com.mansoon.BatteryDouble': 17313967,
  'com.google.android.googlequicksearchbox:search': 14933720,
  'com.google.android.googlequicksearchbox:interactor': 14228639,
  'org.simalliance.openmobileapi.service:remote': 11804923,
  'com.facebook.orca': 7960282,
  'com.google.android.gms.persistent': 6953279,
  'com.instagram.android:mqtt': 6149233,
  'com.android.systemui.recents': 5069114,
  'com.whatsapp': 4827753,
  'com.sec.spp.push:RemoteDlcProcess': 4811125})

大数据的处理方法：每一次只打开一个文件，只通过这个文件获取到想要的东西，然后再读取另一个文件的时候将获得到的相似的东西通过某些特定的函数整合到一起，保存在内存中，经过这样不断迭代，直到读取完所有的文件。这样的好处是内存占用很少，但是限于文件的数量、大小、cpu的速度、硬盘的读取速度，读取并操作完所有的文件的速度还是很慢的。

你可能感兴趣的:(笔记,python学习,学习记录,python)

10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&