weixin_30363817

爬虫综合大作业——网易云音乐《Five Hours》爬虫&可视化分析

作业要求来自于https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075

爬虫综合大作业

选择一个热点或者你感兴趣的主题。
选择爬取的对象与范围。
了解爬取对象的限制与约束。
爬取相应内容。
做数据分析与文本分析。
形成一篇文章，有说明、技术要点、有数据、有数据分析图形化展示与说明、文本分析图形化展示与说明。
文章公开发布。

1. 数据爬取

我们本次爬取的对象是一首名为《five hours》的经典电音流行歌曲，Five Hours是Erick Orrosquieta于2014年4月发行的单曲，当年这首单曲就出现在奥地利，比利时，法国，荷兰，挪威，瑞典和瑞士的榜单中。

作者Erick Orrosquieta，一般为人熟知的是他的艺名Deorro，2014年世界百大DJ排名十九位。1991年8月29日生于美国洛杉矶，墨西哥血统的音乐制作人，签约Ultra Records，2014年他创立了唱片公司Panda Funk。Deorro以前用过TON!C这个名字。Deorro的音乐倾向Melbourne Bounce风格，融合Dutch、 moombah, progressive、 house、贝斯等多种元素和风格，几分钟就可以点炸现场气氛。他的这首单曲“Five Hours”登顶Most Played on Dance Radio和Most Played on Top 40 radio Mixshows。

爬虫综合大作业——网易云音乐《Five Hours》爬虫&可视化分析_第1张图片

而在爬虫部分主要是调用官方API，本次用到的API主要有两个：

①获取评论:
http://music.163.com/api/v1/resource/comments/R_SO_4_{歌曲ID}?limit={每页限制数量}&offset={评论数总偏移}

②获取评论对应用户的信息:
https://music.163.com/api/v1/user/detail/{用户ID}

完成后的项目文件图如下：

1.1 评论爬取

具体代码如下：

 1 from urllib import request
 2 import json
 3 import pymysql
 4 from datetime import datetime
 5 import re
 6 
 7 ROOT_URL = 'http://music.163.com/api/v1/resource/comments/R_SO_4_%s?limit=%s&offset=%s'
 8 LIMIT_NUMS = 50    # 每页限制爬取数
 9 DATABASE = 'emp'    # 数据库名
10 TABLE = 'temp1'    # 数据库表名
11 # 数据表设计如下：
12 '''
13 commentId(varchar) 
14 content(text)         likedCount(int) 
15 userId(varchar)    time(datetime)
16 '''
17 PATTERN = re.compile(r'[\n\t\r\/]') # 替换掉评论中的特殊字符以防插入数据库时报错
18 
19 def getData(url):
20     if not url:
21         return None, None
22     headers = {
23             "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36',
24             "Host": "music.163.com",
25 }
26     print('Crawling>>> ' + url)
27     try:
28         req = request.Request(url, headers=headers)
29         content = request.urlopen(req).read().decode("utf-8")
30         js = json.loads(content)
31         total = int(js['total'])
32         datas = []
33         for c in js['comments']:
34             data = dict()
35             data['commentId'] = c['commentId']
36             data['content'] = PATTERN.sub('', c['content'])
37             data['time'] = datetime.fromtimestamp(c['time']//1000)
38             data['likedCount'] = c['likedCount']
39             data['userId'] = c['user']['userId']
40             datas.append(data)
41         return total, datas
42     except Exception as e:
43         print('Down err>>> ', e)
44         pass
45     
46 def saveData(data):
47     if not data:
48         return None
49     conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='emp', charset='utf8mb4') # 注意字符集要设为utf8mb4，以支持存储评论中的emoji表情
50     cursor = conn.cursor()
51     sql = 'insert into ' + TABLE + ' (commentId,content,likedCount,time,userId) VALUES (%s,%s,%s,%s,%s)'
52     
53     for d in data:
54         
55         try:
56             #cursor.execute('SELECT max(c) FROM '+TABLE)
57             #id_ = cursor.fetchone()[0]
58             
59             cursor.execute(sql, (d['commentId'], d['content'], d['likedCount'], d['time'], d['userId']))
60             conn.commit()
61         except Exception as e:
62             print('mysql err>>> ',d['commentId'],e)
63             pass
64 
65     cursor.close()
66     conn.close()    
67     
68 if __name__ == '__main__':
69     songId = input('歌曲ID：').strip()
70     total,data = getData(ROOT_URL%(songId, LIMIT_NUMS, 0))
71     saveData(data)
72     if total:
73         for i in range(1, total//50+1):
74                 _, data = getData(ROOT_URL%(songId, LIMIT_NUMS, i*(LIMIT_NUMS)))
75                 saveData(data)

实际操作过程中，网易云官方对于API的请求是有限制的，有条件的可以采用更换代理IP来防反爬，而这一次作业在爬取数据的时候由于前期操作过度，导致被BAN IP，数据无法获取，之后是通过挂载虚拟IP才实现数据爬取的。

本次采用的是单线程爬取，所以IP封的并不太频繁，后面会对代码进行重构，实现多线程+更换IP来加快爬取速度。

根据获取评论的API，请求URL有3个可变部分：每页限制数limit和评论总偏移量offset，通过API分析得知：当offeset=0时，返回json数据中包含有评论总数量total。

本次共爬取5394条数据（避免盲目多爬被封ID）

1.2 用户信息爬取

具体代码如下：

 1 from urllib import request
 2 import json
 3 import pymysql
 4 import re
 5 
 6 ROOT_URL = 'https://music.163.com/api/v1/user/detail/'
 7 DATABASE = 'emp'
 8 TABLE_USERS = 'temp2'
 9 TABLE_COMMENTS = 'temp1'
10 # 数据表设计如下：
11 '''
12 id(int)                userId(varchar) 
13 gender(char)         userName(varchar) 
14 age(int)            level(int)            
15 city(varchar)        sign(text)            
16 eventCount(int)    followedCount(int)    
17 followsCount(int)    recordCount(int)    
18 avatar(varchar)
19 '''
20 PATTERN = re.compile(r'[\n\t\r\/]') # 替换掉签名中的特殊字符以防插入数据库时报错
21 headers = {
22             "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36',
23             "Host": "music.163.com",
24 }
25 def getData(url):
26     if not url:
27         return None
28     print('Crawling>>> ' + url)
29     try:
30         req = request.Request(url, headers=headers)
31         content = request.urlopen(req).read().decode("utf-8")
32         js = json.loads(content)
33         data = {}
34         if js['code'] == 200:
35             data['userId'] = js['profile']['userId']
36             data['userName'] = js['profile']['nickname']
37             data['avatar'] = js['profile']['avatarUrl']
38             data['gender'] = js['profile']['gender']
39             if int(js['profile']['birthday'])<0:
40                 data['age'] = 0
41             else:
42                 data['age'] =(2018-1970)-(int(js['profile']['birthday'])//(1000*365*24*3600))
43             if int(data['age'])<0:
44                 data['age'] = 0
45             data['level'] = js['level']
46             data['sign'] = PATTERN.sub(' ', js['profile']['signature'])
47             data['eventCount'] = js['profile']['eventCount']
48             data['followsCount'] = js['profile']['follows']
49             data['followedCount'] = js['profile']['followeds']
50             data['city'] = js['profile']['city']
51             data['recordCount'] = js['listenSongs']
52             
53             saveData(data)
54     except Exception as e:
55         print('Down err>>> ', e)
56         pass
57     return None
58 
59 def saveData(data):
60     if not data:
61         return None
62     conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='emp', charset='utf8mb4') # 注意字符集要设为utf8mb4，以支持存储签名中的emoji表情
63     cursor = conn.cursor()
64     sql = 'insert into ' + TABLE_USERS + ' (userName,gender,age,level,city,sign,eventCount,followsCount,followedCount,recordCount,avatar,userId) VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)'
65     try:
66         
67         
68         cursor.execute(sql, (data['userName'],data['gender'],data['age'],data['level'],data['city'],data['sign'],data['eventCount'],data['followsCount'],data['followedCount'],data['recordCount'],data['avatar'],data['userId']))
69         conn.commit()
70     except Exception as e:
71         print('mysql err>>> ',data['userId'],e)
72         pass
73     finally:
74         cursor.close()
75         conn.close()    
76 
77 def getID():
78     conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='emp', charset='utf8mb4')
79     cursor = conn.cursor()
80     sql = 'SELECT userId FROM '+TABLE_COMMENTS
81     try:
82         cursor.execute(sql)
83         res = cursor.fetchall()
84         return res
85     except Exception as e:
86         print('get err>>> ', e)
87         pass
88     finally:
89         cursor.close()
90         conn.close()
91     return None
92 
93 if __name__ == '__main__':
94     usersID = getID()
95     for i in usersID:
96         getData(ROOT_URL+i[0].strip())
97

根据获取用户信息的API，请求URL有1个可变部分：用户ID，前一部分已经将每条评论对应的用户ID也存储下来，这里只需要从数据库取用户ID并抓取信息即可（对应以上的5394条数据）。

至此，已经完成了歌曲评论和对应用户信息的抓取。接下来，对抓取到的数据进行清洗及可视化分析。

2 数据清洗 & 可视化

处理代码如下：

  1 import pandas as pd
  2 import pymysql
  3 from pyecharts import Bar,Pie,Line,Scatter,Map
  4 
  5 TABLE_COMMENTS = 'temp1'
  6 TABLE_USERS = 'temp2'
  7 DATABASE = 'emp'
  8 
  9 conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='emp', charset='utf8mb4')
 10 sql_users = 'SELECT id,gender,age,city FROM '+TABLE_USERS
 11 sql_comments = 'SELECT id,time FROM '+TABLE_COMMENTS
 12 comments = pd.read_sql(sql_comments, con=conn)
 13 users = pd.read_sql(sql_users, con=conn)
 14 
 15 # 评论时间(按天)分布分析
 16 comments_day = comments['time'].dt.date
 17 data = comments_day.id.groupby(comments_day['time']).count()
 18 line = Line('评论时间(按天)分布')
 19 line.use_theme('dark')
 20 line.add(
 21     '',
 22     data.index.values,
 23     data.values,
 24     is_fill=True,
 25 )
 26 line.render(r'./评论时间(按天)分布.html')
 27 # 评论时间(按小时)分布分析
 28 comments_hour = comments['time'].dt.hour
 29 data = comments_hour.id.groupby(comments_hour['time']).count()
 30 line = Line('评论时间(按小时)分布')
 31 line.use_theme('dark')
 32 line.add(
 33     '',
 34     data.index.values,
 35     data.values,
 36     is_fill=True,
 37 )
 38 line.render(r'./评论时间(按小时)分布.html')
 39 # 评论时间(按周)分布分析
 40 comments_week = comments['time'].dt.dayofweek
 41 data = comments_week.id.groupby(comments_week['time']).count()
 42 line = Line('评论时间(按周)分布')
 43 line.use_theme('dark')
 44 line.add(
 45     '',
 46     data.index.values,
 47     data.values,
 48     is_fill=True,
 49 )
 50 line.render(r'./评论时间(按周)分布.html')
 51 
 52 # 用户年龄分布分析
 53 age = users[users['age']>0]    # 清洗掉年龄小于1的数据
 54 age = age.id.groupby(age['age']).count()    # 以年龄值对数据分组
 55 Bar = Bar('用户年龄分布')
 56 Bar.use_theme('dark')
 57 Bar.add(
 58     '',
 59     age.index.values,
 60     age.values,
 61     is_fill=True,
 62 )
 63 Bar.render(r'./用户年龄分布图.html')    # 生成渲染的html文件
 64 
 65 # 用户地区分布分析
 66 # 城市code编码转换
 67 def city_group(cityCode):
 68     city_map = {
 69         '11': '北京',
 70         '12': '天津',
 71         '31': '上海',
 72         '50': '重庆',
 73         '5e': '重庆',
 74         '81': '香港',
 75         '82': '澳门',
 76         '13': '河北',
 77         '14': '山西',
 78         '15': '内蒙古',
 79         '21': '辽宁',
 80         '22': '吉林',
 81         '23': '黑龙江',
 82         '32': '江苏',
 83         '33': '浙江',
 84         '34': '安徽',
 85         '35': '福建',
 86         '36': '江西',
 87         '37': '山东',
 88         '41': '河南',
 89         '42': '湖北',
 90         '43': '湖南',
 91         '44': '广东',
 92         '45': '广西',
 93         '46': '海南',
 94         '51': '四川',
 95         '52': '贵州',
 96         '53': '云南',
 97         '54': '西藏',
 98         '61': '陕西',
 99         '62': '甘肃',
100         '63': '青海',
101         '64': '宁夏',
102         '65': '新疆',
103         '71': '台湾',
104         '10': '其他',
105     }
106     return city_map[cityCode[:2]]
107     
108 city = users['city'].apply(city_group)
109 city = city.id.groupby(city['city']).count()
110 map_ = Map('用户地区分布图')
111 map_.add(
112     '',
113     city.index.values,
114     city.values,
115     maptype='china',
116     is_visualmap=True,
117     visual_text_color='#000',
118     is_label_show=True,
119 )
120 map_.render(r'./用户地区分布图.html')

关于数据的清洗，实际上在上一部分抓取数据的过程中已经做了一部分，包括：后台返回的空用户信息、重复数据的去重等。除此之外，还要进行一些清洗：用户年龄错误、用户城市编码转换等。

关于数据的去重，评论部分可以以sommentId为数据库索引，利用数据库来自动去重；用户信息部分以用户ID为数据库索引实现自动去重。

①API返回的用户年龄一般是时间戳的形式(以毫秒计)、有时候也会返回一个负值或者一个大于当前时间的值，暂时没有找到这两种值代表的含义，故而一律按0来处理。

②API返回的用户信息中，城市分为province和city两个字段，本此分析中只保存了city字段。实际上字段值是一个城市code码

③在这部分，利用Python的数据处理库pandas进行数据处理，利用可视化库pyecharts进行数据可视化。

以上，是对抓取到的数据采用可视化库pyecharts进行可视化分析，得到的结果如下：

结论一：评论时间按周分布图可以看出，评论数在一周当中前面较少，后面逐渐增多，这可以解释为往后接近周末，大家有更多时间来听听歌、刷刷歌评，而一旦周末过完，评论量马上下降（周日到周一的下降过渡），大家又回归到工作当中。

结论二：评论时间按小时分布图可以看出，评论数在一天当中有两个小高峰：11点-13点和22点-0点。这可以解释为用户在中午午饭时间和晚上下班(课)在家时间有更多的时间来听歌刷评论，符合用户的日常。至于为什么早上没有出现一个小高峰，大概是早上大家都在抢时间上班(学)，没有多少时间去刷评论。

结论三：用户年龄分布图可以看出，用户大多集中在14-30岁之间，以20岁左右居多，除去虚假年龄之外，这个年龄分布也符合网易云用户的年龄段。图中可以看出28岁有个高峰，猜测可能是包含了一些异常数据，有兴趣的化可以做进一步分析。

结论四：用户地区分布图可以看出，用户涵盖了全国各大省份，因为中间数据(坑)的缺失，并没有展现出哪个省份特别突出的情况。对别的歌评(完全数据)的可视化分析，可以看出明显的地区分布差异。用户地区分布图可以看出，用户涵盖了全国各大省份，因为中间数据的缺失，并没有展现出哪个省份特别突出的情况。对别的歌评(完全数据)的可视化分析，可以看出明显的地区分布差异。

细心观察评论数(按天)分布那张图，发现2017年到2018年间有很大一部分数据缺失，这实际上是因为在数据抓取过程中出现的问题。研究了一下发现，根据获取歌曲评论的API，实际上每首歌最多只能获得2w条左右(去重后)的评论，对于评论数超过2w的歌曲，只能获得前后(日期)各1w条评论，而且这个限制对于网易云官网也是存在的，具体表现为：对一首评论数超过2w的歌，如果一直往后浏览评论，会发现从第500页(网页端网易云每页20条评论)往后，后台返回的内容和第500页完全一样，从后往前同理。这应该是官方后台做了限制，连自家也不放过。。。

此次分析只是对某一首歌曲评论时间、用户年龄/地区分布进行的，实际上抓取到的信息不仅仅在于此，可以做进一步分析（比如利用评论内容进行文本内容分析等），这部分，未来会进一步分析。当然也可以根据自己情况对不同歌曲进行分析。

3.歌评文本分析

评论的文本分析做了两部分：情感分析和词云生成。
情感分析采用Python的文本分析库snownlp。具体代码如下：

 1 import numpy as np
 2 import pymysql
 3 from snownlp import SnowNLP
 4 from pyecharts import Bar
 5 
 6 TABLE_COMMENTS = 'temp1'
 7 DATABASE = 'emp'
 8 SONGNAME = 'five hours'
 9 
10 def getText():
11     conn = pymysql.connect(host='localhost', user='root', passwd='123456', db=DATABASE, charset='utf8')
12     sql = 'SELECT id,content FROM '+TABLE_COMMENTS
13     text = pd.read_sql(sql%(SONGNAME), con=conn)
14     return text
15 
16 def getSemi(text):
17     text['content'] = text['content'].apply(lambda x:round(SnowNLP(x).sentiments, 2))
18     semiscore = text.id.groupby(text['content']).count()
19     bar = Bar('评论情感得分')
20     bar.use_theme('dark')
21     bar.add(
22         '',
23         y_axis = semiscore.values,
24         x_axis = semiscore.index.values,
25         is_fill=True,
26     )
27     bar.render(r'情感得分分析.html')
28 
29     text['content'] = text['content'].apply(lambda x:1 if x>0.5 else -1)
30     semilabel = text.id.groupby(text['content']).count()
31     bar = Bar('评论情感标签')
32     bar.use_theme('dark')
33     bar.add(
34         '',
35         y_axis = semilabel.values,
36         x_axis = semilabel.index.values,
37         is_fill=True,
38     )
39     bar.render(r'情感标签分析.html')

结果：

词云生成采用jieba分词库分词，wordcloud生成词云，具体代码如下：

 1 from wordcloud import WordCloud
 2 import matplotlib.pyplot as plt
 3 plt.style.use('ggplot')
 4 plt.rcParams['axes.unicode_minus'] = False
 5 
 6 def getWordcloud(text):
 7     text = ''.join(str(s) for s in text['content'] if s)
 8     word_list = jieba.cut(text, cut_all=False)
 9     stopwords = [line.strip() for line in open(r'./StopWords.txt', 'r').readlines()]    # 导入停用词
10     clean_list = [seg for seg in word_list if seg not in stopwords] #去除停用词
11     clean_text = ''.join(clean_list)
12     # 生成词云
13     cloud = WordCloud(
14         font_path = r'C:/Windows/Fonts/msyh.ttc',
15         background_color = 'white',
16         max_words = 800,
17         max_font_size = 64
18     )
19     word_cloud = cloud.generate(clean_text)
20     # 绘制词云
21     plt.figure(figsize=(12, 12))
22     plt.imshow(word_cloud)
23     plt.axis('off')
24     plt.show()
25     
26 if __name__ == '__main__':
27     text = getText()
28     getSemi(text)
29     getWordcloud(text)

词云：

转载于:https://www.cnblogs.com/666hll1212123/p/10786079.html

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
闲鱼鱼小铺怎么开通？鱼小铺开通需要哪些流程？高省APP大九
闲鱼鱼小铺是平台推出的一个专业程度的店铺，与普通店铺相比会有更多的权益，比如说发布的商品数量从50增加到500；拥有专业的店铺数据看板与分析的功能，这对于专门在闲鱼做生意的用户来说是非常有帮助的，那么鱼小铺每个人都能开通吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
2019-11-04复盘——飞来山上千寻塔，闻说鸡鸣见日升。那一叶秋
1、大盘篇先上老图，看习惯了，也就知道走势了图1上证指数日线图还是那张老图，自己可以在自己的相关软件上画出来，快变盘了。2、个股篇未加仓、未减仓。分析量能的时候，突然发现这么一个东西：“放量突破年线，缩量回调。”合众科技日线图其实，最近的N只个股，在技术分析上，都到了变盘的临界时候。结合这么久的走势，特别是ZJH不断放开IPO的申请，本质上说是融资难度变大，或者说是为企业的融资开创便利。但现在市场
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
果然只有离职的时候，才有人敢说真话！ return2ok
今天公司出了神贴。今天中午吃饭，同事问我看了论坛上的神贴了吗？什么帖子？我问。同事显得很惊讶，你居然没看，现在那个帖子可能会成为年度最佳帖子。这么厉害？我等不及了，饭没吃完就快速的奔向办公室，打开公司论坛，我要一睹这个帖子的神奇。写这帖子的童鞋胆儿真肥。这哪里是一个帖子，这是很多个帖子，组成了一个系列。某人从公司文化、管理、人事、项目管理等多个方面分析了公司的概况，并抨击了公司的各种弊端，并提出了
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的

爬虫综合大作业——网易云音乐《Five Hours》爬虫&可视化分析

作业要求来自于https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075