木子一个Lee

大数据开源框架之基于Spark的气象数据处理与分析

Spark配置请看：

(30条消息) 大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署_木子一个Lee的博客-CSDN博客

实验说明：

实验要求：

实验步骤：

数据获取：

数据分析：

可视化：

参考代码(适用于python3)：

运行结果：

实验说明：

本次实验所采用的数据，从中央气象台官方网站（网址：http://www.nmc.cn/）爬取，主要是最近24小时各个城市的天气数据，包括时间整点、整点气温、整点降水量、风力、整点气压、相对湿度等。正常情况每个城市对应24条数据（每个整点一条）。数据规模达到2412个城市，57888条数据，有部分城市部分时间点数据存在缺失或异常。特别说明：实验所用数据均为网上爬取，没有得到中央气象台官方授权使用，使用范围仅限本次实验使用，请勿用于商业用途。

实验要求：

1．数据获取，最后保存的各个城市最近24小时整点天气数据(passed_weather_ALL.csv)每条数据各字段含义如下所示，这里仅列出实验中使用部分：

字段含义	字段含义
province 城市所在省份（中文）	province 城市所在省份（中文）
city_index 城市序号（计数）	city_index 城市序号（计数）
city_name 城市名称（中文）	city_name 城市名称（中文）
city_code 城市编号	city_code 城市编号
time 时间点（整点）	time 时间点（整点）
temperature 气温	temperature 气温
rain1h 过去1小时降雨量；	rain1h 过去1小时降雨量；

2. 数据分析，主要使用Spark SQL相关知识与技术，对各个城市过去24小时累积降雨量和当日平均气温进行计算和排序；

3. 数据可视化，数据可视化使用python matplotlib库，版本号1.5.1。可使用pip命令安装。绘制过程大体如下：

第一步，应当设置字体，这里提供了黑体的字体文件simhei.tff。否则坐标轴等出现中文的地方是乱码。

第二步，设置数据（累积雨量或者日平均气温）和横轴坐标（城市名称），配置直方图。

第三步，配置横轴坐标位置，设置纵轴坐标范围

第四步，配置横纵坐标标签

第五步，配置每个条形图上方显示的数据

第六步，根据上述配置，画出直方图。。

根据上述实验任务，设计相应内容与具体执行步骤，并对相应关键步骤的执行结果给出截图。

实验步骤：

数据获取：

思路：

首先利用urllib.request获取url的数据，然后利用json.loads变为json格式

再编写函数写入表头和数据：

利用上述函数组合，编写两个get函数获取城市和省份，导出CSV文件：

最后获取天气数据，导出passed_weather_ALL.csv

每个字段获取方式是：

city_code就是city.csv的code，province就是city.csv里边的province，city_name就是city.csv里边的city，city_index就是第几个城市(设置count变量计数，每个城市加1)，

其他直接通过爬取表头获得：

在主函数里运行：

部分代码：

def get_passed_weather(self,province):
        weather_passed_file = 'input/passed_weather_' + province + '.csv'
        if os.path.exists(weather_passed_file):
            return
        passed_weather = list()
        count = 0
        if province == 'ALL':
            print ("开始爬取过去的天气状况")
            for city in self.get_cities():
                data = self.parse_json('http://www.nmc.cn/f/rest/passed/'+city['code'])
                if data:
                    count = count + 1
                    for item in data:
                        item['city_code'] = city['code']
                        item['province'] = city['province']
                        item['city_name'] = city['city']
                        item['city_index'] = str(count)
                    passed_weather.extend(data)
                if count % 50 == 0:
                    if count == 50:
                        self.write_header(weather_passed_file,passed_weather)
                    else:
                        self.write_row(weather_passed_file,passed_weather)
                    passed_weather = list()
            if passed_weather:
                if count <= 50:
                    self.write_header(weather_passed_file,passed_weather)
                else:
                    self.write_row(weather_passed_file,passed_weather)
            print ("爬取过去的天气状况完毕！")
        else:
            print ("开始爬取过去的天气状况")
            select_city = filter(lambda x:x['province']==province,self.get_cities())
            for city in select_city:
                data = self.parse_json('http://www.nmc.cn/f/rest/passed/'+city['code'])
                if data:
                    count = count + 1
                    for item in data:
                        item['city_index'] = str(count)
                        item['city_code'] = city['code']
                        item['province'] = city['province']
                        item['city_name'] = city['city']
                    passed_weather.extend(data)
            self.write_csv(weather_passed_file,passed_weather)
            print ("爬取过去的天气状况完毕！")
 
    def run(self,range = 'ALL'):
        self.get_passed_weather(range)

数据分析：

思路：

首先创建spark对象，然后使用select函数选择所需列的数据进行筛选，分组(累计降雨量按照省份、城市和城市代码分组，气温还得考虑时间date)求和、sort函数排序，

分析气温还需要进行筛选4个时刻，然后再进行分组求和排序

最后生成相应的csv或json文件，返回所需要的前20个或前10个数据。

部分代码：

def passed_rain_analyse(filename): #计算各个城市过去24小时累积雨量
    print ("开始分析累积降雨量")
    #spark = SparkSession.builder.master("spark://master:7077").appName("passed_rain_analyse").getOrCreate()
    #spark = SparkSession.builder.master("local[4]").appName("passed_rain_analyse").getOrCreate()
    spark = SparkSession.builder.master("local").appName("passed_rain_analyse").getOrCreate()
    
    df = spark.read.csv(filename,header = True)
    
    df_rain = df.select(df['province'],df['city_name'],df['city_code'],df['rain1h'].cast(DecimalType(scale=1)))        .filter(df['rain1h'] < 1000) #筛选数据，去除无效数据
    df_rain_sum = df_rain.groupBy("province","city_name","city_code")        .agg(F.sum("rain1h").alias("rain24h"))        .sort(F.desc("rain24h")) # 分组、求和、排序
    df_rain_sum.cache()
    df_rain_sum.coalesce(1).write.csv("file:///home/lee/lab5/passed_rain_analyse.csv")
    #spark.catalog.refreshTable(filename)
    print ("累积降雨量分析完毕！")
    return df_rain_sum.head(20)#前20个

def passed_temperature_analyse(filename):
    print ("开始分析气温")
    #spark = SparkSession.builder.master("spark://master:7077").appName("passed_temperature_analyse").getOrCreate()
    spark = SparkSession.builder.master("local").appName("passed_temperature_analyse").getOrCreate()
    #spark = SparkSession.builder.master("local[4]").appName("passed_rain_analyse").getOrCreate()
    df = spark.read.csv(filename,header = True)
    df_temperature = df.select( #选择需要的列
            df['province'],
            df['city_name'],
            df['city_code'],
            df['temperature'].cast(DecimalType(scale=1)),
            F.date_format(df['time'],"yyyy-MM-dd").alias("date"), #得到日期数据
            F.hour(df['time']).alias("hour") #得到小时数据
    )
    # 筛选四点时次
    #df_4point_temperature = df_temperature.filter(df_temperature['hour'].isin([2,4,6,8]))
df_4point_temperature = df_temperature.filter(df_temperature['hour'].isin([2,8,14,20]))
    #df_4point_temperature = df_temperature.filter(df_temperature['hour'].isin([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24]))
    df_avg_temperature = df_4point_temperature.groupBy("province","city_name","city_code","date")        .agg(F.count("temperature"),F.avg("temperature").alias("avg_temperature"))        .filter("count(temperature) = 4")        .sort(F.asc("avg_temperature"))        .select("province","city_name","city_code","date",F.format_number('avg_temperature',1).alias("avg_temperature"))
    df_avg_temperature.cache()
    avg_temperature_list = df_avg_temperature.collect()
    df_avg_temperature.coalesce(1).write.json("file:///home/lee/lab5/passed_temperature.json")
    print ("气温分析完毕")
    return avg_temperature_list[0:10]#最低的10个

可视化：

思路：

使用python matplotlib库进行绘图，

第一步，应当设置字体，这里提供了黑体的字体文件simhei.tff。否则坐标轴等出现中文的地方是乱码。

第二步，设置数据（累积雨量或者日平均气温）和横轴坐标（城市名称），配置直方图。

第三步，配置横轴坐标位置，设置纵轴坐标范围

第四步，配置横纵坐标标签

第五步，配置每个条形图上方显示的数据

第六步，根据上述配置，画出直方图。(见下方，按住CTRL点我去)

其他个性化代码：

直方图颜色

color=’ckrmgby’，一个七种颜色，分别对应青、黑、红、洋红、绿、蓝、黄

字体大小、颜色：

大小使用fontsize属性，颜色仍然是color属性

设置图的大小：使用figsize属性

部分代码：

def draw_rain(rain_list):
    print ("开始绘制累积降雨量图")
    font = FontProperties(fname='ttf/simhei.ttf') # 设置字体
    name_list = []
    num_list = []
    for item in rain_list:
        name_list.append(item.province[0:2] + '\n' + item.city_name)
        num_list.append(item.rain24h)
    index = [i+0.25 for i in range(0,len(num_list))]
    plt.figure(figsize=(15,12))#设置图的大小
    rects=plt.bar(index, num_list, color='ckrmgby',width = 0.5)
    plt.xticks([i+0.25 for i in index], name_list, fontproperties = font,fontsize=15,color='r')#fontsize设置x刻度字体大小
    plt.ylim(ymax=(int(max(num_list)+100)/100)*20, ymin=0)#设置刻度间隔
    plt.yticks(fontsize=20,color='r')#fontsize设置y刻度字体大小
    plt.xlabel("城市",fontproperties = font,fontsize=25,color='c')#fontsize设置x坐标标签字体大小
    plt.ylabel("雨量",fontproperties = font,fontsize=25,color='c')#fontsize设置y坐标标签字体大小
    plt.title("过去24小时累计降雨量全国前20名",fontproperties = font,fontsize=30,color='b')#fontsize设置标题字体大小
    for rect in rects:
        height = rect.get_height()
        #fontsize设置直方图上字体大小
        plt.text(rect.get_x() + rect.get_width() / 2, height, str(height), ha="center", va="bottom",fontsize=15)
    plt.show()
    print ("累积降雨量图绘制完毕！")

def draw_temperature(temperature_list):
    print ("开始绘制气温图")
    font = FontProperties(fname='/home/lee/lab5/ttf/simhei.ttf')
    name_list = []
    num_list = []
    #print(temperature_list[1])
    date = temperature_list[1].date
    for item in temperature_list:
        name_list.append(item.province[0:2] + '\n' + item.city_name)
        num_list.append(float(item.avg_temperature))
    index = [i+0.25 for i in range(0,len(num_list))]
    plt.figure(figsize=(15,12))#设置图的大小
    rects=plt.bar(index, num_list, color='ckrmgby',width = 0.5)
    plt.xticks([i+0.25 for i in index], name_list, fontproperties = font,fontsize=20,color='r')#fontsize设置x刻度字体大小
    plt.ylim(ymax = math.ceil(float(max(num_list)))*1.5, ymin = 0)#设置刻度间隔
    plt.yticks(fontsize=20,color='r')#fontsize设置y刻度字体大小
    plt.xlabel("城市",fontproperties = font,fontsize=25,color='c')#fontsize设置坐标标签字体大小
    plt.ylabel("日平均气温",fontproperties = font,fontsize=25,color='c')#fontsize设置坐标标签字体大小
    plt.title(date + "全国日平均气温最低前10名",fontproperties = font,fontsize=30,color='b')#fontsize设置标题字体大小
    for rect in rects:
        height = rect.get_height()
        #fontsize设置直方图上字体大小
        plt.text(rect.get_x() + rect.get_width() / 2, height+0.1, str(height), ha="center", va="bottom",fontsize=15)
    plt.show()
    print ("气温图绘制完毕！")

参考代码(适用于python3)：

完整代码

#Crawler类(数据获取)：
#!/usr/bin/env python
# coding: utf-8

# In[7]:


import urllib.request,urllib.error
import json
import csv
import chardet
import codecs
import os
import time
 
import importlib,sys
importlib.reload(sys)
 
class Crawler:    
    def get_html(self,url):        
        request = urllib.request.Request(url)
        response = urllib.request.urlopen(request)
        return response.read().decode()
    def parse_json(self,url):
        obj = self.get_html(url)
        if obj:
            json_obj = json.loads(obj)
        else:
            json_obj = list()
        return json_obj
 
    def write_csv(self,file,data):
        if data:
            print ("开始写入 " + file)
            with open(file,'a+',encoding='utf-8-sig') as f:#utf-8-sig  带BOM的utf-8
                f_csv = csv.DictWriter(f,data[0].keys())
                #if not os.path.exists(file):
                f_csv.writeheader()
                f_csv.writerows(data) 
            print ("结束写入 " + file)
 
    def write_header(self,file,data):
        if data:
            print ("开始写入 " + file)
            with open(file,'a+',encoding='utf-8-sig') as f:
                f_csv = csv.DictWriter(f,data[0].keys())
                f_csv.writeheader()
                f_csv.writerows(data) 
            print ("结束写入 " + file)
 
    def write_row(self,file,data):
        if data:
            print ("开始写入 " + file)
            with open(file,'a+',encoding='utf-8-sig') as f:
                f_csv = csv.DictWriter(f,data[0].keys())
                if not os.path.exists(file):
                    f_csv.writeheader()
                f_csv.writerows(data) 
            print ("结束写入 " + file)
 
    def read_csv(self,file):
        print ("开始读取 " + file)
        with open(file,'r+',encoding='utf-8-sig') as f:
            data = csv.DictReader(f)
            print ("结束读取 " + file)
            return list(data)
 
    def get_provinces(self):
        province_file = 'input/province.csv'
        if not os.path.exists(province_file):  
            print ("开始爬取省份")
            provinces = self.parse_json('http://www.nmc.cn/f/rest/province')
            print ("省份爬取完毕！")
            self.write_csv(province_file,provinces)
        else:
            provinces = self.read_csv(province_file)
        return provinces
 
    def get_cities(self):
        city_file = 'input/city.csv'
        if not os.path.exists(city_file):
            cities = list()
            print ("开始爬取城市")
            for province in self.get_provinces():
                url = province['url'].split('/')[-1].split('.')[0]
                cities.extend(self.parse_json('http://www.nmc.cn/f/rest/province/'+url))
            self.write_csv(city_file,cities)
            print ("爬取城市完毕！")
        else:
            cities = self.read_csv(city_file)
        return cities
 
    def get_passed_weather(self,province):
        weather_passed_file = 'input/passed_weather_' + province + '.csv'
        if os.path.exists(weather_passed_file):
            return
        passed_weather = list()
        count = 0
        if province == 'ALL':
            print ("开始爬取过去的天气状况")
            for city in self.get_cities():
                data = self.parse_json('http://www.nmc.cn/f/rest/passed/'+city['code'])
                if data:
                    count = count + 1
                    for item in data:
                        item['city_code'] = city['code']
                        item['province'] = city['province']
                        item['city_name'] = city['city']
                        item['city_index'] = str(count)
                    passed_weather.extend(data)
                if count % 50 == 0:
                    if count == 50:
                        self.write_header(weather_passed_file,passed_weather)
                    else:
                        self.write_row(weather_passed_file,passed_weather)
                    passed_weather = list()
            if passed_weather:
                if count <= 50:
                    self.write_header(weather_passed_file,passed_weather)
                else:
                    self.write_row(weather_passed_file,passed_weather)
            print ("爬取过去的天气状况完毕！")
        else:
            print ("开始爬取过去的天气状况")
            select_city = filter(lambda x:x['province']==province,self.get_cities())
            for city in select_city:
                data = self.parse_json('http://www.nmc.cn/f/rest/passed/'+city['code'])
                if data:
                    count = count + 1
                    for item in data:
                        item['city_index'] = str(count)
                        item['city_code'] = city['code']
                        item['province'] = city['province']
                        item['city_name'] = city['city']
                    passed_weather.extend(data)
            self.write_csv(weather_passed_file,passed_weather)
            print ("爬取过去的天气状况完毕！")
 
    def run(self,range = 'ALL'):
        self.get_passed_weather(range)
 
if __name__ == '__main__':
    cr=Crawler()
    cr.run('ALL')

#SparkSql类(分析+可视化，引入Crawler类之后也可以爬取，前提是passed_weather_ALL.csv不存在；每次运行前需要删除passed_temperature.json和passed_rain_analyse.csv这两个文件夹)

import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.types import DecimalType,TimestampType
import matplotlib as mpl
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
import os
import math
from Crawler import *
import importlib,sys
importlib.reload(sys)

def passed_rain_analyse(filename): #计算各个城市过去24小时累积雨量
    print ("开始分析累积降雨量")
    #spark = SparkSession.builder.master("spark://master:7077").appName("passed_rain_analyse").getOrCreate()
    #spark = SparkSession.builder.master("local[4]").appName("passed_rain_analyse").getOrCreate()
    spark = SparkSession.builder.master("local").appName("passed_rain_analyse").getOrCreate()
    
    df = spark.read.csv(filename,header = True)
    
    df_rain = df.select(df['province'],df['city_name'],df['city_code'],df['rain1h'].cast(DecimalType(scale=1)))        .filter(df['rain1h'] < 1000) #筛选数据，去除无效数据
    df_rain_sum = df_rain.groupBy("province","city_name","city_code")        .agg(F.sum("rain1h").alias("rain24h"))        .sort(F.desc("rain24h")) # 分组、求和、排序
    df_rain_sum.cache()
    df_rain_sum.coalesce(1).write.csv("file:///home/lee/lab5/passed_rain_analyse.csv")
    #spark.catalog.refreshTable(filename)
    print ("累积降雨量分析完毕！")
    return df_rain_sum.head(20)#前20个

def passed_temperature_analyse(filename):
    print ("开始分析气温")
    #spark = SparkSession.builder.master("spark://master:7077").appName("passed_temperature_analyse").getOrCreate()
    spark = SparkSession.builder.master("local").appName("passed_temperature_analyse").getOrCreate()
    #spark = SparkSession.builder.master("local[4]").appName("passed_rain_analyse").getOrCreate()
    df = spark.read.csv(filename,header = True)
    df_temperature = df.select( #选择需要的列
            df['province'],
            df['city_name'],
            df['city_code'],
            df['temperature'].cast(DecimalType(scale=1)),
            F.date_format(df['time'],"yyyy-MM-dd").alias("date"), #得到日期数据
            F.hour(df['time']).alias("hour") #得到小时数据
    )
    # 筛选四点时次
    #df_4point_temperature = df_temperature.filter(df_temperature['hour'].isin([2,4,6,8]))
    df_4point_temperature = df_temperature.filter(df_temperature['hour'].isin([2,8,14,20]))
    #df_4point_temperature = df_temperature.filter(df_temperature['hour'].isin([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24]))
    df_avg_temperature = df_4point_temperature.groupBy("province","city_name","city_code","date")        .agg(F.count("temperature"),F.avg("temperature").alias("avg_temperature"))        .filter("count(temperature) = 4")        .sort(F.asc("avg_temperature"))        .select("province","city_name","city_code","date",F.format_number('avg_temperature',1).alias("avg_temperature"))
    df_avg_temperature.cache()
    avg_temperature_list = df_avg_temperature.collect()
    df_avg_temperature.coalesce(1).write.json("file:///home/lee/lab5/passed_temperature.json")
    print ("气温分析完毕")
    return avg_temperature_list[0:10]#最低的10个


def draw_rain(rain_list):
    print ("开始绘制累积降雨量图")
    font = FontProperties(fname='ttf/simhei.ttf') # 设置字体
    name_list = []
    num_list = []
    for item in rain_list:
        name_list.append(item.province[0:2] + '\n' + item.city_name)
        num_list.append(item.rain24h)
    index = [i+0.25 for i in range(0,len(num_list))]
    plt.figure(figsize=(15,12))#设置图的大小
    rects=plt.bar(index, num_list, color='ckrmgby',width = 0.5)
    plt.xticks([i+0.25 for i in index], name_list, fontproperties = font,fontsize=15,color='r')#fontsize设置x刻度字体大小
    plt.ylim(ymax=(int(max(num_list)+100)/100)*20, ymin=0)#设置刻度间隔
    plt.yticks(fontsize=20,color='r')#fontsize设置y刻度字体大小
    plt.xlabel("城市",fontproperties = font,fontsize=25,color='c')#fontsize设置x坐标标签字体大小
    plt.ylabel("雨量",fontproperties = font,fontsize=25,color='c')#fontsize设置y坐标标签字体大小
    plt.title("过去24小时累计降雨量全国前20名",fontproperties = font,fontsize=30,color='b')#fontsize设置标题字体大小
    for rect in rects:
        height = rect.get_height()
        #fontsize设置直方图上字体大小
        plt.text(rect.get_x() + rect.get_width() / 2, height, str(height), ha="center", va="bottom",fontsize=15)
    plt.show()
    print ("累积降雨量图绘制完毕！")

def draw_temperature(temperature_list):
    print ("开始绘制气温图")
    font = FontProperties(fname='/home/lee/lab5/ttf/simhei.ttf')
    name_list = []
    num_list = []
    #print(temperature_list[1])
    date = temperature_list[1].date
    for item in temperature_list:
        name_list.append(item.province[0:2] + '\n' + item.city_name)
        num_list.append(float(item.avg_temperature))
    index = [i+0.25 for i in range(0,len(num_list))]
    plt.figure(figsize=(15,12))#设置图的大小
    rects=plt.bar(index, num_list, color='ckrmgby',width = 0.5)
    plt.xticks([i+0.25 for i in index], name_list, fontproperties = font,fontsize=20,color='r')#fontsize设置x刻度字体大小
    plt.ylim(ymax = math.ceil(float(max(num_list)))*1.5, ymin = 0)#设置刻度间隔
    plt.yticks(fontsize=20,color='r')#fontsize设置y刻度字体大小
    plt.xlabel("城市",fontproperties = font,fontsize=25,color='c')#fontsize设置坐标标签字体大小
    plt.ylabel("日平均气温",fontproperties = font,fontsize=25,color='c')#fontsize设置坐标标签字体大小
    plt.title(date + "全国日平均气温最低前10名",fontproperties = font,fontsize=30,color='b')#fontsize设置标题字体大小
    for rect in rects:
        height = rect.get_height()
        #fontsize设置直方图上字体大小
        plt.text(rect.get_x() + rect.get_width() / 2, height+0.1, str(height), ha="center", va="bottom",fontsize=15)
    plt.show()
    print ("气温图绘制完毕！")

def main():
    sourcefile = "input/passed_weather_ALL.csv"
    if not os.path.exists(sourcefile):
        crawler = Crawler()
        crawler.run('ALL')
    rain_list = passed_rain_analyse('file:///home/lee/lab5/' + sourcefile)
    draw_rain(rain_list)
    temperature_list = passed_temperature_analyse('file:///home/lee/lab5/' + sourcefile)
    draw_temperature(temperature_list)

if __name__ == '__main__':
    main()

运行结果：

数据获取：

数据分析：

数据可视化：大图在下边

大图在下边：

分别对应rain.png和temperature.png

C/C++后端开发八股文 CielBleu_CN c语言 c++开发语言
一.C/C++编程1.Main函数之前执行（作为main，完成存储内容的构造）设置栈指针初始化静态变量（static）和全局变量（global）赋值全局变量（可能在完成以上过程中执行的内容）调用构造函数（main作为函数）将main函数的参数argc，argv等传递给main函数【C的存储构造如下图】2.Main函数之后执行（作为main结束）atexit注册的函数（传递信息，处理等）->倒序执行
探索IT世界的宝藏：优质资源推荐与深度解析点我头像干啥 Ai 分类人工智能数据挖掘 python 深度学习
引言在当今数字化时代，信息技术（IT）已经成为推动社会进步和经济发展的重要引擎。无论是软件开发、网络安全、数据分析，还是人工智能、云计算等领域，IT技术都在不断革新和演进。对于IT从业者、学生以及技术爱好者来说，掌握最新的技术动态和获取优质的学习资源至关重要。本文将为大家推荐一些优质的IT资源，并深入探讨如何利用这些资源提升自己的技术能力。一、优质IT资源推荐1.在线学习平台1.1Coursera
DeepSeek大语言模型下几个常用术语曲幽 AI 计算机语言模型人工智能自然语言处理 deepseek ollama ai
昨天刷B站看到复旦赵斌老师说的一句话“科幻电影里在人脑中植入芯片或许在当下无法实现，但当下可以借助AI人工智能实现人类第二脑”（大概是这个意思）更多内容，可关注公众号“一名程序媛”，我们一起从0-1学编程基本概念AI人工智能NLP自然语言处理LLM大语言模型HuggingFace一个提供了丰富的预训练模型和工具库的平台网站Ollama开源的本地大语言模型运行框架，用来在本地部署调用大语言模型，如D
Windows Bili23 Downloader-v1.56.1-开源B站视频下载工具[支持视频/番剧/电影/纪录片等资源] 私人珍藏库音视频
Bili23_Downloader链接：https://pan.xunlei.com/s/VOL4-yvsKhEoCdLQFyX2bn99A1?pwd=npve#支持投稿视频\剧集\课程\直播链接解析支持短链接\活动页（如拜年祭、二游新春会）链接解析支持弹幕\字幕\封面下载支持修改剧集列表显示方式，一键显示全部视频支持自定义清晰度\音质\视频编码支持仅下载音频，最高可下载Hi-Res无损音质简洁美
Vue-前端发展史 lengzher_5601 Vue vue.js html css js jsp
文章目录Vue-前端发展史二、前端发展史1、UI框架2、JavaScript构建工具3、三端同一4、后端技术5、主流前端框架混合开发微信小程序Vue-前端发展史二、前端发展史1、UI框架Ant-Design：阿里巴巴出品，基于React的UI框架ElementUI、iview、ice：饿了么出品，基于Vue的UI框架BootStrap：Teitter推出的一个用于前端开发的开源工具包AmazeUI
Python机器学习实战：使用Flask构建机器学习API AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：使用Flask构建机器学习API作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在数据科学和机器学习领域，模型训练和部署一直是重要的挑战。传统的机器学习项目往往采用独立的脚本或复杂的流程，难以实现模型的自动化、可视化和复现。为了解决这一问题，将机器学习模型封装成可访问的API变得越来越流行。Fla
探索创新：CanvasParticles - 点燃你的网页动态效果柏赢安Simona
探索创新：CanvasParticles-点燃你的网页动态效果去发现同类优质开源项目:https://gitcode.com/是一个开源的JavaScript库，专注于在HTML5Canvas上创建引人入胜的粒子动画效果。如果你是Web开发者，正在寻找一种方法为你的网站增添独特的视觉吸引力，那么这个项目绝对值得你深入了解。项目简介CanvasParticles提供了一套简洁而强大的API，让你能够
探索Coco-Web：一款强大的H5创作工具岑晔含Dora
探索Coco-Web：一款强大的H5创作工具去发现同类优质开源项目:https://gitcode.com/是一个开源的、基于Web的H5（HTML5）创作平台，旨在让开发者和设计师能够轻松地创建互动式的内容和应用。通过其直观的界面和丰富的功能，无论你是编程高手还是初学者，都能够利用Coco-Web制作出富有吸引力的数字内容。技术分析Coco-Web基于现代Web技术构建，包括：React.js:
探索CoreHTML5Canvas：创作动态Web图形的新工具郁英忆
探索CoreHTML5Canvas：创作动态Web图形的新工具去发现同类优质开源项目:https://gitcode.com/是一个强大的JavaScript库，专为开发者设计，旨在简化和增强在Web上创建交互式和动画图形的能力。这个项目利用HTML5Canvas元素，提供了一个简洁且高效的API，让开发人员可以轻松地构建出丰富的2D渲染效果。技术分析HTML5Canvas是HTML5的一个重要特
讲一下Spark的shuffle过程冰火同学 Spark spark 大数据分布式
首先Spark的shuffle是Spark分布式集群计算的核心。Spark的shuffle可以从shuffle的阶段划分，shuffle数据存储，shuffle的数据拉取三个方面进行讲解。首先shuffle的阶段分为shuffle的shufflewrite阶段和shuffleread阶段。shufflewrite的触发条件就是上游的Stage任务shuffleMapTask完成计算后，会哪找下游S
Spark常见面试题目（1）冰火同学 Spark spark 面试大数据
Spark有哪几种部署的方式，谈谈方式都有哪些特点第一种是local本地部署,通常就是一台机器用于测试。第二种是standalone部署模式，就是一个master节点，控制几个work节点，其实一台机器的standalone模式就是它自己即是master,又是work。第三种是yarn模式，就是吧spark交给yarn进行资源调度管理。第四种就是messon模式，这种在国内很少见到。Spark主备
Spark数据倾斜的问题冰火同学 Spark spark 大数据分布式
Spark数据倾斜业务背景Spark数据倾斜表现Spark的数据倾斜，包括SparkStreaming和SparkSQL，表现主要有下面几种：1、Excutorlost，OOM，Shuffle过程出错2、DriverOOM3、单个Excutor执行器一直在运行，整体任务卡在某个阶段不能结束4、正常运行的任务突然失败数据倾斜产生的原因以Spark使用场景为例，我们再做数据计算的时候会涉及类似coun
在线监控+日志分析方案徐福记c 运维运维
1.在线监控系统设计技术选型：Prometheus+Grafana+各ExporterPrometheus：负责定时拉取各服务指标数据并存储。Grafana：可视化仪表盘，支持多数据源（Prometheus、Loki等）。Exporter：SpringBoot应用：通过Micrometer暴露/actuator/prometheus端点。MySQL：部署mysqld_exporter采集数据库性能
有没有开源的企业网盘，是否适合企业使用？网盘
开源选项丰富、灵活定制能力强、需要额外运维投入、适合特定场景但不一定适合所有企业，是开源企业网盘的主要特征。从表面看，开源网盘往往具有免费或低成本优势，但企业要投入一定的人力与技术资源来完成安装、维护与升级，从而保障系统的稳定运行。我个人尤其建议在评估运维能力和长期需求后再行决定，因为开源网盘的可行性需要与企业的IT基础和信息安全策略相匹配。在这几点特征里，灵活定制能力强最具吸引力。企业可以根据自
PySpark实现导出两个包含多个Parquet数据文件的S3目录里的对应值的差异值分析 weixin_30777913 python spark 数据分析云计算
编写PySpark代码实现从一个包含多个Parquet数据文件的AmazonS3目录的dataframe数据里取两个维度字段，一个度量字段的数据，根据这两个维度字段的数据分组统计，计算度量字段的数据的分组总计值，得到一个包含两个维度字段和度量字段的分组总计值字段的dataframe，再从另一个包含多个Parquet数据文件的S3目录的dataframe数据里取两个维度字段，一个度量字段的数据组成一
我的投资组合网站：打造个性化的在线投资展示平台 Tranyn.X
本文还有配套的精品资源，点击获取简介：本文介绍如何创建和设计一个在线平台，用于展示个人或专业投资者的投资策略、历史表现和投资理念。网站的构建涉及网页布局、响应式设计、CSS样式控制、内容管理、数据分析、SEO优化、安全性、用户体验、个性化和社交媒体整合等多个方面，确保网站既具有吸引力又能够有效地传达投资者的专业形象和投资成就。1.投资组合网站构建与网页布局设计网站构建的初步规划在当今数字化时代，构
tcc编译器教程6 进一步学习编译gmake源代码刘阿去学习 c语言
本文以编译gmake为例讲解如何使用tcc进行复杂一点的c代码的编译1简介前面主要讲解了如何编译lua解释器,lua解释器的编译很简单也很容易理解.当然大部分c语言程序编译没那么简单,下面对前面的gmake程序进行编译.2gmake源码结构首先打开之前tcc-busybox-for-win32\gmake文件夹,具体文件如下主要有3个文件夹和3个文件,分别为0.tcc-主要为编译所用的信息lib-
家居巨头的觉醒，永洪科技为林氏家居开启一站式智慧决策永洪科技科技大数据人工智能数据分析数据可视化报表
在现代企业经营中，数据不仅是资产，更是决策的指南针。永洪科技与林氏家居的合作，是共同开发了一个企业级的一站式大数据分析平台。在合作多年的积累下，已逐步成为家居行业数字化转型的代表性案例。这不仅是两家企业间的合作，更是对于如何有效整合企业内部数据资产，支持各领域业务分析的一次深度实践。以下，我们将深入探讨该项目的每个关键阶段，展示永洪科技的专业能力和对潜在客户的价值承诺。广东林氏家居股份有限公司，创
600条最强 Linux 命令总结（非常详细）零基础入门到精通，收藏这一篇就够了网安导师小李程序员编程网络安全 linux 运维服务器学习 web安全 python java
一、基本命令uname-m显示机器的处理器架构uname-r显示正在使用的内核版本dmidecode-q显示硬件系统部件(SMBIOS/DMI)hdparm-i/dev/hda罗列一个磁盘的架构特性hdparm-tT/dev/sda在磁盘上执行测试性读取操作系统信息arch显示机器的处理器架构uname-m显示机器的处理器架构uname-r显示正在使用的内核版本dmidecode-q显示硬件系统部
对象的介绍及使用 ..儒 javascript 前端开发语言
对象简介1.对象是什么?对象是一种数据类型无序的数据的集合2.对象有什么特点?无序的数据的集合可以详细的描述描述某个事物对象的使用：用它保存多个数据1.对象声明语法let对象名={} let对象名=newObject()例如：//声明了一个person的对象letperson={}实际开发中，我们多用花括号。{}是对象字面量属性数据描述性的信息称为属性，如人的姓名、身高、年龄、性别等，一般是名词性
Hive在大数据集群下的部署正在绘制中大数据大数据 hive
hive安装1）把apache-hive-3.1.3-bin.tar.gz上传到Linux的/opt/software目录下2）解压apache-hive-3.1.3-bin.tar.gz到/opt/module/目录下面tar-zxvf/opt/software/apache-hive-3.1.3-bin.tar.gz-C/opt/module/3）修改apache-hive-3.1.3-bin
搭建分布式Hive集群逸曦玥泱大数据运维分布式 hive hadoop
title:搭建分布式Hive集群date:2024-11-2923:39:00categories:-服务器tags:-Hive-大数据搭建分布式Hive集群本次实验环境：Centos7-2009、Hadoop-3.1.4、JDK8、Zookeeper-3.6.3、Mysql-5.7.38、Hive-3.1.2功能规划方案一（本地运行模式）Master主节点（Mysql+Hive）192.168
黑马程序员-接口测试-四天学习接口测试-第二天-接口用例设计，测试点，功能测试，安全测试，性能测试，单接口测试，业务场景测试用例，postman简介，安装学习记录wanxiaowan postman 学习功能测试
今日学习目标分析接口文档，设计编写接口测试用例使用Postman设置请求方法、URL、请求头、请求体，向接口发送http请求，并查看响应数据分析接口文档，设计接口测试用例使用postman设置请求方法，url请求头，请求体，查看响应数据3接口用例设计为什么写防止测试点漏测。条理清晰方便分配工作，评估工作量和时间面试时使用！接口测试的测试点测试点称之为测试维度。5功能测试单接口功能：手工测试中的单个
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
池化的定义与核心思想 code 旭 AI人工智能学习 python numpy 人工智能
一、池化的定义与核心思想定义：池化是卷积神经网络（CNN）中的一种下采样操作，用于降低特征图的空间维度（宽高），保留主要特征。核心目标：减少计算量：缩小特征图尺寸，降低后续层参数规模。增强模型鲁棒性：对微小平移、旋转等变化不敏感。防止过拟合：通过降维减少冗余信息。二、池化的数学公式1.最大池化（MaxPooling）取池化窗口内的最大值：yi,j=max⁡p=0kh−1max⁡q=0kw−1xi⋅
Windows系统下解压".tar"文件出错，提示：无法创建符号链接，可能需要以管理器身份运行winrar ruangaoyan
1、解压文件出错，如下信息：D:\tools\hadoop-3.1.2.tar.gz:无法创建符号链接D:\tools\hadoop-3.1.2\hadoop-3.1.2\lib\native\libhadoop.so您可能需要以管理器身份运行WinRAR!客户端没有所需的特权。2、解决方式如下：WIN+R快捷的打开命令窗口，输入CMD输入：cd/dD:\tools\hadoop-3.1.2这是我
XGBoost常见面试题（五）——模型对比月亮月亮要去太阳机器学习经验分享
XGBoost与GBDT的区别机器学习算法中GBDT和XGBOOST的区别有哪些？-知乎基分类器：传统GBDT以CART树作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。导数：传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。同时xgboo
简易的图书管理系统（末尾链接报告自取）艾米莉亚小汉堡
图书信息管理系统设计一、问题描述图书信息包括：书号、书名、作者名、分类号、出版单位、出版时间、价格等。二、功能描述试设计一图书信息管理系统，使之能提供以下功能：1、系统以菜单方式工作2、图书信息录入功能(图书信息用文件保存),可不定时地增加图书信息,书号不允许重复；3、图书信息浏览功能4、图书信息查询功能查询方式(1)按书名查询(2)按作者名查询5、图书信息的删除输入书号，查询该图书，如果存在，则
Elasticsearch（ES）详解：从入门到实践坚持蛊 elasticsearch jenkins 大数据
引言简介：Elasticsearch是一个基于Lucene的分布式搜索引擎，具有高效的全文搜索功能，广泛应用于日志分析、搜索引擎、实时数据处理等领域。本文目标：介绍Elasticsearch的基本概念、架构设计、配置优化、常见应用以及实际案例，帮助开发者掌握ES1.Elasticsearch概述Elasticsearch的背景和发展历程核心功能：全文检索、分布式搜索、实时数据分析主要应用场景：日志
Manus被「越狱」：创始人回应风波与开源转向 UR的出不克人工智能 manus agent
Manus被「越狱」：创始人回应风波与开源转向早上刷推特，一条标签为"#Manus越狱"的话题炸了。这个前些日子刚刚融了A轮的AI新贵突然成了安全圈的焦点。熬了一整晚的咖啡还没喝完，Manus团队就陷入了灭火模式。「越狱」风波：始于一条推特事情的起因很"典型"——一位ID为"AIHacker_2023"的用户前天发了条推文："Manus的安全屏障形同虚设，两个prompt就能搞定，详情看图。"配图
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

大数据开源框架之基于Spark的气象数据处理与分析

实验说明：

实验要求：

实验步骤：

数据获取：

数据分析：

可视化：

参考代码(适用于python3)：

运行结果：

你可能感兴趣的:(大数据开源,大数据,信息可视化,spark,数据分析,爬虫)