尘埃小小鱼

2021MathorCup高校数学建模挑战赛——大数据竞赛的一些想法总结

文章目录

- 1 前言
- 2 数据预处理
- - 2.1 数据文件的分割
  - 2.2 数据文件的去重
- 3 问题一的求解
- - 3.1 数据提取
  - 3.2 去除数据异常值
  - 3.3 数据格式化
  - 3.4 数据集的插值
  - 3.5 ARIMA模型进行短期预测
- 4 问题二的求解
- - 4.1 人工神经网络（ANN）
  - 4.2 深度神经网络（DNN）
  - 4.3 循环神经网络（RNN）
  - 4.4 长短期记忆网络（LSTM）

1 前言

2021年MathorCup大数据挑战赛A题是个十分典型的大数据类赛题，赛题所给数据文件超大，常规Excel只能部分显示（Excel只能显示1048576行），文件大小8.61GB。如果采用python直接读入的话，整个程序会卡死；Matlab导入同样也会卡住；利用数据库读入，直接报错空间不足。（我用的是本地数据库，非本地应该可以）这些情况都是日常数据分析与处理中没有遇见过的，一般日常做一些数据分析最多百万条数据，撑死千万级别，这次的分析量达到了亿级别。对于这题，最难的就是数据处理部分了，题目本身不难。话不多说，直接开始：
以下皆是本人对这题的一些粗浅的看法，仅供参考。

2 数据预处理

2.1 数据文件的分割

数据集样式：

既然常规方法无法奏效，那么我们可以通过利用Python创建可操作的文件对象，通过操作指针逐行读取并分割文件进行查看。（其他语言同样可以，感兴趣的可以去尝试一下）

#--- 按照数据条目进行文件数据的分割
import time
import os

#-- 创建一个文件操作对象
file_obj = open(r"D:\2020MathorCup大数据挑战赛\赛道A\赛道A附件\附件1：训练数据\训练用数据.csv")
interval = 2500000 # 分割细度

# -- 逐行读取数据并分割
def concentSave(number_flag):
    '''
    根据number_flag设置文件路径，获取分割文件指针，以便存入数据
    '''
    # 创建文件夹
    folder = 'D:/data'
    if not os.path.exists(folder):
        os.makedirs(folder)
    
    # 获取文件指针
    file_path = 'D:/data/dataset' + str(number_flag) + '.csv'
    fp = open(file_path, 'w')
    return fp

def fileReadLines(file_obj, interval):
    '''
    利用循环移动文件指针逐行读取，设置条目进行分割
    '''
    flag = -1  # 标记数据条目，-1是为了去除表头导致的数据条目不统一
    number_flag = 1  # 标记分割文件数目

    # 获取文件指针
    file_pointer = concentSave(number_flag)

    for line in file_obj:
        if flag == -1:
            pass
        elif flag == 0:
            file_pointer.write(line)
            flag = flag + 1
        else:
            if flag % interval != 0:
                file_pointer.write(line)
            else:
                file_pointer.write(line)
                file_pointer.close()  # 关闭文件指针
                number_flag = number_flag + 1
                # 开启一个新的文件指针
                file_pointer = concentSave(number_flag)  
        flag = flag + 1

    file_pointer.close()
    return flag

time_start = time.time()
data_number = fileReadLines(file_obj, interval)
time_end = time.time()

print('time cost',time_end-time_start,'s')
print('文件：训练用数据.csv\n数据条目：' + str(data_number) + '(含表头)')

对文件进行分割后就可以逐个打开查看一下数据样式了，通过观察我们发现数据都是按照日期排布的，但一天的不同时刻以及不同小区编号的数据是无序的。【也即，数据都是按照天数排好的，但每一天对应时刻的数据以及每个小区所对应的在这一天的数据都是混乱的】

#--- 获取小区编号最大值以及各个小区的数据个数
import matplotlib.pyplot as plt
import matplotlib
import numpy as np
import time

#-- 创建一个文件操作对象
file_obj = open(r"D:\2020MathorCup大数据挑战赛\赛道A\赛道A附件\附件1：训练数据\训练用数据.csv")
number = 130000 # 预设的最大小区编号
# 这里预设是想减少赋值操作进行的次数（通过查看数据发现有编号在130000之上）
flag = 1
for line in file_obj:
    if flag == 1:
        flag = flag + 1
        id_number = 0
    else:
        id_number = int(line.split(',')[-3])
               
    if id_number > number:
        number = id_number
file_obj.close()
print('小区编号最大值：' + str(number))

#-- 创建一个存储小区编号对应数据条目的集合
id_array = np.zeros((1,number + 1), dtype=np.int32)
time_start = time.time() # 计时开始

flag = 1 # 标记跳过表头
for line in file_obj:
    if flag == 1:
        flag = flag + 1
        continue
    # 比对小区编号，对应数据索引
    id_number = int(line.split(',')[-3])
    id_array[0,id_number] += 1
    
file_obj.close()

id_array = id_array[0,1:] # 去除索引0

time_end = time.time() # 计时结束 
print('time cost:', time_end - time_start, 's') 

#--- 将统计结果写入文件
flag = 1
fp = open('C:/Users/Good/Desktop/id_array.csv', 'w')
fp.write('小区编号,记录数\n')
for value in id_array:
    fp.write(str(flag) + ',' + str(value) + '\n')
    flag += 1

【以日期记录每时刻的上下行流量，3/1—4/19共计50天，每天24小时，因此每个小区共计有1200条数据记录。约有132279个小区，部分小区数据存在缺失。】
这样我们就能得到数据集的基本信息了，信息汇总至下表

日期	记录日期：2018/3/1–2018/4/19
时间	起始记录时间：0:00:00，以小时为记录区间
小区编号	预计共有132279个小区，部分小区存在数据缺失
上行业务量GB	从用户侧到网络侧是数据流，则属于上行
下行业务量GB	从网络侧到用户侧的数据流，都属于下行
数据条目	144138200

小区编号对应数据条目写入文件：

绘制小区编号对应数据条目的分布图：

plt.figure(figsize=(20,10))
matplotlib.rcParams['font.family'] = 'SimHei'
# bins = np.linspace(0,1200,13).tolist()
# bins.append(2500)
fre_tuple = plt.hist(id_array, bins=20, color='steelblue', edgecolor='black', rwidth=0.8, orientation='horizontal')
plt.title('小区流量记录分布直方图', fontproperties='SimHei', fontsize=15)
x_loc = fre_tuple[0] # 频数
y_loc = fre_tuple[1] # 分割区间
for x,y in zip(x_loc,y_loc):
    plt.text(x+2500, y+25, '%.0f' % x, ha='center', va= 'bottom',fontsize=15)
    # x，y 加上的数值可以自己结合要绘制的图形设定，用来调整标签的显示位置
plt.show()

此处代码解释可以查看：matplotlib绘制直方图
代码运行所得图像如下所示：
不难发现部分小区的数据存在重复，记录数大于1200；很多小区数据存在缺失，数据条目不足1000的超过10000个小区
这样数据集的基本信息已经获取，现在开始正式的数据集的按日期分割。

部分数据日期格式不规范，需要添加条件进行判断。

#--- 按照日期进行数据的分割
import time
import os

#-- 创建一个文件操作对象
file_obj = open(r"D:\2020MathorCup大数据挑战赛\赛道A\赛道A附件\附件1：训练数据\训练用数据.csv")

def concentSave(filename):
    '''
    根据filename设置文件路径，获取分割文件指针，以便存入数据
    '''
    # 创建文件夹
    folder = 'D:/data'
    if not os.path.exists(folder):
        os.makedirs(folder)
    
    # 按照日期提取文件名
    if '/' in filename:
        name_list = filename.split('/')
        filename = name_list[-2] + '-' + name_list[-1]
    else:
        name_list = filename.split('-')
        if name_list[-1][0] == '0':
            name_list[-1] = name_list[-1][-1]            
        filename = name_list[-2][-1] + '-' + name_list[-1]
         
    # 获取文件指针
    file_path = 'D:/data/' + filename + '.csv'
    fp = open(file_path, 'w')
    return fp

def splitFile(file_obj):
    '''
    按照日期进行数据集的分割
    '''
    datetime_flag = '2018/3/1' # 标记分割日期
    file_number = 1
    flag = 0 # 去除文件表头
    
    # 获取文件指针
    file_pointer = concentSave(datetime_flag)
    
    for line in file_obj:
        if flag == 0:
            pass
        else:
            datetime = line.split(',')[0]
            if datetime == datetime_flag:
                file_pointer.write(line)
            else:
                file_number = file_number + 1
                datetime_flag = datetime
                file_pointer.close()  # 关闭文件指针
                # 获取文件指针
                file_pointer = concentSave(datetime_flag)
                file_pointer.write(line)
        flag = flag + 1  
    file_pointer.close()
    
    return file_number
      
time_start = time.time() # 计时开始    
subFileNumber = splitFile(file_obj) 
time_end = time.time() # 计时结束      
print('time cost:', time_end - time_start, 's')
print('file number:', subFileNumber)

代码运行结果：

2.2 数据文件的去重

#--- 逐个读入文件进行数据去重
import pandas as pd
from matplotlib import pyplot as plt
import os

# 记录按日期分割后的文件名称
folder = []
for i in range(1,32):
    folder.append('3-' + str(i))
for j in range(1,20):
    if j == 14:
        continue
    else:
        folder.append('4-' + str(j))

#-- 逐个文件去重
read_path = 'D:/A_data/'
save_path = 'D:/deal_data'
if not os.path.exists(save_path):
    os.makedirs(save_path)
for filename in folder:
    file_path = read_path + filename + '.csv'
    data = pd.read_csv(file_path, sep=',', header=None)
    
    # 去除重复值
    data.drop_duplicates(inplace=True)
   	# 存入文件
    data.to_csv(save_path + '/' + filename + '.csv', index=False)

将去重后的各个子文件进行合并，以便在去重后的文件中提取待预测小区的基站流量数据

import os

# 记录按日期分割后的文件名称
folder = []
for i in range(1,32):
    folder.append('3-' + str(i))
for j in range(1,20):
    if j == 14:
        continue
    else:
        folder.append('4-' + str(j))

#-- 合并文件，统计信息
read_path = 'D:/deal_data/'
save_path = 'D:/merge_data'

if not os.path.exists(save_path):
    os.makedirs(save_path)
write_file = open(save_path + '/data.csv', 'w')
number_data = 0
for filename in folder:
    file_path = read_path + filename + '.csv'
    read_file = open(file_path, 'r')
    
    flag = 1 # 设立标记，去除表头

    for line in read_file:
        if flag == 1:
            flag += 1
            continue
        number_data += 1    
        write_file.write(line)
    
    read_file.close()
print(number_data)
write_file.close()

下面的这部分操作可以不做，我只是想看一下进行处理后的效果。【这部分有很多代码就不全放出来了】
合并数据集，再进行一边上面的操作（提取各小区编号的数据条目等），得到下图
可以看到仍有部分小区数据条目超标：

超额小区编号	1111, 1112, 32956, 32957, 32958
超额原因	日期、时间、编号相同但流量记录不同，因此重复数据无法剔除
处理方式	排除超额小区编号数据

3 问题一的求解

3.1 数据提取

对问题需要预测的小区编号进行提取

import pandas as pd
from matplotlib import pyplot as plt
import numpy as np
import time
import os

#--- 获取需要短期预测的小区编号
file_obj = open(r"D:\2020MathorCup大数据挑战赛\赛道A\赛道A附件\附件2：短期验证选择的小区数据集\短期验证选择的小区数据集.csv")
predict_data = pd.read_csv(file_obj, sep=',', header=None)
predict_id = predict_data[2][1:].unique()

#--- 对待预测的小区编号进行数据提取
time_start = time.time() # 计时开始
#-- 创建存储文件夹
extract_path = "C:/Users/Good/Desktop/extract_data"
if nt os.path.exists(extract_path):
    os.makedirs(extract_path)

for index in predict_id:
    extract_file = open(extract_path + '/' + index + '.csv', 'w')
    file_obj = open(r"D:\merge_data\data.csv", 'r')
    
    for line in file_obj:
        id_number = line.split(',')[-3]
        if id_number == index:
            extract_file.write(line)
    extract_file.close()
    file_obj.close()

time_end = time.time() # 计时结束 
print('time cost:', time_end - time_start, 's')

由于部分日期格式不对，所以需要对提取到的数据进行进一步处理，具体不规则的样式参照前文

#-- 对日期时间数据进行修正
time_start = time.time() # 计时开始

#-- 创建格式化后的文件存储文件夹
format_path = "C:/Users/Good/Desktop/format_data"
if not os.path.exists(format_path):
    os.makedirs(format_path)
    
for id_number in predict_id:
    file_path = 'C:/Users/Good/Desktop/extract_data/' + id_number + '.csv'
    
    file_obj = open(file_path, 'r')
    
    format_obj = open(format_path + '/' + id_number + '.csv', 'w')
    
    for line in file_obj:
        cut_line = line.split(',')
        correct = cut_line[1] +','+ cut_line[2] +','+ cut_line[3] +','+ cut_line[4]
        datetime = cut_line[0]
        if '-' in datetime:
            error_time = datetime.split('-')
            if error_time[1][0] == '0':
                error_time[1] = error_time[1][1]
            if error_time[2][0] == '0':
                error_time[2] = error_time[2][1]
            new_line = '2018/' + error_time[1] + '/' + error_time[2] +','+ correct
            format_obj.write(new_line)
        else:
            format_obj.write(line)
    format_obj.close()
    file_obj.close()
    
time_end = time.time() # 计时结束 
print('time cost:', time_end - time_start, 's')

3.2 去除数据异常值

去除异常值，绘制箱线图【去除异常值的代码不全，大家自行编写吧。代码文件被我整理的时候误删了，太懒了，不想补了】

#--- 异常值排查，以及箱线图的绘制
# predict_id = ['186','221'] # 用作实验检验代码是否可行
file_path = 'C:/Users/Good/Desktop/format_data/'
predict_id = predict_id[:10] # 展示部分

up_plt_data = pd.DataFrame({
     })
low_plt_data = pd.DataFrame({
     })
for id_number in predict_id:
    # 读入数据
    data = pd.read_csv('C:/Users/Good/Desktop/format_data/' + id_number + '.csv', sep=',', header=None)
    
    # 计算Q1-n*IQR
    # xbar = data[3].mean()
    # xstd = data[3].std()
    
    up_plt_data[id_number] = data[3][:]
    low_plt_data[id_number] = data[4][:]
    
# 绘制图形
plt.figure(figsize=(20,10))
matplotlib.rcParams['font.family'] = 'SimHei'
plt.title('各小区上行流量(GB)箱线图', fontproperties='SimHei', fontsize=15)
up_plt_data.boxplot(patch_artist=True, showmeans=True, boxprops = {
     'color':'black', 'facecolor':'steelblue'},
                   flierprops = {
     'marker':'o', 'markerfacecolor':'red', 'markersize':3}, 
                   meanprops = {
     'marker':'D', 'markerfacecolor':'indianred', 'markersize':3},
                   medianprops = {
     'linestyle':'--', 'color':'orange'},
                   )
plt.xticks(fontproperties = 'Times New Roman', size = 18)
plt.yticks(fontproperties = 'Times New Roman', size = 18)
plt.show()

plt.figure(figsize=(20,10))
plt.title('各小区下行流量(GB)箱线图', fontproperties='SimHei', fontsize=15)
low_plt_data.boxplot(patch_artist=True, showmeans=True, boxprops = {
     'color':'black', 'facecolor':'steelblue'},
                   flierprops = {
     'marker':'o', 'markerfacecolor':'red', 'markersize':3}, 
                   meanprops = {
     'marker':'D', 'markerfacecolor':'indianred', 'markersize':3},
                   medianprops = {
     'linestyle':'--', 'color':'orange'},
                   )
plt.xticks(fontproperties = 'Times New Roman', size = 18)
plt.yticks(fontproperties = 'Times New Roman', size = 18)
plt.show()

绘制的图像如下图所示【仅选部分作为展示】

3.3 数据格式化

由于数据集中存在数据缺失，而缺失数据又无从查找，因为缺失的都是整个一行数据都缺失，即可能某一天的24条数据只有12条，但我们无法知道是那几个时刻缺失了。因此需要数据格式化，按照3-1至4-19每天24条数据生成序列，再在数据集中找到对应时间填入，这样就能知道那些时刻的数据存在缺失。

#--- 对处理好的数据进行标准化处理
time_start = time.time() # 计时开始
# predict_id = ['186'] # 用作实验检验代码是否可行
read_root = 'C:/Users/Good/Desktop/format_data/'
#-- 创建处理后的文件存储文件夹
save_root = 'C:/Users/Good/Desktop/deal_data'
if not os.path.exists(save_root):
    os.makedirs(save_root)

#-- 生成标准数据时间排序
date = [] # 记录日期
joint_date = [] # 记录拼接后的日期
for i in range(1,32):
    date.append('2018/3/'+str(i))
for j in range(1,20):
    date.append('2018/4/'+str(j))
for value in date:
    for index in range(0,24):
        joint_date.append(value + ' ' + str(index) + ':00:00')
null_list = np.zeros(1200)
joint_date = pd.to_datetime(joint_date)
date_flag = pd.to_datetime('2018/3/1 0:00:00') # 参照时间

#-- 以标准数据时间为模板，填入数据
for id_number in predict_id:
    # 建立模板
    id_list = np.ones(1200, dtype=np.int32) * int(id_number)
    model_style = pd.DataFrame({
     '日期+时间':joint_date, '小区编号':id_list, '上行流量':null_list, '下行流量':null_list})
    
    # 读入数据
    data = pd.read_csv(read_root + id_number + '.csv', sep=',', header=None)
    
    # 将读入的日期数据（读入后为字符串）转化为对应类型数据
    data['5'] = pd.to_datetime(data.iloc[:,0] + ' ' + data.iloc[:,1]) # 合并两列
    data.drop([0,1], axis=1) # 删除多余列
        
    index = 0 # 数据填入位置
    
    # 遍历数据的每一行
    for row in data.itertuples():
        datetime = row[6]
        index = pd.to_timedelta(datetime - date_flag).total_seconds() / 3600

        # 按照索引填入数据
        model_style['上行流量'][index] = row[4]
        model_style['下行流量'][index] = row[5]
        
    # 将零值置为NaN
    model_style['上行流量'] = model_style['上行流量'].replace(0, np.nan)
    model_style['下行流量'] = model_style['下行流量'].replace(0, np.nan)

    with pd.ExcelWriter(save_root + '/' + id_number + '.xlsx') as writer:
        model_style.to_excel(writer, index = False, header = None)
        
time_end = time.time() # 计时结束 
print('time cost:', time_end - time_start, 's')

处理后的文件

通过处理，我们可以清楚地知道数据集那些部分存在缺失

3.4 数据集的插值

对缺失值的填充在此题可以采用移动平均法和临近值取平均的方法。我偷懒了，就直接如果缺失值前后数值存在，那缺失值取前后值的平均，如果前后不存在，那就取前后日期同一时刻的数据的平均。而4-14一整天的数据全部小区都缺失，因此4-14跳过，不插值【我是搞完了才发现移动平均更好，但不愿改代码了】

#--- 对插值后的数据进行插值
file_path = 'C:/Users/Good/Desktop/deal_data/'
save_root = 'C:/Users/Good/Desktop/fill_data'
if not os.path.exists(save_root):
    os.makedirs(save_root)

def judge_value(data1, data2):
    if not(pd.isnull(data1)) and not(pd.isnull(data2)):
        data = (data1 + data2)/2
    elif not(pd.isnull(data1)):
        data = data1
    else:
        data = data2
    return data

def fill_data(index, data):
    
    fill_value = 0.0
    # 针对头尾单个数据的缺失
    if index == 0 or index == data_length - 1:
        if index == 0:
            flag = 1
            while(pd.isnull(data.iloc[index+24*flag]) and flag<=3):
                flag += 1 # 取较近的日期的数据进行填充
            if not(pd.isnull(data.iloc[index+24*flag])):
                fill_value = data.iloc[index+24*flag] # 同质填充
            elif not(pd.isnull(data.iloc[index+1])):
                fill_value = data.iloc[index+1] # 临近填充
        if i == data_length - 1:
            flag = 1
            while(pd.isnull(data.iloc[index-24*flag]) and flag<=3):
                flag += 1 # 取较近的日期的数据进行填充
            if not(pd.isnull(data.iloc[index-24*flag])):
                fill_value = data.iloc[index-24*flag] # 同质填充
            elif not(pd.isnull(data.iloc[index-1])):
                fill_value = data.iloc[index-1] # 临近填充

    # 针对单个缺失值（非头尾）
    elif not(pd.isnull(data.iloc[index-1])) and not(pd.isnull(data.iloc[index+1])):
        fill_value = (data.iloc[index-1] + data.iloc[index+1])/2 # 临近值平均

    # 针对连续缺失值
    else:
        # 针对数据头尾缺失(即头尾一天内的数据缺失)，选择后一天同一时刻的数据进行填充
        if index <= 23:
            m = 1 # 循环获取数值进行填充
            while(pd.isnull(data.iloc[index+24*m]) and m<=3):
                m += 1 # 取较近的日期的数据进行填充
            if not(pd.isnull(data.iloc[index+24*m])):
                 fill_value = data.iloc[index+24*m]
        elif data_length -1 - i <= 24:
            m = 1 # 循环获取数值进行填充
            while(pd.isnull(data.iloc[index-24*m]) and m<=3):
                m += 1 # 取较近的日期的数据进行填充
            if not(pd.isnull(data.iloc[index-24*m])):
                 fill_value = data.iloc[index-24*m]
        else:   
            n = 1 # 循环获取数值进行填充
            # 对一天中的缺失数据采取前后两天同一时刻的平均
            if not(pd.isnull(data.iloc[index-24*n])) and not(pd.isnull(data.iloc[index+24*n])):
                fill_value = (data.iloc[index-24*n] + data.iloc[index+24*n])/2 # 平均同质项目法
            else:
                while(pd.isnull(data.iloc[index-24*n]) or pd.isnull(data.iloc[index+24*n])):
                    n += 1
                    if index-24*n <= 0 or index+24*n >= data_length - 1:
                        break
                if index-24*n <= 0 or index+24*n >= data_length - 1:
                    n -= 1 # 将索引后退获取范围内的索引
                    fill_value = judge_value(data.iloc[index-24*n], data.iloc[index+24*n])
                else:
                    fill_value = judge_value(data.iloc[index-24*n], data.iloc[index+24*n])
                    
    return fill_value

time_start = time.time() # 计时开始

for id_number in predict_id:

    # 读入数据
    data = pd.read_excel(file_path + id_number + '.xlsx', header=None)
    data_length = len(data) # 数据长度
    
    # 流量不可能为0，因此为了统一数据直接0值也置为NaN
    # 统一数据，将缺失值置为零
    data = data.fillna(0)
    # 将零值置为NaN
    data[2] = data[2].replace(0, np.nan)
    data[3] = data[3].replace(0, np.nan)
    
    # 对缺失值进行插值
    for i in range(0,data_length-1):
        # 4-14的日期所有小区都缺失，因此选择不填充，直接跳过
        if data[0][i].month == 4 and data[0][i].day == 14:
            continue
            
        # 针对上行流量的插值
        if pd.isnull(data.iloc[i,2]):
            data.iloc[i,2] = fill_data(i, data.iloc[:,2])
                      
        # 针对下行流量的插值
        if pd.isnull(data.iloc[i,3]):
            data.iloc[i,3] = fill_data(i, data.iloc[:,3])
            
    # 将插值好的数据写入文件
    with pd.ExcelWriter(save_root + '/' + id_number + '.xlsx') as writer:
        data.to_excel(writer, index = False, header = None)

time_end = time.time() # 计时结束 
print('time cost:', time_end - time_start, 's')

绘制图像

import matplotlib.pyplot as plt
import matplotlib
import pandas as pd
import numpy as np
import time

#-- 绘制图像
predict_id = ['186']
file_path = 'C:/Users/Good/Desktop/fill_data03/'
for id_number in predict_id:
    experiment_data = pd.read_excel(file_path + id_number + '.xlsx', header=None)
    
    # 绘制图形
    plt.figure(figsize=(20,10))
    matplotlib.rcParams['font.family'] = 'SimHei'
    plt.plot(experiment_data.iloc[1:,0], experiment_data.iloc[1:,2],
            linestyle = '-', linewidth = 2, color = 'steelblue', marker = 'o', markersize = 6,
            markeredgecolor = 'black', markerfacecolor = 'brown', label = '上行流量')

    plt.xlabel('Time', fontsize = 16)
    plt.ylabel('Traffic(GB)', fontsize = 16)
    plt.legend(fontsize = 16)
    
plt.show()

#-- 绘制图像
predict_id = ['186']
file_path = 'C:/Users/Good/Desktop/fill_data03/'
for id_number in predict_id:
    experiment_data = pd.read_excel(file_path + id_number + '.xlsx', header=None)
    
    # 绘制图形
    plt.figure(figsize=(20,10))
    matplotlib.rcParams['font.family'] = 'SimHei'
    
    plt.plot(experiment_data.iloc[1:,0], experiment_data.iloc[1:,3],
            linestyle = '--', linewidth = 2, color = 'indianred', marker = 'o', markersize = 6,
            markeredgecolor = 'black', markerfacecolor = 'brown', label = '下行流量')

    plt.xlabel('Time', fontsize = 16)
    plt.ylabel('Traffic(GB)', fontsize = 16)
    plt.legend(fontsize = 16)
    
plt.show()

3.5 ARIMA模型进行短期预测

ARIMA $(p, d, q)$ ：差分自回归移动平均模型
- AR $(p)$ ：自回归模型
  - $p$ 阶自回归过程： $y_t=\mu + \sum_{i=1}^p \gamma_i y_{t-i} + \epsilon_t$
  - $y_t$ 是当前值； $\mu$ 是常数项； $p$ 是阶数； $\gamma_i$ 是自相关系数； $\epsilon_t$ 是误差
  - $y_{t-i}$ 当前时间数据 $y_t$ 的历史， $\sum_{i=1}^p，p$ 为间隔天数，即于前几个数据相关联。如今天的预测值（ $y_t$ ）与前三天的数值相关联，那么 $p = 3$
  - 自回归本质上只是关联了时间（历史数据）的一种特殊的回归方式
- MA $(q)$ ：移动平均模型
  - $q$ 阶自回归过程的公式定义： $y_t=\mu + \epsilon_t + \sum_{i=1}^q \theta_i \epsilon_{t-i}$
  - 移动平均模型关注的是自回归模型中的误差项的累加
  - 移动平均法能有效地消除预测中的随机波动
- ARMA $(p, q)$ ：自回归移动平均模型
  - 自回归与移动平均的结合
  - 公式定义： $y_t=\mu + \sum_{i=1}^p \gamma_i y_{t-i} + \epsilon_t + \sum_{i=1}^q \theta_i \epsilon_{t-i}$
- ARIMA思想：将非平稳时间序列转化为平稳时间序列（差分），然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型
- $d$ 为时间序列成为平稳时所做的差分次数

自相关函数 ACF（autocorrelation function）
- 有序的随机变量序列与其自身相比较
- 自相关函数反映了同一序列在不同时序的取值之间的相关性
- 公式： $ACF(k)=\rho_k=\frac{Cov(y_t,y_{t-k})}{Var(y_t)}$
- $\rho_k$ 的取值范围为 [-1, 1]， $k$ 表示滞后多少个点
偏自相关函数（PACF）（ partial autocorrelation function）
- 对于—个平稳 AR $(p)$ 模型，求出滞后 $k$ 自相关系数 $p (k)$ 时实际上得到并不是 $x (t)$ 与 $x (t - k)$ 之间单纯的相关关系
- $x (t)$ 同时还会受到中间 $k - 1$ 个随机变量 $x (t - 1) 、 x (t - 2) 、 \dots \dots 、 x (t - k + 1)$ 的影响，而这 $k - 1$ 个随机变量又都和 $x (t - k)$ 具有相关关系，所以自相关系数 $p (k)$ 里实际掺杂了其他变量对 $x (t)$ 与 $x (t - k)$ 的影响
- 剔除了中间 $k - 1$ 个随机变量 $x (t - 1) 、 x (t - 2) 、 \dots \dots 、 x (t - k + 1)$ 的干扰之后 $x (t - k)$ 对 $x (t)$ 影响的相关程度。
- ACF 还包含了其他变量的影响，而偏自相关系数 PACF 是严格这两个变量之间的相关性
ACF 和 PACF 比较的是数据项之间的关联性，区别在于比较的方式。因为时间序列数据是连续且相互关联的数据。我们能够利用历史数据进行预测也是利用这个特性（长期趋势、季节变动）

模型的参数选择

模型	ACF	PACF
AR ( p )	衰减趋于零	p 阶后截尾
MA ( q )	q 阶截尾	衰减趋于零
ARMA ( p, q )	q 阶后衰减趋于零	p 阶后衰减趋于零

截尾：落在置信区间内（95%的点都符合该规则）
以上图为例，ACF 图中我们可以取 q = 3，PACF 图中我们可以取 p = 9

利用相关准则确定模型参数

上面采用的是观察法选择参数，当然我们也可以利用相关准则进行判断而不是通过观察得出

AIC ：赤池信息准则 $A I C = 2 k - a l n (L)$
BIC ：贝叶斯信息准则 $B I C = k l n (n) - 2 l n (L)$
$k$ 为模型参数个数， $n$ 为样本数量， $L$ 为似然函数

至于如何选择合适的参数，可以就这里的两个准则之一，设定好 $p 、 q$ 的范围，进行遍历，取对应准则中最优的值就好

相关文章：https://blog.csdn.net/jteng/article/details/40823675

以下代码仅作为参考

import itertools

p_min = 0
p_max = 10
q_min = 0
q_max = 10
d_min = 0
d_max = 1

result_bic = pd.DataFrame(index=['AR{}'.format(i) for i in range(p_min,p_max+1)],
                         columns=['MA{}'.format(i) for i in range(q_min,q_max+1)])

for p,d,q in itertools.product(range(p_min,p_max+1), range(d_min,d_max+1), range(q_min,q_max+1)):
    
    if p == 0 and d == 0 and q == 0:
        result_bic.loc['AR{}'.format(p), 'MA{}'.format(q)] = np.nan
        continue
    
    try:
        model = sm.tsa.SARIMAX(ts_train, order=(p, d, q))
        results = model.fit()
        result_bic.loc['AR{}'.format(p), 'MA{}'.format(q)] = results.bic
    except:
        continue
        
result_bic = result_bic[result_bic.columns].astype(float)

更正规的操作还需对模型进行检验，考虑到不是对单个小区进行预测，可以仅取一个小区作为示例进行一下检验就行

具体代码实现可以参照这篇文章：利用python进行时间序列分析——季节性ARIMA
我的代码也是参照这篇文章写的：

# 导入相应的模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import datetime
import matplotlib
from dateutil.relativedelta import relativedelta
import seaborn as sns
import statsmodels.api as sm  
from statsmodels.tsa.stattools import acf
from statsmodels.tsa.stattools import pacf
from statsmodels.tsa.seasonal import seasonal_decompose

%matplotlib inline
sns.set(color_codes=True)

这里仅仅以186号小区作为示例：

predict_id = ['186']
file_path = 'C:/Users/Good/Desktop/fill_data03'

for id_number in predict_id:
    
    #-- 读入数据
    data = pd.read_excel(file_path + '/' + id_number + '.xlsx', header=None)
    data = data.dropna().reset_index(drop=True)
    
    time = pd.DataFrame(data.iloc[:,0])
    up_data = pd.DataFrame(data.iloc[:,2])
    up_data.columns = ['raw_data']
    low_data = pd.DataFrame(data.iloc[:,3])
    low_data.columns = ['raw_data']
    
    plt.figure(figsize=(18,12))
    matplotlib.rcParams['font.family'] = 'SimHei'
    plt.plot(range(1,len(up_data)+1), up_data, linestyle = '-', linewidth = 2, color = 'steelblue', marker = 'o',
             markersize = 6,markeredgecolor = 'black', markerfacecolor = 'brown', label = '上行流量')
    # plt.xticks(rotation = 90) # x轴刻度垂直显示

    plt.xlabel('Time', fontsize = 16)
    plt.ylabel('Traffic(GB)', fontsize = 16)
    plt.xticks(fontsize = 16)
    plt.yticks(fontsize = 16)
    plt.legend(fontsize = 16)
    plt.show()
    
    # 检验数据是否存在周期性波动
    decomposition = seasonal_decompose(up_data, freq=24)  
    fig = plt.figure()
    fig = decomposition.plot()
    fig.set_size_inches(15, 10)

代码运行结果如下：

之后的代码和文章内的差不多，改个变量名就好，我就不粘贴上来了
后面就是模型的求解，代码如下所示：

mod = sm.tsa.statespace.SARIMAX(up_data.raw_data.astype(float), trend='n', order=(0,1,0), seasonal_order=(1,1,4,24))
# order=(p,d,q), seasonal_order=(p,d,q,T) T为周期（季节性）
results = mod.fit()

length = len(up_data.raw_data)
# 20%的数据作为检验
start_index = length - 1 - int(0.2*length)
end_index = length - 1

up_data['forecast'] = results.predict(start = start_index, end= end_index, dynamic= True)
up_data[['raw_data', 'forecast']].plot(figsize=(18, 12))

外婆今天生日，明天有时间接着写。。。

4 问题二的求解

前面的步骤同第一问，改一下代码就好，针对第二问可以采用 STL—LSTM模型进行求解。利用 LSTM 的记忆+遗忘的模式到达时间序列的长期预测。
这部分大家可以自行搜索，了解一下模型原理，可以看一下神经网络、RNN、LSTM，这部分原理太长了，我有笔记但觉得笔记拍照截图还不如直接看别的优秀博主的博客，代码可以自行编写。
没什么人看，有时间再更吧

4.1 人工神经网络（ANN）

4.2 深度神经网络（DNN）

4.3 循环神经网络（RNN）

4.4 长短期记忆网络（LSTM）

挖个坑，后面再填

你可能感兴趣的:(summarize,大数据,python,数据分析,可视化,csv)

Plotly第三方地图图源调用司南锤 python基础学习科研绘图 plotly
在线免费地图服务（需网络连接）1.开源地图服务服务商样式名称适用场景示例代码Stamenterrain（地形）山川地貌可视化mapbox_style="stamen-terrain"toner（线稿风格）构建数据仪表盘背景mapbox_style="stamen-toner"watercolor（水彩风格）艺术化地图展示mapbox_style="stamen-watercolor"OpenStr
【MySQL】表空间丢失处理（Tablespace is missing for table 错误处理） m0_74824823 面试学习路线阿里巴巴 mysql 数据库
问题背景最近，我在运行一个基于Python爬虫的项目时，爬虫需要频繁与MySQL数据库交互。不幸的是，在数据爬取过程中，Windows系统突然强制更新并重启。这次意外中断导致MySQL数据库的三个表格（2022年、2023年和2024年的数据表）出现了“Tablespaceismissing”的错误。起初，我尝试了常规的CHECKTABLE和REPAIRTABLE方法，但这些都没有解决问题。最终，
【update 更新数据语法合集】.NET开源ORM框架 SqlSugar 系列 m0_74824823 面试学习路线阿里巴巴 .net 开源
系列文章目录???.NET开源ORM框架SqlSugar系列???文章目录系列文章目录前言??一、实体对象更新1.1单条与批量1.2不更新某列1.3只更新某列1.4NULL列不更新1.5无主键/指定列1.6更新添加条件1.7大数据更新1.8重新赋值1：list中的值修改1.9重新赋值2:列中的值+1二、根据表达式更新（像SQL）2.1指定多个字段更新2.2一个字段更新2.3字段+1更新2.4Set
Python 继承详解江湖一条鱼 python
继承是面向对象编程（OOP）的一个重要特性，允许一个类（子类）从另一个类（父类）继承属性和方法。继承可以提高代码的重用性，增强程序的可扩展性和可维护性。目录一、继承的作用二、继承的语法1.单继承2.多继承三、子类扩展1.添加新功能2.重写父类方法3.调用父类方法四、继承的特殊情况1.子类初始化父类2.方法解析顺序（MRO）五、抽象类与接口1.抽象类2.接口3.ABC类4.使用方法1.定义抽象基类2
【如何学习商城源码】启山智软商城源码微信小程序小程序 java
学习商城源码是一个系统而深入的过程，需要掌握多种方法和技巧。以下是一些建议，帮助你有效地学习商城源码：一、搭建学习环境准备开发工具编程语言相关：根据商城源码使用的编程语言，安装相应的集成开发环境（IDE）。例如，若源码是Java语言编写的，可安装IntelliJIDEA或Eclipse；若是Python语言，可选择PyCharm等。这些IDE能帮助你高效地编辑、调试代码，提供语法高亮、自动补全等功
从零创建一个 Django 项目 m0_74824823 面试学习路线阿里巴巴 django python 后端
1.准备环境在开始之前，确保你的开发环境满足以下要求：安装了Python(推荐3.8或更高版本)。安装pip包管理工具。如果要使用MySQL或PostgreSQL，确保对应的数据库已安装。创建虚拟环境在项目目录中创建并激活虚拟环境，保证项目依赖隔离：#创建虚拟环境python-mvenvenv#激活虚拟环境#WindowsenvScriptsactivate#Linux/Macsourceenv/
anaconda中的python在pycharm中用不了_Pycharm中使用Anaconda 白白前
Pycharm中使用Anaconda问题：安装完Pycharm和Anaconda后，想让Pycharm能调用Anaconda中包含的各种包。这样就不用重复安装各种包了。Anaconda下载安装Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包，Anaconda的下载文件比较大(约515MB)。安装Anacond
python - 永久存储 susie0815 python python 服务器
打开文件使用open()函数打开文件时，openfilemode（文件打开模式）是一个决定了以何种方式打开文件以及对文件可以进行哪些操作的重要参数。基本模式只读模式（‘r’）默认的打开模式，用于读取文件。如果文件不存在，会抛出FileNotFoundError异常。try:file=open('test.txt','r')content=file.read()print(content)file.
自动化测试的学习路线 Ws＿学习
自动化测试是提高软件开发效率和质量的关键手段。学习自动化测试通常涉及多个方面的技能，从基础的编程语言知识到测试工具的使用，再到实际的测试脚本编写和执行。以下是一个学习自动化测试的路线图，帮助你有条不紊地掌握相关技能：1.基础知识在开始自动化测试之前，首先要具备一定的编程和软件测试基础：编程语言：Python、Java、JavaScript或者Ruby（根据你选择的自动化测试工具决定）软件测试基础：
Python自动化测试 Ws＿ python python
Python自动化测试是软件开发中的重要组成部分，可以帮助提高测试效率和准确性。以下是学习Python自动化测试的基本路线，以及相关资料的链接：学习路线1.基础知识Python基础：掌握Python语言的基本语法、数据类型、控制流、函数、面向对象编程等。你可以先确保对Python的基本语法有清晰的理解。参考资料：Python官方文档书籍推荐：《Python编程：从入门到实践》2.了解自动化测试的基
Python实现Excel表格保存到不同文件夹 Leo_Aqu excel python
"""点击“上传”按钮，从本地上传待处理的Excel表格点击“处理”按钮，对Excel表格进行处理点击“保存A”按钮，保存处理后的Excel表格到A文件夹下点击“保存B”按钮，保存处理后的Excel表格到B文件夹下"""#作者:Leo#时间:2024/9/2621:52importtkinterastkfromtkinterimportfiledialog,messageboximportpand
通义灵码AI程序员天天向上杰 AI编程 AIGC 人工智能
通义灵码是阿里云与通义实验室联合打造的智能编码辅助工具，基于通义大模型技术，为开发者提供多种编程辅助功能。它支持多种编程语言，包括Java、Python、Go、TypeScript、JavaScript、C/C++、PHP、C#、Ruby等200多种编码语言。通义灵码AI程序员：今年1月，通义灵码AI程序员全面上线，同时支持VSCode、JetBrainsIDEs，是国内首个真正落地的AI程序员。
python使用技巧超超是超超 python
1、耗时装饰器importtimedefdecorate(func):definner():begin=time.time()result=func()end=time.time()print(f'函数{func}耗时{end-begin}')returnresultreturninner2、查看代码运行耗时fromline_profilerimportLineProfilerdefoperati
Anaconda与python和pycharm的安装及其关系 Daylight.. 学习笔记 pycharm python ide
Anaconda与python和pycharm的安装及其关系一、Anaconda与python和pycharm的关系：1.Anaconda包含python，并且里面含有许多常用的库。（安装了Anaconda就不需要安装python了）2.pycharm是一种IDE（集成开发环境），在其中可以编写Python程序。（工具和语言的关系）。二、如何安装？Anaconda的安装Anaconda官网下载地址
ImportError: cannot import name ‘Mapping‘ from ‘collections‘ AI算法网奇 python基础前端 javascript 数据库
ImportError:cannotimportname'Mapping'from'collections'解决方法：fromcollections.abcimportMapping#正确导入Mappingdefprocess_mapping(data):ifisinstance(data,Mapping):#使用Mapping进行类型检查#处理映射类型的代码pass测试命令：python-c"f
python图形界面化编程GUI（二）常用的组件(Text、Radiobutton、Checkbutton、Canvas)和布局管理器(gird、pack、place) hwwaizs python-GUI图形化编程 python 开发语言
Text文本框Text(多行文本框)的主要用于显示多行文本，还可以显示网页链接,图片,HTML页面,甚至CSS样式表，添加组件等。主要用来显示信息，也常被当做简单的文本处理器、⽂本编辑器或者网页浏览器来使用。IDLE就是Text组件构成的。insert插入的时候可以用INSERT代表当前光标的位置，END代表在结尾的位置，也可以用插入小数的形式，2.3代表第二行第三列后插入。fromtkinter
【深度解析】最短路径算法：Dijkstra与Floyd-Warshall 吴师兄大模型算法数据结构 python 最短路径算法 Dijkstra算法 Floyd-Warshall 开发语言
系列文章目录01-从零开始掌握Python数据结构：提升代码效率的必备技能！02-算法复杂度全解析：时间与空间复杂度优化秘籍03-线性数据结构解密：数组的定义、操作与实际应用04-深入浅出链表：Python实现与应用全面解析05-栈数据结构详解：Python实现与经典应用场景06-深入理解队列数据结构：从定义到Python实现与应用场景07-双端队列（Deque）详解：Python实现与滑动窗口应
c语言迷宫小游戏350行（源码）迷茫&&前行 c语言 c语言游戏
这是一款基于控制台的双模式迷宫冒险游戏。在极限逃脱模式中，玩家需操控角色"A"在三个精心设计的关卡中躲避追踪者"B"，通过WASD键在100步限制内抵达终点"@"，关卡包含特殊地形和动态敌人机制。无尽挑战模式则采用随机生成的渐进式迷宫，每关迷宫尺寸随等级扩大，玩家需在无限扩展的迷宫中不断挑战。游戏提供可视化操作界面，通过方向键控制移动，支持中途退出功能（o)。两种模式分别提供3个固定关卡和无限递增
CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
postgresql实时同步到mysql 数据库
应客户要求，需要同步数据到他们自己的数据库用于简单的数据分析，但这部分数据在postgresql，客户又不想再建pg，想直接同步到他们现有的mysql库，实时性倒是不要求。考虑到1、异构数据库同步2、只同步指定客户的行数据有之前同步到es的经验，同样使用了腾讯oceanus，其它工具没搞定客户库中创建表CREATETABLEtb_1(idbigintprimarykey,didbigint,gid
全网最全！DeepSeek 新手入门教程合集人工智能deepseek
如果你是初次接触DeepSeek的普通用户或开发者，面对海量教程却无从下手？别担心！本文为你整理全网最易懂、最实用的DeepSeek学习资源，涵盖快速上手、编程实战、系统手册等，附直达链接，收藏这一篇就够了！一、快速入门指南《DeepSeek入门教程》-博客园亮点：手把手教你注册账号、获取APIKey，并提供Python调用多轮对话的代码示例，适合初级开发者。直达链接：点击查看核心内容：API调用
【Python】Python入门——判断语句 zhoushanguhe Python python 编程开发语言
Python入门——判断语句。内容包括if语句、条件表达式、三元运算、match语句等。目录一、if语句1.基本if-else语句2.常用比较运算符3.if-else连写4.pass语句5.变量的作用域二、条件表达式三、三元运算四、match语句五、其他一、if语句1.基本if-else语句当条件成立时，执行某些语句；否则执行另一些语句。注意：if和else后需要加上冒号:if语句的代码块需要缩进
兄弟们，我的deepseek终于可以控制浏览器了：Part 1/n，含代码几道之旅 Dify：智能体（Agent）工作流知识库全搞定几道之旅AI专栏VVVIP 人工智能
文章目录前言helloworld前言其实，deepseek控制浏览器咱之前就发过，只不过当时没有想到这么好的标题，哈哈。所依赖的，依然是BrowserUse这个项目BrowserUse项目官网helloworld按照官网配置好环境后，只需新建一个python文件（例如，叫main.py?）然后运行即可。fromlangchain_openaiimportChatOpenAIfrombrowser_
CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3 仙人掌_lz 人工智能人工智能 AI 部署自然语言处理
简介KTransformers是一个灵活的、以Python为中心的框架，旨在通过先进的内核优化和放置/并行策略提升HuggingFaceTransformers的使用体验。它具有高度的可扩展性，用户可通过单行代码注入优化模块，获得兼容Transformers的接口、符合OpenAI和Ollama的RESTfulAPI，甚至简化的ChatGPT风格的WebUI。KTransformers的性能优化基
C语言-回调函数的应用 woainizhongguo. C/C++c语言
什么是回调函数回调函数就是一个被作为参数传递的函数。在C语言中，回调函数只能使用函数指针实现，在C++、Python、ECMAScript等更现代的编程语言中还可以使用仿函数或匿名函数。工作机制⑴定义一个回调函数；⑵提供函数实现的一方在初始化的时候，将回调函数的函数指针注册给调用者；⑶当特定的事件或条件发生的时候，调用者使用函数指针调用回调函数对事件进行处理。应用案例（1）应用层：通过调用hal层
Python Union 联合类型注解详解人才程序员杂谈 python 服务器 java linux 后端软件工程开发语言
文章目录PythonUnion联合类型注解详解1.什么是Union联合类型？**语法（Python3.9及之前版本）**：**语法（Python3.10及之后版本）**：2.Union联合类型注解示例**(1)使用Union来表示多个类型的参数****(2)使用`|`来表示联合类型（Python3.10及之后版本）**3.使用Union进行复杂类型注解**(1)使用Union与列表结合****(2
释放 DeepSeek 的力量：像专家一样本地安装与探索！ guzhoumingyue AI python
要在本地运行DeepSeek，您需要遵循以下步骤。请确保您的计算机上已安装Python和Git，并且满足DeepSeek的依赖项。步骤1:安装依赖项安装Python和pip确保您已安装Python（建议使用Python3.6及以上版本）。您可以通过在终端/命令提示符中输入以下命令来检查Python是否已安装：bash复制代码python--version或者bash复制代码python3--ver
ffmpeg-python安装 neverayever 计算机 ffmpeg python linux
centos-ffmpeg-python安装安装ffmpeg一：下载并解压wgethttp://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gztar-zxvfffmpeg-4.2.tar.gz若linux服务器没网，可以在windows上直接访问http://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gz就可下载，然后上传至服
Python的那些事第二十七篇：Python中的“数据魔法师”NumPy 暮雨哀尘 Python的那些事 python numpy 开发语言数据分析算法数组索引
摘要在这篇幽默风趣的论文中，我们将深入探讨NumPy——Python中最强大的数值计算库之一。它不仅提供了高性能的多维数组对象，还让复杂的数学运算变得像吃冰淇淋一样简单。本文将通过生动的代码示例和幽默的比喻，带你领略NumPy的魔法世界，让你在欢笑中掌握这个强大的工具。一、引言：为什么NumPy是程序员的“超级英雄”？1.1NumPy的起源：从“数据苦力”到“数据魔法师”想象一下，你被困在一个全是
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》