ZJun310

数据竞赛思路分享：机场客流量的时空分布预测

历时两个月的比赛终于结束了，最终以第32名的成绩告终，在此和大家分享下解决问题的思路。

从初赛到复赛，有走过弯路，也有突然灵光一现的时刻。一路走来，对数据各种把玩，分析了各种可能的情况，尽可能得挖掘数据中潜在的信息来构建更为准确的模型。

本文无法涵盖所有的分析历程，但是会涉及解决问题的主要思路以及部分代码，详细的代码见Github页面

竞赛详细信息参见比赛官方网站

1. 问题描述

机场拥有巨大的旅客吞吐量，与巨大的人员流动相对应的则是巨大的服务压力。安防、安检、突发事件应急、值机、行李追踪等机场服务都希望能够预测未来的旅客吞吐量，并据此提前调配人力物力，更好的为旅客服务。本次大赛以广州白云机场真实的客流数据为基础，每天数万离港旅客在机场留下百万级的数据记录。希望参赛队伍通过数据算法来构建客流量预测模型。

2. 数据概览

提供的数据：

Table
连接WIFI AP （Access Point）的人数表 airport_gz_wifi_ap
安检旅客过关人数表 airport_gz_security_check
旅客进入－离开机场的行程表 airport_gz_departure
航班排班表airport_gz_flights [比赛一段时间后才提供]
机场登机口区域表 airport_gz_gates [比赛一段时间后才提供]
机场WIFI接入点坐标表 airport_gz_wifi_coor [复赛提供的]

例如airport_gz_wifi_ap 表数据概览：

wifi_ap_tag	passenger_count	time_stamp
E1-1A-1	15	2016-09-10-18-55-04
E1-1A-2	15	2016-09-10-18-55-04
E1-1A-3	38	2016-09-10-18-55-04
E1-1A-4	19	2016-09-10-18-55-04

提交表格案例：

passenger_count	wifi_ap_tag	slice10min
1.1	E1-1A-1	2016-09-14-15-0
2.2	E1-1A-1	2016-09-14-15-1
3.3	E1-1A-1	2016-09-14-15-2
4.4	E1-1A-1	2016-09-14-15-3
5.5	E1-1A-1	2016-09-14-15-4

3. 初赛

3.1初赛数据描述

初赛提供了2016-10-09至2016-09-25的数据

3.2初赛问题描述

选手需要预测未来三小时（9月25日15:00:00到18:00）的时间窗口里，机场内每个WIFI AP点每10分钟内的平均设备连接数量

3.3初赛解决方案

简要概括：均值加趋势

数据预处理：

提供的表格中时间数据都是精确到秒，而所提交的结果要求是每10分钟的平均情况，所以我们首先需要将数据按照每十分钟的间隔汇总起来（详细代码见Github）

此处提供两种方案:

以airport_gz_wifi_ap表为例截取time_stamp的部分字符串，然后按照截取的time_stamp和wifi_ap_tag进行aggregate
```
t = t0[:15] # 例如将t0 = 2016-09-10-18-55-04截取为t = 2016-09-10-18-5 
```
将数据按照时间排序，然后抽出每十分钟的数据进行处理后整合，这个方式可能会比较麻烦，但是这个方式有他的优势，我们只需调整一个参数，便能让数据按照任意的时间间隔进行统计，便于以后复用函数

此处附加Python处理时间格式的一些函数

我们可以直接使用pandas中的参数解析时间数据

# Normal
df =pd.read_csv(path, parse_dates=['column name'])
# Special
dateparse = lambdax: pd.datetime.strptime(x, '%Y-%m-%d %H:%M:%S') 
df =pd.read_csv(path, parse_dates=['column name'], date_parser=dateparse)

当然也可以自己写函数处理

import pandas as pd
def ReturnTimeElement(Date):
    return [int(t) for t in Date.split('-')]
def TransToTime(TimeElement):
    return pd.datetime(*(TimeElement))
def GetTime(Date):
    TimeElement = ReturnTimeElement(Date)
    Time = TransToTime(TimeElement)
    return Time
T = '2016-10-19-9-47-00'
>>> GetTime(T)
datetime.datetime(2016, 10, 19, 9, 47)

处理后可以得到如下数据,命名为WIFITAPTag_Mean_All

PassengerCountMean	Time	WIFIAPTag
16.2	2016/9/10 19:00	E1-1A-1
19.7	2016/9/10 19:10	E1-1A-1
19.7	2016/9/10 19:20	E1-1A-1
20.5	2016/9/10 19:30	E1-1A-1
20.5	2016/9/10 19:40	E1-1A-1
24.8	2016/9/10 19:50	E1-1A-1

问题分析：

对于这个预测问题有以下关键两点：

机场每天的排班表基本稳定，用户在机场内的行走模式也基本稳定
时间序列具有一定程度的连续性，下午三点至六点的情况会一定程度延续此前几小时的情况

基于以上两点想法，就得到了两个基本模型：均值模型和时间序列模型

比赛初期只提供了前三个表格，所以开始就注重分析了这几个表格，例如从WIFIAPTag中可以提取出大概的位置信息和楼层信息，分组统计不同区域的WIFIAP是否有接近的模式，同时也可从安检和出发表格中寻找一定的关联等等。

但是经过分析发现，airport_gz_security_check及airport_gz_departure的数据虽然和airport_gz_wifi_ap的数据有一定的关联，但是其本身存在较大的随机因素，用随机预测随机存在太大的变数，不如只使用airport_gz_wifi_ap中的数据进行更稳定的预测(当然肯定也有队伍能很好得从airport_gz_security_check及airport_gz_departure中提出很很棒的特征)。后期提供的几个表格由于数据质量问题，经分析后发现贡献不是特别大，故也没有进一步利用。

因而之后要说的均值模型和时间序列模型都基于WIFITAPTag_Mean_All表格的数据，并且是以WIFIAP为对象，每一个分开预测。

数据探索：

接下来让我们对数据有一个大概的了解

def GetTimeSeries(WIFIAPTag):
    '''
    Get WIFIAPTag 's Time Series
    '''
    Tag_Data = WIFITAPTag_Mean_All[WIFITAPTag_Mean_All.WIFIAPTag == WIFIAPTag]
    MinTime = min(Tag_Data.Time)
    MaxTime = max(Tag_Data.Time)
    DataTimeRange = pd.date_range(start = MinTime , end = MaxTime , freq = '10Min')
    ts_0 = pd.Series([0]*len(DataTimeRange),index=DataTimeRange)
    ts =pd.Series(Tag_Data.PassengerCountMean.values , index = Tag_Data.Time)
    TS = ts_0+ts
    TS = TS.fillna(0)
    return TS

以上函数能提取出特定WIFIAP的时间序列数据，及每10分钟的平均连接数

ts = GetTimeSeries('E1-1A-1')
ts
Out[7]: 
2016-09-10 19:00:00    16.2
2016-09-10 19:10:00    19.7
2016-09-10 19:20:00    19.7
...
2016-09-25 14:30:00    11.1
2016-09-25 14:40:00     8.0
2016-09-25 14:50:00    10.9
dtype: float64

绘图结果如下,可以看出每天还是有一定的规律，但是有异常的日子

ts.plot()

由于我们需要预测的是特定某几个小时的数据，所以需要如下函数提取部分的时间序列

def Get_Part_of_TimeSeries(TS,TimeRange):
    '''
    Input [start_time,end_time]
    '''
    return TS[TimeRange[0]:TimeRange[1]]

均值模型需要考虑之前每一天同一时间段的情况，所以有如下函数

def GenerateTs_0(Time):
    timerange = pd.date_range(start = Time[0],end = Time[1] ,freq = '10Min')
    ts = pd.Series(np.zeros(len(timerange)),index = timerange)
    return ts

def TsList(WIFIAPTag,Time):
    ts_list=[]
    ts = GetTimeSeries(WIFIAPTag)
    for i in range(1,15):
        TimeRange = Time - timedelta(i)
        ts_part = Get_Part_of_TimeSeries(ts,TimeRange)
        if len(ts_part) == 0 or ts_part.isnull().any():
            ts_list.append(GenerateTs_0(TimeRange))
        else:
            ts_list.append(ts_part)
    return np.array(ts_list)

使用以上函数便可以得到如下结果，其中array的每一行是之前每天下午三点到下午6点的数据

Time = np.array([pd.datetime(2016,9,25,15,0,0),pd.datetime(2016,9,25,17,50,0)])

Time
Out[11]: 
array([datetime.datetime(2016, 9, 25, 15, 0),
       datetime.datetime(2016, 9, 25, 17, 50)], dtype=object)

ts_list = TsList('E1-1A-1',Time)
ts_list
Out[25]: 
array([[  1.5,   0.4,   1.8, ...,  15. ,  15.9,  18.4],
       [ 11. ,  11.3,  13.4, ...,   6.3,   7.2,   9.4],
       [  7. ,   5.5,   4.9, ...,   4.9,   4. ,   6.4],
       ..., 
       [ 13.6,  16.4,  16.7, ...,   4.7,   3.9,   4.1],
       [  3.8,   4.2,   6. , ...,  10.2,   9.6,  19.4],
       [  5.2,   3.2,   4.2, ...,   5. ,   4.5,   4.3]])

但是之前这么多天必然有比较异常的日子，所以需要写如下函数将异常的日子过滤掉，此处的过滤策略是：

对每天特定时间段的数据求均值与标准差，然后将均值与标准差落在10%分位数以下和90%分位数以上的日子去除

def TrueFalseListCombine(TFlist1,TFlist2):
    return [l1 and l2 for l1,l2 in zip(TFlist1,TFlist2)]

def ExceptOutlier(ts_list):
    Mean = pd.DataFrame([np.mean(i) for i in ts_list])
    mean_low = Mean > Mean.quantile(0.1)
    mean_up = Mean < Mean.quantile(0.9)
    TF = TrueFalseListCombine(mean_low.values,mean_up.values)
    mean_index = Mean[TF].index.values    
    Std = pd.DataFrame([np.std(i) for i in ts_list])
    std_low = Std > Std.quantile(0.1)
    std_up = Std < Std.quantile(0.9)
    TF = TrueFalseListCombine(std_low.values,std_up.values)
    std_index = Std[TF].index.values  
    valid_index = list(set(mean_index)&set(std_index))
    return valid_index

例如对刚生成的ts_list处理得到

ExceptOutlier(ts_list)
Out[26]: [0, 1, 2, 3, 4, 6, 8, 9, 10, 12]

为了更直观我们使用如下函数绘图

def DrawTsList(ts_list):
    plt.plot(ts_list.T)

DrawTsList(ts_list)	DrawTsList(ts_list[ExceptOutlier(ts_list)])

上图左侧为所有日子的时间序列，右图为去除异常日子之后的时间序列，可以看出已经将特别异常的几天去除了

均值模型：

每天的量值都存在一定的差异，直接将所有去除异常之后的日子取均值并不是特别好的策略，在此我们认为，机场下午3点至6点的人流总量应当与当天这个时刻之前的人流量存在一定的关系，所以我们取了上午6点到下午3点这一时间段的数据作为人流量值的参考。我们是有预测当天上午6点到下午3点的数据的，故可以依据此和之前去除异常后的多天该时间段的数据计算之前各天下午3点到下午6点数据的贡献度。

基于以上思想，并做了一点小修改写了如下两个模型，两个模型比较接近，但是在某些WIFIAP上其中一个会表现好很多，这使得我们之后利用误差分析挑选模型时多一个候选模型。

def Ratio(L):
    return np.array(L*1.0/sum(L))

def Imitate1(WIFIAPTag,TrainTime,PredictTime):

    TrainTimeTsList = TsList(WIFIAPTag,TrainTime)
    PredictTimeTsList = TsList(WIFIAPTag,PredictTime)
    IndexWithoutOutlier = ExceptOutlier(PredictTimeTsList)

    ValidTrainTimeTsList = TrainTimeTsList[IndexWithoutOutlier]
    ValidPredictTimeTsList = PredictTimeTsList[IndexWithoutOutlier]
    PredictDayTrainTs = Get_Part_of_TimeSeries(GetTimeSeries(WIFIAPTag),TrainTime)

    if len(PredictDayTrainTs) == 0:
        PredictTs = ValidPredictTimeTsList.mean(axis=0)
    else:
        MeanPredictDayTrainTs = PredictDayTrainTs.mean()
        MeanValidTrainTimeTsList = ValidTrainTimeTsList.mean(axis=1)

        RatioList = Ratio(MeanPredictDayTrainTs/MeanValidTrainTimeTsList)
        PredictTs = np.dot(ValidPredictTimeTsList.T,RatioList)

    PredictTimeRange = pd.date_range(start = PredictTime[0],end = PredictTime[1] ,freq = '10Min')
    TS_Predict = pd.Series(PredictTs,index = PredictTimeRange)

    return TS_Predict 

def Imitate2(WIFIAPTag,TrainTime,PredictTime):

    TrainTimeTsList = TsList(WIFIAPTag,TrainTime)
    PredictTimeTsList = TsList(WIFIAPTag,PredictTime)
    IndexWithoutOutlier = ExceptOutlier(PredictTimeTsList)

    ValidTrainTimeTsList = TrainTimeTsList[IndexWithoutOutlier]
    ValidPredictTimeTsList = PredictTimeTsList[IndexWithoutOutlier]
    PredictDayTrainTs = Get_Part_of_TimeSeries(GetTimeSeries(WIFIAPTag),TrainTime)

    if len(PredictDayTrainTs) == 0:
        PredictTs = ValidPredictTimeTsList.mean(axis=0)
    else:
        MeanPredictDayTrainTs = PredictDayTrainTs.mean()
        MeanValidTrainTimeTsList = ValidTrainTimeTsList.mean(axis=1)

        RatioList = MeanPredictDayTrainTs/MeanValidTrainTimeTsList
        PredictTs = np.dot(ValidPredictTimeTsList.T,RatioList) / len(RatioList)

    PredictTimeRange = pd.date_range(start = PredictTime[0],end = PredictTime[1] ,freq = '10Min')
    TS_Predict = pd.Series(PredictTs,index = PredictTimeRange)

    return TS_Predict

时间序列模型：

如果只用上文提及的均值模型，很可能在3点那个时刻出现断点的情况，比如前一时刻是15人，后10分钟突然变成2人，考虑到人们在机场移动具有连续性的特征，我们使用ARMA来对预测进行一定的修正，正所谓稳中求变，模型如下

def Do_ARMA(WIFIAPTag,TrainTime,PredictTime,p,q,Draw = False):
    Tag_Time_Series = GetTimeSeries(WIFIAPTag)
    ARMA_Time = [PredictTime[0]-timedelta(2),PredictTime[0] - timedelta(0,0,0,0,10,0)]
    #ARMA_Time = [pd.datetime(2016,9,11,6,0,0),pd.datetime(2016,9,14,15,0,0)]
    Tag_Time_Series = Get_Part_of_TimeSeries(Tag_Time_Series,ARMA_Time)
    # ARMA model 
    from statsmodels.tsa.arima_model import ARMA
    arma_mod = ARMA(Tag_Time_Series,(p,q)).fit()
    Predict = arma_mod.predict(start=str(PredictTime[0]),end=str(PredictTime[1]))
    if Draw == True:
        plt.rc('figure', figsize=(12, 8))        
        plt.plot(arma_mod.fittedvalues,'r')
        plt.plot(Tag_Time_Series)
        plt.plot(Predict,'g-')
    return Predict

试运行如下

Do_ARMA(‘E1-1A-1’,TrainTime,PredictTime,4,2,Draw=True)

模型整合：

现在我们有了三个基本模型，单单使用一个模型去预测所有的WIFIAP效果必然不好，每个WIFIAP都有自己最适合的模型，所以我们通过对前一周每天下午3点到6点的数据进行预测，计算每个WIFIAP在每个模型上的平均误差，让每个WIFIAP挑选误差最小的那个模型进行预测。数据有缺失的情况，所有模型中包含了蛮多的异常处理部分。

代码如下

def ErrorAnalysis(i,day):
    Est_TrainTime = np.array([pd.datetime(2016,9,day,6,0,0),pd.datetime(2016,9,day,14,50,0)])
    Est_PredictTime = np.array([pd.datetime(2016,9,day,15,0,0),pd.datetime(2016,9,day,17,50,0)])
    y = Get_Part_of_TimeSeries(GetTimeSeries(WIFIAPTag_List[i]),Est_PredictTime)
    prey0 =Imitate1(WIFIAPTag_List[i],Est_TrainTime,Est_PredictTime)
    prey1 =Imitate2(WIFIAPTag_List[i],Est_TrainTime,Est_PredictTime)

    def error(a,b):
        return sum([n*n for n in (a-b)])

    imitate1_error = error(prey0,y)
    imitate2_error = error(prey1,y)  # sometimes y is empty [expection]

    if np.isnan(imitate1_error):
        imitate1_error = 1
    if np.isnan(imitate2_error):
        imitate2_error = 1

    try:        
        prey2=Do_ARMA(WIFIAPTag_List[i],Est_TrainTime,Est_PredictTime,4,2)
        arma_error = error(prey2,y)
    except:
        arma_error = 10000000

    if np.isnan(arma_error):
        arma_error = 10000000

    Error_list = [imitate1_error,imitate2_error,arma_error]
    return Error_list


def GetRatio():
    import time
    Error_Analysis = []
    for i in range(len(WIFIAPTag_List)):
        t1 = time.time()
        Error = np.array([0,0,0])
        for j in range(1,8):
            try:
                e = ErrorAnalysis(i,25-j)
                Error = np.c_[Error,e]
            except:
                print 'Error Com'
        ratio = Ratio(1.0/Error.mean(axis=1))
        Error_Analysis.append(ratio)
        t2 = time.time()
        print '===== Got '+str(i)+'th Ratio base on error analysis=====Cost '+str(t2-t1)+' Seconds==='

    def Save_Obj(Obj,File_Name):    
        import pickle
        File = File_Name + '.pkl'
        output = open(File, 'wb')
        pickle.dump(Obj, output)
        output.close()

    Ratio_Dict = dict(zip(WIFIAPTag_List,Error_Analysis))
    Save_Obj(Ratio_Dict,'Ratio_Dict')
    return Ratio_Dict

def Combine(WIFIAPTag,TrainTime,PredictTime,Ratio_Dict):

    num = list(Ratio_Dict[WIFIAPTag]).index(Ratio_Dict[WIFIAPTag].max())    

    if num ==0:
        Predict = Imitate1(WIFIAPTag,TrainTime,PredictTime)
    if num ==1:
        Predict = Imitate2(WIFIAPTag,TrainTime,PredictTime)
    if num ==2:
        try:        
            Predict = Do_ARMA(WIFIAPTag,TrainTime,PredictTime,4,2)
            if np.isnan(Predict.values).any():
                print 'Nan in ARMA'
                Predict = Imitate2(WIFIAPTag,TrainTime,PredictTime)
        except:
            print 'ARMA Failed'
            Predict = Imitate2(WIFIAPTag,TrainTime,PredictTime)

    return Predict

为了看下混合模型的效果，可以使用如下代码

def Compare(i,day,Ratio_Dict):
    Est_TrainTime = np.array([pd.datetime(2016,9,day,6,0,0),pd.datetime(2016,9,day,14,50,0)])
    Est_PredictTime = np.array([pd.datetime(2016,9,day,15,0,0),pd.datetime(2016,9,day,17,50,0)])
    y = Get_Part_of_TimeSeries(GetTimeSeries(WIFIAPTag_List[i]),Est_PredictTime)
    prey0 =Imitate1(WIFIAPTag_List[i],Est_TrainTime,Est_PredictTime)
    prey1 =Imitate2(WIFIAPTag_List[i],Est_TrainTime,Est_PredictTime)
    prey2=Do_ARMA(WIFIAPTag_List[i],Est_TrainTime,Est_PredictTime,4,2)
    prey3 = Combine(WIFIAPTag_List[i],Est_TrainTime,Est_PredictTime,Ratio_Dict)
    y.plot()
    prey0.plot()
    prey1.plot()
    prey2.plot()
    prey3.plot()
    plt.legend(['real','imitate1','imitate2','arma','combine'])
    title = '2016-9-'+str(day)
    plt.title(title)

Imitate1 占优势例子	Imitate2 占优势例子	Do_ARMA 占优势例子

基于以上组件，便可以进行开心地预测了，结果保存为airport_gz_passenger_predict.csv

def Predict(TrainTime,PredictTime,Ratio_Dict):
    count=0
    tag = WIFIAPTag_List[0]

    Predict = Combine(tag,TrainTime,PredictTime,Ratio_Dict)

    def TransTime(time):
        date = str(time.date())
        hour = time.hour
        minute = time.minute
        output = date + '-' + str(hour) + '-' + str(minute / 10)
        return output

    slice10min = [TransTime(time) for time in Predict.index]
    passengerCount = Predict.values
    WIFIAPTag = [tag]*len(Predict)
    Predict_Result = pd.DataFrame({'passengerCount':passengerCount,'WIFIAPTag':WIFIAPTag,'slice10min':slice10min})
    Predict_Result = Predict_Result[['passengerCount','WIFIAPTag','slice10min']]

    for tag in WIFIAPTag_List[1:]:
        Predict = Combine(tag,TrainTime,PredictTime,Ratio_Dict)
        slice10min = [TransTime(time) for time in Predict.index]
        passengerCount = Predict.values
        WIFIAPTag = [tag]*len(Predict)
        Predict_Result_Part = pd.DataFrame({'passengerCount':passengerCount,'WIFIAPTag':WIFIAPTag,'slice10min':slice10min})
        Predict_Result_Part = Predict_Result_Part[['passengerCount','WIFIAPTag','slice10min']]
        Predict_Result = pd.concat([Predict_Result,Predict_Result_Part])
        count += 1
        print count

    Path_Result = './Data/airport_gz_passenger_predict.csv'
    Predict_Result['passengerCount'] = np.nan_to_num(Predict_Result.passengerCount)   
    Save_DataFrame_csv(Predict_Result,Path_Result)
    return Predict_Result

4. 复赛

4.1 复赛数据描述

复赛提供了2016-10-09至2016-11-10的数据

4.2复赛问题描述

选手需要预测未来两整天（11月11日0点到12日23:59:59）的时间窗口里，机场内每个WIFI AP点每10分钟内的平均设备连接数量

4.2复赛解决方案

简要概括：多层筛选加均值

基本思路：

复赛是对未来的两个整天进行预测，基本思路与初赛相似，但是做了如下修改

ARMA模型不再作为一天之内连续性的调整策略，而是用于预测未来两天整体量值的趋势
修改了数据的筛选机制

由于复赛是在天池数加平台进行，第一次接触对于平台并不是太熟悉，所以选择在其机器学习平台使用SQL节点编写语句实现模型

解决方案：

首先在数据开发平台读取数据表

drop table if exists airport_gz_flights;
create table if not exists  airport_gz_flights as 
select * from odps_tc_257100_f673506e024.airport_gz_flights;

然后在机器学习平台进行数据处理和模型搭建

读入初始数据预览如下

使用以下节点预处理数据（每个节点是一条SQL语句，将处理结果传入下一节点）

使用了如下等语句（这些语句应该可以再精简些，但是当初写好了就没再去修改了）

--tag_time(slice10min)_combine
select passenger_count , concat(wifi_ap_tag,'|',substr(time_stamp,1,15)) as tag_time 
from airport_gz_wifi_ap;
--agg_tag_time
select avg(passenger_count) as mean_passenger_count , tag_time from ${t1}
group by tag_time;
--split_tag_time
select mean_passenger_count , split_part(tag_time, '|', 1) as tag , split_part(tag_time, '|', 2) as time_split from ${t1};
--split_date_time
select mean_passenger_count , tag , time_split , substr(time_split,1,10) as d , substr(time_split,12,15) as t from ${t1};
-- Add_Date_Column
select mean_passenger_count , tag ,d, to_date(d,'yyyy-mm-dd') as date_stamp ,t,time_split,c as day_avg from ${t1};
--get_date
select substr(time_stamp,1,10) as t , passenger_count from ${t1};
--date_mean
select avg(passenger_count) as c , t from ${t1} group by t;

得到如下结果

其中一个模型大概结构如下

节点确实有点多具体细节就不在此展开，此处简要提一下复赛中的筛选策略：

首先计算所有日子全部节点每天的平均连接量，从而得到一个时间序列。如下图所示

利用这个时间序列依据ARMA模型估计出之后两天的量值，依据这量值建立一个区间，筛选出均值落在这个区间内的所有日子，然后对这些天的数据按照初赛的思路再进一步做异常筛选，此外还要进一步加大最近几日的数据权重，依据这些想法建立模型。最后在某些步骤上做些小修改，共建立三个候选模型，依据初赛的思路进行误差分析整合模型进行预测。

误差分析的的结果大概如下，基于误差值可以挑选使用哪个模型

5. 总结

比赛初期其实提取了很多特征，然后使用一些机器学习算法去预测，但是效果却强差人意，随后结合实际问题思考，发现其实不一定要使用各种特征，而且很多随机因素对各个特征的影响真的蛮大的。仅使用一些简单的想法也能达到比较好的效果。

所以这次比赛后，想说的就是模型真的不是越复杂越好，也不一定要用各种现成的模型，结合实际问题背景去分析可能会比一直纠结各种特征以及模型参数获得更大的收益。

更符合DeepSeek的提问方式，学术论文方面的能力我总结了这几十个提示词！ AIWritePaper官方账号 AIWritePaper DeepSeek 学术论文人工智能 chatgpt 数据分析 prompt 论文阅读
DeepSeek提问技巧总结1.聚焦核心，细化问题：提问时应精准明确，避免过于宽泛或模糊。例如不要问“如何学习机器学习？”而应问“零基础如何机器学习”。对于复杂问题，可将其拆解为多个小问题，逐一提问。比如先问“学习机器学习先学习python更好吗？”再问“如何用Kaggle进行机器学习相关的数据竞赛？”2.提供背景，结构化描述：在提问时，提供问题的背景信息或目标，以便DeepSeek更准确地理解需
2024 年 MathorCup 数学应用挑战赛——大数据竞赛赛道 B：电商品类货量预测及品类分仓规划思路和代码持续更新中 2025年数学建模美赛数学建模 2024年大数据第五届MathorCup B题
2024年所有数学建模类比赛的个人思路和代码都会发布到专栏内,会结合最新的chatgpt发布思路,开赛一天后恢复原价99,不代写论文,不回复私信.没有群,只需订阅一次目录问题分析与解决思路问题1：货量预测模型问题2：一品一仓分仓规划问题3：一品多仓分仓规划总结这类大数据竞赛的重点在于构建一个全面的预测和优化模型，通过数据处理、时间序列分析以及运筹优化来完成货量预测和分仓规划。下面是一个解决问题的整
【数据竞赛】5行代码提升GBDT，提升巨大！风度78 广告人工智能机器学习大数据数据分析
看过我历史文章的都知道，以lightgbm，xgboost，catboost为代表的GBDT，在部分工业界场景的表格数据集上，一直一览众山小。如果你打过kaggle应该一定都知道，大家心照不宣的表格一把梭中的第一把。(一把梭的意思就是，基本上可以闭着眼用，肯定有用。)他就是category特征的频度统计了，你也可以称为valuecounts等，用pandas实现起来也很简单。我拿个简单的3列表格，
让OpenAI GPT3替我写数据竞赛代码！ AI Studio 人工智能 gpt-3 人工智能机器学习
★★★本文源自AlStudio社区精品项目，【点击此处】查看更多精品内容>>>让OpenAIGPT3替我写数据竞赛代码！OpenAI与ChatGPTOpenAI是在美国成立的人工智能研究公司，核心宗旨在于实现安全的通用人工智能(AGI)。他们开发的ChatGPT是一个最先进的自然语言处理模型，可以实时生成类似人类的文本。ChatGPT是从GPT-3.5系列中的一个模型进行微调的，该模型于2022年
除了Kaggle，这里还有一些高质量的数据科学竞赛平台 Python数据之道算法大数据编程语言 python 机器学习
选自towardsdatascience作者：ParulPande机器之心编译参与：李诗萌、王淑婷除了大名鼎鼎的kaggle，数据科学家可以参加的数据竞赛平台其实还蛮多的。有些比赛平台不仅提供比赛，还让你有机会自己创办比赛。有些比赛由公司赞助，有些由政府机构赞助。参加这些比赛不仅能让你的能力获得认可，还可以获得一些不菲的奖金呢~在听了上百节慕课（MOOC）、看了上千本书和笔记、聆听了上百万人对数据
【BetterBench】2024年都有哪些数学建模竞赛和大数据竞赛？ Better Bench 数学建模入门到精通数学建模大数据数据挖掘竞赛时间 2024年
2024年每个月有哪些竞赛？2024年32个数学建模和数据挖掘竞赛重磅来袭！！！2024年数学建模和数学挖掘竞赛时间目录汇总一月（1）2024年第二届“华数杯”国际大学生数学建模竞赛报名时间：即日起至2024年1月16日比赛时间：2024年1月17日（周三）06:00至1月21日（周日）09:00费用：200元报名地址：https://www.saikr.com/vse/mcmicm/2024不能
论文、期刊、学术数据获取渠道--竞赛篇（一） SMILE_9025
hwr大数据时代中的金融统计今天还在为写论文做学术找不到数据而发愁吗？其实数据集的获取有很多的渠道，主要是需要的是哪种数据，现小编就总结了一些数据集的获取渠道，在写论文或者做学术，甚至工作中的时候，都可以通过不同的渠道去寻找自身需要的数据。下面将介绍三个大数据竞赛平台，里面有很多的大数据竞赛，并会提供相应的数据，感兴趣的小伙伴可以去试试。数据获取01KAGGLE02DATAFOUNTAIN03KE
bagging：随机森林金鸡湖最后的张万森集成学习机器学习随机森林机器学习集成学习
前言集成学习（Ensemblelearning）是机器学习中最先进、最有效、最具研究价值的领域之一，这类方法会训练多个弱评估器（baseestimators），并将它们输出的结果以某种方式结合起来解决一个问题。目前来看，集成学习是：当代工业应用中，唯一能与深度学习算法分庭抗礼的算法；数据竞赛高分榜统治者，KDDcup、Kaggle、天池、DC冠军队御用算法；在搜索、推荐、广告等众多领域，事实上的工
大数据竞赛MR培训与题型背帆大数据大数据 mr hadoop
MapReduce编程模板1.自定义Mapper类继承类并重写map方法：importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Mapper;importjava.
看看CHAT是怎么写MPP开发和调度策略慕斯女神大数据人工智能 chatgpt 学习生活
CHAT回复：MPP（MassivelyParallelProcessing）开发和调度策略是一种并行处理技术，主要用于大规模数据仓库和数据竞赛应用。1.数据分布：这是MPP系统的主要特点，也是其能够提高性能和吞吐量的主要原因。通常，数据会根据某种散列或范围算法被平均分布到多个节点上。选择合适的数据分布键可以帮助减少跨节点的数据移动，优化查询性能。2.查询推送下来：在MPP系统中，尽可能将计算推送
【TIANCHI】天池大数据竞赛（学习赛）--- 淘宝用户购物行为数据可视化分析 WaKuWuku python 机器学习
目录前言一、数据集的来源和各个字段的意义二、数据分析1.引入库2.读入数据3.查看数据数量级4.PV（PageView）/UV访问量5.漏斗模型6.用户购买商品的频次分析。7.ARPPU(averagerevenueperpayinguser)计算ARPPUARPPU出图8.复购情况分析计算用户购买频次复购周期分析总结前言本人代码萌新一枚，目前还在学习python中，这篇文章是我本人对天池大数据竞
关于淘宝用户行为分析及其可视化案例 ChenDaX python sql 数据分析
目录一、数据导入二、数据预处理三、数据分析漏斗模型分析AARRR模型分析Acquisition获取（游戏行业需要分析DNU/DOU/DAU）Activation活跃度计算跳出率计算关键页跳出率时间维度分析用户活跃度情况Rretention留存率Referral用户推荐Reveune用户收益RFM用户细分模型分析一、数据导入数据来源：可视化大赛-天池大数据竞赛-天池大赛-阿里云天池使用工具：Mysq
机器学习 - 竞赛网站，算法刷题网站（持续更新） huanbia 机器学习竞赛网站算法刷题
数据竞赛类网站Kaggle阿里巴巴天池大数据比赛DataCastleCCF大数据与计算智能大赛Di-Tech算法大赛KDD-CupKDnuggetsCompetition赛氪网DrivenDataCompetition上海SODA大赛TopCoder大赛网数字城市大赛数据科学&机器学习的在线学习资源慕课网数据科学家快报数据分析网一起大数据36大数据数据科学研习社爱可可-爱生活好东西传送门机器学习日
机器学习 - 竞赛网站，算法刷题网站 ctrigger
数据竞赛类网站Kaggle阿里巴巴天池大数据比赛DataCastleCCF大数据与计算智能大赛Di-Tech算法大赛KDD-CupKDnuggetsCompetition全国高校云计算应用创新大赛ByteCup国际机器学习竞赛WID数据竞赛数据火车竞赛网站DrivenDataCompetition上海SODA大赛赛氪网TopCoder大赛网kaggle竞赛冠军源代码数据科学&机器学习的在线学习资源
【转】机器学习 - 竞赛网站，算法刷题网站 7-clock 机器学习转载竞赛刷题
转载仅为个人记录使用请访问源地址：https://blog.csdn.net/zk_j1994/article/details/76019650更新：1.天池2.CCF大数据与计算智能3.Di-Tech算法大赛4.全国高校云计算应用创新大赛5.WID数据竞赛6.数据火车竞赛网站数据竞赛类网站Kaggle阿里巴巴天池大数据比赛DataCastleCCF大数据与计算智能大赛Di-Tech算法大赛KDD
电商零售商家需求预测及库存优化问题（第1问）王小葱鸭机器学习人工智能
电商零售商家需求预测及库存优化问题数据和题目来源于2023年MathorCup高校数学建模挑战赛——大数据竞赛只有第一问，使用ARIMA做预测，使用聚类算法做特征相似性1数据读取和处理1.1清除重复值注意附件4要去重，原来是56条数据，去重后是54条数据。print(fujian1_df.shape)fujian1_df=fujian1_df.drop_duplicates()print(fuji
2022年MathorCup大数据竞赛B题北京移动用户体验影响因素研究求解全过程文档及程序数模竞赛Paid answer Mathorcup大数据竞赛数据分析数学建模大数据数学建模数据分析数学建模数据分析 mathorcup大数据竞赛
2022年MathorCup高校数学建模挑战赛—大数据竞赛B题北京移动用户体验影响因素研究原题再现：移动通信技术飞速发展，给人们带来了极大便利，人们也越来越离不开移动通信技术带来的各种便捷。随着网络不断的建设，网络覆盖越来越完善。各个移动运营商，越来越重视客户的网络使用体验，从而进一步提升网络服务质量。客户满意度是客户对运营商产品服务的满意程度，反映了客户期望与实际感知的产品服务之间的差异
2022年职业院校技能大赛-大数据赛题解析 xlw2003 大数据 spark flume kafka redis
最新上线2022年7月20日新发布任务书1和任务书7解析。2022国赛专区（7.20更新）2022年高职大数据国赛（7.20更新），任务书详解与参考实现。2022(7.20更新)高职大数据竞赛-官方电商样例数据说明2022(7.20更新)高职大数据竞赛(任务书一)-离线数据处理任务一：数据抽取2022(7.20更新)高职大数据竞赛(任务书一)-离线数据处理任务二：数据清洗2022(7.20更新)高
2011-2022年高职大数据竞赛-赛题内容 xlw2003 大数据 Spark hadoop flink 高职大数据竞赛
本系列共分五篇，内容分别为：第一部分赛题内容第二部分任务剖析第三部分赛题模拟实现-离线数据抽取第四部分赛题模拟实现-离线数据统计第五部分赛题模拟实现-数据采集与实时计算第六部分赛题模拟实现-数据可视化第一部分竞赛内容赛项以大数据技术与应用为核心内容和工作基础，重点考查参赛选手基于Spark、Flink平台环境下，充分利用SparkCore、SparkSQL、Flume、Kafka、Flink等技术
2011-2022年高职大数据竞赛-赛题任务剖析 xlw2003 Spark Flink hadoop spark flume kafka flink
本系列共分五篇，内容分别为：第一部分赛题内容第二部分任务剖析第三部分赛题模拟实现-离线数据抽取第四部分赛题模拟实现-离线数据统计第五部分赛题模拟实现-数据采集与实时计算第六部分赛题模拟实现-数据可视化（一）任务一：大数据平台环境搭建具体内容按照大数据分析平台需求，需要完成Hadoop完全分布式、Spark安装配置、Flink安装配置、Hive安装配置、Kafka安装配置、Flume安装配置。分析H
机器学习算法竞赛平台整理厨师长爱炼丹机器学习机器学习算法人工智能
平台名网址比赛时间科赛网Heywhale和鲸（官网）-数据科学协同平台天池天池大数据众智平台-阿里云天池DataFountain权威的大数据竞赛平台-DataFountainKaggleKaggle:YourMachineLearningandDataScienceCommunityDataCastleDC竞赛——领先的大数据与人工智能竞赛平台JDATAJDATA智汇平台6月腾讯广告算法大赛202
AI优秀企业案例——机器人流程自动化：达观数据RPA AI 智能服务 AI行业研究分析机器人自动化 rpa
通过学习业内领先公司的最佳实践，我们可以更好地将它们应用到我们自己的公司和业务中。特别是第三部分，提供了大量应用案例，让我们一起期待看到这些案例的结尾。1.简介达观数据是一家专注于智能文本机器人的国家高新技术企业，荣获中国人工智能领域最高奖“吴文俊人工智能奖”、中国青年创新创业大赛总冠军、ACMCIKM算法竞赛全球冠军、EMIHackathon数据竞赛全球冠军、全球三十大最佳创业公司、中国人工智能
2021年全国大学生数学建模竞赛 C题分析 mldl_ 数据建模
2021年全国大学生数据竞赛C题~~~C题生产企业原材料的订购与运输某建筑和装饰板材的生产企业所用原材料主要是木质纤维和其他植物素纤维材料,总体可分为A，B，C三种类型。该企业每年按48周安排生产，需要提前制定24周的原材料订购和转运计划，即根据产能要求确定需要订购的原材料供应商（称为“供应商”）和相应每周的原材料订购数量（称为“订货量”），确定第三方物流公司（称为“转运商”）并委托其将供应商每周
python机器学习笔记：ID3决策树算法实战 iFlyAI 机器学习人工智能推荐算法决策树机器学习算法
ID3算法是一种贪心算法，用来构造决策树，ID3算法起源于概念学习系统（CLS），以信息熵的下降速度为选取测试属性的标准，即在每一个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准，然后继续这个过程，直到生成的决策树能完美的分类训练样例。在此之前，推荐大家可以多在FlyAI竞赛服务平台多参加训练和竞赛，以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站
TensorFlow2.0 Keras介绍 weixin_40744639 tensorflow 学习 TensorFlow Keras
Keras简介keras现在是一个非常流行的工具库，包括tensorflow已经把keras合并到了自己的主代码当中了，大家可以直接tf.keras就可以直接调用其中的工具库了。单独讲keras的原因是因为keras有他独特的应用场景如实验室、数据竞赛等小型环境中，使用keras,工程师们可以将更多时间花在设计网络模型上而不是coding上，而且keras是所有工具库当中最容易上手的工具库之一。K
【2023年MathorCup高校数学建模挑战赛-大数据竞赛】赛道A：基于计算机视觉的坑洼道路检测和识别 python 代码解析 Better Bench 数学建模入门到精通数学建模大数据计算机视觉坑洼道路检测图像分类
【2023年MathorCup高校数学建模挑战赛-大数据竞赛】赛道A：基于计算机视觉的坑洼道路检测和识别python代码解析1题目坑洼道路检测和识别是一种计算机视觉任务，旨在通过数字图像（通常是地表坑洼图像）识别出存在坑洼的道路。这对于地．质勘探、航天科学和自然灾害等领域的研究和应用具有重要意义。例如，它可以帮助在地球轨道上识别坑洼，以及分析和模拟地球表面的形态。在坑洼道路检测任务中，传统的分类算
人工智能——猫狗大战 hahahd3 人工智能
人工智能——猫狗大战简介代码运行AI研习社测试总结简介Catsvs.Dogs（猫狗大战）是Kaggle大数据竞赛某一年的一道赛题，利用给定的数据集，用算法实现猫和狗的识别。我们希望通过对计算机进行大量的图片训练，使计算机可以学习识别到猫、狗的特征，最终可以对大量的未知图片进行分类。这就涉及到计算机视觉中的图像分类问题。图像分类，计算机视觉研究领域之一，计算机通过学习图像本身的特征将不同类别的图像区
【2023Mathorcup大数据】B题电商零售商家需求预测及库存优化问题 python代码解析 Better Bench 数学建模入门到精通数学建模妈妈杯大数据 mathorcup大数据电商零售需求预测库存优化问题
【2023Mathorcup大数据】B题电商零售商家需求预测及库存优化问题python代码解析1题目2023年MathorCup高校数学建模挑战赛——大数据竞赛赛道B：电商零售商家需求预测及库存优化问题电商平台存在着上千个商家，他们会将商品货物放在电商配套的仓库，电商平台会对这些货物进行统一管理。通过科学的管理手段和智能决策，大数据智能驱动的供应链可以显著降低库存成本，同时保证商品的按时履约。一般
2015阿里天池大数据竞赛解题源码 zhangxueyang1 综合
转自：http://sanwen8.cn/p/151ompp.html这篇文章记录2015阿里天池大数据竞赛中，CSDN博主@wphh的一些代码，由于代码分享时比赛正在进行中，基于规则，仅分享一个naivesolution，下面是代码的一些说明。有兴趣的请看代码注释。阿里天池大数据竞赛网址：http://tianchi.aliyun.com/competition/index.htm?spm=51
2023 年 MathorCup 高校数学建模挑战赛大数据竞赛（B题）|电商零售商家需求预测及库存优化问题|建模秘籍&文章代码思路大全 Mmmath_secret 数学建模大数据
铛铛！小秘籍来咯！小秘籍希望大家都能轻松建模呀，mathorcup比赛也会持续给大家放松思路滴~抓紧小秘籍，我们出发吧~来看看MathorCup大数据竞赛的B题问题重述问题一：需求量预测问题描述：根据历史六个月的需求量数据，预测各商家在各仓库的商品在2023年5月16日至2023年5月30日期间的需求量。需求量是商家、仓库和商品的组合，预测需要考虑不同组合的需求。数据：历史需求量数据（附件1）、商
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end