冈仁波齐下写一串优美的代码

如何做数据竞赛·优秀案例学习（DC01）

2019年腾讯广告算法大赛冠军思路、代码(PART 1)

方案地址：https://zhuanlan.zhihu.com/p/73062485
代码地址：https://github.com/guoday/Tencent2019_Preliminary_Rank1st
数据地址：https://algo.qq.com/application/home/home/review.html

官方题目描述：

通俗题目描述：

利用历史曝光信息，广告信息，用户信息来预测一个广告的日曝光量。

数据描述：

历史曝光日志数据文件
- 广告请求 id：唯一标识每次请求（每个请求对应一个用户某一时刻，可能多个广告位）。
- 广告请求时间：该字段为时间戳，即 1970 纪元后经过的浮点秒数。
- 广告位 id：加密后无业务含义，只区分不同广告位，每个广告位只能曝光特定素材尺寸的广告。
- 用户 id（即看广告的人）：加密后无业务含义，只区分不同用户，可和后面的用户特征数据中 id 相关联。
- 曝光广告 id：加密后无业务含义，只区分不同广告，可以和广告特征文件中的广告 id 关联。
- 曝光广告素材尺寸：枚举型取值，不同广告位对素材的尺寸要求不同，同一个广告位可能适配多个不同尺寸的素材。
- 曝光广告出价 bid：这里只记录 cpc 出价，非 cpc 广告此处记录折算后的 cpc价格。
- 曝光广告 pctr：预估的 pctr，和 bid 相乘得到 basic_ecpm。
- 曝光广告 quality_ecpm：将广告质量和用户体验等因素折算成 ecpm 的分数，主要影响因素有 pctr/pcvr/窄定向等。
- 曝光广告 totalEcpm：广告排序的分数依据，由 basic_ecpm 和 quality_ecpm相加得到。

广告静态数据
- 广告 id：和曝光日志中的广告 id 相关联。
- 创建时间：广告创建时的时间戳。
- 广告账户 id：广告所在账户的唯一标识，账户结构分为四级：账户——推广计划——广告——素材。
- 商品 id：广告推广目标的唯一标识，若推广目标是落地页，则该字段为空。
- 商品类型：广告推广目标的类型，枚举型。
- 广告行业 id：广告所属的行业类别标识。
- 素材尺寸：不同广告位对素材的尺寸要求不同，同一个广告可能有多个不同尺寸的素材，用逗号分隔。

广告操作数据
- 广告 id（同上）。
- 创建/修改时间: 即广告创建或者修改设置的时间。
- 操作类型：1-修改，2-新建。
- 修改字段：1-广告状态，2-出价，3-人群定向，4-广告时段设置。
- 操作后的字段值：
  - 广告状态取值：1- 正常，0-失效。
  - 出价：整数（单位分）。
  - 投放时段：字符串。包含 7 个 64 位无符号整型数字（逗号分隔），每个整数分别代表周一到周日的投放时段。该整数转为 2 进制后从低到高 48 位bit 代表全天各时段（半小时为一时间窗口）是否投放，1-投放，0-不投。举例说明17179865088= 1111111111111111111111000000000000，代表投放时段为 6：00-17：00，281474976710655=111111111111111111111111111111111111111111111111，代表全天投放。
  - 人群定向：字符串。格式如下：
    feature_name1:feature_value1,feature_value2|feature_name2:feature_value3,feature_value4|… 此处 feature_name 取值同用户属性文件中的各列属性名，feature_value 取值 id 同用户属性文件中的定义，不同feature 用“|”分隔，不同 feature 取值用逗号分隔。广告通过人群定向的设置来召回对应的用户请求，对应的人群规则：不同 feature_name 是求交集，同一 featurename 下不同的 value 求并集，未定义的feature_name 则表示该维度不限。举例如：定向设置为age:51,62,73,84|gender:1|area:1,3,5 ; 则表示该广告能被“（年龄 id 为51 或 62 或 73 或 84）且（性别取值为 1）且（地域取值为 1 或 3或 5）”的用户召回（即在这些用户上有曝光机会）。

用户特征属性文件
- 用户 id：此处和上面曝光日志文件中的用户 id 关联。
- 年龄（Age）：每个取值随机映射为[1-N]的唯一 id。
- 性别(Gender)：男/女。
- 地域(area)：每个省/市用唯一 id 标识，可能多标签，使用逗号分隔不同 id。
- 婚恋状态（Status）：单身/已婚等状态，可能去多值，使用逗号分隔。
- 学历(Education)：博士/硕士/本科/高中/初中/小学。
- 消费能力（ConsuptionAbility）：高/低。
- 设备（device）：IOS/Android, 不区分版本号。
- 工作状态（work）：在校大学生/商旅人士/政府公职人员/科研教育者/ IT 互联网工作者/医护工作者, 可能取多值，逗号分隔。
- 连接类型(ConnectionType)：无线/2G/3G/4G。
- 行为兴趣(behavior)：每个兴趣点一个 id，可多值，逗号分隔。

评价指标：

1 准确性指标

Ft 为预估的广告曝光值，At 为真实的曝光值。

2 单调性指标

3 综合指标

最后要将单调性指标和准确性指标综合到一起来计算最后得分。

代码预处理（数据清洗）Preprocess.py：

import os
import pandas as pd
import numpy as np
import random
import gc
import time
from tqdm import tqdm

def parse_rawdata():
    #曝光日志
    df=pd.read_csv('data/testA/totalExposureLog.out', sep='\t',names=['id','request_timestamp','position','uid','aid','imp_ad_size','bid','pctr','quality_ecpm','totalEcpm']).sort_values(by='request_timestamp')
#使用pandas来读取曝光日志文件，分隔符为‘\t’，命名列名为['id','request_t...],同时根据列名request_timestamp对所有数据排序，默认为升序
    df[['id','request_timestamp','position','uid','aid','imp_ad_size']]=df[['id','request_timestamp','position','uid','aid','imp_ad_size']].astype(int)  
##类型转化，因为读入的有些字符可能是字符串格式的，需要统一转化为float格式
    df[['bid','pctr','quality_ecpm','totalEcpm']]=df[['bid','pctr','quality_ecpm','totalEcpm']].astype(float) 
    ##类型转化，因为读入的有些字符可能是字符串格式的，需要统一转化为int格式
    df.to_pickle('data/testA/totalExposureLog.pkl') 
    ##将dataframe格式数据转换pickle，方便下次存取
    
    del df
    gc.collect()
    #这两行的作用是删除df变量在内存中的占用，同时用gc.collect()来清理内存
    ##############################################################################
    #静态广告
    df =pd.read_csv('data/testA/ad_static_feature.out', sep='\t', names=['aid','create_timestamp','advertiser','good_id','good_type','ad_type_id','ad_size']).sort_values(by='create_timestamp')
    ##同理，读取静态广告文件，分隔符‘\t’，按列名['aid','create_timestamp'...]命名，按列排序。
    df=df.fillna(-1)
    ## 对df中缺失值填充-1
    for f in ['aid','create_timestamp','advertiser','good_id','good_type','ad_type_id']:
        items=[]
        for item in df[f].values:
            try:
                items.append(int(item))
            except:
                items.append(-1)
        #try,except语句，当try中出现错误时执行except语句，可以保证程序都会执行下去
        df[f]=items
        df[f]=df[f].astype(int)
        ## 对于可能不是空值，但是有异常的值，某些填入字符串的值，利用遍历来转换，对这些值置为-1
    df['ad_size']=df['ad_size'].apply(lambda x:' '.join([str(int(float(y))) for y in str(x).split(',')]))    
    #因为ad_size列中可能有多个数值，不同广告大小，所以使用匿名函数，
    #将size列中的数据转化为str类型，同时去掉逗号，用空格分隔
    df.to_pickle('data/testA/ad_static_feature.pkl')
    del df
    gc.collect()
##同理，清除内存    
    ##############################################################################
    #用户信息
    df =pd.read_csv('data/testA/user_data', sep='\t', 
                  names=['uid','age','gender','area','status','education','concuptionAbility','os','work','connectionType','behavior'])
    df=df.fillna(-1)
##读取用户文件，同时命名，对缺失值填充-1
    df[['uid','age','gender','education','consuptionAbility','os','connectionType']]=df[['uid','age','gender','education','concuptionAbility','os','connectionType']].astype(int)
    ## 类型转化
    for f in ['area','status','work','behavior']:
        df[f]=df[f].apply(lambda x:' '.join(x.split(',')))
    #因为['area','status','work','behavior']中可能会有多值存在，
    #所以进行数据清洗，方便后续处理，将分割由,转换为空格
    df.to_pickle('data/testA/user_data.pkl')
    del df
    gc.collect()
##清除内存    
    ##############################################################################
    #测试数据
    df=pd.read_csv('data/testA/test_sample.dat', sep='\t', names=['id','aid','create_timestamp','ad_size','ad_type_id','good_type','good_id','advertiser','delivery_periods','crowd_direction','bid'])
    df=df.fillna(-1)
    ## 读取测试数据，缺失值填充-1
    df[['id','aid','create_timestamp','ad_size','ad_type_id','good_type','good_id','advertiser']]=df[['id','aid','create_timestamp','ad_size','ad_type_id','good_type','good_id','advertiser']].astype(int)
    ## 类型转化
    df['bid']=df['bid'].astype(float)
    df.to_pickle('data/testA/test_sample.pkl')
    del df
    gc.collect()
## 保存pickle格式，清除内存。


def construct_log():
    #构造曝光日志，分别有验证集的log和测试集的log
    train_df=pd.read_pickle('data/testA/totalExposureLog.pkl')
    ##读取之前存储的pickle格式文件
    train_df['request_day']=train_df['request_timestamp']//(3600*24)
    ##将时间戳粗略转化为‘天’为单位的计量值
    wday=[]
    hour=[]
    minute=[]
    for x in tqdm(train_df['request_timestamp'].values,total=len(train_df)):
    ##tqdm是python里面进度条的封装函数，通过封装一些处理语句，可以让程序有反馈，方便程序员操作
        localtime=time.localtime(x)
        ## time.localtime作用是格式化时间戳为本地的时间，通过打印可返回一个结构体
        #time.struct_time(tm_year=2016, tm_mon=11, tm_mday=27, tm_hour=10, tm_min=26, tm_sec=5, tm_wday=6, tm_yday=332, tm_isdst=0)
        wday.append(localtime[6])#对应tm_wday
        hour.append(localtime[3])#对应tm_hour
        minute.append(localtime[4])#对应tm_min
    train_df['wday']=wday
    train_df['hour']=hour
    train_df['minute']=minute
    train_df['period_id']=train_df['hour']*2+train_df['minute']//30
    #将时间粒度以半小时为单位作为一个特征
    dev_df=train_df[train_df['request_day']==17974]
    #构造验证集
    del dev_df['period_id']
    del dev_df['minute']
    del dev_df['hour']
    #删除验证集中period_id，minute，hour列
    log=train_df
    #备份训练集，这种赋值方法是对象指向型的，也就是说改变任何变量里的数据，另一个变量都会随之改变。
    tmp = pd.DataFrame(train_df.groupby(['aid','request_day']).size()).reset_index()
    #按照'aid','request_day'分组来构造曝光量，同一个aid,同一天的出现次数作为曝光量，同时reset_index()增加新的索引列index,从0开始
    tmp.columns=['aid','request_day','imp']
    #重新命名dataframe的列名
    log=log.merge(tmp,on=['aid','request_day'],how='left')
    #merge函数，方式为左连接，及左边的dataframe(log)在['aid','request_day']列上全取，右边的根据与之合并。
    #构造出最后的训练集，最后由train_df返回
    #与之前备份的训练集数据合并，相当于为训练集中的所有数据增加了标签列
    log[log['request_day']<17973].to_pickle('data/user_log_dev.pkl')
    #将小于17973号数据存为pickle格式数据
    log.to_pickle('data/user_log_test.pkl')
    #训练集构造保存为pickle格式，方便下次读取
    del log
    del tmp
    gc.collect()
    #清除内存变量
    del train_df['period_id']
    del train_df['minute']
    del train_df['hour']  
    #删除训练集中的某些列  
    return train_df,dev_df
    #返回训练集和验证集
def extract_setting():
    aids=[]
    with open('data/testA/ad_operation.dat','r') as f:
    #以只读方式‘r’打开广告操作文件
        for line in f:
        #对文件中的按行遍历
            line=line.strip().split('\t')
    #Python strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列，
    #同时split('\t')，用‘\t’分割数据，形成列表
            try:
                if line[1]=='20190230000000':
                    line[1]='20190301000000'
                    #对出现2月30号的数据视为异常，将其强制转变为3月1号数据
                if line[1]!='0':
                    request_day=time.mktime(time.strptime(line[1], '%Y%m%d%H%M%S'))//(3600*24)
                    #time.strptime函数根据指定的格式把一个时间字符串解析为时间元组。返回一个时间结构体
                    #mktime()用来将参数timeptr所指的tm结构数据转换成从公元1970年1月1日0时0分0秒算起至今的UTC时间所经过的秒数。
                    #从而同步与训练集的时间戳数据
                else:
                    request_day=0
                    #对于line[1]==0的数据，也就是update==0的，request_day也为0，可以视为异常数据
            except:
                print(line[1])
                #如果上述发生错误语句，则打印这行的遍历结果


##根据operation文件里的特性，我们发现，广告按其id已经分好组了，判断是否重复
#只需要和最后一个比较就可以。下面的操作可以理解为一种填充，因为只有一个广告在
#operation里才会有曝光量，所以下面的语句是为了填充，如果某个广告只在操作表中
#出现过一次，那么我们则将其扩充到所有日期，如果某个广告在操作表中出现2次及以上
#，如果请求时间相同则不处理，如果请求时间不同，则扩充两次请求时间内全部为第一次出现操作。
            if len(aids)==0:
                aids.append([int(line[0]),0,"NaN","NaN"])
                #line[0]为aid,存入的list为['aid','request_day','crowd_direction','delivery_periods']
            elif aids[-1][0]!=int(line[0]):
                for i in range(max(17930,aids[-1][1]+1),17975):
                #需要注意的是在这个循环里，（aids[-1][1]+1）是一个一开始就确定的数
                #将只出现一次的广告扩充所有日期原操作
                    aids.append(aids[-1].copy())
                    aids[-1][1]=i
                aids.append([int(line[0]),0,"NaN","NaN"])               
            elif request_day!=aids[-1][1]:
            #将出现2次及以上的广告在request间隔内扩充
                for i in range(max(17930,aids[-1][1]+1),int(request_day)):
                    aids.append(aids[-1].copy())
                    aids[-1][1]=i                
                aids.append(aids[-1].copy())
                aids[-1][1]=int(request_day)
            if line[3]=='3':
                aids[-1][2]=line[4]
                #对'crowd_direction'赋值操作
            if line[3]=='4':
                aids[-1][3]=line[4]
                #对'delivery_periods'赋值操作
    ad_df=pd.DataFrame(aids)
    #将列表生成dataframe
    ad_df.columns=['aid','request_day','crowd_direction','delivery_periods']
    #对dataframe格式数据重新命名列名
    return ad_df
    #返回广告操作数据以dataframe格式
    
def construct_train_data(train_df):
    #构造训练集
    #算出广告当天平均出价和曝光量
    tmp = pd.DataFrame(train_df.groupby(['aid','request_day'])['bid'].nunique()).reset_index()
    #对训练数据按['aid','request_day']进行分组操作之后提取bid属性，
    #nunique()用这个函数可以查看数据有多少个不同值，重新建立索引
    tmp.columns=['aid','request_day','bid_unique']
    #对生成的新dataframe重新命名
    train_df=train_df.merge(tmp,on=['aid','request_day'],how='left')
    #为每一个广告，和请求时间加上bid数量属性，表明同一个广告，在同一个请求时间下，存在多少次不同出价
    tmp = pd.DataFrame(train_df.groupby(['aid','request_day']).size()).reset_index()
    #对训练数据按照['aid','request_day']分组，并求每组有多少个，重新设置索引
    tmp_1 = pd.DataFrame(train_df.groupby(['aid','request_day'])['bid'].mean()).reset_index()
    ##提取每个分组的出价平均值
    tmp.columns=['aid','request_day','imp']
    #构造曝光量,将曝光近似为同一天有多少个请求
    del train_df['bid']
    #删除训练集中的bid列
    tmp_1.columns=['aid','request_day','bid']
    #构造平均出价作为同一广告，同一刻请求的出价
    train_df=train_df.drop_duplicates(['aid','request_day'])
    # 去重aid和request_day一样的数据
    train_df=train_df.merge(tmp,on=['aid','request_day'],how='left')
    #tmp文件里有曝光量的属性，与之合并
    train_df=train_df.merge(tmp_1,on=['aid','request_day'],how='left')
    #tep1里有平均出价的属性，与训练集合并
    del tmp
    del tmp_1
    gc.collect()
    #清空内存
    train_df=train_df.drop_duplicates(['aid','request_day'])
    del train_df['request_timestamp']
    del train_df['uid']
    #删除训练集中的['request_timestamp']和['uid']属性，删除无关属性，可以在训练中提高效率


    #以下操作过滤未出现在广告操作文件的广告
    ad_df=extract_setting()#调用之前写的extract_setting（）函数，返回的是广告操作数据
    ad_df=ad_df.drop_duplicates(['aid','request_day'],keep='last')
    #操作数据去重，按照aid','request_day，保留最后一项
    ad_df['request_day']+=1
    #对操作数据的所有请求时间加一天，我的理解是这么做可以和训练数据出现的请求时间上是同步的，因为操作之后是后一天才计算曝光量的
    train_df=train_df.merge(ad_df,on=['aid','request_day'],how='left')
    #和训练数据合并，此时训练数据属性包括改广告曝光量，出价，以及对应的操作
    train_df['is']=train_df['crowd_direction'].apply(lambda x:type(x)==str)
    #生成训练数据新列，表示是否有定向人群的属性，如果该字段是字符串，则标记为true
    train_df=train_df[train_df['is']==True]
    #提取有is列是true的数据，相当于筛选
    train_df=train_df[train_df['crowd_direction']!="NaN"]
    #除去定向人群是NAN格式的数据，表示空值
    train_df=train_df[train_df['delivery_periods']!="NaN"]
    #在之前基础上，除去投送时期是空的数据



    #以下操作过滤出价和曝光过高的广告
    train_df=train_df[train_df['imp']<=3000]
    #除去曝光量大于3000的数据，因为经过分析，大于3000的只有很少，我们可以把他们作为异常值处理，这样可以保证模型准确性
    train_df=train_df[train_df['bid']<=1000]
    #除去出价大于1000的，原因同上
    train_dev_df=train_df[train_df['request_day']<17973]
    #将请求日期小于17973的数据作为训练验证数据集
    print(train_df.shape,train_dev_df.shape)
    #输出训练数据的规模大小，以及验证数据集的
    print(train_df['imp'].mean(),train_df['bid'].mean())
   #输出训练数据集中曝光量的平均值，以及出价的平均值
    return train_df,train_dev_df
   #返回训练数据集和训练验证数据集


def construct_dev_data(dev_df):
    #构造验证集，主要用来确定网络结构或者控制模型复杂程度的参数
    #过滤掉当天操作的广告，和未出现在操作日志的广告
    aids=set()
    #set() 函数创建一个无序不重复元素集，可进行关系测试，删除重复数据，还可以计算交集、差集、并集等。
    exit_aids=set()
    
    with open('data/testA/ad_operation.dat','r') as f:
    #打开广告操作文件
        for line in f:
        #按行遍历
            line=line.strip().split('\t')
            #除去每行开头结尾的空格，同时按字符'\t'分割
            if line[1]=='20190230000000':
                line[1]='20190301000000'
                #对出现2月30号的数据视为异常，将其强制转变为3月1号数据
            if line[1]!='0':
                request_day=time.mktime(time.strptime(line[1], '%Y%m%d%H%M%S'))//(3600*24)
                 #time.strptime函数根据指定的格式把一个时间字符串解析为时间元组。返回一个时间结构体
                    #mktime()用来将参数timeptr所指的tm结构数据转换成从公元1970年1月1日0时0分0秒算起至今的UTC时间所经过的秒数。
                    #从而同步与训练集的时间戳数据
            else:
                request_day=0
                #对于line[1]==0的数据，也就是update==0的，request_day也为0，可以视为异常数据
            if request_day==17974:
                aids.add(int(line[0]))
                #最后一天的所有广告操作，其广告id加入aids中
            exit_aids.add(int(line[0]))
            #所有的广告操作中广告id集合
    dev_df['is']=dev_df['aid'].apply(lambda x: x in aids)
	#apply函数将dataframe中每个数据调用后面的匿名函数
    dev_df=dev_df[dev_df['is']==False]
    #将验证集中的广告id如果出现在最后一天则除去
    dev_df['is']=dev_df['aid'].apply(lambda x: x in exit_aids)
    dev_df=dev_df[dev_df['is']==True]
    #除去验证集中没有广告操作的数据
    
    #过滤当天出价不唯一的广告
    tmp = pd.DataFrame(dev_df.groupby('aid')['bid'].nunique()).reset_index()
    #按照广告id统计出价个数，并且重新设置索引
    tmp.columns=['aid','bid_unique']
    dev_df=dev_df.merge(tmp,on='aid',how='left')
    #在验证集上增加新列，每个广告id下的出价个数
    dev_df=dev_df[dev_df['bid_unique']==1]
    #保留出价个数为1次的广告id
    
    #统计广告当天的曝光量
    tmp = pd.DataFrame(dev_df.groupby('aid').size()).reset_index()
    tmp.columns=['aid','imp']
    #统计验证集上广告当天的曝光量，并重新命名列名
    dev_df=dev_df.merge(tmp,on='aid',how='left')
    #为验证集增加新列，以左连接方式在aid属性上合并数据，增加曝光量属性
    dev_df=dev_df.drop_duplicates('aid')
    #过滤广告ID重复数据
    
    #过滤未出现在广告操作文件的广告
    ad_df=extract_setting()
    #返回扩充过的广告操作数据
    ad_df=ad_df.drop_duplicates(['aid'],keep='last')
    #过滤aid重复数据，保留最后一次
    dev_df=dev_df.merge(ad_df,on='aid',how='left')
    #验证集和操作数据合并
    dev_df=dev_df[dev_df['crowd_direction']!="NaN"]
    #过滤验证集中没有人群定向的数据
    dev_df=dev_df[dev_df['delivery_periods']!="NaN"].reset_index()
    #过滤验证集中没有投放时段的数据
    del dev_df['index']
    del dev_df['request_timestamp']
    del dev_df['is']
    del dev_df['uid']
    #删除验证集中对应的列
    
    #构建虚假广告，测试单调性
    items=[]
    #创建一个空列表
    for item in dev_df[['aid','bid','crowd_direction', 'delivery_periods','imp']].values:
    #产生一个遍历，item是一个对应numpy的数组，每次循环对应一行dev_df中'aid','bid','crowd_direction', 'delivery_periods','imp'属性列的值。
        item=list(item)
        #将numpy格式的item转换为列表格式
        items.append(item+[1])
        #为为列表增加新的元素1，作用是标记其为真是数据，同时将整个列表加入到items中，作为一个数据
        for i in range(10):
        #i从0-9产生一个遍历
            while True:
                t=random.randint(0,2*item[1])
                #在python中的random.randint(a,b)用于生成一个指定范围内的整数。这里将产生一个0到2*bid的之间的一个随机整数
                if t!=item[1]:
                #如果产生的数不等于bid值
                    items.append(item[:1]+[t]+item[2:]+[0])
                    #构造一个广告id等于之前id,出价为t，'crowd_direction', 'delivery_periods'都与之前一样的新数据，同时在数据最后加0元素作为标记，标记其为构造的虚假数据
                    break
                    #直到产生一个虚假数据为止，跳出一个循环
                else:
                    continue
                    #继续内层循环


	#每一个真是数据，产生了10个由其产生的虚假数据，这些数据仅仅是出价不同
    dev_df=pd.DataFrame(items)
    #将items转换为dataframe结构
    dev_df.columns=['aid', 'bid', 'crowd_direction', 'delivery_periods','imp','gold'] 
    #重新命名列
    del items
    #删除内存中的items
    gc.collect()
    #内存清理
    print(dev_df.shape)
    #输出验证集大小
    print(dev_df['imp'].mean(),dev_df['bid'].mean())
    #输出验证集的曝光量平均，和出价平均
    return dev_df
    #返回验证集


print("parsing raw data ....")
parse_rawdata() 
#调用函数parse_rawdata() ，生成测试数据，用户属性数据，广告静态数据等等对应的dataframe格式

print("construct log ....")
train_df,dev_df=construct_log()
#构建训练数据和验证数据集

print("construct train data ....")
train_df,train_dev_df=construct_train_data(train_df)
#构建训练数据集和训练验证数据集
print("construct dev data ....")
dev_df=construct_dev_data(dev_df)
#构建验证数据集

print("load test data ....")
test_df=pd.read_pickle('data/testA/test_sample.pkl')
#构建测试数据集
print("combine advertise features ....")
ad_df =pd.read_pickle('data/testA/ad_static_feature.pkl')
train_df=train_df.merge(ad_df,on='aid',how='left')
train_dev_df=train_dev_df.merge(ad_df,on='aid',how='left')
dev_df=dev_df.merge(ad_df,on='aid',how='left')
#合并广告训练数据和静态文件数据集
print("save preprocess data ....")
train_dev_df.to_pickle('data/train_dev.pkl')
train_df.to_pickle('data/train.pkl')
dev_df.to_pickle('data/dev.pkl')
test_df.to_pickle('data/test.pkl')
#将上述数据集存成对应的pickle格式，方便下次读取
print(train_dev_df.shape,dev_df.shape)
print(train_df.shape,test_df.shape)

train_dev_df 是17973号以前（不含17973）的数据，train_df是包含17973所有的数据，dev是17974号的数据。

更符合DeepSeek的提问方式，学术论文方面的能力我总结了这几十个提示词！ AIWritePaper官方账号 AIWritePaper DeepSeek 学术论文人工智能 chatgpt 数据分析 prompt 论文阅读
DeepSeek提问技巧总结1.聚焦核心，细化问题：提问时应精准明确，避免过于宽泛或模糊。例如不要问“如何学习机器学习？”而应问“零基础如何机器学习”。对于复杂问题，可将其拆解为多个小问题，逐一提问。比如先问“学习机器学习先学习python更好吗？”再问“如何用Kaggle进行机器学习相关的数据竞赛？”2.提供背景，结构化描述：在提问时，提供问题的背景信息或目标，以便DeepSeek更准确地理解需
2024 年 MathorCup 数学应用挑战赛——大数据竞赛赛道 B：电商品类货量预测及品类分仓规划思路和代码持续更新中 2025年数学建模美赛数学建模 2024年大数据第五届MathorCup B题
2024年所有数学建模类比赛的个人思路和代码都会发布到专栏内,会结合最新的chatgpt发布思路,开赛一天后恢复原价99,不代写论文,不回复私信.没有群,只需订阅一次目录问题分析与解决思路问题1：货量预测模型问题2：一品一仓分仓规划问题3：一品多仓分仓规划总结这类大数据竞赛的重点在于构建一个全面的预测和优化模型，通过数据处理、时间序列分析以及运筹优化来完成货量预测和分仓规划。下面是一个解决问题的整
【数据竞赛】5行代码提升GBDT，提升巨大！风度78 广告人工智能机器学习大数据数据分析
看过我历史文章的都知道，以lightgbm，xgboost，catboost为代表的GBDT，在部分工业界场景的表格数据集上，一直一览众山小。如果你打过kaggle应该一定都知道，大家心照不宣的表格一把梭中的第一把。(一把梭的意思就是，基本上可以闭着眼用，肯定有用。)他就是category特征的频度统计了，你也可以称为valuecounts等，用pandas实现起来也很简单。我拿个简单的3列表格，
让OpenAI GPT3替我写数据竞赛代码！ AI Studio 人工智能 gpt-3 人工智能机器学习
★★★本文源自AlStudio社区精品项目，【点击此处】查看更多精品内容>>>让OpenAIGPT3替我写数据竞赛代码！OpenAI与ChatGPTOpenAI是在美国成立的人工智能研究公司，核心宗旨在于实现安全的通用人工智能(AGI)。他们开发的ChatGPT是一个最先进的自然语言处理模型，可以实时生成类似人类的文本。ChatGPT是从GPT-3.5系列中的一个模型进行微调的，该模型于2022年
除了Kaggle，这里还有一些高质量的数据科学竞赛平台 Python数据之道算法大数据编程语言 python 机器学习
选自towardsdatascience作者：ParulPande机器之心编译参与：李诗萌、王淑婷除了大名鼎鼎的kaggle，数据科学家可以参加的数据竞赛平台其实还蛮多的。有些比赛平台不仅提供比赛，还让你有机会自己创办比赛。有些比赛由公司赞助，有些由政府机构赞助。参加这些比赛不仅能让你的能力获得认可，还可以获得一些不菲的奖金呢~在听了上百节慕课（MOOC）、看了上千本书和笔记、聆听了上百万人对数据
【BetterBench】2024年都有哪些数学建模竞赛和大数据竞赛？ Better Bench 数学建模入门到精通数学建模大数据数据挖掘竞赛时间 2024年
2024年每个月有哪些竞赛？2024年32个数学建模和数据挖掘竞赛重磅来袭！！！2024年数学建模和数学挖掘竞赛时间目录汇总一月（1）2024年第二届“华数杯”国际大学生数学建模竞赛报名时间：即日起至2024年1月16日比赛时间：2024年1月17日（周三）06:00至1月21日（周日）09:00费用：200元报名地址：https://www.saikr.com/vse/mcmicm/2024不能
论文、期刊、学术数据获取渠道--竞赛篇（一） SMILE_9025
hwr大数据时代中的金融统计今天还在为写论文做学术找不到数据而发愁吗？其实数据集的获取有很多的渠道，主要是需要的是哪种数据，现小编就总结了一些数据集的获取渠道，在写论文或者做学术，甚至工作中的时候，都可以通过不同的渠道去寻找自身需要的数据。下面将介绍三个大数据竞赛平台，里面有很多的大数据竞赛，并会提供相应的数据，感兴趣的小伙伴可以去试试。数据获取01KAGGLE02DATAFOUNTAIN03KE
bagging：随机森林金鸡湖最后的张万森集成学习机器学习随机森林机器学习集成学习
前言集成学习（Ensemblelearning）是机器学习中最先进、最有效、最具研究价值的领域之一，这类方法会训练多个弱评估器（baseestimators），并将它们输出的结果以某种方式结合起来解决一个问题。目前来看，集成学习是：当代工业应用中，唯一能与深度学习算法分庭抗礼的算法；数据竞赛高分榜统治者，KDDcup、Kaggle、天池、DC冠军队御用算法；在搜索、推荐、广告等众多领域，事实上的工
大数据竞赛MR培训与题型背帆大数据大数据 mr hadoop
MapReduce编程模板1.自定义Mapper类继承类并重写map方法：importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Mapper;importjava.
看看CHAT是怎么写MPP开发和调度策略慕斯女神大数据人工智能 chatgpt 学习生活
CHAT回复：MPP（MassivelyParallelProcessing）开发和调度策略是一种并行处理技术，主要用于大规模数据仓库和数据竞赛应用。1.数据分布：这是MPP系统的主要特点，也是其能够提高性能和吞吐量的主要原因。通常，数据会根据某种散列或范围算法被平均分布到多个节点上。选择合适的数据分布键可以帮助减少跨节点的数据移动，优化查询性能。2.查询推送下来：在MPP系统中，尽可能将计算推送
【TIANCHI】天池大数据竞赛（学习赛）--- 淘宝用户购物行为数据可视化分析 WaKuWuku python 机器学习
目录前言一、数据集的来源和各个字段的意义二、数据分析1.引入库2.读入数据3.查看数据数量级4.PV（PageView）/UV访问量5.漏斗模型6.用户购买商品的频次分析。7.ARPPU(averagerevenueperpayinguser)计算ARPPUARPPU出图8.复购情况分析计算用户购买频次复购周期分析总结前言本人代码萌新一枚，目前还在学习python中，这篇文章是我本人对天池大数据竞
关于淘宝用户行为分析及其可视化案例 ChenDaX python sql 数据分析
目录一、数据导入二、数据预处理三、数据分析漏斗模型分析AARRR模型分析Acquisition获取（游戏行业需要分析DNU/DOU/DAU）Activation活跃度计算跳出率计算关键页跳出率时间维度分析用户活跃度情况Rretention留存率Referral用户推荐Reveune用户收益RFM用户细分模型分析一、数据导入数据来源：可视化大赛-天池大数据竞赛-天池大赛-阿里云天池使用工具：Mysq
机器学习 - 竞赛网站，算法刷题网站（持续更新） huanbia 机器学习竞赛网站算法刷题
数据竞赛类网站Kaggle阿里巴巴天池大数据比赛DataCastleCCF大数据与计算智能大赛Di-Tech算法大赛KDD-CupKDnuggetsCompetition赛氪网DrivenDataCompetition上海SODA大赛TopCoder大赛网数字城市大赛数据科学&机器学习的在线学习资源慕课网数据科学家快报数据分析网一起大数据36大数据数据科学研习社爱可可-爱生活好东西传送门机器学习日
机器学习 - 竞赛网站，算法刷题网站 ctrigger
数据竞赛类网站Kaggle阿里巴巴天池大数据比赛DataCastleCCF大数据与计算智能大赛Di-Tech算法大赛KDD-CupKDnuggetsCompetition全国高校云计算应用创新大赛ByteCup国际机器学习竞赛WID数据竞赛数据火车竞赛网站DrivenDataCompetition上海SODA大赛赛氪网TopCoder大赛网kaggle竞赛冠军源代码数据科学&机器学习的在线学习资源
【转】机器学习 - 竞赛网站，算法刷题网站 7-clock 机器学习转载竞赛刷题
转载仅为个人记录使用请访问源地址：https://blog.csdn.net/zk_j1994/article/details/76019650更新：1.天池2.CCF大数据与计算智能3.Di-Tech算法大赛4.全国高校云计算应用创新大赛5.WID数据竞赛6.数据火车竞赛网站数据竞赛类网站Kaggle阿里巴巴天池大数据比赛DataCastleCCF大数据与计算智能大赛Di-Tech算法大赛KDD
电商零售商家需求预测及库存优化问题（第1问）王小葱鸭机器学习人工智能
电商零售商家需求预测及库存优化问题数据和题目来源于2023年MathorCup高校数学建模挑战赛——大数据竞赛只有第一问，使用ARIMA做预测，使用聚类算法做特征相似性1数据读取和处理1.1清除重复值注意附件4要去重，原来是56条数据，去重后是54条数据。print(fujian1_df.shape)fujian1_df=fujian1_df.drop_duplicates()print(fuji
2022年MathorCup大数据竞赛B题北京移动用户体验影响因素研究求解全过程文档及程序数模竞赛Paid answer Mathorcup大数据竞赛数据分析数学建模大数据数学建模数据分析数学建模数据分析 mathorcup大数据竞赛
2022年MathorCup高校数学建模挑战赛—大数据竞赛B题北京移动用户体验影响因素研究原题再现：移动通信技术飞速发展，给人们带来了极大便利，人们也越来越离不开移动通信技术带来的各种便捷。随着网络不断的建设，网络覆盖越来越完善。各个移动运营商，越来越重视客户的网络使用体验，从而进一步提升网络服务质量。客户满意度是客户对运营商产品服务的满意程度，反映了客户期望与实际感知的产品服务之间的差异
2022年职业院校技能大赛-大数据赛题解析 xlw2003 大数据 spark flume kafka redis
最新上线2022年7月20日新发布任务书1和任务书7解析。2022国赛专区（7.20更新）2022年高职大数据国赛（7.20更新），任务书详解与参考实现。2022(7.20更新)高职大数据竞赛-官方电商样例数据说明2022(7.20更新)高职大数据竞赛(任务书一)-离线数据处理任务一：数据抽取2022(7.20更新)高职大数据竞赛(任务书一)-离线数据处理任务二：数据清洗2022(7.20更新)高
2011-2022年高职大数据竞赛-赛题内容 xlw2003 大数据 Spark hadoop flink 高职大数据竞赛
本系列共分五篇，内容分别为：第一部分赛题内容第二部分任务剖析第三部分赛题模拟实现-离线数据抽取第四部分赛题模拟实现-离线数据统计第五部分赛题模拟实现-数据采集与实时计算第六部分赛题模拟实现-数据可视化第一部分竞赛内容赛项以大数据技术与应用为核心内容和工作基础，重点考查参赛选手基于Spark、Flink平台环境下，充分利用SparkCore、SparkSQL、Flume、Kafka、Flink等技术
2011-2022年高职大数据竞赛-赛题任务剖析 xlw2003 Spark Flink hadoop spark flume kafka flink
本系列共分五篇，内容分别为：第一部分赛题内容第二部分任务剖析第三部分赛题模拟实现-离线数据抽取第四部分赛题模拟实现-离线数据统计第五部分赛题模拟实现-数据采集与实时计算第六部分赛题模拟实现-数据可视化（一）任务一：大数据平台环境搭建具体内容按照大数据分析平台需求，需要完成Hadoop完全分布式、Spark安装配置、Flink安装配置、Hive安装配置、Kafka安装配置、Flume安装配置。分析H
机器学习算法竞赛平台整理厨师长爱炼丹机器学习机器学习算法人工智能
平台名网址比赛时间科赛网Heywhale和鲸（官网）-数据科学协同平台天池天池大数据众智平台-阿里云天池DataFountain权威的大数据竞赛平台-DataFountainKaggleKaggle:YourMachineLearningandDataScienceCommunityDataCastleDC竞赛——领先的大数据与人工智能竞赛平台JDATAJDATA智汇平台6月腾讯广告算法大赛202
AI优秀企业案例——机器人流程自动化：达观数据RPA AI 智能服务 AI行业研究分析机器人自动化 rpa
通过学习业内领先公司的最佳实践，我们可以更好地将它们应用到我们自己的公司和业务中。特别是第三部分，提供了大量应用案例，让我们一起期待看到这些案例的结尾。1.简介达观数据是一家专注于智能文本机器人的国家高新技术企业，荣获中国人工智能领域最高奖“吴文俊人工智能奖”、中国青年创新创业大赛总冠军、ACMCIKM算法竞赛全球冠军、EMIHackathon数据竞赛全球冠军、全球三十大最佳创业公司、中国人工智能
2021年全国大学生数学建模竞赛 C题分析 mldl_ 数据建模
2021年全国大学生数据竞赛C题~~~C题生产企业原材料的订购与运输某建筑和装饰板材的生产企业所用原材料主要是木质纤维和其他植物素纤维材料,总体可分为A，B，C三种类型。该企业每年按48周安排生产，需要提前制定24周的原材料订购和转运计划，即根据产能要求确定需要订购的原材料供应商（称为“供应商”）和相应每周的原材料订购数量（称为“订货量”），确定第三方物流公司（称为“转运商”）并委托其将供应商每周
python机器学习笔记：ID3决策树算法实战 iFlyAI 机器学习人工智能推荐算法决策树机器学习算法
ID3算法是一种贪心算法，用来构造决策树，ID3算法起源于概念学习系统（CLS），以信息熵的下降速度为选取测试属性的标准，即在每一个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准，然后继续这个过程，直到生成的决策树能完美的分类训练样例。在此之前，推荐大家可以多在FlyAI竞赛服务平台多参加训练和竞赛，以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站
TensorFlow2.0 Keras介绍 weixin_40744639 tensorflow 学习 TensorFlow Keras
Keras简介keras现在是一个非常流行的工具库，包括tensorflow已经把keras合并到了自己的主代码当中了，大家可以直接tf.keras就可以直接调用其中的工具库了。单独讲keras的原因是因为keras有他独特的应用场景如实验室、数据竞赛等小型环境中，使用keras,工程师们可以将更多时间花在设计网络模型上而不是coding上，而且keras是所有工具库当中最容易上手的工具库之一。K
【2023年MathorCup高校数学建模挑战赛-大数据竞赛】赛道A：基于计算机视觉的坑洼道路检测和识别 python 代码解析 Better Bench 数学建模入门到精通数学建模大数据计算机视觉坑洼道路检测图像分类
【2023年MathorCup高校数学建模挑战赛-大数据竞赛】赛道A：基于计算机视觉的坑洼道路检测和识别python代码解析1题目坑洼道路检测和识别是一种计算机视觉任务，旨在通过数字图像（通常是地表坑洼图像）识别出存在坑洼的道路。这对于地．质勘探、航天科学和自然灾害等领域的研究和应用具有重要意义。例如，它可以帮助在地球轨道上识别坑洼，以及分析和模拟地球表面的形态。在坑洼道路检测任务中，传统的分类算
人工智能——猫狗大战 hahahd3 人工智能
人工智能——猫狗大战简介代码运行AI研习社测试总结简介Catsvs.Dogs（猫狗大战）是Kaggle大数据竞赛某一年的一道赛题，利用给定的数据集，用算法实现猫和狗的识别。我们希望通过对计算机进行大量的图片训练，使计算机可以学习识别到猫、狗的特征，最终可以对大量的未知图片进行分类。这就涉及到计算机视觉中的图像分类问题。图像分类，计算机视觉研究领域之一，计算机通过学习图像本身的特征将不同类别的图像区
【2023Mathorcup大数据】B题电商零售商家需求预测及库存优化问题 python代码解析 Better Bench 数学建模入门到精通数学建模妈妈杯大数据 mathorcup大数据电商零售需求预测库存优化问题
【2023Mathorcup大数据】B题电商零售商家需求预测及库存优化问题python代码解析1题目2023年MathorCup高校数学建模挑战赛——大数据竞赛赛道B：电商零售商家需求预测及库存优化问题电商平台存在着上千个商家，他们会将商品货物放在电商配套的仓库，电商平台会对这些货物进行统一管理。通过科学的管理手段和智能决策，大数据智能驱动的供应链可以显著降低库存成本，同时保证商品的按时履约。一般
2015阿里天池大数据竞赛解题源码 zhangxueyang1 综合
转自：http://sanwen8.cn/p/151ompp.html这篇文章记录2015阿里天池大数据竞赛中，CSDN博主@wphh的一些代码，由于代码分享时比赛正在进行中，基于规则，仅分享一个naivesolution，下面是代码的一些说明。有兴趣的请看代码注释。阿里天池大数据竞赛网址：http://tianchi.aliyun.com/competition/index.htm?spm=51
2023 年 MathorCup 高校数学建模挑战赛大数据竞赛（B题）|电商零售商家需求预测及库存优化问题|建模秘籍&文章代码思路大全 Mmmath_secret 数学建模大数据
铛铛！小秘籍来咯！小秘籍希望大家都能轻松建模呀，mathorcup比赛也会持续给大家放松思路滴~抓紧小秘籍，我们出发吧~来看看MathorCup大数据竞赛的B题问题重述问题一：需求量预测问题描述：根据历史六个月的需求量数据，预测各商家在各仓库的商品在2023年5月16日至2023年5月30日期间的需求量。需求量是商家、仓库和商品的组合，预测需要考虑不同组合的需求。数据：历史需求量数据（附件1）、商
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l