FTRL算法性能优化

原算法(Worker端):

1. 对1个mini-batch, 得到每个sample的非0特征值的feature-id,排序(ps-lite要求Key必须有序),去重

2. 以这组feature-id为Key, 从Server上Pull,得到对应的weights

3. 对每个sample[i], 对其所有非0特征值的feature-id对应的weight, 进行加和,得到sum_w[i]

4. 对每个sample[i]的sum_w[i],得到梯度delta[i] = sigmoid(sum_w[i]) - label[i]

5. 对每个sample[i], 扫描其所有feature-id, 设其对应的weight为weight[k],累加gradient[k] += delta[i]

6. 把所有gradient[k],Push给Server, 去更新weights


原实现:

3. 使用feature-id --> weight的map(unordered_map) ,即下面的weight[idx]

5. 使用feature-->gradient的map(unordered_map), 即下面的gradient[idx]

缺点:一个batch大小1000,每个sample个数平均2000, 1000*2000*8Byte=16MB, 在cache中放不下,频繁访问内存,造成速度慢;

原实现代码:

            for(int row = start; row < end; ++row){
                float wx = bias;
                int sample_size = train_data->fea_matrix[row].size();
                for(int j = 0; j < sample_size; ++j){
                    idx = train_data->fea_matrix[row][j].fid;
                    wx += weight[idx];
                }
                pctr = sigmoid(wx);
                float delta = pctr - train_data->label[row];
                for(int j = 0; j < keys_size; j++){
                    gradient[(*keys)[j]] += delta;
                }
            }

优化实现:

1. 把所有sample的所有key, 放到struct数组里,struct字段:{key, sample-id}

2. 把struct数组(名字为sortedKS)按key从小到大排序

3. 把key单独放在一个数组(名字为keys)里,向Server去Pull Weights, 得到weights数组

4. 对sortedKS和keys进行类归并扫描操作,匹配中的,找到struct对应的sample-id,更新对应的weight:

    sum_w[sortedKS[soredKS_id].sample-id] += weights[keys_id]

5. 循环sum_w(长度为sample个数),  得到梯度delta[i] = sigmoid(sum_w[i]) - label[i]

6. 同步骤4,再次类归并扫描,匹配中的,累加对应的gradient: 

    gradient[keys_id] += delta[sortedKS[soredKS_id].sample-id]

优点:无Hash表;顺序扫描数组;sum_w和gradient只有几KB, 可以放入cache


你可能感兴趣的:(机器学习)