大数据处理实例——Amazon商品评分&评论(四)

背景

在本系列的第二篇中给出了Storm实时处理框架。其中有提到由于后面的离线学习部分都是基于文本的词频向量,因此需要统计非重复单词个数(向量维度)以及为每个单词编号(该单词词频所在列)。本篇就重点介绍自己基于ZK集群的实现方式

分析

我自己的想法就是在Storm Topolopy的去停用词阶段(StopWordsFilterBolt)为每一个新单词在ZK指定路径上创建一个新的节点。同时启动一个ZK listener监听指定路径的CHILD_ADD事件,来为每个单词编号。

实现

(1) 在StopWordsFilterBolt中为新单词创建新节点
大数据处理实例——Amazon商品评分&评论(四)_第1张图片

(2) ZK listener监听处理


public class ZKPathListener implements PathChildrenCacheListener {
    private static final Log LOG = LogFactory.getLog(ZKPathListener.class);
    private PathChildrenCache pathChildrenCache;
    private int curIndex = 0;

    public void childEvent(CuratorFramework client, PathChildrenCacheEvent event) throws Exception {
        switch (event.getType()) {
            case CHILD_ADDED:
                //监听到新增节点时,为该节点写入编号值
                String curPath = event.getData().getPath();
                client.setData().forPath(curPath, String.valueOf(curIndex).getBytes());
                LOG.info(String.format("Add path{%s} with index:", curPath, curIndex));
                curIndex++;
                break;
            default:
                break;
        }
    }

    public void setPathChildrenCache(PathChildrenCache pathChildrenCache) {
        this.pathChildrenCache = pathChildrenCache;
    }
}

你可能感兴趣的:(大数据)