master-dragon

大文本文件（接近7GB）: 统计频数，Top K问题求解

目录

本文说明
问题
TopK单机思路（分治）
具体实践

步骤 1：每行一个IP：超过内存的大文件

步骤2：分治求解：
2.1 大文件分成小文件

2.2 小文件统计，并最后统计
2.3 小文件的统计结果再做一次统计求出出现频数最高的那个数

步骤3: 程序输出
附：java源代码

总结

本文说明

本来转自这个地址(http://blog.csdn.net/dbt666666/article/details/16974415)的博文, 不过太差了，遂自己实现一把真正的topK问题，网上的文章只作为本文的参考。因为很早写的，当时在windows上实践的，不过应当实现有点问题，确实也不是真正的TopK求解。鉴于本文截止2020-05-01的阅读量已经很多了，所以本文标题就不改了；2020-05-01（今天）重新实践下，并重写本文，并标记本文为原创。

请按照目录阅读，要明白我们的问题，我们怎么求解，我们怎么输出，这里先不考虑大数据方案，就单纯的一个能让大一，大二同学就能直接实践并且能够学到知识

问题

你只有一个2C4G的机器（即内存是有限的）

然后很简单的一个问题：一个6G的txt文件，每一行都出现了一个IP，要统计这其中出现频次最高的IP，返回出现TopK的IP，输出如下

<topCnt1, Ip1>
<topCnt2, Ip1>
...
<topCntK, IpK>

TopK单机思路（分治）

分治思想应该是容易想到的，如果读大二还不知道，那么赶快去学习

具体实践

步骤 1：每行一个IP：超过内存的大文件

程序模拟产生了一个1G行，每行一个[0，100000]区间的整数

步骤2：分治求解：

2.1 大文件分成小文件

这里根据IP Hash 到 1024个小文件中，显然有：

在单个文件中，topK的才是最终整体有可能的topK（一个文件中可能出现相同次数的，也要考虑进来）；非topK的直接抛弃即可

*注意：我们是普通的Hash,不过数据还是相对均匀的，所以每个小文件确实是挺小的；考虑现实中数据极端情况，可能出现分治分不了,业即：大数据常见的数据倾斜问题（这里引入下，不做过多说明）

2.2 小文件统计，并最后统计

对每个小文件，可以用堆，hash，内部排序等等方法进行处理；

2.3 小文件的统计结果再做一次统计求出出现频数最高的那个数

步骤3: 程序输出

结果如下：第一列是次数，第二列是对应的IP

/*
访问次数最多IP的top_k：10
11178	39293
11143	69144
11140	29718
11133	67370
11131	40798
11130	72952
11127	57661
11122	25185
11120	93643
11118	40562
 */

关于结果的正确性：我已经用 hadoop MapReduce 实践了一遍，对的上；后续会用另外一篇文章补充hadoop MapReduce的实践（参见：大文本文件（接近7GB）: 统计频数，Top K问题求解（二）
）

附：java源代码

import java.io.*;
import java.util.*;
import java.util.concurrent.ConcurrentHashMap;

/**
 * @Author mubi
 * @Date 2020/5/1 12:15
 */
class IP implements Serializable {

    private static final long serialVersionUID = -8903000680469719698L;
    private String ip;
    private int count;

    public IP(String ip2, Integer integer) {
        this.ip = ip2;
        this.count = integer;
    }

    public int getCount() {
        return count;
    }

    public String getIp() {
        return ip;
    }

}

/**
 * @Author mubi
 * @Date 2020/5/1 12:15
 */
public class Data {

    static String fileLoc = "/Users/mubi/test_data/nums.txt";

    static int TOP_K = 10;

    static int FILE_CNT = 1024;

    /**
     * 将大文件hash成1024个小文件,顺序读写，按照IP hashCode 打散
     *
     * 则显然在单个文件中，topK的才是最终整体有可能的topK（一个文件中可能出现相同次数的，也要考虑进来）
     */
    private static void hashToSmallFiles() throws IOException {
        BufferedReader br = new BufferedReader(new FileReader(fileLoc));
        String ip;
        HashMap fileWriters = new HashMap();
        while ((ip = br.readLine()) != null) {
            int tmp = Math.abs(ip.hashCode() % FILE_CNT);
            String fileName = fileLoc + tmp + ".txt";
            FileWriter fw;
            if (fileWriters.containsKey(fileName)) {
                fw = fileWriters.get(fileName);
            } else {
                fw = new FileWriter(fileName, true);
                fileWriters.put(fileName, fw);
            }
            fw.write(ip + "\n");
        }
        br.close();
        for (FileWriter ff : fileWriters.values()) {
            ff.close();
        }
    }

    /**
     * 多线程处理
     */
    static Map> mpList = new ConcurrentHashMap<>();

    static class MyThread implements Runnable{

        int index;

        public MyThread(int index){
            this.index = index;
        }

        @Override
        public void run() {
            try {
                List list = new ArrayList<>();
                File file = new File(fileLoc + index + ".txt");
                if (!file.exists()) {
                    return;
                }
                long startTime = System.currentTimeMillis();
                BufferedReader br1 = new BufferedReader(new FileReader(file));
                String ip1;
                // 这里就是单个小文件求topK的问题了
                HashMap hm = new HashMap();
                while ((ip1 = br1.readLine()) != null) {
                    if (!hm.containsKey(ip1)) {
                        hm.put(ip1, 1);
                    }
                    else {
                        hm.put(ip1, hm.get(ip1) + 1);
                    }
                }
                TreeMap treeMap = new TreeMap<>((a,b)->{
                    return -(a-b);
                });
                // 这里使用 TreeMap 有序结构处理
                for(String ip: hm.keySet()){
                    int num = hm.get(ip);
                    treeMap.put(num, ip);
                }
                int iCnt = 0;
                for(Integer cnt: treeMap.keySet()){
                    IP ip = new IP(treeMap.get(cnt), cnt);
                    iCnt++;
                    if(iCnt > TOP_K){
                        if(iCnt == list.get(TOP_K-1).getCount()){
                            list.add(ip);
                        }else {
                            break;
                        }
                    }else {
                        list.add(ip);
                    }
                }
                long endTime = System.currentTimeMillis();
                mpList.put(index, list);
                System.out.println("已经统计文件：" + fileLoc + index + ".txt，用时：" + (endTime - startTime) + " 毫秒");
            }catch (Exception e){

            }
        }
    }
    /**
     * 利用HashMap<> 统计每个小文件频数最高的ip;
     * @return 所有小文件的结果 组成List 返回
     * @throws FileNotFoundException
     * @throws IOException
     */
    private static Map> countEverySmallFile() throws FileNotFoundException, IOException {
        try {
            Thread[] thread = new Thread[FILE_CNT];
            for (int i = 0; i < FILE_CNT; i++) {
                thread[i] = new Thread(new MyThread(i));
            }
            for (int i = 0; i < FILE_CNT; i++) {
                thread[i].start();
            }
            for (int i = 0; i < FILE_CNT; i++) {
                thread[i].join();
            }
        }catch (Exception e){

        }
        return mpList;
    }

    /**
     * 由 1024 个 topK 结果，综合起来，再求出最后的 topK
     * 综合计算TopK
     */
    private static List calculateResult(Map> mpList) {

        HashMap hm = new HashMap();
        for(Integer fileIndex: mpList.keySet()){
            List ipList = mpList.get(fileIndex);
            for(IP ip: ipList){
                if (! hm.containsKey(ip.getIp())) {
                    hm.put(ip.getIp(), ip.getCount());
                }else {
                    hm.put(ip.getIp(), hm.get(ip.getIp()) + ip.getCount());
                }
            }

        }
        TreeMap treeMap = new TreeMap<>((a,b)->{
            return -(a-b);
        });
        // 这里使用 TreeMap 有序结构处理
        for(String ip: hm.keySet()){
            int num = hm.get(ip);
            treeMap.put(num, ip);
        }
        List list = new ArrayList<>();
        int iCnt = 0;
        for(Integer cnt: treeMap.keySet()){
            IP ip = new IP(treeMap.get(cnt), cnt);
            iCnt++;
            if(iCnt > TOP_K){
                if(iCnt == list.get(TOP_K-1).getCount()){
                    list.add(ip);
                }else {
                    break;
                }
            }else {
                list.add(ip);
            }
        }
        return list;
    }

    public static void findIp() throws IOException, ClassNotFoundException {
        // 当个文件计算完
        Map> mpList = countEverySmallFile();
        // 最后统计
        List ipList = calculateResult(mpList);
        System.out.println("访问次数最多IP的top_k：" + TOP_K);
        for(IP ip: ipList){
            System.out.println(ip.getCount() + "\t" + ip.getIp());
        }
    }

    /**
     * 产生大文件
     * 每一行是一个【0，100000】之间随机整数（用来表示出现的IP）
     */
    public static void getBigFile() {
        try
        {
            File file = new File(fileLoc);
            if(!file.exists())
            {   //如果不存在则创建
                file.createNewFile();
                System.out.println("文件创建完成，开始写入");
            }
            FileWriter fw = new FileWriter(file);       //创建文件写入
            BufferedWriter bw = new BufferedWriter(fw);

            //产生随机数据，写入文件
            Random random = new Random();

            for(int i=0;i<1024*1024*1024;i++)
            {
                int randint = (int)Math.floor((random.nextDouble()*100000.0));//产生【0，10000】之间随机数
                bw.write(String.valueOf(randint));      //写入一个随机数
                bw.newLine();       //新的一行
            }
            bw.close();
            fw.close();
            System.out.println("文件写入完成");
        }
        catch (Exception e)
        {
            e.printStackTrace();
        }
    }

    public static void main(String[] args) throws Exception {

//        getBigFile();

        long startTime = System.currentTimeMillis();
//        hashToSmallFiles();
        // 约 283059
        System.out.println("hashToSmallFiles cost " + (System.currentTimeMillis() - startTime) + " 毫秒");

        startTime = System.currentTimeMillis();
        findIp();
        // 约 91043
        System.out.println("findIp cost " + (System.currentTimeMillis() - startTime) + " 毫秒");

        System.out.println("Finished");
    }
}

/*
访问次数最多IP的top_k：10
11178	39293
11143	69144
11140	29718
11133	67370
11131	40798
11130	72952
11127	57661
11122	25185
11120	93643
11118	40562
 */

总结

主要是学习分治思想，当然也是考察对CPU计算，磁盘IO，多线程，Hash / 堆等数据结构的认识。回到问题，实践方式很多，本文只是一个参考，还请读者务必明白，后面学习大数据相关也离不开这些基础。

如果有交流的同学，请直接评论或私聊

你可能感兴趣的:(#,大数据相关,hadoop)

hdfs HA 机制，一台 namenode 宕机了， joualnode ， namenode ， edit.log fsimage 的变化？思维导图代码示例（java 架构) 用心去追梦 hdfs java 架构
HDFS（HadoopDistributedFileSystem）的高可用性（HA,HighAvailability）机制旨在解决单点故障问题，确保即使在NameNode出现故障的情况下，文件系统仍然可以继续正常工作。在HA配置中，有两个或多个NameNode：一个处于活动状态（Active），另一个作为备用（Standby）。JournalNodes用于同步编辑日志（EditLog），以确保两个
IntelliJ IDEA + Maven环境编写第一个hadoop程序 IT独白者 hadoop hadoop
1.新建IntelliJ下的maven项目点击File->New->Project，在弹出的对话框中选择Maven，JDK选择你自己安装的版本，点击Next2.填写Maven的GroupId和ArtifactId你可以根据自己的项目随便填，点击Next这样就新建好了一个空的项目这里程序名填写WordCount,我们的程序是一个通用的网上的范例,用来计算文件中单词出现的次数3.设置程序的编译版本打开
hadoop 百里自来卷 hadoop 大数据分布式
Hadoop是一个用于分布式存储和处理大规模数据的开源框架，它的架构主要由以下几个核心组件组成：1.Hadoop生态系统核心组件Hadoop的核心架构主要包括HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator），以及MapReduce计算框架：1.1HDFS（分布式文件系统）HDFS负责存储大规模数据，采用主从架构
第一个Hadoop程序 lqlj2233 hadoop 大数据分布式
编写和运行第一个Hadoop程序是学习Hadoop的重要步骤。以下是一个经典的“WordCount”程序示例，它统计文本文件中每个单词出现的次数。我们将使用Java编写MapReduce程序，并在Hadoop集群上运行它。一、WordCount程序概述WordCount是Hadoop的“HelloWorld”程序。它的基本逻辑如下：Mapper：读取输入文件，将每一行文本拆分为单词，并输出每个单词
在虚拟机上安装 Hadoop 全攻略麻芝汤圆 spark大数据分析 hadoop 大数据分布式 windows linux 服务器
在虚拟机上安装Hadoop是进入大数据处理和分析领域的重要一步。以下将详细讲解在常见虚拟机软件（如VMwareWorkstation、VirtualBox）中，于Linux虚拟机系统安装Hadoop的流程与要点。一、前期准备虚拟机软件与系统镜像：确保已正确安装VMwareWorkstation或VirtualBox等虚拟机软件，并且拥有目标操作系统的镜像文件（如UbuntuServerISO、Ce
【自学笔记】Hadoop基础知识点总览-持续更新 Long_poem 笔记 hadoop 大数据
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Hadoop基础知识点总览1.Hadoop简介2.Hadoop生态系统3.HDFS（HadoopDistributedFileSystem）HDFS基本命令4.MapReduceWordCount示例（Java）5.YARN（YetAnotherResourceNegotiator）6.其他组件简介总结Hadoop基础知识点总
spark hdfs 常用命令毛球饲养员 spark spark hdfs
目录lsrmgettext以下按照使用频率和使用先后顺序排序（纯个人习惯）ls列出hdfs文件系统路径下的目录和文件hdfsdfs-ls列出hdfs文件系统路径下所有的目录和文件hdfsdfs-ls-Rrmhadoopfs-rm...hadoopfs-rm-r...每次可以删除多个文件或目录getlocalfile不能和hdfsfile名字不能相同，否则会提示文件已存在，没有重名的文件会复制到本地
Spark详解二卢子墨 Spark原理实战总结 spark
八、Spark部署模式1、Local本地模式：运行于本地spark-shell--masterlocal[2]（local[2]是说，执行Application需要用到CPU的2个核）2、Standalone独立模式：Spark自带的一种集群模式Spark自己管理集群资源，此时只需要将Hadoop的HDFS启动Master节点有master,Slave节点上有worker启动./bin/spark
Spark基本命令 chenworeng5605 大数据 scala shell
一、spark所在目录cdusr/local/spark二、启动spark/usr/local/spark/sbin/start-all.sh启动Hadoop以及Spark：bash./starths.sh浏览器查看：172.16.31.17:8080停止Hadoop以及Sparkbash./stophs.sh三、基础使用参考链接：https://www.cnblogs.com/dasn/arti
Spark是什么？可以用来做什么？ Bugkillers 大数据 spark 大数据分布式
ApacheSpark是一个开源的分布式计算框架，专为处理大规模数据而设计。它最初由加州大学伯克利分校开发，现已成为大数据处理领域的核心工具之一。相比传统的HadoopMapReduce，Spark在速度、易用性和功能多样性上具有显著优势。一、Spark的核心特点速度快：基于内存计算（In-MemoryProcessing），比基于磁盘的MapReduce快10~100倍。支持高效的DAG（有向无
大数据面试临阵磨枪不知看什么？看这份心理就有底了-大数据常用技术栈常见面试100道题大模型大数据攻城狮大数据面试职场和发展面试题数据仓库算法
目录1描述Hadoop的架构和它的主要组件。2MapReduce的工作原理是什么？3什么是YARN，它在Hadoop中扮演什么角色？4Spark和HadoopMapReduce的区别是什么？5如何在Spark中实现数据的持久化？6SparkStreaming的工作原理是什么？7如何优化Spark作业的性能？8描述HBase的架构和它的主要组件。9HBase的读写流程是怎样的？10HBase如何处理
Spark使用Parqute存储方式有什么好处冰火同学 Spark spark
列式存储：压缩效率和查询效率谓词下推存储层：查询数据块生态兼容性高：Spark，hadoop等都兼容
初学者如何用 Python 写第一个爬虫？ ADFVBM 面试学习路线阿里巴巴 python 爬虫开发语言
??欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。??博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark
LeetCode 题目 49：字母异位词分组 5种算法实现与典型应用案例【python】数据分析螺丝钉 LeetCode刷题与模拟面试算法 leetcode python 数据结构职场和发展
作者介绍：10年大厂数据\经营分析经验，现任大厂数据部门负责人。会一些的技术：数据分析、算法、SQL、大数据相关、python欢迎加入社区：码上找工作作者专栏每日更新：LeetCode解锁1000题:打怪升级之旅python数据分析可视化：企业实战案例备注说明：方便大家阅读，统一使用python，带必要注释，公众号数据分析螺丝钉一起打怪升级题目描述首先，字母异位词是指由相同字母以不同顺序组成的单词
数据挖掘与数据分析两者的区别中琛源科技
随着大数据爆发式增长，市场上对大数据相关人才的需求与日俱增，导致大数据行业人才需求紧缺，引发了关于大数据的学习浪潮，在这个过程中，人们也会不时将数据分析与数据挖掘的关系混淆，什么是数据挖掘?与数据分析有什么联系吗?又或者说数据挖掘与数据分析有什么区别呢?让我们带着这些问题，一起往下解惑吧。数据分析简单的说，就是对数据进行分析，比较专业的说法是，数据分析是指用适当的统计分析方法对收集来的大量数据进行
hadoop集群启动问题总结 @飞往你的山 hadoop hdfs 大数据
首先，我们来尝试启动hadoop集群：start-all.sh然后，我遇到了下面的问题：Warning:Permanentlyadded'hadoop'(RSA)tothelistofknownhosts.其实解决问题的办法也很简单，只需要在每台机器上面通过下面的命令修改文件就可以解决：vi/etc/ssh/ssh_config找到#StrictHostKeyCheckingask去掉注释，并把a
Linux 下Hive 安装(Remote Metastore Database 单节点) A6-母婴小店-第6分店 HIVE hadoop
1、Linux下安装好mysql：Linux下Mysql安装2、启动hadoop集群：1、zk启动[root@node02~]#zkServer.shstartZooKeeperJMXenabledbydefaultUsingconfig:/opt/software/apache-zookeeper-3.6.2-bin/bin/../conf/zoo.cfgStartingzookeeper...
大数据经典技术解析：Hadoop+Spark大数据分析原理与实践 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介大数据时代已经来临。随着互联网、移动互联网、物联网等新兴技术的出现，海量数据开始涌现。而在这些海量数据的基础上进行有效的处理，成为迫切需要解决的问题之一。ApacheHadoop和ApacheSpark是目前主流开源大数据框架。由于其易于部署、高容错性、并行计算能力强、适应数据量大、可编程、社区支持广泛等特点，大大提升了大数据应用的效率和效果。本文通过对Hado
Hadoop基础知识及部署模式 2301_82242502 hadoop 大数据分布式
一、Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力，解决海量数据的存储及海量数据的分析计算问题。广义上的Hadoop是指Hadoop的整个技术生态圈；狭义上的Hadoop指的是其核心三大组件，包括HDFS、YARN及MapReduce.二、Hadoop的发展史Hadoop起源于Lucen
探讨Hadoop的基础架构及其核心特点 xx155802862xx hadoop 大数据分布式
Hadoop是一个开源软件框架，用于存储和处理大规模数据集。它是Apache软件基金会下的一个项目，灵感来源于Google的两篇论文：一篇关于Google文件系统（GFS），另一篇关于MapReduce。Hadoop设计用于从单台服务器扩展到数千台机器，每台机器提供局部计算和存储。而不仅仅是处理大数据，Hadoop的真正价值在于其对于数据的高容错性、可扩展性以及相对低成本的存储和处理能力。以下是探
Hadoop毕业设计:计算机毕业设计选题汇总(建议收藏) 会写代码的羊毕设选题 hadoop 课程设计大数据毕设选题毕设题目数据分析
文章目录前言基于Hadoop的毕业设计选题毕设作品展示前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。精彩专栏推荐订阅计算机毕业设计精品项目案例-500套基于JavaSpringBoot的微信校园二手交易小程序平台开发系列（一）基于校园二手物品交易小程序系统设计与实现系列（二）基于云开发微信小程序二手闲置商城校园跳
大数据技术学习框架（更新中......）小技工丨大数据技术学习大数据学习
Hadoop相关HDFS分布式文件系统MR(MapReduce)离线数据处理MR-图解YARN集群资源管理ZooKeeperZooKeeper分布式协调框架Hive相关Hive-01之数仓、架构、数据类型、DDL、内外部表Hive-02之分桶表、数据导入导出、静动态分区、查询、排序、hiveserver2Hive-03之传参、常用函数、explode、lateralview、行专列、列转行、UDF
Ubuntu从零创建Hadoop集群爱编程的王小美大数据专业知识系列 ubuntu hadoop linux
目录前言前提准备1.设置网关和网段2.查看虚拟机IP及检查网络3.Ubuntu相关配置镜像源配置下载vim编辑器4.设置静态IP和SSH免密(可选)设置静态IPSSH免密5.JDK环境部署6.Hadoop环境部署7.配置Hadoop配置文件HDFS集群规划HDFS集群配置1.配置works文件2.配置hadoop-env.sh文件3.配置core-site.xml文件4.配置hdfs-site.x
使用宝塔大家Java项目遇到的问题 LOVE_DDZ JAVA Spring-Boot java spring boot 开发语言
记录一下使用宝塔大家Java项目遇到的问题：1.没有那个文件或目录/var/tmp/springboot/vhost/scripts/system-service.sh:没有那个文件或目录Feb2811:13:01hadoop05spring_system-service:/bin/bash:/var/tmp/springboot/vhost/scripts/system-service.sh:没
如何使用Spark Streaming将数据写入HBase Java资深爱好者 spark hbase 大数据
在SparkStreaming中将数据写入HBase涉及到几个步骤。以下是一个基本的指南，帮助你理解如何使用SparkStreaming将数据写入HBase。1.环境准备HBase：确保HBase集群已经安装并运行。Spark：确保Spark已经安装，并且Spark版本与HBase的Hadoop版本兼容。HBaseConnectorforSpark：你需要使用HBase的SparkConnecto
项目经验之LZO压缩？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
LZO（LightweightZip/Unzip）是一种高效的压缩算法，它以快速解压缩著称，适用于需要频繁读取和处理的数据。在Hadoop生态系统中，使用LZO压缩可以显著减少存储空间，并且由于其快速的解压速度，对于大规模数据处理任务来说是非常有利的。以下是关于LZO压缩的项目经验总结、思维导图描述以及Java代码示例。项目经验之LZO压缩LZO的优势快速解压：LZO算法设计时优先考虑了解压速度，
HIVE 面试题总结小余真旺财 Hive hive
Hive依赖于HDFS存储数据，Hive将HQL转换成MapReduce执行，所以说Hive是基于Hadoop的一个数据仓库工具，实质就是一款基于HDFS的MapReduce计算框架，对存储在HDFS中的数据进行分析和管理。一、Hive架构用户接口：CLI（hiveshell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问hive）元数据：元数据包括：表名、表所属的数据库（默
Hive 面试题昨夜为你摘星
什么是Hive?Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的意义（最初研发的原因）?降低程序员使用Hadoop的难度，降低学习成本Hive的内部组成模块，作用
python调用kafka smile__su python python kafka
先启动hadoop，zookeeper，kafka启动命令hadoop启动命令sbin/start-all.shzookeeper启动命令./bin/zkServer.shstart每台机器都要启动kafka启动命令bin/kafka-server-start.shconfig/server.properties每台机器都要启动进行以下操作的前提是将hadoop，zookeeper，kafka安装
Python大数据可视化：基于Python的王者荣耀战队的数据分析系统设计与实现_flask+hadoop+spider m0_74823490 面试学习路线阿里巴巴 python flask hadoop
开发语言：Python框架：flaskPython版本：python3.7.7数据库：mysql5.7数据库工具：Navicat11开发软件：PyCharm系统展示管理员登录管理员功能界面比赛信息管理看板展示系统管理摘要本文使用Python与MYSQL技术搭建了一个王者荣耀战队的数据分析系统。对用户提出的功能进行合理分析，然后搭建开发平台以及配置计算机软硬件；通过对数据流图以及系统结构的设计，创建
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他