回炉重造P

分布式环境下的莎士比亚数据集处理

项目要求

对莎士比亚语料库处理，输出统计数据：

语料库中唯一（或不同）术语的数量
语料库中以字母T / t开头的单词数
出现少于5次的术语数量
整体读取的文件数
最常出现的5个术语及其词频

实现思路

统计唯一词汇数量
利用mapper将分词结果转换为以单词为key的键值组合，之后会对每个相同key的组合执行一次reduce。在reducer中调用counter并增加值即可计算词汇数量。
统计以字母T/t开头的单词数
在mapper中每分出一个词，小写化后进行判断，t开头的情况下调用一次counter并增加值计算单词数量。
统计出现次数少于5次的术语数
Reducer进行完数量统计后，进行判断并增加counter值即可。
统计读取的文件数
在mapper中，利用getInputSplit() 获取分片后得到文件名，将文件名加上filename_ 前缀，作为key存入mapper的输出。之后，在reducer中对接受的key进行判断，当前缀为文件名时利用counter进行计数。
统计最常出现的5个术语与词频
利用Mapper输出时按key排序的机制，将词频与词对换，进行排序输出。

代码实现

代码实现分为三个部分，词频统计，倒序输出与任务执行部分。

词频统计部分

WordCountMapper类

该类继承Mapper类，实现停止词读取，分词计算功能。
停止词读取：

    @Override
    protected void setup(Context context) throws IOException, InterruptedException {
        // 读取stop_word文件，存入内存
        Path path = new Path("hdfs://huiluczPc:8020/input/stop_word.txt");
        Configuration conf = new Configuration();
        FileSystem fileSystem = path.getFileSystem(conf);

        FSDataInputStream fsdis = fileSystem.open(path);
        LineReader lineReader = new LineReader(fsdis, conf);

        stopWords = new ArrayList<String>();
        Text line = new Text();
        while(lineReader.readLine(line) > 0){
            stopWords.add(line.toString());
        }
        lineReader.close();
    }

setup方法在所有的mapper创建前进行一次调用，在该继承方法中，获取hdfs文件系统中stop_word.txt所在地址，并逐行读取停止词，转为字符串集合存入内存中，方便map生成时进行调用。

分词:

	    @Override
    protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        // 分词操作
        StringTokenizer itr = new StringTokenizer(value.toString(), " \r\t\n!,.:?-(){}[]<>/\\+@*~#%&;\"\'");
        while(itr.hasMoreTokens()){
            String token = itr.nextToken().toLowerCase(); // 改为小写，防止重复
            // 对非停止词处理
            if(!stopWords.contains(token)) {
                if (token.startsWith("t")) {
                    // t或T开头出现则+1
                    Counter c = context.getCounter("mycounters", "t_prefix_counter");
                    c.increment(1);
                }
                // 总词数
                Counter c1 = context.getCounter("mycounters", "word_num_counter");
                c1.increment(1);

                context.write(new Text(token), new IntWritable(1));
            }
        }
        // 切割路径，获取文件名，以filename_为前缀传入key
        String path = ((FileSplit)context.getInputSplit()).getPath().toString();
        int index = path.lastIndexOf("/");
        String fileName = path.substring(index+1);
        context.write(new Text("filename_" + fileName), new IntWritable(1));
    }

利用StringTokenizer进行字符串的切割，将可能出现的符号全部进行分词处理。
为了获得干净的分词结果，在每个token处理前对stopword进行判断，非停止词进入后续处理。
为了实现任务中任务2统计功能，利用startswith进行开头字符的判断，并将统计结果利用 t_prefix_counter计数，方便结果输出。
为了实现任务中任务4文件数量统计，在map方法的最后一段，利用getInputSplit()进行分片后获取文件名，以filename_为前缀将词频统计文件名作为key存入map任务，方便reduce中进行调用。

WordCountReducer类

该类继承Reducer类，实现词频统计功能。
统计词频：

	    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        // 对key判断，文件名或正常词汇
        if(key.toString().startsWith("filename_")){
            System.out.println(key.toString());
            // 文件名，直接计数
            Counter c = context.getCounter("mycounters", "file_num_counter");
            c.increment(1);
        }else{
            // 正常处理
            int valueNum = 0;
            for(IntWritable v:values){
                valueNum += v.get();
            }
            if(valueNum < 5){
                // 出现次数小于5，计数
                Counter c = context.getCounter("mycounters", "less_5_counter");
                c.increment(1);
            }
            // 不同词汇计数
            Counter c = context.getCounter("mycounters", "voc_num_counter");
            c.increment(1);
            context.write(new Text(key.toString()), new IntWritable(valueNum));
        }
    }

对key相同的map任务输出结果，reduce方法中进行两种判断处理：文件名与非文件名。当key为filename_开头时，表示其为文件名，进行一次counter计数，完成任务4文件数统计，存放至 file_num_counter 中。
对正常单词key，对values进行遍历，统计词频，为了完成任务1，利用counter计数，将总词汇数存入voc_num_counter中。对词频进行判断，词频小于5时，进行计数，存入less_5_counter中进行统计。
最终输出单词-词频值键对。

倒序输出部分

该部分思路为利用mapper输出自动按照key排序的机制，将key与value倒置，并将顺序排序转为倒序，最终在reducer中转为正常值键对输出。

SortMapper类

该类继承自Mapper，主要进行值键互换功能。

	@Override
    protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        String[] keyValueStrings = line.split("\t");
        int outKey = Integer.parseInt(keyValueStrings[1]);
        String outValue = keyValueStrings[0];
        context.write(new IntWritable(outKey), new Text(outValue));
    }

SortReducer类

该类继承自Reducer，把值键对再换回来。

	protected void reduce(IntWritable key, Iterable<Text> values,Context context)throws IOException, InterruptedException {
        for(Text value : values){
            context.write(value, key);
        }
    }

DecresingCompare类

该类继承自IntWritable.Comparator，即为hadoop对整型数据的排序类，将其返回值变为负数，实现倒序输出。

	public class DecreasingCompare extends IntWritable.Comparator {
    public int compare(WritableComparable a, WritableComparable b){
        return -super.compare(a, b);
    }
    public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
        return -super.compare(b1, s1, l1, b2, s2, l2);
    }
}

任务执行部分

main函数写在ShakespeareWordCount类中。
首先，进行第一个job，对wordcount进行任务处理。

        Configuration hadoopConfig = new Configuration();
        try {
    Job job = Job.getInstance(hadoopConfig, ShakespeareWordCount.class.getSimpleName());

            job.setJarByClass(ShakespeareWordCount.class);
            job.setMapperClass(WordCountMapper.class);
            job.setReducerClass(WordCountReducer.class);

            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(IntWritable.class);

            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(IntWritable.class);

            // 输出已存在则删除
            Path outPath = new Path(dstOut);
            outPath.getFileSystem(hadoopConfig).delete(outPath, true);
            //job执行作业时输入和输出文件的路径
            FileInputFormat.addInputPath(job, new Path(dst));
            FileOutputFormat.setOutputPath(job, new Path(dstOut));

            //执行job，直到完成
            job.waitForCompletion(true);
            System.out.println("Finished task1");

判断输出文件是否存在，存在则删除，防止出错。
执行排序任务。

            // 排序
            Job jobSort =Job.getInstance(hadoopConfig, ShakespeareWordCount.class.getSimpleName() + " sort");
            jobSort.setJarByClass(ShakespeareWordCount.class);

            jobSort.setMapperClass(SortMapper.class);
            jobSort.setReducerClass(SortReducer.class);

            jobSort.setMapOutputKeyClass(IntWritable.class);
            jobSort.setMapOutputValueClass(Text.class);

            jobSort.setOutputKeyClass(Text.class);
            jobSort.setOutputValueClass(IntWritable.class);

            jobSort.setSortComparatorClass(DecreasingCompare.class);

            FileInputFormat.addInputPath(jobSort, new Path(dstOut));
            Path result=new Path(sortedOut);
            result.getFileSystem(hadoopConfig).delete(result, true);

            FileOutputFormat.setOutputPath(jobSort, result);

            jobSort.waitForCompletion(false);
            System.out.println("Finished task2");

排序任务实现类似，多产生一个排序后的值键对文件。

结果展示

数据集

stop_word.txt

停止词集合，格式为每一行一个词，存入hdfs的/input文件夹中进行取用。
利用hdfs相关命令进行查看前20行：
hadoop fs -cat /input/stop_word.txt|head -20

shakespeare_corpus

莎士比亚数据集，选取莎士比亚喜剧合集共17个文档。
利用hdfs相关命令进行查看文件信息：
hadoop fs -ls /input/shakespeare_corpus

运行结果

查看结果信息：
hadoop fs -cat /output/shakespeare_word_count_sorted_result/part-r-00000|head -10

统计结果

统计唯一词汇数量
根据输出信息，词汇数为voc_num_counter的值，结果为15221。
统计以字母T/t开头的单词
根据输出信息，其值为t_prefix_counter的值，结果为10372。
统计出现次数少于5次的术语数
根据输出信息，其值为less_5_counter的值，结果为10782。
统计读取的文件数
根据输出信息，其值为file_num_counter的值，结果为10782。
统计最常出现的5个术语与词频
根据输出信息，去除停止词后，前5个词分别为thou，sir，good，love和lord，词频分别为2087，1950，1300，1144，1062。

项目地址

已上传至github，包括数据集与停止词文档，有兴趣可以看看。
https://github.com/huiluczP/shakespeare_count

你可能感兴趣的:(hadoop,java,java,hadoop)

一款开源免费的数据可视化大屏 JimuBI，低代码与 AI 结合产品
简介JimuBI是一个JAVA语言的低代码数据可视化大屏BI产品，将大屏、仪表盘、移动面板、图表或页面元素封装为基础组件，无需编写代码即可完成业务需求。这是JeecgBoot团队出品的另外一款报表产品，积木报表已经成为业内报表首先，预测该大屏即将覆盖全行业。酷炫大屏轻松设计，通过拖拽完成大屏设计，80多种组件及20多种边框装饰满足您的设计需求。智能仪表盘简单易用，拖拽式操作自由布局，页面自适应；支
Java灵魂拷问13个为什么，你都会哪些？
大家好，我是V哥。今天看了阿里云开发者社区关于Java的灵魂拷问，一线大厂在用Java时，都会考虑哪些问题呢，对于工作多年，又没有大厂经历的小伙伴不妨看看，V哥总结的这13个为什么，你都会哪些？先赞后看，绝不摆烂。1.为什么禁止使用BigDecimal的equals方法做等值比较？BigDecimal的equals方法在等值比较时存在一些问题，通常不建议直接使用它来判断数值的相等性。下面是主要原因
前后端分离VUE3+Springboot项目集成PageOffice核心代码 wqqqianqian spring boot java pageoffice vue 在线编辑
后端Springboot项目在项目的pom.xml中通过下面的代码引入PageOffice依赖。pageoffice.jar已发布到Maven中央仓库，建议使用最新版本。com.zhuozhengsoftpageoffice6.3.3.1-javax在项目的启动类Application类中添加一项@Bean配置，此为PageOffice服务器端的必要配置，代码如下：@Value("${posysp
前后端分离VUE+Springboot项目集成PageOffice核心代码 wqqqianqian spring boot vue pageoffice 在线编辑
后端Springboot项目在项目的pom.xml中通过下面的代码引入PageOffice依赖。pageoffice.jar已发布到Maven中央仓库，建议使用最新版本。com.zhuozhengsoftpageoffice6.3.3.1-javax在项目的启动类Application类中添加一项@Bean配置，此为PageOffice服务器端的必要配置，代码如下：@Value("${posysp
Springboot毕设项目动物园售票管理系统96zau（java+VUE+Mybatis+Maven+Mysql）韩元计算机毕设 mybatis java spring boot
项目运行环境配置：Jdk1.8+Tomcat8.5+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：Springboot+mybatis+Maven+Vue等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也
大厂面试系列：JVM中有哪些内存区域，分别都是用来干嘛的？石杉的架构笔记面试求职 java 面试 jvm 内存划分类加载
添加VX：ruyuan0220，回复：CSDN，领取更多精品学习资料！目录背景知识大厂面试背景引入到底什么是JVM的内存区域划分？存放类的方法区执行代码指令用的程序计数器Java虚拟机栈Java堆内存核心内存区域的全流程串讲其他内存区域本文小结背景知识我们先聊了一下相关的背景知识：JVM类加载这块的机制，简单介绍一下。大家需要搞明白的是，在什么情况下会触发类的加载？加载之后的验证、准备和解析分别是
【2023华为OD-C卷-第三题-跳马】100%通过率（JavaScript&Java&Python&C++）塔子哥学算法 java 华为od c语言
本题已有网友报告代码100%通过率OJ&答疑服务购买任意专栏，即可私信博主，获取答疑/辅导服务题目描述马是象棋(包括中国象棋和国际象棋)中的棋子，走法是每步直一格再斜一格，即先横着或直着走一格，然后再斜着走一个对角线，可进可退，可越过河界，俗称马走“日”字。给定mmm行n
【蓝桥杯】CB组国二攻略（省赛地点：广东）好心的小明蓝桥杯职场和发展
1.赛事介绍（针对深大）蓝桥杯是深大的二类竞赛，在计软国一二三保研分别加6，4，2分，国一国二能申请双创一等奖学金，国三能申请双创二等还是三等有点忘了（其实在申请的时候直接申请一等就行了，学院会根据你奖项的实际能申请的奖项给你调整的）。蓝桥杯有很多个组别，有软件组和硬件组，其中软件组针对不同编程语言分组，其中C/C++组人最多，竞争相对较大。JAVA组和Python组人相对较少，竞争可能稍微小一点
华为OD机试E卷 - 跳马（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 java 华为od python javascript c语言 c++华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述输入m和n两个数，m和n表示一个m*n的棋盘。输入棋盘内的数据。棋盘中存在数字和"."两种字符，如果是数字表示该位置是一匹马，如果是"."表示该位置为空的，棋盘内的数字表示为该马能走的最大步数。例如棋盘内某个位置一个数字为k，表示该马只能移动1~k步的距离。棋盘内的马移动类似于中国象棋中的马移动，先在水平或者垂直方向上
身份证实名认证功能的快速实现方法-Java接口集成 OCR_API 接口 java 开发语言
身份证实名认证接口是互联网在线平台为了确保用户身份真实性而采用的一种验证方式是，想要实现该功能，看似很难，其实有许多第三方服务商提供身份证实名认证接口，如：翔云API等，实时联网权威数据源，支持多并发核验身份证的真伪。集成API流程：对于有身份证实名认证功能需求的用户而言，注册账号，就会有唯一的key和secret，选择需要的产品id，然后根据自身需要的代码语言进行集成，以Java为例：packa
2025java面试常见八股文整理 Java八股文面试面试职场和发展 java spring boot jvm spring spring cloud
1.多线程编程下，怎么解决线程的数据安全问题？如果线程存在竞争临界资源，多线程访问下添加同步代码块synchronized解决，或者分布式排他锁进行临界资源控制。在分布式多线程环境下，线程的数据安全尽量不要产生连接资源，使用线程本地化ThreadLocal实现线程资源隔离。2.SpringIOC依赖注入怎么理解，spring有几种方式属性注入，setter构建pojo实体类和有参构造方法工厂方法注
华为OD机试E卷 --跳马--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述马是象棋（包括中国象棋和国际象棋）中的棋子，走法是每步直一格再斜一格，即先横着或者直者走一格，然后再斜着走一个对角线，可进可退，可越过河界，俗称"马走日"字。给定m行n列的棋盘（网格图），棋盘上只有棋子象棋中的棋子“马”，并且每个棋子有等级之分，等级为k的马可以跳1~k步（走
【2023最新Java大厂面试题】——MyBatis面试题，看完拿捏面试官 Java凤梨 Java金三银四面试题 mybatis java 面试
全套Java金三银四面试题持续更新可文末自取，建议关注收藏不然下次找不到哟~目录1、什么是Mybatis？2、Mybaits的优点：3、MyBatis框架的缺点：4、MyBatis框架适用场合：5、MyBatis与Hibernate有哪些不同？6、#{}和${}的区别是什么？7、当实体类中的属性名和表中的字段名不一样，怎么办？8、模糊查询like语句该怎么写?9、通常一个Xml映射文件，都会写一个
使用arthas监控诊断java应用 handsomestWei 后端 java 开发语言
使用arthas监控诊断java应用简介arthas是阿里的一款线上监控诊断产品，通过全局视角实时查看应用load、内存、gc、线程的状态信息，并能在不修改应用代码的情况下，对业务问题进行诊断，包括查看方法调用的出入参、异常，监测方法执行耗时，类加载信息等，大大提升线上问题排查效率。安装使用参考常用命令使用dashboard查看当前应用整体信息dashboard命令详解包含有jvm信息，查看各代内
Java 网络编程（二）—— TCP流套接字编程熵减玩家 JavaSE 进阶网络 java tcp
TCP和UDP的区别在传输层，TCP协议是有连接的，可靠传输，面向字节流，全双工而UDP协议是无连接的，不可靠传输，面向数据报，全双工有连接和无连接的区别是在进行网络通信的时候，通信双方有没有保存对端的地址信息，即假设A和B进行通信，A保存了B的地址信息，B也保存了A的地址信息，此时双方都知道和谁建立了连接，这就是有连接的通信，在之前的UDP数据报套接字编程中就提到过UDP是无连接的，所以在发送数
深入理解 JavaScript 引擎与消息队列的底层原理 D.eL javascript 开发语言 ecmascript
深入理解JavaScript引擎与消息队列的底层原理JavaScript是现代Web开发中最为重要的编程语言之一，它的运行和执行方式常常是开发者关注的重点。为了更好地理解JavaScript的执行过程，我们需要深入探索JavaScript引擎的工作原理，尤其是事件循环（EventLoop）、消息队列（MessageQueue）以及它们如何协同工作来处理异步任务。在这篇文章中，我们将深入分析Java
JavaScript详解十三 ——节点操作遇见~未来 JavaScript JavaScript详解 javascript 开发语言 ecmascript
目录节点操作1、创建节点2、创建文本3、添加节点(先有父母才能生孩子)4、替换节点5、删除节点6、克隆节点7、创建节点另外几种方式（1）、element.innerHTML（2）、element.innerText（3）、document.write()（4）、insertAdjacentHTML()节点操作1、创建节点docment.createElement('节点')参数：标签名字符串这些元
linux制作自定义service服务单元 handsomestWei 后端 linux 后端
linux制作自定义service服务单元服务单元简介在Linux系统中，服务单元通常以.service后缀结尾，并存储在/etc/systemd/system目录下。服务单元文件定义了服务的启动顺序、依赖关系、执行命令等参数。使得系统管理员能够方便地启动、停止、重启和管理系统中的各种服务。java服务单元示例服务单元myJava.service文件示例。注意关闭标准输出，避免日志文件占用磁盘空间
flume系列之：flume落cos 快乐骑行^_^ 日常分享专栏 flume系列
flume系列之：flume落cos一、参考文章二、安装cosjar包三、添加hadoop-cos的相关配置四、flume环境添加hadoop类路径五、使用cos路径六、启动/重启flume一、参考文章Kafka数据通过Flume存储到HDFS或COSflumetocos使用指南二、安装cosjar包将对应hadoop版本的hadoop-cos的jar包(hadoop-cos-{hadoop.ve
Microi 吾码与 JavaScript：前端低代码平台的强大组合小周不想卷 javascript
目录一、引言二、Microi吾码概述三、JavaScript在Microi吾码前端开发中的应用（一）前端V8引擎与JavaScript（二）接口引擎与JavaScript四、JavaScript在Microi吾码后端开发中的协同（一）与C#后端框架的交互（二）利用gRPC实现跨语言通信五、Microi吾码中JavaScript与数据库的交互六、Microi吾码中JavaScript在表单与模板引擎
线程池的拒绝策略有哪些？ IsToRestart 线程池
在Java中，线程池的拒绝策略决定了在任务队列已满的情况下，如何处理新提交的任务。当线程池达到最大容量并且任务队列也已满时，拒绝策略就会起作用。Java提供了四种内置的拒绝策略，它们分别是：AbortPolicy-这是默认的拒绝策略，当线程池无法接受新任务时，会抛出RejectedExecutionException异常。这意味着新任务会被立即拒绝，不会加入到任务队列中，也不会执行。通常情况下都是
JavaScript进阶不断学习的码农 javascript javascript 前端 vue.js
一.同步和异步程序同步程序就是从头到尾一一执行异步是同步程序执行完成之后才来执行异步程序js是单线程的一个任务执行完成之后才会执行另外一个二.js的内存结构栈内存和堆内存js分引用类型和原始类型原始类型存储在栈内存中引用类型存储在堆内存中三.什么是闭包闭包就是函数嵌套函数，内部的函数就是闭包正常情况下函数执行完成之后，内部的变量就会被销毁（释放内存）闭包：内部函数没有执行完成，外部函数变量不会被销
Android 右键后无Java class创建不吃凉粉 android java 开发语言
Androidstudio创建javaclass：最近几个月用Androidstudio开发，因为电脑设置了一个新的用户使用，原来的androidstudio,打开之前的正常的项目总是报一些奇奇怪怪的错误，就重新安装了最新的版本问题描述但是新的androidstudio右键后没有javaclass,本来我就不怎么用java和androidstudio,又赶时间，不想花时间用更不了解的kotlin解
Android 8 Wifi 初始化过程 weixin_34315665 移动开发 java
记录一下wifi初始化过程。packages/apps/Settings/src/com/android/settings/wifi/WifiSettings.javapublicvoidonStart(){super.onStart();//创建WifiEnabler对象//On/offswitchishiddenforSetupWizard(returnsnull)mWifiEnabler=c
深入理解 Java 并发编程中的锁机制向着开发进攻 java并发编程 java 开发语言
深入理解Java并发编程中的锁机制在Java并发编程中，锁是一个至关重要的概念，它用于确保多个线程在访问共享资源时能够遵循正确的顺序和互斥规则。锁机制的设计和使用直接影响到程序的效率、正确性和可维护性。本文将从锁的基本概念讲起，深入分析Java中的锁类型、实现方式以及如何避免常见的并发问题。1.什么是锁？锁是一种同步机制，它用于限制对共享资源的访问，确保在同一时刻只有一个线程能够访问资源。锁的目的
JS宏进阶：Map与Object jackispy JS宏进阶 javascript 开发语言 ecmascript
Object是JavaScript中最基本的数据类型之一，用于创建对象实例。newObject()是创建空对象的一种常见方式。而Map只是一种用于存储键值对的数据结构。相对于Object而言，他没有原型（也就是不能通过原型链的方式添加方法），但也存在自身的优势，某些场景，newMap可能比newObject更好用。下面是其内置方法的详细介绍：一、newMap1、创建新的Map对象，只能使用newM
Java 并发舞台：多线程小精灵的奇幻冒险之旅 guihong004 java面试题 java 开发语言
1.线程池的拒绝策略有哪些？Java中的线程池提供了几种不同的拒绝策略，当线程池无法处理新的任务时（比如因为线程池已满并且工作队列也满了），这些策略会决定如何处理新提交的任务。ThreadPoolExecutor类中定义了以下四种内置的拒绝策略：AbortPolicy：这是默认的拒绝策略。当有新任务提交且线程池无法处理时，它会抛出一个RejectedExecutionException异常。Cal
什么是三高架构? java1234_小锋 java 架构 java 微服务
大家好，我是锋哥。今天分享关于【什么是三高架构?】面试题。希望对大家有帮助；什么是三高架构?1000道互联网大厂Java工程师精选面试题-Java资源分享网“三高架构”通常是指高可用性（HighAvailability）、高性能（HighPerformance）和高扩展性（HighScalability）架构。这三个特性是现代计算系统、尤其是在分布式系统和云计算架构中，设计和部署的关键目标。以下是
JavaWeb 开发入门：从基础到应用大梦百万秋知识学爆 java
JavaWeb是基于Java技术构建的Web应用开发体系。得益于Java的跨平台性和强大的生态系统，JavaWeb长期以来一直是企业级开发的首选方案之一。本篇博客将从JavaWeb的基本概念、核心技术到实际项目开发，带你全面了解如何利用JavaWeb构建一个动态网站。什么是JavaWeb？JavaWeb是使用Java技术开发Web应用程序的总称，通常包括动态网页、交互式功能和后端逻辑。它支持开发以
流量分析利器arkime的学习之路（二）---API接口胖哥王老师流量分析学习笔记网络协议学习 arkime API
前文回忆《流量分析利器arkime的学习之路（一）---安装部署》概述注意点Arkime对所有API调用都使用摘要身份验证，因此请确保在库或curl命令中启用摘要身份验证。学习如何进行API调用的最简单方法是打开浏览器的javascript控制台，观察ArkimeUI正在进行的调用，它使用所有相同的API。注意：许多API端点都需要一个数据库字段名称，这与您在搜索表达式中使用的名称不同。查看数据库
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他