weixin_30387663

软工实践作业（五）

GitHub
作业链接
结对博客 031602334

具体分工
PSP表格
代码规范
解题思路与设计说明
- 爬虫使用
- 代码组织与内部实现设计（类图）
- 算法关键
  - 实现方法
  - 流程图
附加题
- 设计说明
- 实现思路
- 实现成果展示
关键代码
性能分析
单元测试
GitHub签入记录
遇到的困难
学习进度条
感想
参考链接

具体分工

许郁杨：WordCount代码、文档编写；
温伊倩：爬虫、附加功能设计和实现、部分文档编写.

我们首先详细阅读了作业要求，明确了各部分功能、实现方式和细节，以及所需的附加功能。

确定好需求和设计细节后，我们开始准备实现各自负责的部分，学习和测试需要使用到的技术。接着便是逐步完成各个功能，进行性能分析和单元测试，并编写博客。

在WordCount部分，我主要是作为“驾驶员”（Driver），而队友主要作为“领航员”（Navigator）；
在爬虫和附加功能部分，我主要是作为“领航员”（Navigator），而队友主要作为“驾驶员”（Driver）。

这样分工使得两人工作量较为均等，并且各自都能完成较为擅长的部分，保证了最后的质量。

PSP表格

PSP2.1	Personal Software Process Stages	预估耗时（分钟）	实际耗时（分钟）
Planning	计划	45	57
· Estimate	· 估计这个任务需要多少时间	45	57
Development	开发	890	1015
· Analysis	· 需求分析 (包括学习新技术)	200	214
· Design Spec	· 生成设计文档	30	32
· Design Review	· 设计复审	20	9
· Coding Standard	· 代码规范（为目前的开发制定合适的规范）	10	5
· Design	· 具体设计	30	34
· Coding	· 具体编码	400	518
· Code Review	· 代码复审	50	41
· Test	· 测试（自我测试，修改代码，提交修改）	150	162
Reporting	报告	70	47
· Test Report	· 测试报告	20	12
· Size Measurement	· 计算工作量	20	11
· Postmortem & Process Improvement Plan	· 事后总结, 并提出过程改进计划	30	24
	合计	1005	1119

代码规范

代码规范我们用的是实验室的代码规范：阿里巴巴的码出高效，并加上了一些补充。

解题思路与设计说明

爬虫使用
代码组织与内部实现设计（类图）
算法关键
- 实现方法
- 流程图

爬虫使用

介绍

爬虫是用java的一款HTML解析器——Jsoup来实现的。
首先用Jsoup.connect(String url)抓取url，得到网站的HTML文件文档，根据代码发现各论文页面的地址放置于ptitle类a元素的href属性中，使用Element类得到论文页面的超链接后，再循环得到各论文页面的文档，使用Element类找到papertitle和abstract，将其文本存于字符串中输出到文件中。

流程图

主要代码

  //从URL加载Document
            Document doc = Jsoup.connect(URL)
                    // 取消获取相应内容大小限制
                    .maxBodySize(0)
                    //设置超时时间
                    .timeout(600000)
                    .get();
            //ptitle类
            Elements paper = doc.select("[class=ptitle]");
            //ptitle类中带有href属性的a元素
            Elements links = paper.select("a[href]");
            //论文计数
            long count = 0;
            for(Element link : links) {
                //论文页url
                String url = link.absUrl("href");
                Document paperDoc = Jsoup.connect(url)
                        .maxBodySize(0)
                        .timeout(600000)
                        .get();
                //获取论文标题
                Elements paperTitle = paperDoc.select("[id=papertitle]");
                String title = paperTitle.text();
                //获取论文简介
                Elements paperAbstract = paperDoc.select("[id=abstract]");
                String abstracts = paperAbstract.text();

代码组织与内部实现设计（类图）

算法关键

实现方法
流程图

实现方法

这次基本要求里相对上次新增加的功能主要有以下几点：

可传入多参数；
可指定输入输出文件；
词频统计权重开关；
可指定词频统计输出个数；
可统计词组词频，并可指定词组长度；
可切换单词词频和词组词频；

其中实现的关键点在于多参数和词组词频统计。

对于多参数，我的实现方式是使用Apache的commons-cli包，并增设JavaBean "WordCounterInfo"。

通过commons-cli中的PosixParser解析原始命令行数据，然后把解析得到的数据存入Bean。

其中，Bean所包含的参数有：

private String inputFile = "input.txt";
private String outputFile = "output.txt";
private int weightFactor = 1;
private int phraseLength = -1;
private int wordFrequencyOutNum = 10;

对于词组词频统计，我的实现方式通过自动机扫描文本，判断得到单词，并记录下该单词的首尾下标，存入队列。然后判断队列长度，每当长度满足要求时，分别取出头尾两个单词的首下标、尾下标，这样就能定位出一整个词组。同时，在自动机判断过程中，每当在单词与单词的间隔中出现不属于分隔符的字母符号时，就清空队列，避免出现不合法的词组。

流程图

附加题

设计说明
实现思路
实现成果展示

设计的创意独到之处

1.从网站爬取了论文作者、pdf链接的额外信息.内容txt文件
2.分析了论文列表中第一作者与第二作者之间的合作关系，并根据关系生成了关系图谱。

实现思路

1.实现方法如同爬虫使用。
2.由爬取的论文作者中提取第一作者与第二作者，用Java将之写入到Excel表格中,再使用NodeXL生成关系图表,对生成图进行筛选，可以得到合作数较多的作者。

实现成果展示

1.爬取信息图

2.全部作者关系图

筛选掉近发表过一次的作者

细节图（单节点说明此作者的度>=2,但队友都被滤掉了）：

身为第一第二作者且和人合作次数最多的作者

关键代码

这里贴出多参数解析和词组词频统计两个关键部分的代码，并做更详尽的分析解释。

对于多参数解析，我首先添加各项参数及其对应解释，如对于参数i，其意义为"input"，后跟数据——输入文件的文件名，具体描述为"input file path."。

然后创建Posix形式的解析器，并解析命令行。接着逐项处理参数，对于i、o、w三个必有参数，直接取值并存入Bean中；对于其他可选参数，逐项判断。

    /**
     * 解析命令行
     * 
     * @param args 命令行参数
     * @param wordCounterInfo 计数器的Bean
     */
    public static void parseCommadLine(String[] args, WordCounterInfo wordCounterInfo) {
        Options options = new Options();
        options.addOption("i", "input", true, "input file path.");
        options.addOption("o", "output", true, "result file path.");
        options.addOption("w", "weight", true, "set weight factor.");
        options.addOption("m", "length", true, "phrase length.");
        options.addOption("n", "number", true, "word frequency output number.");
        options.addOption("h", "help", false, "print options' information");

        CommandLineParser parser = new PosixParser();
        try {
            CommandLine commandLine = parser.parse(options, args);
            if (commandLine.hasOption("h")) {
                HelpFormatter helpFormatter = new HelpFormatter();
                helpFormatter.printHelp("Options", options);
            } else {
                wordCounterInfo.setInputFile(commandLine.getOptionValue("i"));
                wordCounterInfo.setOutputFile(commandLine.getOptionValue("o"));
                wordCounterInfo.setWeightFactor(Integer.parseInt(commandLine.getOptionValue("w")));
                if (commandLine.hasOption("m")) {
                    wordCounterInfo.setPhraseLength(Integer.parseInt(commandLine.getOptionValue("m")));
                }
                if (commandLine.hasOption("n")) {
                    wordCounterInfo.setWordFrequencyOutNum(Integer.parseInt(commandLine.getOptionValue("n")));
                }
            }
        } catch (ParseException e) {
            System.out.println("Arguments format wrong.");
            e.printStackTrace();
        }
    }

对于词组词频统计，基本逻辑与之前处理单词词频时相近。首先读入文本，然后判断是否为Title或Abstract，对这两个部分的文本区分处理。

通过自动机扫描单词，并记录下单词的首尾下标。每扫描出一个单词，就去构造词组，将新得到的单词压入队列尾部。自动机扫描过程中，如果出现一个合法单词后跟着一个非法单词的情况，就清空队列（此时那个合法单词不能在后续过程中组成合法词组）。如果队列长度满足要求，就记录下词组的首尾下标，并推出头元素。然后根据下标取出词组，存入Map。如果有权重要求，就对Title部分的词组增加权重值。最后对得到的Map排序，就得到了所需的词频排序列表。

    /**
     * 读取并计算Title和Abstract词组词频.
     *
     * @param fileName     文件名
     * @param weightFactor 权重参数
     * @param phraseLength 词组长度
     * @return 各词组词频
     */
    public static HashMap countPhraseFrequency(String fileName, int weightFactor, int phraseLength) {
        InputStreamReader inputStreamReader = null;
        BufferedReader bufferedReader = null;
        String in = "";
        char temp;
        int state = 0;
        int startSubscript = 0;
        int endSubscript = 0;
        HashMap phraseMap = new HashMap(100 * 1024 * 1024);

        //读入文件
        try {
            inputStreamReader = new InputStreamReader(new FileInputStream(fileName));
        } catch (FileNotFoundException e) {
            System.out.println("PhraseFrequencyCounter找不到此文件");
            e.printStackTrace();
        }
        if (inputStreamReader != null) {
            bufferedReader = new BufferedReader(inputStreamReader);
        }
        //计算单词词频
        try {
            while ((in = bufferedReader.readLine()) != null) {
                if (in.contains("Title: ")) {
                    wordsDeque.clear();
                    int length = in.length();
                    state = 0;
                    for (int i = 7; i < length; i++) {
                        temp = in.charAt(i);
                        //大写字母转为小写字母
                        if ((temp >= 65) && (temp <= 90)) {
                            temp += 32;
                        }
                        //自动机状态转移
                        switch (state) {
                            case 0: {
                                if ((temp >= 97) && (temp <= 122)) {
                                    startSubscript = i;
                                    state = 1;
                                }
                                break;
                            }
                            case 1: {
                                if ((temp >= 97) && (temp <= 122)) {
                                    state = 2;
                                } else {
                                    wordsDeque.clear();
                                    state = 0;
                                }
                                break;
                            }
                            case 2: {
                                if ((temp >= 97) && (temp <= 122)) {
                                    state = 3;
                                } else {
                                    wordsDeque.clear();
                                    state = 0;
                                }
                                break;
                            }
                            case 3: {
                                if ((temp >= 97) && (temp <= 122)) {
                                    endSubscript = i;
                                    state = 4;
                                } else {
                                    wordsDeque.clear();
                                    state = 0;
                                }
                                break;
                            }
                            case 4: {
                                if (((temp >= 97) && (temp <= 122)) || ((temp >= '0') && (temp <= '9'))) {
                                    endSubscript = i;
                                } else {
                                    if (constructPhrase(startSubscript, endSubscript, phraseLength)) {
                                        StringBuilder phrase = new StringBuilder();
                                        int start = phraseInfo.getStartSubscript();
                                        int end = phraseInfo.getEndSubscript();
                                        char tempc;
                                        for (int j = start; j <= end; j++) {
                                            tempc = in.charAt(j);
                                            if ((tempc >= 65) && (tempc <= 90)) {
                                                tempc += 32;
                                            }
                                            phrase.append(tempc);
                                        }
                                        if (weightFactor == 1) {
                                            if (phraseMap.containsKey(phrase.toString())) {
                                                phraseMap.put(phrase.toString(), phraseMap.get(phrase.toString()) + 10L);
                                            } else {
                                                phraseMap.put(phrase.toString(), 10L);
                                            }
                                        } else {
                                            if (phraseMap.containsKey(phrase.toString())) {
                                                phraseMap.put(phrase.toString(), phraseMap.get(phrase.toString()) + 1L);
                                            } else {
                                                phraseMap.put(phrase.toString(), 1L);
                                            }
                                        }
                                    }
                                    state = 0;
                                }
                                break;
                            }
                        }
                    }
                    if (state == 4) {
                        if (constructPhrase(startSubscript, endSubscript, phraseLength)) {
                            StringBuilder phrase = new StringBuilder();
                            int start = phraseInfo.getStartSubscript();
                            int end = phraseInfo.getEndSubscript();
                            char tempc;
                            for (int j = start; j <= end; j++) {
                                tempc = in.charAt(j);
                                if ((tempc >= 65) && (tempc <= 90)) {
                                    tempc += 32;
                                }
                                phrase.append(tempc);
                            }
                            if (weightFactor == 1) {
                                if (phraseMap.containsKey(phrase.toString())) {
                                    phraseMap.put(phrase.toString(), phraseMap.get(phrase.toString()) + 10L);
                                } else {
                                    phraseMap.put(phrase.toString(), 10L);
                                }
                            } else {
                                if (phraseMap.containsKey(phrase.toString())) {
                                    phraseMap.put(phrase.toString(), phraseMap.get(phrase.toString()) + 1L);
                                } else {
                                    phraseMap.put(phrase.toString(), 1L);
                                }
                            }
                        }
                    }
                } else {
                    if (in.contains("Abstract: ")) {
                        wordsDeque.clear();
                        int length = in.length();
                        state = 0;
                        for (int i = 10; i < length; i++) {
                            temp = in.charAt(i);
                            //大写字母转为小写字母
                            if ((temp >= 65) && (temp <= 90)) {
                                temp += 32;
                            }
                            //自动机状态转移
                            switch (state) {
                                case 0: {
                                    if ((temp >= 97) && (temp <= 122)) {
                                        startSubscript = i;
                                        state = 1;
                                    }
                                    break;
                                }
                                case 1: {
                                    if ((temp >= 97) && (temp <= 122)) {
                                        state = 2;
                                    } else {
                                        wordsDeque.clear();
                                        state = 0;
                                    }
                                    break;
                                }
                                case 2: {
                                    if ((temp >= 97) && (temp <= 122)) {
                                        state = 3;
                                    } else {
                                        wordsDeque.clear();
                                        state = 0;
                                    }
                                    break;
                                }
                                case 3: {
                                    if ((temp >= 97) && (temp <= 122)) {
                                        endSubscript = i;
                                        state = 4;
                                    } else {
                                        wordsDeque.clear();
                                        state = 0;
                                    }
                                    break;
                                }
                                case 4: {
                                    if (((temp >= 97) && (temp <= 122)) || ((temp >= '0') && (temp <= '9'))) {
                                        endSubscript = i;
                                    } else {
                                        if (constructPhrase(startSubscript, endSubscript, phraseLength)) {
                                            StringBuilder phrase = new StringBuilder();
                                            int start = phraseInfo.getStartSubscript();
                                            int end = phraseInfo.getEndSubscript();
                                            char tempc;
                                            for (int j = start; j <= end; j++) {
                                                tempc = in.charAt(j);
                                                if ((tempc >= 65) && (tempc <= 90)) {
                                                    tempc += 32;
                                                }
                                                phrase.append(tempc);
                                            }
                                            if (phraseMap.containsKey(phrase.toString())) {
                                                phraseMap.put(phrase.toString(), phraseMap.get(phrase.toString()) + 1L);
                                            } else {
                                                phraseMap.put(phrase.toString(), 1L);
                                            }
                                        }
                                        state = 0;
                                    }
                                    break;
                                }
                            }
                        }
                        if (state == 4) {
                            if (constructPhrase(startSubscript, endSubscript, phraseLength)) {
                                StringBuilder phrase = new StringBuilder();
                                int start = phraseInfo.getStartSubscript();
                                int end = phraseInfo.getEndSubscript();
                                char tempc;
                                for (int j = start; j <= end; j++) {
                                    tempc = in.charAt(j);
                                    if ((tempc >= 65) && (tempc <= 90)) {
                                        tempc += 32;
                                    }
                                    phrase.append(tempc);
                                }
                                if (phraseMap.containsKey(phrase.toString())) {
                                    phraseMap.put(phrase.toString(), phraseMap.get(phrase.toString()) + 1L);
                                } else {
                                    phraseMap.put(phrase.toString(), 1L);
                                }
                            }
                        }
                    }
                }
            }
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            try {
                inputStreamReader.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        return phraseMap;
    }

    /**
     * 构造词组
     * 
     * @param startSubscript 单词首下标
     * @param endSubscript 单词尾下标
     * @param phraseLength 词组长度
     * @return 当前是否构造出合法词组
     */
    private static boolean constructPhrase(int startSubscript, int endSubscript, int phraseLength) {
        WordInfo wordInfo = new WordInfo();
        wordInfo.setStartSubscript(startSubscript);
        wordInfo.setEndSubscript(endSubscript);

        wordsDeque.addLast(wordInfo);
        if (wordsDeque.size() == phraseLength) {
            phraseInfo.setStartSubscript(wordsDeque.getFirst().getStartSubscript());
            phraseInfo.setEndSubscript(wordsDeque.getLast().getEndSubscript());
            wordsDeque.removeFirst();
            return true;
        }
        return false;
    }

性能分析

下面是命令行参数为"-i result.txt -o output.txt -w 1 -n 20"的性能分析情况。

下面是命令行参数为"-i result.txt -o output.txt -w 1 -n 20 -m 3"的性能分析情况。

可以看出消耗最高的为单词和词组的词频统计部分。

    /**
     * 读取并计算Title和Abstract词频.
     *
     * @param fileName     文件名
     * @param weightFactor 权重参数
     * @return 各单词词频
     */
    public static HashMap countWordsFrequency(String fileName, int weightFactor) {
        InputStreamReader inputStreamReader = null;
        BufferedReader bufferedReader = null;
        String in = "";
        char temp;
        int state = 0;
        StringBuilder word = new StringBuilder();
        HashMap wordMap = new HashMap(100 * 1024 * 1024);

        //读入文件
        try {
            inputStreamReader = new InputStreamReader(new FileInputStream(fileName));
        } catch (FileNotFoundException e) {
            System.out.println("WordsFrequencyCounter找不到此文件");
            e.printStackTrace();
        }
        if (inputStreamReader != null) {
            bufferedReader = new BufferedReader(inputStreamReader);
        }
        //计算单词词频
        try {
            while ((in = bufferedReader.readLine()) != null) {
                if (in.contains("Title: ")) {
                    word.setLength(0);
                    int length = in.length();
                    state = 0;
                    for (int i = 7; i < length; i++) {
                        temp = in.charAt(i);
                        //大写字母转为小写字母
                        if ((temp >= 65) && (temp <= 90)) {
                            temp += 32;
                        }
                        //自动机状态转移
                        switch (state) {
                            case 0: {
                                if ((temp >= 97) && (temp <= 122)) {
                                    word.append(temp);
                                    state = 1;
                                }
                                break;
                            }
                            case 1: {
                                if ((temp >= 97) && (temp <= 122)) {
                                    word.append(temp);
                                    state = 2;
                                } else {
                                    word.setLength(0);
                                    state = 0;
                                }
                                break;
                            }
                            case 2: {
                                if ((temp >= 97) && (temp <= 122)) {
                                    word.append(temp);
                                    state = 3;
                                } else {
                                    word.setLength(0);
                                    state = 0;
                                }
                                break;
                            }
                            case 3: {
                                if ((temp >= 97) && (temp <= 122)) {
                                    word.append(temp);
                                    state = 4;
                                } else {
                                    word.setLength(0);
                                    state = 0;
                                }
                                break;
                            }
                            case 4: {
                                if (((temp >= 97) && (temp <= 122)) || ((temp >= '0') && (temp <= '9'))) {
                                    word.append(temp);
                                } else {
                                    if (weightFactor == 1) {
                                        if (wordMap.containsKey(word.toString())) {
                                            wordMap.put(word.toString(), wordMap.get(word.toString()) + 10L);
                                        } else {
                                            wordMap.put(word.toString(), 10L);
                                        }
                                    } else {
                                        if (wordMap.containsKey(word.toString())) {
                                            wordMap.put(word.toString(), wordMap.get(word.toString()) + 1L);
                                        } else {
                                            wordMap.put(word.toString(), 1L);
                                        }
                                    }
                                    word.setLength(0);
                                    state = 0;
                                }
                                break;
                            }
                        }
                    }
                    if (state == 4) {
                        if (weightFactor == 1) {
                            if (wordMap.containsKey(word.toString())) {
                                wordMap.put(word.toString(), wordMap.get(word.toString()) + 10L);
                            } else {
                                wordMap.put(word.toString(), 10L);
                            }
                        } else {
                            if (wordMap.containsKey(word.toString())) {
                                wordMap.put(word.toString(), wordMap.get(word.toString()) + 1L);
                            } else {
                                wordMap.put(word.toString(), 1L);
                            }
                        }
                    }
                } else {
                    if (in.contains("Abstract: ")) {
                        word.setLength(0);
                        int length = in.length();
                        state = 0;
                        for (int i = 10; i < length; i++) {
                            temp = in.charAt(i);
                            //大写字母转为小写字母
                            if ((temp >= 65) && (temp <= 90)) {
                                temp += 32;
                            }
                            //自动机状态转移
                            switch (state) {
                                case 0: {
                                    if ((temp >= 97) && (temp <= 122)) {
                                        word.append(temp);
                                        state = 1;
                                    }
                                    break;
                                }
                                case 1: {
                                    if ((temp >= 97) && (temp <= 122)) {
                                        word.append(temp);
                                        state = 2;
                                    } else {
                                        word.setLength(0);
                                        state = 0;
                                    }
                                    break;
                                }
                                case 2: {
                                    if ((temp >= 97) && (temp <= 122)) {
                                        word.append(temp);
                                        state = 3;
                                    } else {
                                        word.setLength(0);
                                        state = 0;
                                    }
                                    break;
                                }
                                case 3: {
                                    if ((temp >= 97) && (temp <= 122)) {
                                        word.append(temp);
                                        state = 4;
                                    } else {
                                        word.setLength(0);
                                        state = 0;
                                    }
                                    break;
                                }
                                case 4: {
                                    if (((temp >= 97) && (temp <= 122)) || ((temp >= '0') && (temp <= '9'))) {
                                        word.append(temp);
                                    } else {
                                        if (wordMap.containsKey(word.toString())) {
                                            wordMap.put(word.toString(), wordMap.get(word.toString()) + 1L);
                                        } else {
                                            wordMap.put(word.toString(), 1L);
                                        }
                                        word.setLength(0);
                                        state = 0;
                                    }
                                    break;
                                }
                            }
                        }
                        if (state == 4) {
                            if (wordMap.containsKey(word.toString())) {
                                wordMap.put(word.toString(), wordMap.get(word.toString()) + 1L);
                            } else {
                                wordMap.put(word.toString(), 1L);
                            }
                        }
                    }
                }
            }
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            try {
                inputStreamReader.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        return wordMap;
    }
    
    /**
     * 读取并计算Title和Abstract词组词频.
     *
     * @param fileName     文件名
     * @param weightFactor 权重参数
     * @param phraseLength 词组长度
     * @return 各词组词频
     */
    public static HashMap countPhraseFrequency(String fileName, int weightFactor, int phraseLength) {
        InputStreamReader inputStreamReader = null;
        BufferedReader bufferedReader = null;
        String in = "";
        char temp;
        int state = 0;
        int startSubscript = 0;
        int endSubscript = 0;
        HashMap phraseMap = new HashMap(100 * 1024 * 1024);

        //读入文件
        try {
            inputStreamReader = new InputStreamReader(new FileInputStream(fileName));
        } catch (FileNotFoundException e) {
            System.out.println("PhraseFrequencyCounter找不到此文件");
            e.printStackTrace();
        }
        if (inputStreamReader != null) {
            bufferedReader = new BufferedReader(inputStreamReader);
        }
        //计算单词词频
        try {
            while ((in = bufferedReader.readLine()) != null) {
                if (in.contains("Title: ")) {
                    wordsDeque.clear();
                    int length = in.length();
                    state = 0;
                    for (int i = 7; i < length; i++) {
                        temp = in.charAt(i);
                        //大写字母转为小写字母
                        if ((temp >= 65) && (temp <= 90)) {
                            temp += 32;
                        }
                        //自动机状态转移
                        switch (state) {
                            case 0: {
                                if ((temp >= 97) && (temp <= 122)) {
                                    startSubscript = i;
                                    state = 1;
                                }
                                break;
                            }
                            case 1: {
                                if ((temp >= 97) && (temp <= 122)) {
                                    state = 2;
                                } else {
                                    wordsDeque.clear();
                                    state = 0;
                                }
                                break;
                            }
                            case 2: {
                                if ((temp >= 97) && (temp <= 122)) {
                                    state = 3;
                                } else {
                                    wordsDeque.clear();
                                    state = 0;
                                }
                                break;
                            }
                            case 3: {
                                if ((temp >= 97) && (temp <= 122)) {
                                    endSubscript = i;
                                    state = 4;
                                } else {
                                    wordsDeque.clear();
                                    state = 0;
                                }
                                break;
                            }
                            case 4: {
                                if (((temp >= 97) && (temp <= 122)) || ((temp >= '0') && (temp <= '9'))) {
                                    endSubscript = i;
                                } else {
                                    if (constructPhrase(startSubscript, endSubscript, phraseLength)) {
                                        StringBuilder phrase = new StringBuilder();
                                        int start = phraseInfo.getStartSubscript();
                                        int end = phraseInfo.getEndSubscript();
                                        char tempc;
                                        for (int j = start; j <= end; j++) {
                                            tempc = in.charAt(j);
                                            if ((tempc >= 65) && (tempc <= 90)) {
                                                tempc += 32;
                                            }
                                            phrase.append(tempc);
                                        }
                                        if (weightFactor == 1) {
                                            if (phraseMap.containsKey(phrase.toString())) {
                                                phraseMap.put(phrase.toString(), phraseMap.get(phrase.toString()) + 10L);
                                            } else {
                                                phraseMap.put(phrase.toString(), 10L);
                                            }
                                        } else {
                                            if (phraseMap.containsKey(phrase.toString())) {
                                                phraseMap.put(phrase.toString(), phraseMap.get(phrase.toString()) + 1L);
                                            } else {
                                                phraseMap.put(phrase.toString(), 1L);
                                            }
                                        }
                                    }
                                    state = 0;
                                }
                                break;
                            }
                        }
                    }
                    if (state == 4) {
                        if (constructPhrase(startSubscript, endSubscript, phraseLength)) {
                            StringBuilder phrase = new StringBuilder();
                            int start = phraseInfo.getStartSubscript();
                            int end = phraseInfo.getEndSubscript();
                            char tempc;
                            for (int j = start; j <= end; j++) {
                                tempc = in.charAt(j);
                                if ((tempc >= 65) && (tempc <= 90)) {
                                    tempc += 32;
                                }
                                phrase.append(tempc);
                            }
                            if (weightFactor == 1) {
                                if (phraseMap.containsKey(phrase.toString())) {
                                    phraseMap.put(phrase.toString(), phraseMap.get(phrase.toString()) + 10L);
                                } else {
                                    phraseMap.put(phrase.toString(), 10L);
                                }
                            } else {
                                if (phraseMap.containsKey(phrase.toString())) {
                                    phraseMap.put(phrase.toString(), phraseMap.get(phrase.toString()) + 1L);
                                } else {
                                    phraseMap.put(phrase.toString(), 1L);
                                }
                            }
                        }
                    }
                } else {
                    if (in.contains("Abstract: ")) {
                        wordsDeque.clear();
                        int length = in.length();
                        state = 0;
                        for (int i = 10; i < length; i++) {
                            temp = in.charAt(i);
                            //大写字母转为小写字母
                            if ((temp >= 65) && (temp <= 90)) {
                                temp += 32;
                            }
                            //自动机状态转移
                            switch (state) {
                                case 0: {
                                    if ((temp >= 97) && (temp <= 122)) {
                                        startSubscript = i;
                                        state = 1;
                                    }
                                    break;
                                }
                                case 1: {
                                    if ((temp >= 97) && (temp <= 122)) {
                                        state = 2;
                                    } else {
                                        wordsDeque.clear();
                                        state = 0;
                                    }
                                    break;
                                }
                                case 2: {
                                    if ((temp >= 97) && (temp <= 122)) {
                                        state = 3;
                                    } else {
                                        wordsDeque.clear();
                                        state = 0;
                                    }
                                    break;
                                }
                                case 3: {
                                    if ((temp >= 97) && (temp <= 122)) {
                                        endSubscript = i;
                                        state = 4;
                                    } else {
                                        wordsDeque.clear();
                                        state = 0;
                                    }
                                    break;
                                }
                                case 4: {
                                    if (((temp >= 97) && (temp <= 122)) || ((temp >= '0') && (temp <= '9'))) {
                                        endSubscript = i;
                                    } else {
                                        if (constructPhrase(startSubscript, endSubscript, phraseLength)) {
                                            StringBuilder phrase = new StringBuilder();
                                            int start = phraseInfo.getStartSubscript();
                                            int end = phraseInfo.getEndSubscript();
                                            char tempc;
                                            for (int j = start; j <= end; j++) {
                                                tempc = in.charAt(j);
                                                if ((tempc >= 65) && (tempc <= 90)) {
                                                    tempc += 32;
                                                }
                                                phrase.append(tempc);
                                            }
                                            if (phraseMap.containsKey(phrase.toString())) {
                                                phraseMap.put(phrase.toString(), phraseMap.get(phrase.toString()) + 1L);
                                            } else {
                                                phraseMap.put(phrase.toString(), 1L);
                                            }
                                        }
                                        state = 0;
                                    }
                                    break;
                                }
                            }
                        }
                        if (state == 4) {
                            if (constructPhrase(startSubscript, endSubscript, phraseLength)) {
                                StringBuilder phrase = new StringBuilder();
                                int start = phraseInfo.getStartSubscript();
                                int end = phraseInfo.getEndSubscript();
                                char tempc;
                                for (int j = start; j <= end; j++) {
                                    tempc = in.charAt(j);
                                    if ((tempc >= 65) && (tempc <= 90)) {
                                        tempc += 32;
                                    }
                                    phrase.append(tempc);
                                }
                                if (phraseMap.containsKey(phrase.toString())) {
                                    phraseMap.put(phrase.toString(), phraseMap.get(phrase.toString()) + 1L);
                                } else {
                                    phraseMap.put(phrase.toString(), 1L);
                                }
                            }
                        }
                    }
                }
            }
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            try {
                inputStreamReader.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
        return phraseMap;
    }

对于词组词频统计部分，我们一开始的想法是通过双重循环，对每个单词都去判断是否能以其为首组成词组。维护一个词组的字符串，当符合长度时便存入Map。这种做法虽然简单，但加上中间操作后的时间消耗比较大。所以经过试验，对其进行了改进，改为记录首尾下标，这样减少时间消耗，也能保存下单词间的分隔符。

单元测试

单元测试框架用的是JUnit4。
我总共设计了十二个单元测试，其中Main一个，三个字词计数部分各三个，单词词频计数部分一个，词组词频计数部分一个。

单元测试	测试项	被测试代码
CharCounterTest	分别测试普通字符、无标题无摘要和空格	CharCounter.java
WordCounterTest	分别测试普通单词、无标题无摘要和大小写单词	WordCounter.java
LineCounterTest	分别测试普通行、无标题无摘要和混合行	LineCounter.java
WordFrequencyCounterTest	测试混合单词	WordFrequencyCounter.java
PhraseFrequencyCounterTest	测试混合词组	PhraseFrequencyCounter.java
MainTest	测试空白文件	Main.java

部分测试代码

import com.eventide.wordCount.dataprocess.service.WordCounter;
import org.junit.Test;

import static org.junit.Assert.assertEquals;

public class WordCounterTest {
    @Test
    //测试正常单词
    public void wordCounterTest1() {
        long wordNum = WordCounter.countWord("normalWordTest.txt");
        assertEquals(3, wordNum);
    }

    @Test
    //测试无标题无摘要单词
    public void wordCounterTest2() {
        long wordNum = WordCounter.countWord("noTitleAbstractWordTest.txt");
        assertEquals(0, wordNum);
    }

    @Test
    //测试单词大小写
    public void wordCounterTest3() {
        long wordNum = WordCounter.countWord("upLowWordTest.txt");
        assertEquals(4, wordNum);
    }
}

GitHub签入记录

遇到的困难

对于词组词频统计部分，我们总共尝试了三种方法。

一种是上文提到的，通过双重循环，对每个单词都去判断是否能以其为首组成词组。维护一个词组的字符串，当符合长度时便存入Map。这种做法虽然简单，但加上中间操作后的时间消耗比较大。

第二种是维护一个队列，每当有合法单词出现时就压入队列中。如果队列长度符合要求，就取出队列中保存的单词，拼接成词组，压入Map。这种方法虽然简单快捷，但在看到群里说到，不同分隔符算不同词组时就凉了。。如果要记入分隔符就需要将分隔符一起存下来。虽然可以将合法单词和其后的分隔符一起保存，但这种方法在实现上存在一些困难，在拼接成词组时还要对单词进行二次处理，因此我们觉得并不是合适的处理方式。

经过试验，我们使用了记录首尾下标的方式。创建一个JavaBean存下每个合法单词的首尾下标，通过下标组成队列，进而拼装出词组。这样做效率不错，处理过程也不复杂，因此我们认为是较为合适的方法。

我们还遇到了一个重大困难，就是国庆假期前两个人接连感冒发烧（都怪优秀的舍友），一直到现在也还没完全好。。我想解决方法，应该只有穿越时空解决掉舍友了吧。（肥宅怎么可能去锻炼身体.jpg

感想

我的优秀的队友，擅长Python，爬虫部分高效完成，并且高效改写为Java，然后还高效地搞定了附加题。学习能力强，带病工作效率还恐怖如斯，让生病了就不想干活的我惭愧不已_ (:△」∠) _。

需要改进的地方就是有时候比较粗心，比如文件丢了之类的。。虽然有时候是软件的问题吧。

不过这次真是疲倦作业呀。。。

参考链接

Java 容器源码分析之 Deque 与 ArrayDeque
commons-cli使用介绍

转载于:https://www.cnblogs.com/S031602240/p/9780977.html

你可能感兴趣的:(java,爬虫,测试)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
398顺境，逆境戴骁勇
2018.11.27周二雾霾最近儿子进入了一段顺境期，今天表现尤其不错。今天的数学测试成绩喜人，没有出现以往的计算错误，整个卷面书写工整，附加题也在规定时间内完成且做对。为迎接体育测试的锻炼有了质的飞跃。坐位体前屈成绩突飞猛进，估测成绩能达到12cm，这和上次测试的零分来比，简直是逆袭。儿子还在不断锻炼和提升，唯恐到时候掉链子。跑步姿势在我的调教下，逐渐正规起来，速度随之也有了提升。今晚测试的50
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
CX8836：小体积大功率升降压方案推荐（附Demo设计指南）诚芯微科技社交电子
CX8836是一颗同步四开关单向升降压控制器，在4.5V-40V宽输入电压范围内稳定工作，持续负载电流10A，能够在输入高于或低于输出电压时稳定调节输出电压，可适用于USBPD快充、车载充电器、HUB、汽车启停系统、工业PC电源等多种升降压应用场合，为大功率TYPE-CPD车载充电器提供最优解决方案。提供CX8836Demo测试、CX8836样品申请及CX8836方案开发技术支持。CX8836同升
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
第1步win10宿主机与虚拟机通过NAT共享上网互通学习3人组大数据大数据
VM的CentOS采用NAT共用宿主机网卡宿主机器无法连接到虚拟CentOS要实现宿主机与虚拟机通信，原理就是给宿主机的网卡配置一个与虚拟机网关相同网段的IP地址，实现可以互通。1、查看虚拟机的IP地址2、编辑虚拟机的虚拟网络的NAT和DHCP的配置，设置虚拟机的网卡选择NAT共享模式3、宿主机的IP配置，确保vnet8的IPV4属性与虚拟机在同一网段4、ping测试连通性[root@localh
spring如何整合druid连接池？惜.己 spring spring junit 数据库 java idea 后端 xml
目录spring整合druid连接池1.新建maven项目2.新建mavenModule3.导入相关依赖4.配置log4j2.xml5.配置druid.xml1)xml中如何引入properties2)下面是配置文件6.准备jdbc.propertiesJDBC配置项解释7.配置druid8.测试spring整合druid连接池1.新建maven项目打开IDE（比如IntelliJIDEA,Ecl
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Python神器！WEB自动化测试集成工具 DrissionPage 亚丁号 python 开发语言
一、前言用requests做数据采集面对要登录的网站时，要分析数据包、JS源码，构造复杂的请求，往往还要应付验证码、JS混淆、签名参数等反爬手段，门槛较高。若数据是由JS计算生成的，还须重现计算过程，体验不好，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。因此，这个库设计初衷，是将它们合而为一，能够在不同须要时切换相应模式，并提供一种人性化的使用方法，提高开发和运行效率
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本