JavaIO流——流标记类 StreamTokenizer

StreamTokenizer 流标记类

问题描述:

一篇英文文件中的内容,输出其各个字符,并统计出现频率最高的字符,以及出现的次数

优点:

选择StreamTokenize 对比传统 FileReader的方法的优点有哪些?

1.传统方法会在系统内存中分配空间 通过FileReader读取字符到内存中去,然后再存入到字符数组
导致过程比较繁琐效率低
2.StreamTokenize类 不会把读取的字符存入内存中去,而是直接标记该内容的每个字符,没有了系统内存中间商赚取差价
自然也就效率高了

分析:

  1. 通过StreamTokenizer 类依次标记每一个字符
  2. 调用nextToken()方法读取下一个标记
  3. StreamTokenizer对象.sval 获取标记为字符串类型的值
  4. 并把获取的值放入TreeMap集合中 key 为 字符 ,value 为 该字符出现的次数

首先看一下这个文件
JavaIO流——流标记类 StreamTokenizer_第1张图片

继续分析:

1.该文件内容中有 “句号” ,“单引号”,可以用ordinaryChar() 方法将其设置为普通字符
这样StreamTokenizer在获取值的时候就不会获取这些特殊符号

好了下面直接上代码

/*
	 * 统计一篇英文字符串 各个单词出现的次数 
	 * 
	 * 利用 流标记类 StreamTokenizer 优点:不会占用系统内存
	 */
	public static void main(String[] args) {
     

		// 创建字符输入流
		try (FileReader fr = new FileReader("e:/Shakespeare.txt")) {
     

			// 创建流标记类 , 对传入的字符输入流的文本内容 进行标记化处理
			StreamTokenizer tokenizer = new StreamTokenizer(fr);

			// 将不需要读取的 字符设置为普通字符
			// 如:文本中的特殊字符 . '
			tokenizer.ordinaryChar('.');
			tokenizer.ordinaryChar('\'');

			// 创建TreeMap集合中 键为 单词 值为 该单词出现的次数
			TreeMap<String, Integer> wordMap = new TreeMap<String, Integer>();

			// 遍历标记 (每次判断是否到达文件末尾 StreamTokenizer.TT_EOF)
			while (tokenizer.nextToken() != StreamTokenizer.TT_EOF) {
     

				// 判断并获取每个字符串标记
				if (tokenizer.ttype == StreamTokenizer.TT_WORD) {
     
					String word = tokenizer.sval;// 获取当前字符串标记的值

					if (wordMap.containsKey(word)) {
     
						// 如果该集合的键已经存在该单词 得到该单词的次数
						int count = wordMap.get(word);
						// 并把它存入map中 次数加一
						wordMap.put(word, count + 1);

					} else {
     
						// 如果集合中不存在该单词 ,则把它添加到集合中//
						// 第一次出现次数为1
						wordMap.put(word, 1);
					}
				} 
			}
			
			//1.打印输出每个单词以及次数
			System.out.println(wordMap);
			//2.获取出现频率最高的单词
			//默认第一个单词为出现频率最高的
			Entry<String, Integer> maxEntry = wordMap.firstEntry(); 
			//循环遍历比较
			for (Entry<String, Integer> entry : wordMap.entrySet()) {
     
				if (entry.getValue()> maxEntry.getValue()) {
     
					maxEntry = entry;	
				}
			}
			
			System.out.println("此文章中出现频率最高的单词是:"+maxEntry.getKey());
			System.out.println("出现的次数为:"+maxEntry.getValue()+"次");

		} catch (FileNotFoundException e) {
     
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
     
			// TODO Auto-generated catch block
			e.printStackTrace();
		}

	}

运行结果如下

此文章中出现频率最高的单词是:and
出现的次数为:5

你可能感兴趣的:(笔记,java)