Mecury_

项目实例：KNN预测电影网站用户性别（Hadoop学习笔记三）

通过学习《Hadoop大数据开发基础》这本书，整理了一下书本上的项目案例。让自己再梳理一下流程，也希望能给有需要的人提供一定的帮助，写的不好的希望大家提出来，一起进步。

1 学习目标

理解KNN算法的原理。
掌握以MapReduce编程实现KNN算法。
掌握以MapReduce编程实现KNN分类器评价。

2 认识KNN算法

2.1 KNN算法简介

KNN算法，全称是K Nearest Neighbor算法，即K最近邻分类算法。其中的K表示最接近自己的K个数据样本。

比如，有一个样本空间里的样本已经分成了几个类型，然后，给定一个待分类的数据，通过计算接近自己最近的K个样本来判断这个待分类数据属于哪个分类。

简单理解就是由那离自己最近的K个点来投票决定待分类数据归为哪一类。

2.2 KNN算法实现流程

准备数据，对数据进行预处理。
选用合适的数据结构来存储训练数据和测试元组。
设定参数，如k=3。
对于每一个测试记录维护一个大小为k的按距离由小到大的队列，用于存储最近邻训练元组。
遍历训练元组集，计算当前训练元组与测试元组的距离，将所得距离L与最近邻元组中的最大距离Lmax比较。
若L>=Lmax，则舍弃该元组，遍历下一个元组。若L < Lmax，删除优先级队列中最大距离的元组，将当前训练元组存入最近邻元组。
遍历完毕，计算最近邻元组中k 个元组的多数类，并将其作为测试元组的类别。

3 数据预处理

3.1 获取数据

项目所需的数据：
（百度云链接老是被和谐，这次用微云分享一下）

链接：https://share.weiyun.com/1uVK7mpg 密码：wc677y

用户对电影的部分评分数据 ratings. dat如图所示。该数据包含4个字段，即 UserID（用户ID） MovieID（电影ID） Rating（评分）及 Timestamp（时间戳）其中， UserID的范围是1~6040， MovieID的范围是1~3952， Rating采用5分好评制度，即最高分为5分，最低分为1分。
已知性别的用户信息部分数据 users.dat如图所示。该数据包含5个字段，分别为 UserID（用户ID） Gender（性别）Age（年龄Occupation（职业）以及Zip-code（编码）其中， Occupation字段代表的是21种不同的职业类型，Age字段记录的也并不是用户的实际年龄，而是一个年龄段，例如，1代表的是18岁以下，具体的解释请参考 README。

部分电影信息数据 movies.dat如图所示。该字段包含 MovieID(电影ID) Title(电影名称) Genres(电影类型)3个字段。其中, Title字段不仅记录电影的名称,还记录了电影的上映时间。数据中总共记录了18种电影类型,包括喜剧片、动作片、警匪片、爱情片等,具体的电影类型请参见 README。

4. 数据相关字段的解释文件README

3.2 数据变换

（1）根据UserID字段字段连接ratings.dat数据和users.dat数据，连接结果得到一份包含UserID（用户ID），Gender（性别），Age（年龄），Occupation（职业），Zip-code（编码），MovieID（电影ID）的数据。

只需下载上边百度云链接里的ratings_users.jar包。将JAR包上传到 Linux的opt目录下，在HDFS上新建文件夹/movie，将 ratings.dt、 users.dat传到/movie下，将程序运行结果保存在/movie/ratingsusers目录下。

命令如下：

hadoop jar /opt/ratings＿users.jar demo. RatingsAndusers /movie/users.dat/movie/ratings.dat/movie/ratings＿ users

运行之后得到

（2）同理，根据MovieID连接movies.dat数据和/movie/ratings_users/part-m-00000上的数据，连接结果得到一份包含UserID（用户ID），Gender（性别），Age（年龄），Occupation（职业），Zip-code（编码），MovieID（电影ID），Genres（电影类型）。

然后把百度云链接里的users_movies.jar包下载，Linux的opt目录下，将movies.dat数据上传到HDFS的/movies目录下，运行结果保存在/movie/users_movies。

命令如下：

 hadoop jar /opt/users_movies.jar demo.UserAndMovies /movie/movies.dat /movie/ratings_users/part-m-00000 /movie/users_movies

结果如下：

（3）对每个用户看过电影类型进行统计。对Gender（性别）做一步转换，如果是女性（F）则用1标记，如果是男性（M）则用0标记.

这一步的处理看Map端和Reduce端的处理流程：

对每个用户看过的电影类型进行统计的Mapper类及Reducer类代码：


public class MoviesGenresMapper extends Mapper<LongWritable, Text, UserAndGender, Text> {
	private UserAndGender user_gender=new UserAndGender();
	private String splitter="";
	private Text genres=new Text();
	@Override
	protected void setup(Mapper<LongWritable, Text, UserAndGender, Text>.Context context)
			throws IOException, InterruptedException {
		splitter=context.getConfiguration().get("SPLITTER");
	}
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, UserAndGender, Text>.Context context)
			throws IOException, InterruptedException {
		String[] val=value.toString().split(splitter);
		user_gender.setUserID(val[0]);
		if(val[1].equals("M")){
			//性别为M则用0标记
			user_gender.setGender(0);
		}else{
			//性别为F则用1标记
			user_gender.setGender(1);
		}
		user_gender.setAge(Integer.parseInt(val[2]));
		user_gender.setOccupation(val[3]);
		user_gender.setZip_code(val[4]);
		genres.set(val[6]);
		context.write(user_gender, genres);
	}
}



public class MoviesGenresReducer extends Reducer<UserAndGender, Text, Text, NullWritable> {
	@Override
	protected void reduce(UserAndGender key, Iterable<Text> value,
			Reducer<UserAndGender, Text, Text, NullWritable>.Context context) throws IOException, InterruptedException {
		//初始化一个HashMap集合，集合中的键为18种电影类型，每个键对应的值为0
		HashMap<String,Integer> genresCounts=new HashMap<String,Integer>();
		String[] genreslist={"Action","Adventure","Animation","Children's","Comedy","Crime","Documentary","Drama",
				"Fantasy","Film-Noir","Horror","Musical","Mystery","Romance","Sci-Fi","Thriller","War","Western"		
				};
	    for(int i=0;i<genreslist.length;i++){
			if(!genresCounts.containsKey(genreslist[i])){
				genresCounts.put(genreslist[i], 0);
				}
			}
	    //遍历值列表
		for (Text val : value) {
			//对每个元素进行分割
			String[] genres=val.toString().split("\\|");
			for(int i=0;i<genres.length;i++){
				//如果HashMap元素的键包含分割结果的元素，则该键对应的值加1
				if(genresCounts.containsKey(genres[i])){
				   genresCounts.put(genres[i], genresCounts.get(genres[i])+1);
				}
			}
		}
		//将HashMap集合中所有键对应的值根据逗号连接成字符串
		String result="";
		for(Map.Entry<String, Integer> kv:genresCounts.entrySet()){
			if(result.length()==0){
				result=kv.getValue().toString();
			}else{
				result=result+","+kv.getValue();
			}
		}
		
	    context.write(new Text(key.toString()+","+result), NullWritable.get());
	}

}

处理之后得到结果：

3.3 数据清洗

缺失值和异常值的处理方式如下图：

处理缺失值和异常值的代码：


public class DataProcessingMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
	private String splitter="";
	enum DataProcessingCounter{
		NullData,
		AbnormalData
	}
	@Override
	protected void setup(Mapper<LongWritable, Text, Text, NullWritable>.Context context)
			throws IOException, InterruptedException {
		splitter=context.getConfiguration().get("SPLITTER");
	}
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, NullWritable>.Context context)
			throws IOException, InterruptedException {
		String[] val = value.toString().split(splitter);
		for(int i=5;i<val.length;i++){
			//判断每个字段的值是否是空值，若是则用0替换
			if(val[i].equals("") || val[i].equals("null") || val[i].equals("NULL") || val[i].equals("NAN")){	
				context.getCounter(DataProcessingCounter.NullData).increment(1);
				val[i]="0";
			}else{
				context.getCounter(DataProcessingCounter.NullData).increment(0);
			}
			//判断每个字段的值是否是异常值，若是则用0替换
			if(Integer.parseInt(val[i])<0){
				context.getCounter(DataProcessingCounter.AbnormalData).increment(1);
				val[i]="0";
			}else{
				context.getCounter(DataProcessingCounter.AbnormalData).increment(0);
			}
		}
		
		String result="";
		//重新将字符创数组val拼接成字符串
		for(int i=0;i<val.length;i++){
			if(i==0){
				result=val[i];
			}else{
				result=result+splitter+val[i];
			}
		}
		context.write(new Text(result), NullWritable.get());
	}
}

3.4 划分数据集

一般来说分类算法由3个过程：

（1）通过归纳分析训练样本集建立分类器

（2）用验证数据集来选择最优的模型参数

（3）用已知类别的测试样本集评估分类器的准确性

本项目在建立M电影用户分类器之前，将处理之后的数据按8：1：1的比例随机划分数据集为训练数据集、测试数据集、验证数据集。

读取HDFS的数据并统计记录数的方法：

/**
	 * 读取原始数据并统计数据的记录数
	 * @param fs
	 * @param path
	 * @return
	 * @throws Exception
	 */
	public static int getSize(FileSystem fs,Path path) throws Exception{
		int count=0;
		FSDataInputStream is=fs.open(path);
		BufferedReader br=new BufferedReader(new InputStreamReader(is));
		String line="";
		while((line=br.readLine())!=null){
			count++;
		}
		br.close();
		is.close();
		return count;		
	}
	/**
	 *随机获取 80%原始数据的对应下标
	 * @param count
	 * @return
	 */
	public static Set<Integer> trainIndex(int count){
		Set<Integer> train_index=new HashSet<Integer>();
		int trainSplitNum=(int)(count*0.8);
		Random random=new Random();
		while(train_index.size()<trainSplitNum){
			int a=random.nextInt(count);
			train_index.add(a);
		}
		return train_index;	
	}
	/**
	 * 随机获取10%原始数据对应的下标
	 * @param count
	 * @param train_index
	 * @return
	 */
	public static Set<Integer> validateIndex(int count,Set<Integer> train_index){
		Set<Integer> validate_index=new HashSet<Integer>();
		int validateSplitNum=count-(int)(count*0.9);
		Random random=new Random();
		while(validate_index.size()<validateSplitNum){
			int a=random.nextInt(count);
			if(!train_index.contains(a)){
				validate_index.add(a);	
			}
		}
		return validate_index;	
	}

设置训练集的存储路径为/movie/trainData，验证数据集的存储路径为/movie/validateData，测试数据集的存储路径为/movie/testData。

将数据写入HDFS：

public class SplitData {
	public static void main(String[] args) throws Exception {
		Configuration conf=new Configuration();
		conf.set("fs.defaultFS", "master:8020");
		FileSystem fs=FileSystem.get(conf);
		//获取预处理之后的电影数据路径
		Path moviedata=new Path("/movie/processing_out/part-m-00000");
		//得到电影数据大小
		int datasize=getSize(fs, moviedata);
		//得到train数据对应原始下标
		Set<Integer> train_index=trainIndex(datasize);
		
		System.out.println(train_index.size());
		//得到validate数据对应原始数据的下标
		Set<Integer> validate_index=validateIndex(datasize,train_index);
		System.out.println(validate_index.size());
		//训练数据存放的路径
		Path train=new Path("hdfs://master:8020/movie/trainData");
		fs.delete(train,true);
		FSDataOutputStream os1=fs.create(train);
		BufferedWriter bw1=new BufferedWriter(new OutputStreamWriter(os1));
		//测试数据存放的路径
		Path test=new Path("hdfs://master:8020/movie/testData");
		fs.delete(test,true);
		FSDataOutputStream os2=fs.create(test);
		BufferedWriter bw2=new BufferedWriter(new OutputStreamWriter(os2));
		//验证数据存放的路径
		Path validate=new Path("hdfs://master:8020/movie/validateData");
		fs.delete(validate,true);
		FSDataOutputStream os3=fs.create(validate);
		BufferedWriter bw3=new BufferedWriter(new OutputStreamWriter(os3));
		//读取数据并将数据分为训练数据、测试数据以及验证数据写入到HDFS
		FSDataInputStream is=fs.open(moviedata);
		BufferedReader br=new BufferedReader(new InputStreamReader(is));
		String line="";
		int sum=0;
		int trainsize=0;
		int testsize=0;
		int validatesize=0;
		while((line=br.readLine())!=null){
			sum+=1;
			if(train_index.contains(sum)){
				trainsize+=1;
				bw1.write(line.toString());
				bw1.newLine();
			}else if(validate_index.contains(sum)){
				validatesize+=1;
				bw3.write(line.toString());
				bw3.newLine();
			}else{
				testsize+=1;
				bw2.write(line.toString());
				bw2.newLine();
			}
		}
		bw1.close();
		os1.close();
		bw2.close();
		os2.close();
		bw3.close();
		os3.close();
		br.close();
		is.close();
		fs.close();
	}

4 实现用户性别分类

4.1 KNN算法Hadooop实现思路

算法描述：

1.自定义值类型表示距离和类型，由于KNN算法是计算测试数据与已知类别的训练数据之间的距离，找到距离与测试数据最近的K个训练数据，再根据这些训练所属的类别的众数来判断测试数据的类别。所以在map阶段需要将测试数据与训练数据的距离及该训练数据的类别作为值输出，程序可以使用Hadoop内置的数据类型Text作为值类型输出距离及类别，但为了提高程序的执行效率，建议自定义值类型表示距离和类别。

2.map阶段，setup函数读取测试数据。在map函数里读取每条训练数据，遍历测试数据，计算读取进来的训练记录与每条测试数据的距离，计算距离采用的是欧式距离的计算方法，map输出的键是每条测试数据，输出的值是该测试数据与读取的训练数据的距离和训练数据的类别。

3.reduce阶段，函数初始化参数值，函数对相同键的值根据距离进行升序排序，取出前个值，输出读取进来的键和这个值中类别的众数

4.2 代码实现

4.2.1 自定义值类型

public class DistanceAndLabel implements Writable{
	private double distance;
	private String label;
	public DistanceAndLabel() {
	}
	public DistanceAndLabel(double distance,String label) {
		this.distance=distance;
		this.label=label;
	}
	public double getDistance() {
		return distance;
	}
	public void setDistance(double distance) {
		this.distance = distance;
	}
	public String getLabel() {
		return label;
	}
	public void setLabel(String label) {
		this.label = label;
	}
	/**
	 *先读取距离，再读取类别
	 */
	@Override
	public void readFields(DataInput in) throws IOException {
		this.distance=in.readDouble();
		this.label=in.readUTF();
		
	}
	/**
	 * 先把distnce写入out输出流
	 * 再把label写入out输出流
	 */
	@Override
	public void write(DataOutput out) throws IOException {
		out.writeDouble(distance);
		out.writeUTF(label);
		
	}
	/**
	 * 使用空格将距离和类别连接成字符串
	 */
	@Override
	public String toString() {
		return this.distance+","+this.label;
	}
}

4.2.2 在Mapper类中定义计算距离的方法

public class MovieClassifyMapper extends Mapper<LongWritable, Text, Text, DistanceAndLabel> {
	private DistanceAndLabel distance_label=new DistanceAndLabel();
	private String splitter="";
	ArrayList<String> testData=new ArrayList<String>();
	private String testPath="";
	@Override
	protected void setup(Mapper<LongWritable, Text, Text, DistanceAndLabel>.Context context)
			throws IOException, InterruptedException {
		Configuration conf=context.getConfiguration();
		splitter=conf.get("SPLITTER");
		testPath=conf.get("TESTPATH");
		//读取测试数据存于列表testData中
		FileSystem fs=FileSystem.get(conf);
		FSDataInputStream is=fs.open(new Path(testPath));
		BufferedReader br=new BufferedReader(new InputStreamReader(is));
		String line="";
		while((line=br.readLine())!=null){
			testData.add(line);
		}
		is.close();
		br.close();
	}
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, DistanceAndLabel>.Context context)
			throws IOException, InterruptedException {
		double distance=0.0;
		String[] val=value.toString().split(splitter);
		String[] singleTrainData=Arrays.copyOfRange(val, 5, val.length);
		String label=val[1];
		for (String td: testData) {
			String[] test=td.split(splitter);
			String[] singleTestData=Arrays.copyOfRange(test, 5, test.length);
			distance=Distance(singleTrainData,singleTestData);
			distance_label.setDistance(distance);
			distance_label.setLabel(label);
			context.write(new Text(td), distance_label);		
		}
	}
	/**
	 * 计算训练数据与测试数据的距离
	 * @param singleTrainData
	 * @param singleTestData
	 * @return
	 */
	private double Distance(String[] singleTrainData, String[] singleTestData) {
		double sum=0.0;
		for(int i=0;i<singleTrainData.length;i++){
			sum+=Math.pow(Double.parseDouble(singleTrainData[i]), Double.parseDouble(singleTestData[i]));
		}
		return Math.sqrt(sum);
	}
}

4.2.3 Reduce类实现

public class MovieClassifyReducer extends Reducer<Text, DistanceAndLabel, Text, NullWritable> {
	private int k=0;
	@Override
	protected void setup(Reducer<Text, DistanceAndLabel, Text, NullWritable>.Context context)
			throws IOException, InterruptedException {
		//初始化K值
		k=context.getConfiguration().getInt("K",3);
	}
	@Override
	protected void reduce(Text key, Iterable<DistanceAndLabel> value,
			Reducer<Text, DistanceAndLabel, Text, NullWritable>.Context context) throws IOException, InterruptedException {
		String label=getMost(getTopK(sort(value)));
		context.write(new Text(label+","+key), NullWritable.get());	
	}
	/**
	 * 得到列表中类别的众数
	 * @param topK
	 * @return
	 */
	private String getMost(List<String> topK) {
		HashMap<String,Integer> labelTimes=new HashMap<String,Integer>();
		for (String str : topK) {
			String label=str.substring(str.lastIndexOf(",")+1,str.length());
			if(labelTimes.containsKey(label)){
				labelTimes.put(label, labelTimes.get(label)+1);
			}else{
				labelTimes.put(label, 1);
			}
		}
		int maxInt=Integer.MIN_VALUE;
		String mostLabel="";
		for(Map.Entry<String, Integer> kv:labelTimes.entrySet()){
			if(kv.getValue()>maxInt){
				maxInt=kv.getValue();
				mostLabel=kv.getKey();
			}
		}
		return mostLabel;
	}
	/**
	 * 取出列表中的前K个值
	 * @param sort
	 * @return
	 */
	private List<String> getTopK(List<String> sort) {
		return sort.subList(0, k);
	}
	/**
	 * 根据距离升序排序
	 * @param value
	 * @return 
	 */
	private List<String> sort(Iterable<DistanceAndLabel> value) {
		ArrayList<String> result=new ArrayList<String>();
		for(DistanceAndLabel val:value){
			result.add(val.toString());
		}
		String[] tmp=new String[result.size()];
		result.toArray(tmp);
		Arrays.sort(tmp, new Comparator<String>(){

			@Override
			public int compare(String o1, String o2) {
				double o1D=Double.parseDouble(o1.substring(0, o1.indexOf(",")));
				double o2D=Double.parseDouble(o2.substring(0, o2.indexOf(",")));
				if(o1D>o2D){
					return 1;
				}else if(o1D<o2D){
					return -1;
				}else{
					return 0;
				}
			}});
		return Arrays.asList(tmp);
	}
}

4.2.4 驱动类的实现

public class MovieClassify extends Configured implements Tool{
	@Override
	public int run(String[] args) throws Exception {
		if(args.length!=5){
			System.err.println("demo.MovieClassify     ");
			System.exit(-1);
		}
		Configuration conf=getMyConfiguration();
		conf.setInt("K", Integer.parseInt(args[3]));
		conf.set("SPLITTER",args[4]);
		conf.set("TESTPATH", args[0]);
		Job job=Job.getInstance(conf, "movie_knn");
		job.setJarByClass(MovieClassify.class);//设置主类
		job.setMapperClass(MovieClassifyMapper.class);//设置Mapper类
		job.setReducerClass(MovieClassifyReducer.class);//设置Reducer类
		job.setMapOutputKeyClass(Text.class);//设置Mapper输出的键类型
		job.setMapOutputValueClass(DistanceAndLabel.class);//设置Mapper输出的值类型
		job.setOutputKeyClass(Text.class);//设置Reducer输出的键类型
		job.setOutputValueClass(NullWritable.class);//设置Reducer输出的值类型
		FileInputFormat.addInputPath(job, new Path(args[1]));//设置输入路径
		FileSystem.get(conf).delete(new Path(args[2]), true);//删除输出路径
		FileOutputFormat.setOutputPath(job, new Path(args[2]));//设置输出路径
		return job.waitForCompletion(true)?-1:1;//提交任务
	}
	public static void main(String[] args) {
		String[] myArgs={
				"/movie/testData",
				"/movie/trainData",
				"/movie/knnout",
				"3",
				","
		};
		try {
			ToolRunner.run(getMyConfiguration(), new MovieClassify(), myArgs);
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
	/**
	 * 设置连接Hadoop集群的配置
	 * @return
	 */
	public static Configuration getMyConfiguration(){
		Configuration conf = new Configuration();
		conf.setBoolean("mapreduce.app-submission.cross-platform",true);
		conf.set("fs.defaultFS", "hdfs://master:8020");// 指定namenode
		conf.set("mapreduce.framework.name","yarn"); // 指定使用yarn框架
		String resourcenode="master";
		conf.set("yarn.resourcemanager.address", resourcenode+":8032"); // 指定resourcemanager
		conf.set("yarn.resourcemanager.scheduler.address",resourcenode+":8030");// 指定资源分配器
		conf.set("mapreduce.jobhistory.address",resourcenode+":10020");
		conf.set("mapreduce.job.jar",JarUtil.jar(MovieClassify.class));
		return conf;	
	}
}

4.2.5 打包成jar包的工具

public class JarUtil {
    public static String jar(Class<?> cls){// 验证ok
        String outputJar =cls.getName()+".jar";
        String input = cls.getClassLoader().getResource("").getFile();
        input= input.substring(0,input.length()-1);
        input = input.substring(0,input.lastIndexOf("/")+1);
        input =input +"bin/";
        jar(input,outputJar);
        return outputJar;
    }
    private static void jar(String inputFileName, String outputFileName){
        JarOutputStream out = null;
        try{
            out = new JarOutputStream(new FileOutputStream(outputFileName));
            File f = new File(inputFileName);
            jar(out, f, "");
        }catch (Exception e){
            e.printStackTrace();
        }finally{
            try {
                out.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }

    }
    private static void jar(JarOutputStream out, File f, String base) throws Exception {
        if (f.isDirectory()) {
            File[] fl = f.listFiles();
            base = base.length() == 0 ? "" : base + "/"; // 注意，这里用左斜杠
            for (int i = 0; i < fl.length; i++) {
                jar(out, fl[ i], base + fl[ i].getName());
            }
        } else {
            out.putNextEntry(new JarEntry(base));
            FileInputStream in = new FileInputStream(f);
            byte[] buffer = new byte[1024];
            int n = in.read(buffer);
            while (n != -1) {
                out.write(buffer, 0, n);
                n = in.read(buffer);
            }
            in.close();
        }
    }
}

5 评价分类结果的准确性

5.1 评价思路

准确率的计算公式：
$准确率 = 正确识别的个体总数 \div 识别出的个体总数$
评价思路：

5.2 实现分类评价

评价代码之Mapper类：

public class ValidateMapper extends Mapper<LongWritable, Text, NullWritable, Text> {
	private String splitter="";
	@Override
	protected void setup(Mapper<LongWritable, Text, NullWritable, Text>.Context context)
			throws IOException, InterruptedException {
		splitter=context.getConfiguration().get("SPLITTER");
	}
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, NullWritable, Text>.Context context)
			throws IOException, InterruptedException {
		String[] val=value.toString().split(splitter);
		context.write(NullWritable.get(), new Text(val[0]+splitter+val[2]));
	}
}

Reducer类：

public class ValidateReducer extends Reducer<NullWritable, Text, DoubleWritable, NullWritable> {
	private String splitter="";
	@Override
	protected void setup(Reducer<NullWritable, Text, DoubleWritable, NullWritable>.Context context)
			throws IOException, InterruptedException {
		splitter=context.getConfiguration().get("SPLITTER");
	}
	@Override
	protected void reduce(NullWritable key, Iterable<Text> value,
			Reducer<NullWritable, Text, DoubleWritable, NullWritable>.Context context)
					throws IOException, InterruptedException {
		//初始化sum记录预测分类正确的个数
		int sum=0;
		//初始化count记录所有分类结果的记录数，也即测试数据的记录数
		int count=0;
		for (Text val: value) {
			count++;
			String predictLabel=val.toString().split(splitter)[0];
			String trueLabel=val.toString().split(splitter)[1];
			//判断预测分类的类别是否与正确分类的类别一样
			if(predictLabel.equals(trueLabel)){
				sum+=1;
			}
		}
		//计算正确率
		double accuracy=(double)sum/count;
		context.write(new DoubleWritable(accuracy), NullWritable.get());
	}
}

驱动类：

public class Validate extends Configured implements Tool{
	@Override
	public int run(String[] args) throws Exception {
		if(args.length!=3){
			System.err.println("demo01.Validate   ");
			System.exit(-1);
		}
		Configuration conf=getMyConfiguration();
		conf.set("SPLITTER", args[2]);
		Job job=Job.getInstance(conf, "validate");
		job.setJarByClass(Validate.class);//设置主类
		job.setMapperClass(ValidateMapper.class);//设置Mapper类
		job.setReducerClass(ValidateReducer.class);//设置Reducer类
		job.setMapOutputKeyClass(NullWritable.class);//设置Mapper输出的键格式
		job.setMapOutputValueClass(Text.class);//设置Mapper输出的值格式
		job.setOutputKeyClass(DoubleWritable.class);//设置Reducer输出的键格式
		job.setOutputValueClass(NullWritable.class);//设置Reducer输出的值格式
		FileInputFormat.addInputPath(job, new Path(args[0]));//设置输入路径
		FileSystem.get(conf).delete(new Path(args[1]),true);//设置删除输出路径
		FileOutputFormat.setOutputPath(job, new Path(args[1]));//设置输出路径
		return job.waitForCompletion(true)?-1:1;
	}
	public static void main(String[] args) {
		String[] myArgs={
				"/movie/knnout/part-r-00000",
				"/movie/validateout",
				","
		};
		try {
			ToolRunner.run(getMyConfiguration(), new Validate(), myArgs);
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
	/**
	 * 设置连接Hadoop集群的配置
	 * @return
	 */
	public static Configuration getMyConfiguration(){
		Configuration conf = new Configuration();
		conf.setBoolean("mapreduce.app-submission.cross-platform",true);
		conf.set("fs.defaultFS", "hdfs://master:8020");// 指定namenode
		conf.set("mapreduce.framework.name","yarn"); // 指定使用yarn框架
		String resourcenode="master";
		conf.set("yarn.resourcemanager.address", resourcenode+":8032"); // 指定resourcemanager
		conf.set("yarn.resourcemanager.scheduler.address",resourcenode+":8030");// 指定资源分配器
		conf.set("mapreduce.jobhistory.address",resourcenode+":10020");
		conf.set("mapreduce.job.jar",JarUtil.jar(Validate.class));
		return conf;	
	}
}

5.3 寻找最优K值

KNN算法的K值会对分类结果产生重大影响。

下图是K值分别为3,4,5,6,7对应的准确率，从图中可以看出K值为3是准确率是最高的。

虽然在K=3，4，5，6，7中，K=3 的准确率是最高的，但并不意味着K=3 得到的模型就是最好的分类器。
对与K值的选取，可以利用验证数据集及迭代的算法思想，其思路为：

初始化最大准确率maxAccuracy为0.0及最优K值bestK为0
定义K值列表k，设置K值从2取到100，K值并非直接从2连续取到100，而是隔开取值，例如，K可以取2，3，5，9，15，30，55，70，80，95。
循环k列表，针对每一个K值，训练模型并利用验证数据集计算准确率accuracy，如果准确率大于最大准确率maxAccuracy，则将accuracy的值赋给maxAccuracy，K值赋给最优K值bestK，接着循环下一个K值。如果准确率小于或等于最大准确率maxAccuracy，则直接循环下一个K值。
循环结束之后输出最优K。

针对上述选择最优K值的思路，编写一个ALLJob类来完成选择最优K值。ALLJob类中只有一个main方法，在该方法中循环K值，每循环一次则需调用实现用户性别分类的MapReduce程序，同时还需调用评价分类准确性的MapReducue程序。

选择最优K值代码：

public class AllJob {
	public static void main(String[] args) throws IOException {
		Configuration conf=new Configuration();
		conf.set("fs.defaultFS", "master:8020");
		FileSystem fs=FileSystem.get(conf);
		double maxAccuracy=0.0;
		int bestK=0;
		int[] k={2,3,5,9,15,30,55,70,80,100};
		for(int i=0;i<k.length;i++){
			double accuracy=0.0;
			String[] classifyArgs={
					"/movie/validateData",
					"/movie/trainData",
					"/movie/knnout",
					String.valueOf(k[i]),
					","
			};
			try {
				ToolRunner.run(demo.MovieClassify.getMyConfiguration(), new demo.MovieClassify(), classifyArgs);
			} catch (Exception e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
			}
			String[] validateArgs={
					"/movie/knnout/part-r-00000",
					"/movie/validateout",
					","
			};
			try {
				ToolRunner.run(demo01.Validate.getMyConfiguration(),new demo01.Validate(),validateArgs);
			} catch (Exception e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
			}
			FSDataInputStream is=fs.open(new Path("/movie/validateout/part-r-00000"));
			BufferedReader br=new BufferedReader(new InputStreamReader(is));
			String line="";
			while((line=br.readLine())!=null){
				accuracy=Double.parseDouble(line);
			}
			br.close();
			is.close();
			if(accuracy>maxAccuracy){
				maxAccuracy=accuracy;
				bestK=k[i];
			}
			System.out.println("K="+k[i]+"\t"+"accuracy="+accuracy);				
		}
		System.out.println("最优K值是："+bestK+"\t"+"最优K值对应的准确率："+maxAccuracy);
	}
}

5.4 KNN算法优缺点

优点：

简单，易于理解，易于实现，无需估计参数，无需训练；
适合对稀有事件进行分类；
特别适合于多分类问题(multi-modal,对象具有多个类别标签)， KNN比SVM的表现要好；

缺点：

该算法计算量大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。
维度灾难：在计算距离的时候考虑的是实例所有属性。但分类可能仅由2个属性决定，这中情况下属性的相似性度量会误导k-近邻算法的分类。

解决办法：（1）属性加权；（2）剔除不相关的属性。

你可能感兴趣的:(学习笔记)

WPF学习笔记04-控件Control_Part1 一只只对技术感兴趣的程序员 WPF学习 wpf 学习 ui
之前我们已经学习过WPF布局了，这节我们开始简单介绍下控件。熟悉Winform的应该对控件并不陌生。WPF和Winform的渲染也是不一样的一个是基于DirectX一个是基于GDI+。在WPF中，打交道最多的控件无非就那么几种。1）布局控件。之前介绍过的，可以容纳多个控件或嵌套其他布局控件，用于在UI上组织和排列控件。比如StackPanel、Grid等控件都属于此类控件，他们都拥有共同父类---
【学习笔记】GitLab 使用技巧和说明和配置和使用方法铜锣烧1号 python git gitlab pycharm
GitLab使用技巧和说明1.注册账号和登录注册账号：访问GitLab官网，点击“Signup”按钮，填写必要的信息（如用户名、邮箱、密码）完成注册。普通用户注册后需要管理员审批，如果有管理员权限可以直接登录使用。登录：使用注册的账号和密码登录GitLab。2.创建项目创建项目：登录后，点击页面右上角的加号图标，选择“Newproject”创建新项目。在项目创建页面，填写项目名称、描述和可见性等信
『FFmpeg学习笔记』MAC系统电脑安装FFmpeg以及使用 AI大模型前沿研究大模型笔记 macos ffmpeg M1
MAC系统电脑安装FFmpeg文章目录一.安装FFmpeg1.1.MACbrew安装FFmpeg1.2.MAC官网下载FFmpeg压缩包1.3.Windows安装1.4.Linux安装二.FFmpeg的使用2.1.音频操作2.1.1.如果不转换，直接输出aac2.1.2.将音频输出为wav2.1.3.将aac转换为wav2.1.4.双声道分离2.1.5.使用FFmpeg将音频和视频合并2.2.字幕
渗透学习笔记（四）window基础2 nnnimok 学习笔记
声明！学习视频来自B站up主**泷羽sec**有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无关，切勿触碰法律底线，否则后果自负！！！！有兴趣的小伙伴可以点击下面连接进入b站主页[B站泷羽sec](https://space.bilibili.com/350329294)五、Windows网
C++ 并发编程实战学习笔记 myc13381 c++笔记
C++并发编程学习笔记目录一.基本接口二.初步了解多线程三.线程所属权管理四.线程间共享数据五.同步并发操作六.C++内存模型和原子类型操作七.基于锁的并发数据结构设计八.无锁数据结构九.并发代码设计十.高级线程管理十一.并行算法十二.参考资料基本接口std::thread常用成员函数构造和析构函数//默认构造函数，创建一个线程，什么也不做thread()noexcept;//初始化构造函数，创建
RecyclerView学习笔记(1) ChildHelper.Bucket 奋斗小小鸟cy Android android 数据结构
简介toString方法set方法get方法clear方法countOnesBefore方法reset方法insert方法remove方法总结简介RecyclerView中的ChildHelper.Bucket是一个工具类，实现了类似List的数据结构，从而达到减少内存占用的目的。Bucket是一个链表结构，有两个字段：mData用于存储当前信息，next指向下一个数据publicstaticcl
RxSwift 学习笔记第二篇之Observables 我叫柱子哥 #RxSwift rxswift Observable Swift
目录前言一、什么是Observables二、创建Observable的几种方式1.just1.含义2.实用场景2.of1.含义3.from4.create5.interval三、订阅Observable四、取消订阅（DisposeBag）五、常见操作符六、总结前言这篇博客主要介绍Observables的用法。一、什么是ObservablesObservables是Rx的核心。在Rx中我们看到“Ob
React学习笔记16 充气大锤 React学习笔记 react.js 学习笔记 javascript 前端 vue.js
一、useReducer作用：和useState的作用类似，用来管理相对复杂的状态数据使用：1、定义一个reducer函数（根据不同的action返回不同的新状态）2、在组件中调用useReducer，并传入reducer函数的状态和初始值import{useReducer}from"react"functionreducer(state,action){switch(action.type){c
C语言进阶指针学习笔记 flashier C语言学习记录 c语言学习笔记
文章目录字符指针指针数组数组指针数组名数组传参函数指针函数指针数组指向函数指针数组的指针回调函数Qsort的使用通过冒泡排序模拟实现qsort大部分的内容都写在代码注释中指针有类型，指针的类型决定了指针的±整数的步长，指针解引用操作的时候的权限字符指针#includeintmain(void){constchar*str1="Hello,World!";constchar*str2="Hello,
Python个人学习笔记（14）：函数（匿名函数、内置函数（下）、三元表达式） NEET_LH 樵夫老师Python零基础课程个人学习笔记 python 学习笔记
九、匿名函数lambda表达式语法规则：变量=lambda参数1,参数2,…:返回值例：用lambda简化下述操作deffunc(a,b):returna+bret=func(1,2)print(ret)代码：fn=lambdaa,b:a+bprint(fn)print(fn(12,13))结果：at0x000001E751EAAF20>25可以帮我们一句话创建函数可以与某些内置函数一起用十、内置
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
LVGL的学习笔记第一章期待的是什么 LVGL 学习
1.屏幕对象的创建过程lv_init_lv_ll_init(&LV_GC_ROOT(_lv_disp_ll),sizeof(lv_disp_t));//注册初始化显示器链表lv_disp_drv_register_lv_ll_ins_head(&LV_GC_ROOT(_lv_disp_ll));//注册显示器到链表disp->act_src=lv_obj_create(NULL);//在显示器上创
嵌入式学习笔记：LVGL v8 的按钮控件使用方法 WangWEel 学习笔记 microsoft 嵌入式
嵌入式学习笔记：LVGLv8的按钮控件使用方法LVGL（LightandVersatileGraphicsLibrary）是一个开源的嵌入式图形库，提供了丰富的图形控件和界面设计工具，适用于各种嵌入式系统。本文将介绍LVGLv8版本中按钮控件的使用方法，并提供相应的源代码示例。LVGLv8中的按钮控件是常用的用户交互界面元素之一，它可以用于触摸屏或其他输入设备上，让用户能够与嵌入式系统进行交互。下
LVGL v8学习笔记 | 字体的应用技巧嵌入式 CodeMaven 学习笔记前端嵌入式
LVGLv8学习笔记|字体的应用技巧嵌入式在嵌入式系统中，显示器的使用是非常普遍且重要的功能。而为了实现更灵活、美观的用户界面，字体的应用不可或缺。本文将介绍LVGLv8中字体的基本概念以及在嵌入式系统中使用字体的方法，并提供相应的源代码示例。一、字体的基本概念在LVGLv8中，字体是以像素点阵的形式存在的。每个字符由一系列像素点组成，这些像素点排列成矩阵，在显示器上渲染出相应的字符。字体可以分为
02_LVGL学习笔记：深理解样式（Style）机制与应用方法电科周杰伦嵌入式开发 LVGL LVGL 嵌入式开发 UI设计
样式在LVGL中，样式（Style）是用来控制对象（控件）外观的核心机制,涵盖了颜色、边框、背景、文字、阴影、渐变、圆角等视觉特性。通过样式，你可以轻松地为不同状态（如正常、按下、禁用等）指定不同的外观效果。1.样式的基本概念1.1样式对象（lv_style_t）样式对象中包含若干可配置的视觉属性，例如背景色、边框宽度、文字颜色、阴影、圆角等。每个属性都可以通过相关的API（如lv_style_s
ClickHouse 学习笔记金州饿霸 Big Data 分布式数据库 clickhouse 学习笔记
1.连接到ClickHouse服务器clickhouse-client--host=10.16.226.100--user=default--password2.在ClickHouse中，如果你想要单独删除一行记录，且使用的是Distributed表引擎（或者其他不支持ALTERTABLEDELETE的引擎），你将无法直接通过删除操作来实现这一目标。ClickHouse是为大规模数据分析设计的，它
Kotlin学习笔记之基础知识 mercyT kotlin 学习笔记
本内容是建立在有java的基础上去学习Kotlin的这门语言的，所以更多的是记录一些与java不同的之处，或者是Kotlin的特性等。基本类型在Kotlin中，所有东西都是对象，在这个意义上讲我们可以在任何变量上调用成员函数和属性。一些类型可以有特殊的内部表示——例如，数字、字符和布尔值可以在运行时表示为原生类型值，但是对于用户来说，它们看起来就像普通的类。在本节中，我们会描述Kotlin中使用的
Kissat学习笔记柯尼塞格475 IC设计 c语言算法启发式算法
Kissat学习笔记前言SAT（BooleanSatisfiabilityProblem）是一个NP完全问题，在IC前端设计中，SAT验证是一个重要环节，它要求判定一个布尔公式是否存在一组变量赋值使其为真，于是在十几年间诞生了许多高效的SAT求解器。Kissat求解器曾在SAT竞赛中取得了优异成绩，作为CaDiCal求解器的继承者，Kissat在保持高性能的同时，通过优化内存和简化代码实现了更高的
Python学习笔记 Helloooooworldddddd python
eclipse中配置PyDev：Help-->InstallNewSoftware-->Add-->起名如：PyDev，网址：http://www.pydev.org/updates-->选择PyDev-->一路Next安装完之后创建新项目时，如果没有PyDev选项，则是安装的版本跟eclipse、jdk不匹配，需要卸载重新安装。卸载：Help-->AboutEclipse-->Installat
python匿名函数的好处_python 匿名函数与三元运算学习笔记 weixin_39812142 python匿名函数的好处
匿名函数匿名函数就是不需要显示式的指定函数名首先看一行代码：defcalc(x,y):returnx*yprint(calc(2,3))#换成匿名函数calc=lambdax,y:x*yprint(calc(2,3))你也许会说，用上这个东西没感觉有毛方便呀，。。。。呵呵，如果是这么用，确实没毛线改进，不过匿名函数主要是和其它函数搭配使用的呢，如下res=map(lambdax:x**2,[1,2
学习笔记《编程不难》（5）——10月 Python 函数：一些应用 MoZ·T 《编程不难》学习笔记学习笔记 python
一、Python函数1、几种函数类型函数类型表达式描述函数作用表达式内置函数函数名(参数)执行Python提供的基础操作（如len(),max()等）len([1,2,3]),max([1,2,3])自定义函数def函数名(参数):函数体用户自定义的函数，封装特定逻辑，便于复用defmy_function(arg1,arg2):returnarg1+arg2匿名函数（lambda）lambda参数
【学习笔记】Python零基础入门疯语小咖 Python学习笔记学习 python
目录前言一、Python优势二、Python解释器安装三、变量和数据类型1.驼峰式命名习惯2.变量命名规则3.基本操作符4.数据类型分类5.字符串格式化6.类型转换函数7.列表8.元组9.字典四、选择和循环控制结构1.if语句2.内联if语句3.for循环4.while循环5.错误提示语句五、函数和模块1.函数参数2.模块引入3.模块创建六、文件处理1.文本文件前两行读取2.文本文件按行循环读取3
Python零基础快速入门学习笔记恨不相逢未涨时 python python 学习笔记
文章目录1.安装python2.安装vscode3.python语法3.1流程控制3.1.1条件语句3.1.2循环语句3.2模块与包3.2.1模块3.2.2包3.3数据类型3.3.1数字（Number）3.3.2字符串（string）3.3.3列表（list）3.3.4元组（tuple）3.3.5集合（set）3.3.6字典（dict）3.4异常处理3.5类、对象、方法3.5.1类与对象3.5.2
论文学习：基于机器学习的光声图像分析1 superace7911 基于机器学习的光声图像处理机器学习人工智能图像处理
3/25——3/31期间论文学习笔记，关于基于机器学习的光声图像分析的6篇1区论文血管结构模拟&分割：Quantificationofvascularnetworksinphotoacousticmesoscopy链接数据集链接摘要这篇论文提出了一种新的方法，利用中观光声成像（MesoscopicPhotoacousticImaging,PAI）技术和高级图像分析技术，来非侵入性地定量化和分析活体
动手深度学习笔记（二十九）5.5. 读写文件落花逐流水 pytorch实践 pytorch pytorch
动手深度学习笔记（二十九）5.5.读写文件5.深度学习计算5.5.读写文件5.5.1.加载和保存张量5.5.2.加载和保存模型参数5.5.3.小结5.5.4.练习5.深度学习计算5.5.读写文件到目前为止，我们讨论了如何处理数据，以及如何构建、训练和测试深度学习模型。然而，有时我们希望保存训练的模型，以备将来在各种环境中使用（比如在部署中进行预测）。此外，当运行一个耗时较长的训练过程时，最佳的做法
【C++】Operator Overloading bryant_meng C /C++c++开发语言运算符重载重载规则友元函数
《C++程序设计基础教程》——刘厚泉，李政伟，二零一三年九月版，学习笔记文章目录1、什么是运算符重载2、运算符重载规则3、运算符重载的实现形式3.1、重载为类的成员函数3.2、重载为友元函数4、应用实例更多有趣的代码示例，可参考【Programming】1、什么是运算符重载在C++中，运算符重载是一种允许程序员为用户定义的类型（如类和结构体）指定如何使用标准运算符（如+,-,*,/,==,>等）的
golang学习笔记23——golang微服务中服务间通信问题探讨 GoppViper golang学习笔记 golang 学习笔记后端微服务信息与通信
推荐学习文档golang应用级os框架，欢迎stargolang应用级os框架使用案例，欢迎star案例：基于golang开发的一款超有个性的旅游计划app经历golang实战大纲golang优秀开发常用开源库汇总想学习更多golang知识，这里有免费的golang学习笔记专栏文章目录引言服务间通信的常见问题1.数据序列化与反序列化效率2.网络延迟与可靠性3.服务发现与负载均衡4.安全与认证解决方
【gopher的java学习笔记】如何通过jar命令解压JAR包 ThisIsClark gopher的java学习笔记 java 学习笔记
如何通过jar命令解压JAR包JAR（JavaARchive）文件是Java平台上用于打包和分发类文件、资源文件以及其他相关文件的压缩文件格式。有时候，我们可能需要解压一个JAR文件以查看或修改其中的内容。Java提供了一个内置的jar工具，可以方便地进行JAR文件的创建、查看和解压等操作。本文将详细介绍如何通过jar命令解压JAR包。一、准备工作确保Java环境已安装：jar命令是Java开发工
C++学习笔记22——指针的基本概念，指针变量的定义与使用，指针的大小 weixin_49522114 C++入门学习笔记 1024程序员节 c++
指针指针的基本概念指针的作用：可以通过指针间接访问内存内存编号是从0开始记录的，一般用十六进制数字表示可以利用指针变量保存地址指针变量的定义和使用指针变量定义语法：数据类型*变量名示例：#includeusingnamespacestd;intmain(){//1.如何定义一个指针inta=10;int*p;//让指针记录变量a的地址p=&a;cout
C++学习笔记（十八）——类之继承奕天者 C++基础学习 c++学习笔记
一、继承作用：继承（Inheritance）是面向对象编程（OOP）的核心特性之一，允许一个类（子类）从另一个类（基类）派生，并继承基类的属性和行为。继承的主要目的是代码复用，同时支持扩展和修改已有功能，提高程序的可维护性。特点：子类会自动继承基类的public和protected成员（不包括private成员）。子类可以增加新的成员或重写（覆盖）基类的方法。支持单继承和多继承（C++允许一个类继
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l