Hadoop Web项目--Friend Find系统

项目使用软件：Myeclipse10.0，JDK1.7，Hadoop2.6，MySQL5.6，EasyUI1.3.6，jQuery2.0，Spring4.1.3，

Hibernate4.3.1，struts2.3.1，Tomcat7 ，Maven3.2.1。

项目下载地址：https://github.com/fansy1990/friend_find ，项目部署参考：http://blog.csdn.net/fansy1990/article/details/46481409 。

Hadoop Web项目--Friend Find系统

1. 项目介绍

Friend Find系统是一个寻找相似用户的系统。用户填写自己的信息后就可以在本系统内找到和自己志同道合的朋友。本系统使用的是在http://stackoverflow.com/网站上的用户数据。Stack Overflow是一个程序设计领域的问答网站，隶属Stack Exchange Network。网站允许注册用户提出或回答问题，还允许对已有问题或答案加分、扣分或进行修改，条件是用户达到一定的“声望值”。“声望值”就是用户进行网站交互时能获取的分数。当声望值达到某个程度时，用户的权限就会增加，比如声望值超过50点就可以评论答案。当用户的声望值达到某个阶段时，网站还会给用户颁发贡献徽章，以此来激励用户对网站做出贡献。该项目建立在下面的假设基础上，假设用户对于一个领域问题的“态度”就可以反映出该用户的价值取向，并依据此价值取向来对用户进行聚类分组。这里的态度可以使用几个指标属性来评判，在本系统中原始数据（即用户信息数据）包含的属性有多个，从中挑选出最能符合用户观点的属性，作为该用户的“态度”进行分析。这里挑选的属性是：reputation，upVotes，downVotes，views，即使用这4个属性来对用户进行聚类。同时，这里使用MR实现的Clustering by fast search and find of density peaks聚类算法，这里的实现和 http://blog.csdn.net/fansy1990/article/details/46364697这里的实现原始是不同的。

2. 项目运行

2.1 准备

1. 下载工程，参考上面的连接 https://github.com/fansy1990/friend_find，并参考 http://blog.csdn.net/fansy1990/article/details/46481409把它部署上去；

1）注意根据数据库的配置，在mysql数据库中新建一个friend数据库；

2）直接运行部署工程，即可在数据库中自动建立相应的表，包括：hconstants、loginuser、userdata、usergroup，其中loginuser是用户登录表，会自动初始化（默认有两个用户admin/admin、test/test），hconstants是云平台参数数据表、userdata存储原始用户数据、usergroup存储聚类分群后每个用户的组别。

2. 部署云平台Hadoop2.6（伪分布式或者完全分布式都可以，本项目测试使用伪分布式），同时需要注意：设置云平台系统linux的时间和运行tomcat的机器的时间一样，因为在云平台任务监控的时候使用了时间作为监控停止的信号（具体可以参考后面）。

3. 使用MyEclipse的export功能把所有源码打包，然后把打包后的jar文件拷贝到hadoop集群的$HADOOP_HOME/share/hadoop/mapreduce/目录下面。

2.2 运行

1. 初始化相应的表

初始化集群配置表hconstants

访问系统首页：http://localhost/friend_find (这里部署的tomcat默认使用80端口，同时web部署的名称为friend_find),即可看到下面的页面(系统首页)：

点击登录，即可看到系统介绍。

点击初始化表，依次选择对应的表，即可完成初始化

点击Hadoop集群配置表，查看数据：

这里初始化使用的是lz的虚拟机的配置，所以需要修改为自己的集群配置，点击某一行数据，在toolbar里即可选择修改或保存等。

2. 系统原始文件：

系统原始文件在工程的：

3. 项目实现流程

项目实现的流程按照系统首页左边导航栏的顺序从上到下运行，完成数据挖掘的各个步骤。

3.1 数据探索

下载原始数据ask_ubuntu_users.xml 文件，打开，可以看到：

原始数据一共有19550条记录，去除第1、2、最后一行外其他都是用户数据（第3行不是用户数据，是该网站的描述）；

用户数据需要使用一个主键来唯一标示该用户，这里不是选择Id，而是使用EmailHash（这里假设每个EmailHash相同的账号其是同一个人）。使用上面的假设后，对原始数据进行分析（这里是全部导入到数据库后发现的），发现EmailHash是有重复记录的，所以这里需要对数据进行预处理--去重；

3.2 数据预处理

1. 数据去重

数据去重采用云平台Hadoop进行处理，首先把ask_ubuntu_users.xml文件上传到云平台，接着运行MR任务进行过滤。

2. 数据序列化

由于计算用户向量两两之间的距离的MR任务使用的是序列化的文件，所以这里需要对数据进行序列化处理；

3.3 建模

建模即使用快速聚类算法来对原始数据进行聚类，主要包括下面几个步骤：

1. 计算用户向量两两之间的距离；

2. 根据距离求解每个用户向量的局部密度；

3. 根据1.和2.的结果求解每个用户向量的最小距离；

4. 根据2，3的结果画出决策图，并判断聚类中心的局部密度和最小距离的阈值；

5. 根据局部密度和最小距离阈值来寻找聚类中心向量；

6. 根据聚类中心向量来进行分类；

3.4 推荐

建模后的结果即可以得到聚类中心向量以及每个分群的百分比，同时根据分类的结果来对用户进行组内推荐。

项目流程图如下：

4. 项目功能及实现原理

项目功能主要包括下面：

4.1 数据库表维护

数据库表维护主要包括：数据库表初始化，即用户登录表和Hadoop集群配置表的初始化；数据库表增删改查查看：即用户登录表、用户数据表、Hadoop集群配置表的增删改查。

数据库表增删改查使用同一个DBService类来进行处理，（这里的DAO使用的是通用的）如果针对每个表都建立一个DAO，那么代码就很臃肿，所以这里把这些数据库表都是实现一个接口ObjectInterface，该接口使用一个Map来实例化各个对象。

public interface ObjectInterface {
	/**
	 * 不用每个表都建立一个方法，这里根据表名自动装配
	 * @param map
	 * @return
	 */
	public  Object setObjectByMap(Map<String,Object> map);
}

在进行保存的时候，直接使用前台传入的表名和json字符串进行更新即可

/**
	 * 更新或者插入表
	 * 不用每个表都建立一个方法，这里根据表名自动装配
	 * @param tableName
	 * @param json
	 * @return
	 */
	public boolean updateOrSave(String tableName,String json){
		try{
			// 根据表名获得实体类，并赋值
			Object o = Utils.getEntity(Utils.getEntityPackages(tableName),json);
			baseDao.saveOrUpdate(o);
			log.info("保存表{}！",new Object[]{tableName});
		}catch(Exception e){
			
			e.printStackTrace();
			return false;
		}
		return true;
	}

/**
	 * 根据类名获得实体类
	 * @param tableName
	 * @param json
	 * @return
	 * @throws ClassNotFoundException 
	 * @throws IllegalAccessException 
	 * @throws InstantiationException 
	 * @throws IOException 
	 * @throws JsonMappingException 
	 * @throws JsonParseException 
	 */
	@SuppressWarnings("unchecked")
	public static Object getEntity(String tableName, String json) throws ClassNotFoundException, InstantiationException, IllegalAccessException, JsonParseException, JsonMappingException, IOException {
		Class<?> cl = Class.forName(tableName);
		ObjectInterface o = (ObjectInterface)cl.newInstance();
		Map<String,Object> map = new HashMap<String,Object>();
		ObjectMapper mapper = new ObjectMapper();
		try {
			//convert JSON string to Map
			map = mapper.readValue(json, Map.class);
			return o.setObjectByMap(map);
		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}

4.2 数据预处理

数据预处理包括文件上传、文件去重、文件下载、数据入库、DB过滤到HDFS、距离计算、最佳DC。

1. 文件上传

文件上传即是把文件从本地上传到HDFS，如下界面：

这里上传的即是ask_ubuntu_users.xml 全部数据文件。上传直接使用FileSystem的静态方法下载，如下代码（）：

fs.copyFromLocalFile(src, dst);

上传成功即可显示操作成功，这里使用aJax异步提交：

// =====uploadId,数据上传button绑定 click方法
	$('#uploadId').bind('click', function(){
		var input_i=$('#localFileId').val();
		// 弹出进度框
		popupProgressbar('数据上传','数据上传中...',1000);
		// ajax 异步提交任务
		callByAJax('cloud/cloud_upload.action',{input:input_i});
	});

其中调用aJax使用一个封装的方法，以后都可以调用，如下：

// 调用ajax异步提交
// 任务返回成功，则提示成功，否则提示失败的信息
function callByAJax(url,data_){
	$.ajax({
		url : url,
		data: data_,
		async:true,
		dataType:"json",
		context : document.body,
		success : function(data) {
//			$.messager.progress('close');
			closeProgressbar();
			console.info("data.flag:"+data.flag);
			var retMsg;
			if("true"==data.flag){
				retMsg='操作成功！';
			}else{
				retMsg='操作失败！失败原因：'+data.msg;
			}
			$.messager.show({
				title : '提示',
				msg : retMsg
			});
			
			if("true"==data.flag&&"true"==data.monitor){// 添加监控页面
				// 使用单独Tab的方式
				layout_center_addTabFun({
					title : 'MR算法监控',
					closable : true,
					// iconCls : node.iconCls,
					href : 'cluster/monitor_one.jsp'
				});
			}
			
		}
	});
}

后台返回的是json数据，并且这里为了和云平台监控任务兼容（考虑通用性），这里还添加了一个打开监控的代码。

2. 文件去重

在导航栏选择文件去重，即可看到下面的界面：

点击去重即可提交任务到云平台，并且会打开MR的监控，如下图：

在点击”去重“按钮时，会启动一个后台线程Thread：

/**
	 * 去重任务提交
	 */
	public void deduplicate(){
		Map<String ,Object> map = new HashMap<String,Object>();
		try{
			HUtils.setJobStartTime(System.currentTimeMillis()-10000);
			HUtils.JOBNUM=1;
			new Thread(new Deduplicate(input,output)).start();
			map.put("flag", "true");
			map.put("monitor", "true");
		} catch (Exception e) {
			e.printStackTrace();
			map.put("flag", "false");
			map.put("monitor", "false");
			map.put("msg", e.getMessage());
		}
		Utils.write2PrintWriter(JSON.toJSONString(map));
	}

首先设置全部任务的起始时间，这里往前推迟了10s，是为了防止时间相差太大（也可以设置2s左右，如果tomcat所在机器和集群机器时间一样则不用设置）；接着设置任务的总个数；最后启动多线程运行MR任务。

在任务监控界面，启动一个定时器，会定时向后台请求任务的监控信息，当任务全部完成则会关闭该定时器。

<script type="text/javascript">
		// 自动定时刷新 1s
	 	var monitor_cf_interval= setInterval("monitor_one_refresh()",3000);
	</script>

function monitor_one_refresh(){
	$.ajax({ // ajax提交
		url : 'cloud/cloud_monitorone.action',
		dataType : "json",
		success : function(data) {
			if (data.finished == 'error') {// 获取信息错误 ，返回数据设置为0，否则正常返回
				clearInterval(monitor_cf_interval);
				setJobInfoValues(data);
				console.info("monitor,finished:"+data.finished);
				$.messager.show({
					title : '提示',
					msg : '任务运行失败！'
				});
			} else if(data.finished == 'true'){
				// 所有任务运行成功则停止timer
				console.info('monitor,data.finished='+data.finished);
				setJobInfoValues(data);
				clearInterval(monitor_cf_interval);
				$.messager.show({
					title : '提示',
					msg : '所有任务成功运行完成！'
				});
				
			}else{
				// 设置提示，并更改页面数据,多行显示job任务信息
				setJobInfoValues(data);
			}
		}
	});
	
}

后台获取任务的监控信息，使用下面的方式：

1）使用JobClient.getAllJobs()获取所有任务的监控信息；

2）使用前面设置的所有任务的启动时间来过滤每个任务；

3）对过滤后的任务按照启动时间进行排序并返回；

4）根据返回任务信息的个数和设置的应该的个数来判断是否停止监控；

/**
	 * 单个任务监控
	 * @throws IOException
	 */
	public void monitorone() throws IOException{
    	Map<String ,Object> jsonMap = new HashMap<String,Object>();
    	List<CurrentJobInfo> currJobList =null;
    	try{
    		currJobList= HUtils.getJobs();
//    		jsonMap.put("rows", currJobList);// 放入数据
    		jsonMap.put("jobnums", HUtils.JOBNUM);
    		// 任务完成的标识是获取的任务个数必须等于jobNum，同时最后一个job完成
    		// true 所有任务完成
    		// false 任务正在运行
    		// error 某一个任务运行失败，则不再监控
    		
    		if(currJobList.size()>=HUtils.JOBNUM){// 如果返回的list有JOBNUM个，那么才可能完成任务
    			if("success".equals(HUtils.hasFinished(currJobList.get(currJobList.size()-1)))){
    				jsonMap.put("finished", "true");
    				// 运行完成，初始化时间点
    				HUtils.setJobStartTime(System.currentTimeMillis());
    			}else if("running".equals(HUtils.hasFinished(currJobList.get(currJobList.size()-1)))){
    				jsonMap.put("finished", "false");
    			}else{// fail 或者kill则设置为error
    				jsonMap.put("finished", "error");
    				HUtils.setJobStartTime(System.currentTimeMillis());
    			}
    		}else if(currJobList.size()>0){
    			if("fail".equals(HUtils.hasFinished(currJobList.get(currJobList.size()-1)))||
    					"kill".equals(HUtils.hasFinished(currJobList.get(currJobList.size()-1)))){
    				jsonMap.put("finished", "error");
    				HUtils.setJobStartTime(System.currentTimeMillis());
    			}else{
    				jsonMap.put("finished", "false");
    			}
        	}	
    		if(currJobList.size()==0){
    			jsonMap.put("finished", "false");
//    			return ;
    		}else{
    			if(jsonMap.get("finished").equals("error")){
    				CurrentJobInfo cj =currJobList.get(currJobList.size()-1);
    				cj.setRunState("Error!");
    				jsonMap.put("rows", cj);
    			}else{
    				jsonMap.put("rows", currJobList.get(currJobList.size()-1));
    			}
    		}
    		jsonMap.put("currjob", currJobList.size());
    	}catch(Exception e){
    		e.printStackTrace();
    		jsonMap.put("finished", "error");
    		HUtils.setJobStartTime(System.currentTimeMillis());
    	}
    	System.out.println(new java.util.Date()+":"+JSON.toJSONString(jsonMap));
    	Utils.write2PrintWriter(JSON.toJSONString(jsonMap));// 使用JSON数据传输
    	return ;
    }

获取所有任务，并过滤的代码：

/**
	 * 根据时间来判断，然后获得Job的状态，以此来进行监控 Job的启动时间和使用system.currentTimeMillis获得的时间是一致的，
	 * 不存在时区不同的问题；
	 * 
	 * @return
	 * @throws IOException
	 */
	public static List<CurrentJobInfo> getJobs() throws IOException {
		JobStatus[] jss = getJobClient().getAllJobs();
		List<CurrentJobInfo> jsList = new ArrayList<CurrentJobInfo>();
		jsList.clear();
		for (JobStatus js : jss) {
			if (js.getStartTime() > jobStartTime) {
				jsList.add(new CurrentJobInfo(getJobClient().getJob(
						js.getJobID()), js.getStartTime(), js.getRunState()));
			}
		}
		Collections.sort(jsList);
		return jsList;
	}

当有多个任务时，使用此监控也是可以的，只用设置HUtils.JOBNUM的值即可。
3. 文件下载

文件下载即是把过滤后的文件下载到本地，（因为过滤后的文件需要导入到数据库Mysql，所以这里提供下载功能）

文件下载使用FilsSystem.copyToLocalFile()静态方法:

fs.copyToLocalFile(false, file.getPath(), new Path(dst,
							"hdfs_" + (i++) + HUtils.DOWNLOAD_EXTENSION), true);

4.数据入库

数据入库即文件从去重后的本地文件导入到MySql数据库中：

这里使用的是批量插入，同时这里不使用xml的解析，而是直接使用字符串的解析，因为在云平台过滤的时候，是去掉了第1，2，最后一行，所以xml文件是不完整的，不能使用xml解析，所以直接使用读取文件，然后进行字符串的解析。

/**
	 * 批量插入xmlPath数据
	 * @param xmlPath
	 * @return
	 */
	public Map<String,Object> insertUserData(String xmlPath){
		Map<String,Object> map = new HashMap<String,Object>();
		try{
			baseDao.executeHql("delete UserData");
//			if(!Utils.changeDat2Xml(xmlPath)){
//				map.put("flag", "false");
//				map.put("msg", "HDFS文件转为xml失败");
//				return map;
//			}
//			List<String[]> strings= Utils.parseXmlFolder2StrArr(xmlPath);
			// ---解析不使用xml解析，直接使用定制解析即可
			//---
			List<String[]>strings = Utils.parseDatFolder2StrArr(xmlPath);
			List<Object> uds = new ArrayList<Object>();
			for(String[] s:strings){
				uds.add(new UserData(s));
			}
			int ret =baseDao.saveBatch(uds);
			log.info("用户表批量插入了{}条记录!",ret);
		}catch(Exception e){
			e.printStackTrace();
			map.put("flag", "false");
			map.put("msg", e.getMessage());
			return map;
		}
		map.put("flag", "true");
		return map;
	}

public Integer saveBatch(List<Object> lists) {
		Session session = this.getCurrentSession();
//		org.hibernate.Transaction tx = session.beginTransaction();
		int i=0;
		try{
		for ( Object l:lists) {
			i++;
		    session.save(l);
			if( i % 50 == 0 ) { // Same as the JDBC batch size
		        //flush a batch of inserts and release memory:
		        session.flush();
		        session.clear();
		        if(i%1000==0){
		        	System.out.println(new java.util.Date()+"：已经预插入了"+i+"条记录...");
		        }
		    }
		}}catch(Exception e){
			e.printStackTrace();
		}
//		tx.commit();
//		session.close();
		Utils.simpleLog("插入数据数为："+i);
		return i;
	}

5. DB过滤到HDFS

MySQL的用户数据过滤到HDFS，即使用下面的规则进行过滤：

规则：reputation>15,upVotes>0,downVotes>0,views>0的用户；

接着，上传这些用户，使用SequenceFile进行写入，因为下面的距离计算即是使用序列化文件作为输入的，所以这里直接写入序列化文件；

private static boolean db2hdfs(List<Object> list, Path path) throws IOException {
		boolean flag =false;
		int recordNum=0;
		SequenceFile.Writer writer = null;
		Configuration conf = getConf();
		try {
			Option optPath = SequenceFile.Writer.file(path);
			Option optKey = SequenceFile.Writer
					.keyClass(IntWritable.class);
			Option optVal = SequenceFile.Writer.valueClass(DoubleArrIntWritable.class);
			writer = SequenceFile.createWriter(conf, optPath, optKey, optVal);
			DoubleArrIntWritable dVal = new DoubleArrIntWritable();
			IntWritable dKey = new IntWritable();
			for (Object user : list) {
				if(!checkUser(user)){
					continue; // 不符合规则 
				}
				dVal.setValue(getDoubleArr(user),-1);
				dKey.set(getIntVal(user));
				writer.append(dKey, dVal);// 用户id,<type,用户的有效向量 >// 后面执行分类的时候需要统一格式，所以这里需要反过来
				recordNum++;
			}
		} catch (IOException e) {
			Utils.simpleLog("db2HDFS失败,+hdfs file:"+path.toString());
			e.printStackTrace();
			flag =false;
			throw e;
		} finally {
			IOUtils.closeStream(writer);
		}
		flag=true;
		Utils.simpleLog("db2HDFS 完成,hdfs file:"+path.toString()+",records:"+recordNum);
		return flag;
	}

生成文件个数即是HDFS中文件的个数；
6. 距离计算

距离计算即计算每个用户直接的距离，使用方法即使用两次循环遍历文件，不过这里一共有N*(N-1)/2个输出，因为针对外层用户ID大于内层用户ID的记录，不进行输出，这里使用MR进行。

Mapper的map函数:输出的key-value对是<DoubleWritable,<int,int>>--><距离，<用户i的ID，用户j的ID>>，且用户i的ID<用户j的ID；

public void map(IntWritable key,DoubleArrIntWritable  value,Context cxt)throws InterruptedException,IOException{
		cxt.getCounter(FilterCounter.MAP_COUNTER).increment(1L);
		if(cxt.getCounter(FilterCounter.MAP_COUNTER).getValue()%3000==0){
			log.info("Map处理了{}条记录...",cxt.getCounter(FilterCounter.MAP_COUNTER).getValue());
			log.info("Map生成了{}条记录...",cxt.getCounter(FilterCounter.MAP_OUT_COUNTER).getValue());
		}
		Configuration conf = cxt.getConfiguration();
		SequenceFile.Reader reader = null;
		FileStatus[] fss=input.getFileSystem(conf).listStatus(input);
		for(FileStatus f:fss){
			if(!f.toString().contains("part")){
				continue; // 排除其他文件
			}
			try {
				reader = new SequenceFile.Reader(conf, Reader.file(f.getPath()),
						Reader.bufferSize(4096), Reader.start(0));
				IntWritable dKey = (IntWritable) ReflectionUtils.newInstance(
						reader.getKeyClass(), conf);
				DoubleArrIntWritable dVal = (DoubleArrIntWritable) ReflectionUtils.newInstance(
						reader.getValueClass(), conf);
	
				while (reader.next(dKey, dVal)) {// 循环读取文件
					// 当前IntWritable需要小于给定的dKey
					if(key.get()<dKey.get()){
						cxt.getCounter(FilterCounter.MAP_OUT_COUNTER).increment(1L);
						double dis= HUtils.getDistance(value.getDoubleArr(), dVal.getDoubleArr());
						newKey.set(dis);
						newValue.setValue(key.get(), dKey.get());
						cxt.write(newKey, newValue);
					}

				}
			} catch (Exception e) {
				e.printStackTrace();
			} finally {
				IOUtils.closeStream(reader);
			}
		}
	}

Reducer的reduce函数直接输出：

public void reduce(DoubleWritable key,Iterable<IntPairWritable> values,Context cxt)throws InterruptedException,IOException{
		for(IntPairWritable v:values){
			cxt.getCounter(FilterCounter.REDUCE_COUNTER).increment(1);
			cxt.write(key, v);
		}
	}

6. 最佳DC

最佳DC是在”聚类算法“-->”执行聚类“时使用的参数，具体可以参考Clustering by fast search and find of density peaks相关论文。

在寻找最佳DC时是把所有距离按照从大到小进行排序，然后顺序遍历这些距离，取前面的2%左右的数据。这里排序由于在”计算距离“MR任务时，已经利用其Map->reduce的排序性即可，其距离已经按照距离的大小从小到大排序了，所以只需遍历即可，这里使用直接遍历序列文件的方式，如下：

/**
	 * 根据给定的阈值百分比返回阈值
	 * 
	 * @param percent
	 *            一般为1~2%
	 * @return
	 */
	public static double findInitDC(double percent, String path,long iNPUT_RECORDS2) {
		Path input = null;
		if (path == null) {
			input = new Path(HUtils.getHDFSPath(HUtils.FILTER_CALDISTANCE
					+ "/part-r-00000"));
		} else {
			input = new Path(HUtils.getHDFSPath(path + "/part-r-00000"));
		}
		Configuration conf = HUtils.getConf();
		SequenceFile.Reader reader = null;
		long counter = 0;
		long percent_ = (long) (percent * iNPUT_RECORDS2);
		try {
			reader = new SequenceFile.Reader(conf, Reader.file(input),
					Reader.bufferSize(4096), Reader.start(0));
			DoubleWritable dkey = (DoubleWritable) ReflectionUtils.newInstance(
					reader.getKeyClass(), conf);
			Writable dvalue = (Writable) ReflectionUtils.newInstance(
					reader.getValueClass(), conf);
			while (reader.next(dkey, dvalue)) {// 循环读取文件
				counter++;
				if(counter%1000==0){
					Utils.simpleLog("读取了"+counter+"条记录。。。");
				}
				if (counter >= percent_) {
					HUtils.DELTA_DC = dkey.get();// 赋予最佳DC阈值
					break;
				}
			}
		} catch (Exception e) {
			e.printStackTrace();
		} finally {
			IOUtils.closeStream(reader);
		}
		return HUtils.DELTA_DC;
	}

这里需要说明一下，经过试验，发现使用距离阈值29.4时，聚类的决策图中的聚类中心向量并不是十分明显，所以在下面使用的阈值是100；

4.3 聚类算法

1. 执行聚类

执行聚类包括三个MR任务：局部密度MR、最小距离MR以及排序MR任务：

1）局部密度MR

局部密度计算使用的输入文件即是前面计算的距离文件，其MR数据流如下：

/**
 * Find the local density of every point vector
 * 
 * 输入为 <key,value>--> <distance,<id_i,id_j>>
 *  <距离，<向量i编号，向量j编号>>
 *  
 *  Mapper：
 *  输出向量i编号，1
 *      向量j编号,1
 *  Reducer:
 *  输出
 *     向量i编号，局部密度
 *     有些向量是没有局部密度的，当某个向量距离其他点的距离全部都大于给定阈值dc时就会发生
 * @author fansy
 * @date 2015-7-3
 */

Mapper的逻辑如下：

/**
 * 输入为<距离d_ij,<向量i编号，向量j编号>>
 * 根据距离dc阈值判断距离d_ij是否小于dc，符合要求则
 * 输出
 * 向量i编号，1
 * 向量j编号，1
 * @author fansy
 * @date 2015-7-3
 */

map函数：

public void map(DoubleWritable key,IntPairWritable value,Context cxt)throws InterruptedException,IOException{
		double distance= key.get();
		
		if(method.equals("gaussian")){
            one.set(Math.pow(Math.E, -(distance/dc)*(distance/dc)));
        }
		
		if(distance<dc){
			vectorId.set(value.getFirst());
			cxt.write(vectorId, one);
			vectorId.set(value.getSecond());
			cxt.write(vectorId, one);
		}
	}

这里的密度有两种计算方式，根据前台传入的参数选择不同的算法即可，这里默认使用的cut-off，即局部密度有一个点则局部密度加1；

reducer中的reduce逻辑即把相同的点的局部密度全部加起来即可：

public void reduce(IntWritable key, Iterable<DoubleWritable> values,Context cxt)
	throws IOException,InterruptedException{
		double sum =0;
		for(DoubleWritable v:values){
			sum+=v.get();
		}
		sumAll.set(sum);// 
		cxt.write(key, sumAll);
		Utils.simpleLog("vectorI:"+key.get()+",density:"+sumAll);
	}

2）最小距离MR

最小距离MR逻辑如下：

/**
 * find delta distance of every point
 * 寻找大于自身密度的最小其他向量的距离
 * mapper输入：
 * 输入为<距离d_ij,<向量i编号，向量j编号>>
 * 把LocalDensityJob的输出
 * 		i,density_i
 * 放入一个map中，用于在mapper中进行判断两个局部密度的大小以决定是否输出
 * mapper输出：
 *      i,<density_i,min_distance_j>
 *      IntWritable,DoublePairWritable
 * reducer 输出：
 * 		<density_i*min_distancd_j> <density_i,min_distance_j,i>
 * 		DoubleWritable,  IntDoublePairWritable
 * @author fansy
 * @date 2015-7-3
 */

这里reducer输出为每个点（即每个用户）局部密度和最小距离的乘积，一种方式寻找聚类中心个数的方法就是把这个乘积从大到小排序，并把这些点画折线图，看其斜率变化最大的点，取前面点的个数即为聚类中心个数。

3）排序MR

排序MR即把2）的局部密度和最小距离的乘积进行排序，这里可以利用map-reduce的排序性，自定义一个Writable，然后让其按照值的大小从大到小排序。

/**
 * 
 */
package com.fz.fastcluster.keytype;

/**
 * 自定义DoubleWritable
 * 修改其排序方式，
 * 从大到小排列
 * @author fansy
 * @date 2015-7-3
 */

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.classification.InterfaceAudience;
import org.apache.hadoop.classification.InterfaceStability;
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

/**
* Writable for Double values.
*/
@InterfaceAudience.Public
@InterfaceStability.Stable
public class CustomDoubleWritable implements WritableComparable<CustomDoubleWritable> {

 private double value = 0.0;
 
 public CustomDoubleWritable() {
   
 }
 
 public CustomDoubleWritable(double value) {
   set(value);
 }
 
 @Override
 public void readFields(DataInput in) throws IOException {
   value = in.readDouble();
 }

 @Override
 public void write(DataOutput out) throws IOException {
   out.writeDouble(value);
 }
 
 public void set(double value) { this.value = value; }
 
 public double get() { return value; }

 /**
  * Returns true iff <code>o</code> is a DoubleWritable with the same value.
  */
 @Override
 public boolean equals(Object o) {
   if (!(o instanceof CustomDoubleWritable)) {
     return false;
   }
   CustomDoubleWritable other = (CustomDoubleWritable)o;
   return this.value == other.value;
 }
 
 @Override
 public int hashCode() {
   return (int)Double.doubleToLongBits(value);
 }
 
 @Override
 public int compareTo(CustomDoubleWritable o) {// 修改这里即可
   return (value < o.value ? 1 : (value == o.value ? 0 : -1));
 }
 
 @Override
 public String toString() {
   return Double.toString(value);
 }

 /** A Comparator optimized for DoubleWritable. */ 
 public static class Comparator extends WritableComparator {
   public Comparator() {
     super(CustomDoubleWritable.class);
   }

   @Override
   public int compare(byte[] b1, int s1, int l1,
                      byte[] b2, int s2, int l2) {
     double thisValue = readDouble(b1, s1);
     double thatValue = readDouble(b2, s2);
     return (thisValue < thatValue ? 1 : (thisValue == thatValue ? 0 : -1));
   }
 }

 static {                                        // register this comparator
   WritableComparator.define(CustomDoubleWritable.class, new Comparator());
 }

}

2. 画决策图

画决策图，直接解析云平台的排序MR的输出，然后取前面的500条记录（前面500条记录包含的局部密度和最小距离的乘积的最大的500个，后面的点更不可能成为聚类中心点，所以这里只取500个，同时需要注意，如果前面设置排序MR的reducer个数大于一个，那么其输出为多个文件，则这里是取每个文件的前面500个向量）

依次点击画图，展示决策图，即可看到画出的决策图：

聚类中心应该是取右上角位置的点，所以这里选择去点密度大于50，点距离大于50的点，这里有3个，加上没有画出来的局部密度最大的点，一共有4个聚类中心向量。

3. 寻找聚类中心

寻找聚类中心就是根据前面决策图得到的点密度和点距离阈值来过滤排序MR的输出，得到符合要求的用户ID，这些用户ID即是聚类中心向量的ID。接着，根据这些ID在数据库中找到每个用户ID对应的有效向量（reputation，upVotes，downVotes，views）写入HDFS和本地文件。写入HDFS是为了作为分类的中心点，写入本地是为了后面查看的方便。

代码如下：

/**
	 * 根据给定的阈值寻找聚类中心向量，并写入hdfs
	 * 非MR任务，不需要监控，注意返回值
	 */
	public void center2hdfs(){
		// localfile:method
		// 1. 读取SortJob的输出，获取前面k条记录中的大于局部密度和最小距离阈值的id；
		// 2. 根据id，找到每个id对应的记录；
		// 3. 把记录转为double[] ；
		// 4. 把向量写入hdfs
		// 5. 把向量写入本地文件中，方便后面的查看
		Map<String,Object> retMap=new HashMap<String,Object>();
		
		Map<Object,Object> firstK =null;
		List<Integer> ids= null;
		List<UserData> users=null;
		try{
		firstK=HUtils.readSeq(input==null?HUtils.SORTOUTPUT+"/part-r-00000":input,
				100);// 这里默认使用	前100条记录
		ids=HUtils.getCentIds(firstK,numReducerDensity,numReducerDistance);
		// 2
		users = dBService.getTableData("UserData",ids);
		Utils.simpleLog("聚类中心向量有"+users.size()+"个！");
		// 3,4,5
		HUtils.writecenter2hdfs(users,method,output);	
		}catch(Exception e){
			e.printStackTrace();
			retMap.put("flag", "false");
			retMap.put("msg", e.getMessage());
			Utils.write2PrintWriter(JSON.toJSONString(retMap));
			return ;
		}
		retMap.put("flag", "true");
		Utils.write2PrintWriter(JSON.toJSONString(retMap));
		return ;
	}

写入HDFS和本地的聚类中心如下：

你可能感兴趣的:(Hadoop Web项目--Friend Find系统)

SpringBoot+MySQL旅游资源管理系统Java源码幽络源小助理 spring boot vue.js 后端 spring java
概述基于SpringBoot+MySQL开发的旅游资源管理系统完整源码，该系统功能完善，包含从景点管理到路线推荐的全流程解决方案，采用主流技术栈开发，代码规范易于二次开发，是学习SpringBoot项目实战的优秀范例。主要内容前台功能展示系统前台设计简洁实用，主要包含以下核心功能模块：导航菜单：首页、在线留言、公告消息、景点资讯、景点信息、酒店信息、个人中心搜索功能：支持关键词搜索旅游景点和酒店信
金融系统中常用的FIX协议 William一直在路上职业重启计划工作心得金融
一、FIX协议的产生背景与行业驱动力FIX（FinancialInformationeXchange）协议诞生于20世纪90年代初，是金融市场电子化转型的直接产物。1987年美股崩盘后，行业迫切需要减少人工交易错误，提高处理效率。1992年，由摩根士丹利、高盛等13家金融机构联合发起，旨在通过标准化电子通信协议替代传统电话和纸质单据。其核心目标包括：降低交易成本：消除人工录入和电话确认的时间与错误
图幅号管理工具：工程制图与GIS应用实践指南 Omoo
本文还有配套的精品资源，点击获取简介：图幅号工具是地理信息系统（GIS）、工程制图和测绘领域中用于管理和组织地图或地理数据的重要应用。图幅号作为标识特定地理区域的唯一编号，有助于系统化地存储、检索和分析地理信息。图幅号工具提供图幅划分、坐标转换、数据组织、图幅拼接、元数据管理、数据导入导出、地图可视化和批量处理等功能。这些功能为用户在大规模地图项目的管理和分析工作中提供了高效准确的解决方案，无论是
ARCGIS用户界面组件详解及操作指南知乎机构号团队
本文还有配套的精品资源，点击获取简介：ARCGIS是一款功能丰富的地理信息系统软件，本文详细介绍了其启动窗口、主界面以及工具条的构成和作用。启动窗口提供了快速进入工作流程的选项，主界面包括菜单栏、工具条、工作空间、属性面板、目录窗口、状态栏、布局视图和数据视图等关键部分。了解和熟悉这些界面元素，有助于用户提高工作效率，更好地利用ARCGIS解决地理信息问题。1.ArcGIS工具条概述及启动窗口Ar
ArcGIS规划符号库详解与应用指南 Neo-ke
本文还有配套的精品资源，点击获取简介：ArcGIS是一个广泛应用于地理信息系统领域的软件，规划符号库是其关键组成部分，提供标准化图形元素来绘制地图上的规划信息。符号库以SVG格式存储，支持自定义调整，便于在地图制作和空间分析中使用。本篇详解规划符号库的结构、特点以及如何导入到ArcGIS样式库中，展示如何在实际应用中提高地图表达的专业性和可视化效果。1.ArcGIS软件介绍ArcGIS，全称Arc
RabbitMQ消息队列在大数据系统中的实战应用案例 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 rabbitmq 分布式 ai
RabbitMQ消息队列在大数据系统中的实战应用案例关键词：RabbitMQ、消息队列、大数据系统、实战案例、高并发处理、分布式架构、数据管道摘要：本文深入探讨RabbitMQ消息队列在大数据系统中的核心应用场景，结合具体技术实现和实战案例，详细解析其在数据采集、实时处理、异步解耦等关键环节的技术优势。通过架构设计原理、核心算法实现、数学模型分析和项目实战，展示如何利用RabbitMQ构建高可靠、
了解 macOS 中的系统完整性保护 (SIP)：开启与关闭
在macOS系统中，有一个名为系统完整性保护(SystemIntegrityProtection，SIP)的重要功能。SIP旨在保护系统文件和进程免受未经授权的访问和修改，从而提高系统的安全性和稳定性。然而，在某些情况下，用户可能需要临时禁用SIP或将其重新启用。本文将介绍如何在macOS中开启或关闭SIP。什么是系统完整性保护(SIP)？系统完整性保护是macOS的一项安全功能，首次于macOS
《YOLO11的ONNX推理部署：多语言多架构实践指南》空云风语 YOLO 人工智能深度学习目标跟踪人工智能计算机视觉 YOLO
引言：YOLO11与ONNX的相遇在计算机视觉的广袤星空中，目标检测始终是一颗耀眼的明星，其在自动驾驶、智能安防、工业检测、医疗影像分析等诸多领域都有着举足轻重的应用。想象一下，自动驾驶汽车需要实时准确地检测出道路上的车辆、行人、交通标志；智能安防系统要快速识别出监控画面中的异常行为和可疑人员；工业生产线上，需要精准检测产品的缺陷；医疗影像分析中，辅助医生检测病变区域。这些场景都对目标检测技术的准
OneCode服务规划：基于枚举与注解的统一路径架构设计低代码老李低代码软件行业领域设计前端人工智能 spring boot
在现代企业级应用开发中，服务路径的规范化管理是系统可维护性与扩展性的关键支柱。OneCodeDSM插件通过PackagePathType枚举与@RequestMapping注解的深度结合，构建了一套语义清晰、层次分明的服务地址体系，为大型项目的服务治理提供了标准化解决方案。一、PackagePathType：语义化路径的枚举式管理PackagePathType枚举作为系统路径的单一数据源，定义了所
水利水库大坝结构安全自动化监测主要测哪些内容？深圳安锐科技有限公司自动化运维
在大坝安全自动化监测系统建设中，应根据坝型、坝体结构和地质条件等因素选定监测项目；主要监测对象包括坝体、坝基及有关的各种主要水工建筑物、大坝附近的不稳定岸坡和大坝周边的气象环境。深圳安锐科技建议参考下列表格适当调整。（一）变形监测大坝的变形监测包括水平位移（横向和纵向）、垂直位移（竖向位移）坝体及坝基倾斜、表面接缝和裂缝监测。对于土石坝除设有上述的表面变形监测项目外，还设有内部变形监测。内部变形包
提示技术系列（六）——链式提示 AIGC包拥它提示技术人工智能 prompt python langchain
什么是提示技术？提示技术是实现提示工程目标的具体技术手段，是提示工程中的“工具库”。什么又是提示工程？提示工程是指通过设计、优化和迭代输入到大语言模型（LLM）的提示（Prompt），系统性提升模型输出质量（如相关性、准确性、可控性）的实践领域。它是一个覆盖全流程的方法论，包括：明确目标任务（如生成教学内容、问答、翻译）；设计提示结构（如指令、上下文、示例）；选择模型与参数（如温度、top_p）；
解锁语聊app新生态！一站式语聊房语音直播APP源码开发搭建全解析山东布谷科技官方语聊app 语音厅语音房语音直播语聊软件
在社交娱乐数字化浪潮中，语音社交应用正以其独特的互动魅力，成为用户释放压力、结交同好的热门选择。无论是沉浸式的语音聊天，还是热闹非凡的语音直播，都吸引着大量开发者和创业者的目光。如果你也想入局语音社交领域，打造属于自己的语音房APP，那么接下来的一站式源码开发搭建全解析，将为你打开语聊房世界的大门！多端协同，夯实技术基石在开发技术层面，语聊APP源码采用了多端适配的开发策略，确保在不同设备和系统上
海内外娱乐直播源码及直播系统开发全解析山东布谷科技官方直播源码直播系统开发娱乐直播直播海外直播
在当今数字化娱乐蓬勃发展的时代，娱乐直播成为了互联网领域中极具活力的一部分。从热闹非凡的直播间，到主播与观众之间的实时互动，娱乐直播构建起了一个庞大的社交娱乐生态。这背后，娱乐直播源码及APP系统开发技术功不可没，它们如同精密的齿轮，协同运转，支撑起整个直播产业的大厦。一、技术架构基石（一）前端开发技术移动端开发：娱乐直播APP需要在不同移动设备上流畅运行，因此在移动端开发上，常采用原生开发（如i
视觉系统驱动工业变革：迁移科技赋能智能制造新时代 lingling009 数码相机
在工业自动化浪潮中，视觉系统正成为智能制造的“眼睛”，它精准捕捉细节、引导机械动作，彻底改变传统生产模式。然而，许多企业仍面临视觉方案部署复杂、回报周期长等痛点。作为行业领先的3D工业相机和3D视觉系统供应商，迁移科技（成立于2017年）通过15年技术沉淀，打造了稳定、易用、高回报的AI+3D视觉系统。我们已服务新能源、汽车、化工等众多行业，累计融资数亿元，致力于将复杂技术转化为可感知价值。本文将
【架构设计（二）】高可用、高并发的 Java 架构设计架构学院 Java成神之路-架构师进阶 java 架构开发语言
【架构设计（二）】高可用、高并发的Java架构设计在互联网业务爆发式增长的今天，高可用和高并发已成为Java系统架构设计的核心目标。本文将围绕负载均衡与高可用架构、缓存设计与优化、数据库读写分离与分库分表三大关键领域，深入剖析其原理，并结合完整的代码示例，帮助开发者构建稳定高效的系统架构。无套路、关注即可领。持续更新中关注公众号：搜【架构研究站】回复：资料领取，即可获取全部面试题以及1000+份学
佰力博科技与您探讨阻抗谱测量的基本原理和测量方法
阻抗谱测量是一种通过施加小幅度的交流信号激励，并分析被测对象在不同频率下的响应来获取阻抗信息的技术。它广泛应用于材料科学、电化学、生物医学等领域，用于表征材料或系统的电学特性、界面特性以及动力学行为。1、阻抗谱测量的基本原理阻抗谱测量的核心是通过施加一个频率可调的小幅度交流信号（如正弦波电压或电流），记录被测对象的响应信号（如电流或电压）。通过分析激励信号与响应信号之间的幅值比和相位差，可以得到频
第2期汽车模型数字工程沙龙，世冠科技分享汽车控制系统开发国产应用世冠科技科技汽车仿真系统工业软件软件工程
2025年6月30日，“汽车模型数字工程学术沙龙线上交流会”第2期完播，本期沙龙聚焦汽车领域研发前沿技术，深入探讨了车辆控制系统数字化工程的核心技术。在会上，世冠科技系统仿真应用专家以“基于模型的控制系统开发”为主题展开分享。世冠科技汽车电控系统开发领域的整体解决方案，是基于国产化工具链GCKontrol-GCAir的汽车控制系统模型驱动开发实践。该实践涵盖从单元模型建立、代码生成（C代码及Ver
Windows系统x86机器安装麒麟ARM系统(自用记录) 努力成为大牛吧 arm开发
提前说明：自己的电脑本来是双系统(linux和windows)；在windows系统下安装虚拟机，安装麒麟ARM系统。流程参考：Windows系统x86机器安装（麒麟、统信）ARM系统详细教程需要注意的是：在麒麟系统官网申请银河麒麟桌面操作系统iso文件的时候，刚开始下载的是海思麒麟8006C版，但QEMU安装界面后续没有反应；后面选择鲲鹏版，成功安装。后续问题会及时记录更新！！2025.07.0
【ubuntu】查看端口占用情况，以及系统详情 ladymorgana 日常工作总结 ubuntu linux 运维端口占用系统详情
文章目录一、ubuntu查看端口占用情况方法1：使用`netstat`命令（传统方式）方法2：使用`ss`命令（更现代的替代方案）方法3：使用`lsof`命令方法4：快速检查单个端口是否被占用方法5：使用`telnet`或`nc`测试端口连接性检查多个指定端口的脚本示例注意事项二、Ubuntu系统信息查看命令大全1.查看系统版本信息查看Ubuntu版本查看内核版本查看系统架构2.查看内存信息查看内
基于图神经网络的ALS候选药物预测模型设计与实现神经网络15044 MATLAB专栏神经网络深度学习神经网络人工智能深度学习机器学习
基于图神经网络的ALS候选药物预测模型设计与实现一、任务背景与意义肌萎缩侧索硬化症（ALS）是一种致命的神经退行性疾病，目前尚无有效治愈方法。传统药物发现流程耗时长、成本高，而人工智能技术为加速药物发现提供了新途径。本文设计并实现了一个基于图神经网络（GNN）的ALS候选药物预测模型，通过整合分子图结构信息和生物活性数据，实现对潜在治疗ALS化合物的高效筛选。二、系统架构设计
新能源汽车功率级测试自动化方案：从理论到实践的革命性突破 Loving_enjoy 计算机学科论文创新点深度学习人工智能经验分享 facebook
>在800V高压平台普及与碳化硅半导体爆发的双轮驱动下，传统测试方法正经历颠覆性变革“当我看到工程师手动记录测试数据时，就知道这个行业需要一场革命。”——某新能源车企测试总监的深夜感慨##01新能源汽车测试的痛点与变革当新能源汽车的**电驱系统功率密度突破4kW/kg**，**800V高压平台**成为行业标配，传统测试方法已无法满足产业需求。功率级测试作为三电系统验证的核心环节，正面临三大致命瓶颈
BIOS技术简介 Aspiresky 计算机体系结构
BIOS简介BIOS，基本输入输出系统，是一组固化到计算机内主板上一ROM芯片上的程序，用以保存计算机最基本的输入输出程序，并在开机后执行自检程序、初始化硬件以及加载系统引导程序等。BIOS程序由主板上一块专门的ROM芯片来保存，又叫BIOS芯片。在微机发展早期，BIOS存放在ROM中，后来存储介质经历了EPROM、EEPROM等阶段，现在大部分电脑都使用NORFlash来作为BIOS的存储芯片，
基于 Alpine 基础镜像制作 Nginx 源码编译镜像运维成长记 nginx 服务器前端
本次尝试将dockerfile的18条命令全部进行应用（非精简）大概流程和命令解释如下1.各命令说明FROM：指定基础镜像，这里使用了AlpineLinux作为基础系统LABEL：添加镜像元数据，如维护者、版本和描述ARG：定义构建时参数，可以在构建命令中通过--build-arg覆盖ENV：设置环境变量，用于后续命令和运行时RUN：执行命令，用于安装依赖和执行编译操作WORKDIR：设置工作目录
2025——》如何查看和管理系统中的DNS服务器地址？明—猿 Linux 服务器运维
要查看和管理系统中的DNS服务器地址，需根据操作系统（Windows、Linux、macOS）选择对应方法，以下是详细指南：一、查看DNS服务器地址1.Windows系统命令行方式：按Win+R打开“运行”，输入cmd回车，打开命令提示符。执行命令：ipconfig/all在输出中找到“DNS服务器”字段，显示首选DNS和备用DNS地址。图形界面方式：打开控制面板→网络和Internet→网络和共
嵌入式系统中项目开发的基本要素嵌入式开发星球单片机项目实战操作之优秀 linux 服务器
一、理解系统需求1.1与各方沟通，明确具体要求我们需与客户、项目经理、硬件工程师等相关方展开深入且细致的沟通，全方位了解项目需求。•功能需求。如智能家居系统，需涵盖灯光调控、温度调节、家电控制等多元功能；•性能需求。如同工业自动化控制系统，对实时性与稳定性要求严苛，响应时间须控制在毫秒级；•安全需求。以医疗设备为例，务必保障数据传输的保密性与完整性，防止患者信息泄露；还有特殊要求，像航空航天领域的
关于信号降噪的一些方法我不是哆啦A梦故障诊断人工智能信号处理机器学习算法
在通信系统中传输信号或在接收信号的同时，一些不需要的信号被引入到通信中，使接收机信号变差，从而影响了通信质量，一般称这些干扰称为噪声。从而，可以理解噪声是一些没有模式的信号，其特点是没有恒定的频率或振幅，且随机性强，不能完全消除。常用的信号降噪方法有以下这些：（1）滑动平均法（movingaverage）也叫做移动平均法、移动平均值滤波法等等，是一种时间域思想上的信号光滑方法。算法思路为：将该点附
深入解析C语言位域第九先生 C/C++系列 c语言开发语言
一、位域是什么？为何需要它？位域（BitField）是C语言中一种特殊的结构体成员，允许开发者以比特（bit）为单位精确分配内存空间，而非传统的字节或字。其核心价值在于：节省内存：例如布尔标志（0/1）仅需1比特，而非1字节（8比特），在嵌入式系统或海量数据场景下可显著降低内存占用硬件交互：直接映射硬件寄存器的特定位（如使能位、状态码），替代繁琐的位掩码操作协议解析：精准匹配网络/文件协议的紧凑字
python+uniapp基于微信小程序的河湟文化宣传系统nodejs+java
文章目录具体实现截图本项目![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/338cd998d059411aba7287118b685203.png)源码获取详细视频演示：文章底部获取博主联系方式！！！！本系统开发思路进度安排及各阶段主要任务java类核心代码部分展示主要参考文献：源码获取/详细视频演示##项目介绍摘要随着互联网技术的飞速发展和移动互联网的
HDFS中fsimage和edits究竟是什么清平乐的技术博客大数据运维 hdfs hadoop 大数据
fsimage和edits是HadoopHDFS(Hadoop分布式文件系统)中的两个关键组件，用于存储文件系统的元数据，以确保文件系统的持久性和一致性。在理解它们的作用之前，我们先了解一下HDFS的基本工作原理。HDFS采用了一种分布式文件系统的架构，其中数据被划分成块并分布在不同的数据节点上，而元数据(文件和目录的信息)则由单独的组件进行管理。元数据的持久性和一致性非常重要，因为文件系统的正确
协同过滤推荐算法禺垣机器学习笔记算法机器学习推荐算法算法机器学习
协同过滤（CollaborativeFiltering）是推荐系统中最经典的算法之一，其核心思想是“物以类聚，人以群分”，即通过分析用户的历史行为数据，找到与目标用户相似的用户群体或相似的物品，从而为目标用户推荐他们可能感兴趣的物品。一、基于用户的协同过滤（User-BasedCF）核心思想：找到与目标用户兴趣相似的其他用户（“邻居”），将这些邻居喜欢的物品推荐给目标用户。步骤：s1.计算用户
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多