fansy1990

基于Spark ALS在线推荐系统

所用技术：

Bootstrap、flat-ui 、 Servlet、Spark1.4.1、Hadoop2.6.0、JDK

说明：本系统不涉及ssh相关内容，只有简单的Servlet和JSP、HTML页面，系统架构相对简单。

系统部署：

1. 拷贝spark-assembly-1.4.1-hadoop2.6.0.jar到WebContent/WEB-INF/lib目录；
（spark-assembly-1.4.1-hadoop2.6.0.jar文件由原生spark-assembly-1.4.1-hadoop2.6.0.jar删除javax/servlet包获得，由于太大，所以就没有上传了）；
2. 拷贝原生spark-assembly-1.4.1-hadoop2.6.0.jar文件到HDFS（目录和代码中一致）；
3. 拷贝WebContent/WEB-INF/lib目录中的Spark141-als.jar到HDFS（目录和代码中保持一致）；
4. 拷贝Hadoop集群（调用所使用的集群，每个人不一样）配置文件yarn-site.xml到HDFS（目录和代码中保持一致）；

5. 修改相关配置文件，由于hadoop相关配置、系统的一些属性需要修改为实际的配置及属性，所以针对这些需要进行修改（后面版本中会对此单独一个配置文件），例如：

或

系统使用数据为movielens上面的数据，下载地址为：http://grouplens.org/datasets/movielens/ ，本测试使用的数据是：

可以根据自己集群的实际情况选择下载数据集的大小。

代码下载地址：https://github.com/fansy1990/movie_recommend ；

系统界面及相关功能实现

1. 系统首页

系统首页如下图所示：

首页直接使用bootstrap的tab界面，分为三栏，分别对应：首页介绍、算法调用和推荐；

2. 初始化后台任务

在启动tomcat的时候，后台会打印相关日志：

信息: Starting Servlet Engine: Apache Tomcat/7.0.52
initial begin...
2016-08-23 12:33:28,189 WARN [org.apache.hadoop.util.NativeCodeLoader] - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
2016-08-23 12:33:29,836 INFO [util.Utils] - Movies data size:3883
2016-08-23 12:33:33,638 INFO [util.Utils] - Users data size:6040
initial end!
八月 23, 2016 12:33:33 下午 org.apache.coyote.AbstractProtocol start

这里是初始化的相关打印，初始化使用InitServlet，在里面调用了Utils的init方法，init方法主要初始化了movies变量和userWithRatedMovies变量和allMovieIds变量，各个变量表示意思如下：

movies：所有的电影ID和电影所有相关信息的Map映射；
userWithRatedMovies：用户ID和当前用户所有评分过的电影ID集合的Map映射；
allMovieIds：所有电影ID的Set集合；

这里看到初始化的电影有3883个，而用户数有6040个；

3. 建模前台与后台功能实现

建模界面如下所示：

用户输入或选择对应的参数，即可点击“建模”，提交Spark ALS任务到YARN（Hadoop集群），进行算法调用。

建模流程：

用户输入相关算法参数后，点击建模；
后台RunALS Servlet获取提交的算法参数，封装Spark ALS算法，然后提交给YARN；
YARN在分配了相关资源后，会返回一个任务ID：applicationID，这时启动一个线程，专门获取该applicationId的任务进度，更新全局allAppStatus变量（Map变量），后台返回前台此applicationId；
前台获取到此applicationId后，如果获取的applicationId为Null，那么就会弹出一个模态框提示建模提交任务失败；否则，会弹出一个进度条模态框（此进度条模态框下面会有详细介绍）；
前台启动定时任务，去后台获取全局allAppStatus变量对应applicationId的状态，返回前台，更新进度条模态框对应进度；
一直到任务成功或失败，给出对应的提示；

3.1进度条模态框实现

1. 进度条模态框div定义如下：

0%

全部使用bootstrap的基本样式；

2. 弹出该模态框以及更新进度相关代码：

// 弹出窗提示程序正在运行
				setProgress("progressId", "0%");
				
				// 开启进度条模态框
				openModal("myModal1");
				
				// 定时请求任务进度
				t=setTimeout("queryTaskProgress('"+ret+"')",1000);

3.2进度条模态框效果

3.2 Eclipse提交Spark任务到YARN后台实现

提交任务参考了部分Spark源码实现，下面是代码：

1. 封装Spark ALS算法程序，准备提交任务到YARN；

String[] runArgs=new String[]{
                "--name","ALS Model Train ",
                "--class","als.ALSModelTrainer",
                "--driver-memory","512m",
                "--num-executors", "2",
                "--executor-memory", "512m",
                "--jar","hdfs://master:8020/user/root/Spark141-als.jar",//
                "--files","hdfs://master:8020/user/root/yarn-site.xml",
                "--arg",input,
                "--arg",output,
                "--arg",train_percent,
                "--arg",ranks,
                "--arg",lambda,
                "--arg",iteration
        };
		FileSystem.get(Utils.getConf()).delete(new Path(output), true);
		return Utils.runSpark(runArgs);

（注意：1. 这里的部分参数应该是需要隔离到配置文件里面的，比如--class 或--driver-memory的值等；2. 本来在allAppStatus中设置的是一个全局变量，所以我本意是可以多用户提交任务，进而监控也是分开的，但是这里会有个问题，就是模型的输出目录，这个应该是需要和用户挂钩，同时在建模的时候，每个用户的推荐也需要采用各自对应的模型，但是目前来说，这个功能有点复杂，暂时就考虑一个用户，一个模型；）

2. 提交Spark任务到YARN，同时开启对应监控，更新任务状态

/**
	 * 调用Spark 加入监控模块
	 * 
	 * @param args
	 * @return Application ID字符串
	 */
	public static String runSpark(String[] args) {
		try {
			System.setProperty("SPARK_YARN_MODE", "true");
			SparkConf sparkConf = new SparkConf();
			sparkConf.set("spark.yarn.jar", "hdfs://master:8020/user/root/spark-assembly-1.4.1-hadoop2.6.0.jar");
			sparkConf.set("spark.yarn.scheduler.heartbeat.interval-ms", "1000");

			ClientArguments cArgs = new ClientArguments(args, sparkConf);

			Client client = new Client(cArgs, getConf(), sparkConf);
			// client.run(); // 去掉此种调用方式，改为有监控的调用方式

			/**
			 * 调用Spark ，含有监控
			 */
			ApplicationId appId = null;
			try{
				appId = client.submitApplication();
			}catch(Throwable e){
				e.printStackTrace();
				//  返回null
				return null;
			}
			// 开启监控线程
			updateAppStatus(appId.toString(),"2%" );// 提交任务完成，返回2%
			log.info(allAppStatus.toString());
			new Thread(new MonitorThread(appId,client)).start();
			return appId.toString();
		} catch (Exception e) {
			e.printStackTrace();
			return null;
		}
	}

之前直接使用Client的run方法，提交任务，但是这样就获取不到applicationId，如下图

所以就去掉这种方式，参考Client中的run方法的具体实现，编写对应代码来进行任务提交；（需要注意这种提交方式，当任务失败或完成后，需要删除相关临时文件）；

后台监控：

相关代码，在更新任务状态时进行：

// 完成/ 失败/杀死
			if (state == YarnApplicationState.FINISHED || state == YarnApplicationState.FAILED
					|| state == YarnApplicationState.KILLED) {
				Utils.cleanupStagingDir(appId);
				// return (state, report.getFinalApplicationStatus);
				//  更新 app状态
				log.info("Thread:"+Thread.currentThread().getName()+
						appId.toString()+"完成，任务状态是："+state.name());
				Utils.updateAppStatus(appId.toString(), state.name());
				return;
			}

该代码在MonitorThread中；（但是，需要注意的是，如果Spark任务正在运行，那么这时关闭Tomcat，就会导致相关临时文件删除不了，为什么？请大家自己思考）

4. 推荐前台与后台功能实现

4.1 推荐页面前台

前台界面如下：

前台有两个功能，一个功能是输入用户ID，查询出当前用户ID评分过的电影信息；一个功能是根据用户ID和推荐个数，对用户进行电影推荐；

查询功能结果：

这里需要注意，评分全部为零，这个是因为在userRatedMovieIds这个变量中存储的只是用户的评分过的电影ID，并没有附加评分，所以可以在这个地方进行修改，以显示正确的电影评分（同时，这里的查询，也可以把所有信息存储在HBase中，进行查询）；

推荐功能结果：

推荐功能展示的结果，是按照推荐分降序排列的；

不管是查询还是推荐，前台直接使用一个div来接收这些信息：

接着使用AJax获取后台对应的数据进行拼接，在赋值给div：

// 绑定推荐button
	$("#recommendId").click(function(){
		var userId = $('#userId').val();
		var recommendNum = $('#recommendNumId').val();
		var ret =null;
		$.ajax({
			type : "POST",
			url : "Recommend",
			async:false,// 同步执行
			data : {userId:userId,flag:"recommend",recommendNum:recommendNum},
//			dataType : "json",
			success : function(data) {// data 返回appId
				ret = data;
			},
			error: function(data){
				console.info("error"+data);
				ret = data=="null"?"null":data;
			}
		});
		
		
		var showResultHtml = '
'+
							'数据如下：'+
							'' +
								'' +
									''+
										''+
											''+
											''+
											''+
											''+
										''+
									''+
									''+
									ret + 
									''+
								'MovieId 电影名 标签 推荐分
'+
							'';
		$('#movieResultId').html(showResultHtml);
	});

4.2 推荐页面后台

推荐页面的查询，只是简单的Map的数据获取而已；重点是推荐功能。

推荐功能最开始我想的是直接保存Spark ALS的模型，然后调用Spark ALS模型的predict（user,product），即可直接得到用户的推荐分，但是这样是不行的：

参考：http://stackoverflow.com/questions/34288435/using-java-for-running-mllib-model-with-streaming ；Spark里面的模型有些是本地的有些是分布式的，如果是分布式的，那么是不能执行类似predict操作的，而Spark ALS的模型MatrixFactorizationModel 是分布式的，所以不能够直接执行predict操作。这里同样是参考Spark的源码，来进行的。

在建模完成后，把Spark ALS模型的两个参数userFeatures、productFeatures分别存入HDFS，然后在模型推荐的时候把其加载进内存，使用userFeatures和productFeatures两个变量即可完成推荐：

/**
	 * 预测 如果没有初始化，则进行初始化
	 * 
	 * @param uid
	 * @param recNum
	 * @return
	 * @throws NoSuchMethodException 
	 * @throws InvocationTargetException 
	 * @throws InstantiationException 
	 * @throws IllegalAccessException 
	 */
	public static List predict(int uid,int recNum) throws IllegalAccessException, InstantiationException, InvocationTargetException, NoSuchMethodException {
		if (userFeatures.size() <= 0 || productFeatures.size() <= 0) {
			try {
				userFeatures = getModelFeatures(userFeaturePath);
				productFeatures = getModelFeatures(productFeaturePath);
			} catch (IOException e) {
				return null;
			}
			if (userFeatures.size() <= 0 || productFeatures.size() <= 0) {
				System.err.println("模型加载失败!");
				return null;
			}
		}

		// 使用模型进行预测
		// 1. 找到uid没有评价过的movieIds
		Set candidates = Sets.difference((Set) allMovieIds, userWithRatedMovies.get(uid));

		// 2. 构造推荐排序堆栈
		FixSizePriorityQueue recommend = new FixSizePriorityQueue(recNum);
		Movie movie = null;
		double[] pFeature = null;
		double[] uFeature = userFeatures.get(uid);
		double score = 0.0;
		BLAS blas = BLAS.getInstance();
		for (int candidate : candidates) {
			movie = movies.get(candidate).deepCopy();
			pFeature = productFeatures.get(candidate);
			if (pFeature == null)
				continue;
			score = blas.ddot(pFeature.length, uFeature, 1, pFeature, 1);
			movie.setRated((float) score);
			recommend.add(movie);
		}

		return recommend.sortedList();
	}

中间的score= blas.ddot就是计算推荐分的；

总结

1. 基本完成相关推荐系统功能；

2. 相关参数需要额外添加配置文件，而不是直接硬编码到代码中；

3. 推荐只能针对已经存在的用，不能进行匿名推荐（同时使用SPark ALS模型推荐的结果基本一样，这个是Spark的bug？还是调用哪里有问题？）；

4. 添加多用户调用支持；

5. 查询用户评分过的功能完善（对应评分获取）；

分享，成长，快乐

脚踏实地，专注

转载请注明blog地址：http://blog.csdn.net/fansy1990

推荐系统中的归因分析 liliangcsdn 人工智能大数据
推荐系统中，归因分析(AttributionAnalysis)分析用户完成转化前到底是哪个渠道最起决定性作用。参考网络相关资料，常用的用户转化归因分析模型有如下6种，现收录参阅。1）最后点击归因转化全部归因于用户转化前最后一次点击的渠道。用户8月1日小红书种草，8月5日搜索官网，8月10日淘宝广告点击并完成下单。“最后点击归因”将此次转化归于淘宝广告，适用电商促销季投放归因。2）首次点击归因转化价
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
2025年人工智能、虚拟现实与交互设计国际学术会议学术小八学术人工智能 vr 交互
重要信息官网：www.aivrid.com时间：2025年10月17-19日地点：中国-东莞部分介绍征稿主题包括但不限于：生物特征模式识别机器视觉专家系统深度学习智能搜索自动编程智能控制智能机器人系统组件虚拟现实平台用于VR/AR的AI平台数据和生成、操作、分析和验证浸入式环境和虚拟世界的生成优化和现实的渲染人工智能与用户体验个性化推荐系统情感计算与用户响应虚拟现实与沉浸式技术沉浸式环境设计交互设
时尚搭配助手，深度解析用Keras构建智能穿搭推荐系统忆愿高质量领域文章 keras 人工智能深度学习机器学习 python
文章目录引言：当算法遇见时尚第一章数据工程：时尚系统的基石1.1数据获取的多元化途径1.2数据预处理全流程1.2.1图像标准化与增强1.2.2多模态数据处理第二章模型架构设计：从分类到推荐2.1基础CNN模型（图像分类）2.2多任务学习模型（属性联合预测）第三章推荐算法核心3.1协同过滤与内容推荐的融合第四章系统优化4.1注意力机制应用第五章实战演练5.2实时推荐API实现第六章前沿探索：时尚AI
Shusen Wang推荐系统学习 --召回 ItemCF 我.佛.糍.粑学习深度学习人工智能推荐算法
学习b站up主ShusenWang的推荐系统基于物品的协同过滤（ItrmCF）中心思想就是，如果你喜欢a，b，c三件商品，d商品与abc相似，那么你也可能喜欢d商品对此就要计算物品的相似程度物品相似度物品相似度的思想是，一个物品的相同用户很多就意味着这两件物品是相似的sim(i1,i2):=∣V∣∣W1∣∣W2∣sim(i_{1},i_{2}):={\frac{\big|\mathcal{V}\b
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
知识图谱系列（2）：知识图谱的技术架构与组成要素程序员查理 #知识图谱知识图谱架构人工智能 AI Agent RAG
1.引言知识图谱作为一种强大的知识表示和组织方式，已经在搜索引擎、推荐系统、智能问答等多个领域展现出巨大的价值。在之前的上一篇文章中，我们介绍了知识图谱的基础概念与发展历程，了解了知识图谱的定义、核心特征、发展历史以及在AI发展中的地位与作用。要深入理解和应用知识图谱，我们需要进一步探索其内部的技术架构和组成要素。知识图谱不仅仅是一个简单的数据结构，而是一个复杂的技术体系，涉及知识的表示、存储、查
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Spark运行架构 EmoGP Spark spark 架构大数据
Spark框架的核心是一个计算引擎，整体来说，它采用了标准master-slave的结构如下图所示，它展示了一个Spark执行时的基本结构，图形中的Driver表示master，负责管理整个集群中的作业任务调度，图形中的Executor则是slave，负责实际执行任务。由上图可以看出，对于Spark框架有两个核心组件：DriverSpark驱动器节点，用于执行Spark任务中的main方法，负
Spark 各种配置项 zhixingheyi_tian 大数据 spark Spark Conf spark jvm java
/bin/spark-shell--masteryarn--deploy-modeclient/bin/spark-shell--masteryarn--deploy-modeclusterTherearetwodeploymodesthatcanbeusedtolaunchSparkapplicationsonYARN.Inclustermode,theSparkdriverrunsinside
光宝LTR-381RGB-01 RGB颜色传感器全面解析：技术优势与应用案例深圳市尚想信息技术有限公司人工智能颜色传感器光宝
光宝LTR-381RGB-01RGB颜色传感器LTR-381RGB-01是光宝(LITEON)推出的一款高性能集成式颜色传感器，集环境光传感(ALS)和RGB颜色传感(CS)功能于一体。这款超小型传感器采用2x2mm微型封装，通过I2C接口输出数字信号，广泛应用于消费电子、智能硬件和工业领域。本文将全面介绍该传感器的最新资料、技术特点、国内外应用案例以及与同类产品相比的突出优势，为工程师和采购决策
Python在人工智能领域的实际应用：示例代码解析辣条yyds python python 人工智能开发语言
摘要：本文将通过几个典型的人工智能应用场景，展示Python在图像识别、自然语言处理、推荐系统等方面的高级用法。通过示例代码，带大家深入理解Python在人工智能领域的实际应用。正文：Python作为一门流行的编程语言，凭借其简洁的语法、丰富的库和框架，成为了人工智能（AI）领域的主流开发语言。下面，我们将通过几个示例，探讨Python在人工智能方向的实际应用。示例一：图像识别-使用OpenCV进
Python 机器学习实战：Scikit-learn 算法宝典，从线性回归到支持向量机清水白石008 python Python题库 python 机器学习算法
Python机器学习实战：Scikit-learn算法宝典，从线性回归到支持向量机引言各位Python工程师，大家好！欢迎来到激动人心的机器学习世界！在这个数据驱动的时代，机器学习已经渗透到我们生活的方方面面，从智能推荐系统到自动驾驶汽车，都离不开机器学习技术的支撑。作为一名Python开发者，掌握机器学习技能，无疑将为您的职业发展注入强大的动力，让您在人工智能浪潮中占据先机。Scikit-lea
Spark RDD 及性能调优 Aurora_NeAr spark wpf c#
RDDProgrammingRDD核心架构与特性分区（Partitions）：数据被切分为多个分区；每个分区在集群节点上独立处理；分区是并行计算的基本单位。计算函数（ComputeFunction）：每个分区应用相同的转换函数；惰性执行机制。依赖关系（Dependencies）窄依赖：1个父分区→1个子分区（map、filter）。宽依赖：1个父分区→多个子分区（groupByKey、join）。
Apache Iceberg数据湖基础 Aurora_NeAr apache
IntroducingApacheIceberg数据湖的演进与挑战传统数据湖（Hive表格式）的缺陷：分区锁定：查询必须显式指定分区字段（如WHEREdt='2025-07-01'）。无原子性：并发写入导致数据覆盖或部分可见。低效元数据：LIST操作扫描全部分区目录（云存储成本高）。Iceberg的革新目标：解耦计算引擎与存储格式（支持Spark/Flink/Trino等）；提供ACID事务、模式
LSA主题模型：基于奇异值分解的主题模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LSA主题模型：基于奇异值分解的主题模型1.背景介绍主题模型是一种无监督的机器学习技术，用于发现大规模文本语料库中隐藏的语义结构。它能够自动识别文档集合中的主题，并根据这些主题对文档进行聚类和分类。主题模型在文本挖掘、信息检索、推荐系统等领域有着广泛的应用。LSA（LatentSemanticAnalysis）是一种经典的主题模型算法，基于奇异值分解（SVD）对词-文档矩阵进行分解，从而揭示词语和
YARN container cpu超核如何解决 fzip YARN 超核
在ApacheHadoopYARN中，ContainerCPU超核（即Container使用的CPU资源超过分配量）是一个常见问题，可能导致集群性能下降或不稳定。以下是解决该问题的详细步骤：1.问题诊断1.1确认超核现象查看YARNWebUI：访问http://:8088，检查Container的CPU使用率是否持续超过分配的vCore数。检查NodeManager日志：查看/var/log/ha
Hadoop-Mapreduce入门
Hadoop-Mapreduce入门MapReduce介绍mapreduce设计MapReduce编程规范入门案例WordCountMapReduce介绍MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。知识。Map负责“分”，把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Redu
Hadoop MapReduce入门且行且安~ 数据分析进阶之路 Linux命令 hadoop MapReduce入门
入门简介计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总针对python语言来说：map函数或者reduce函数来说，输出的数据格式为元组tuple一个简单的MapReduce程序只需要指定map()reduce()input()output()剩下的由框架完成。Linux常见命令：-读取文件（文本文件，在Windows下使用记事本打开的文件）
Hadoop MapReduce 入门
一、Hadoop3.0.4环境准备1.环境要求Java8（Hadoop3.0.4不支持Java11+）单节点或多节点Linux系统（推荐Ubuntu18.04+）至少4GB内存（建议8GB+）50GB以上磁盘空间2.安装Java#安装Java8sudoapt-getinstallopenjdk-8-jdk#验证安装java-version3.下载与安装Hadoop3.0.4#下载Hadoop3.0
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
基于python+flask框架的某图书馆书籍推荐系统的设计与实现（开题+程序+论文）计算机毕设 zhihao502 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景在数字化时代，图书馆作为知识传播与积累的重要场所，面临着如何更有效地服务于广大读者的挑战。随着信息量的爆炸式增长，读者在浩瀚的书海中寻找符合个人兴趣和需求的书籍变得日益困难。传统的图书检索方式已难以满足读者快速、精准获取推荐书籍的需求。因此，开发一套智能化的图书馆
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr