基于 Apache Mahout 构建社会化推荐引擎

来源：http://www.ibm.com/developerworks/cn/java/j-lo-mahout/index.html

Apache Mahout 简介

Apache Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等，并且，在 Mahout 的最近版本中还加入了对 Apache Hadoop 的支持，使这些算法可以更高效的运行在云计算环境中。

Taste 简介

Taste 是 Apache Mahout 提供的一个协同过滤算法的高效实现，它是一个基于 Java 实现的可扩展的，高效的推荐引擎。Taste 既实现了最基本的基于用户的和基于内容的推荐算法，同时也提供了扩展接口，使用户可以方便的定义和实现自己的推荐算法。同时，Taste 不仅仅只适用于 Java 应用程序，它可以作为内部服务器的一个组件以 HTTP 和 Web Service 的形式向外界提供推荐的逻辑。Taste 的设计使它能满足企业对推荐引擎在性能、灵活性和可扩展性等方面的要求。

Taste 工作原理

图 1. Taste 的主要组件图

基于 Apache Mahout 构建社会化推荐引擎

Taste 由以下五个主要的组件组成：

DataModel：DataModel 是用户喜好信息的抽象接口，它的具体实现支持从任意类型的数据源抽取用户喜好信息。Taste 默认提供 JDBCDataModel 和 FileDataModel，分别支持从数据库和文件中读取用户的喜好信息。
UserSimilarity 和 ItemSimilarity：UserSimilarity 用于定义两个用户间的相似度，它是基于协同过滤的推荐引擎的核心部分，可以用来计算用户的“邻居”，这里我们将与当前用户口味相似的用户称为他的邻居。 ItemSimilarity 类似的，计算内容之间的相似度。
UserNeighborhood：用于基于用户相似度的推荐方法中，推荐的内容是基于找到与当前用户喜好相似的“邻居用户”的方式产生的。UserNeighborhood 定义了确定邻居用户的方法，具体实现一般是基于 UserSimilarity 计算得到的。
Recommender：Recommender 是推荐引擎的抽象接口，Taste 中的核心组件。程序中，为它提供一个 DataModel，它可以计算出对不同用户的推荐内容。实际应用中，主要使用它的实现类 GenericUserBasedRecommender 或者 GenericItemBasedRecommender，分别实现基于用户相似度的推荐引擎或者基于内容的推荐引擎。

Taste 的安装与简单的 Demo 实现

安装 Taste 的软件需求：

如果需要 build 源代码或者例子，需要 Apache Ant 1.5+ 或 Apache Maven 2.0.10+。
Taste 应用程序需要 Servlet 2.3+容器，例如 Jakarta Tomcat。
Taste 中的 MySQLJDBCDataModel 实现需要 MySQL 4.x+数据库。

安装 Taste 并运行 Demo：

从 SVN 或是下载压缩包得到 Apache Mahout 的发布版本：
- 从 SVN获得；
- 下载压缩包；
从 Grouplens 下载数据源："1 Million MovieLens Dataset"。
解压数据源压缩包，将 movie.dat 和 ratings.dat 拷贝到 Mahout 安装目录下的 taste-web/src/ main/resources/org/apache/mahout/cf/taste/example/grouplens 目录下。
回到在 core 目录下，运行"mvn install"，将 Mahout core 安装在本地库中。
进入 taste-web, 拷贝 ../examples/target/grouplens.jar 到 taste-web/lib 目录
编辑 taste-web/recommender.properties，将 recommender.class 设置为 org.apache.mahout. cf.taste.example.grouplens.GroupLensRecommender。
在 Mahout 的安装目录下，运行"mvn package"。
运行“mvn jetty:run-war”。这里需要将 Maven 的最大内存设置为 1024M，MAVEN_OPTS=-Xmx1024M。如果需要在 Tomcat 下运行，可以在执行"mvn package"后，将 taste-web/target 目录下生成的 war 包拷贝到 Tomcat 的 webapp 下，同时也需要将 Java 的最大内存设置为 1024M，JAVA_OPTS=-Xmx1024M，然后启动 Tomcat。
访问“http://localhost:8080 /[your_app]/RecommenderServlet?userID=1”，得到系统为编号为 1 的用户的推荐内容。参看图 2，Taste demo 运行结果界面，每一行第一项是推荐引擎预测的评分，第二项是电影的编号。
同时，Taste 还提供 Web 服务访问接口，通过以下 URL 访问：
http://localhost:8080/[your_app]/RecommenderService.jws

WSDL 文件：http://localhost:8080/[your_app]/RecommenderService.jws?wsdl

也可以通过简单的 HTTP 请求调用这个 Web 服务：

http://localhost:8080/[your_app]/RecommenderService.jws? method=recommend&userID=1&howMany=10

图 2. Taste Demo 运行结果界面

基于 Apache Mahout 构建社会化推荐引擎

使用 Taste 构建推荐引擎实例 – 电影推荐引擎

根据上面的步骤，我们可以得到一个简单的推荐引擎 demo 环境，下面介绍如何使用 Taste 方便地构建自定义的推荐引擎。

抽取 Taste 工具包

直接使用 Mahout 的项目环境进行编码，需要使用 Ant 或者 Maven 进行编译，整个过程比较复杂，这里我们将构建推荐引擎所需要的工具包从 Mahout 工程中抽取出来，从而方便的构建自定义的推荐引擎。

在 Eclipse 中创建 Web 应用的工程 MovieSite，将 demo 时生成的推荐引擎 Web 应用的 war 包解压缩，将 lib 下的 jar 文件拷贝到 MovieSite 的 lib 目录下。这样我们就可以方便的编写自己的推荐引擎。

图 3. MovieSite 工程中引用的 jar 文件

基于 Apache Mahout 构建社会化推荐引擎

数据建模

这里我们想要编写一个电影推荐引擎，第一步需要对数据进行建模，分析应用中涉及的主要实体以及实体间的关系，从而设计数据库存储，程序中的类，以及推荐引擎的 DataModel。

图 4 电影和用户信息数据模型

基于 Apache Mahout 构建社会化推荐引擎

数据模型中存在以下实体：

Movie：表示电影，包含电影的基本信息：编号、名称、发布时间、类型等等。
User：表示用户，包含用户的基本信息：编号、姓名、邮件等等。
Movie Reference：表示某个用户对某个电影的喜好程度，包含用户编号、电影编号、用户的评分以及评分的时间。
Movie Similarity：表示两个电影的相似度（这里的相似度是双向的），包括两个电影编号、电影的相似度。两个电影的相似度可以通过电影的基本信息计算得到。

下面我们就基于这个数据模型设计数据库的存储以及推荐引擎的 DataModel。

1 ．创建 MySQL 数据库存储电影和用户的信息，用户的喜好信息以及电影的相似度。

清单 1. 创建数据库 SQL

 CREATE DATABASE movie; 

 USE movie; 

 CREATE TABLE movies (  // 保存电影相关的信息。

    id INTEGER NOT NULL AUTO_INCREMENT, 

    name varchar(100) NOT NULL, 

    published_year varchar(4) default NULL, 

    type varchar(100) default NULL, 

 --    ...more movie information... 

    PRIMARY KEY (id) 

 ); 



 CREATE TABLE users (  // 保存用户信息

    id INTEGER NOT NULL AUTO_INCREMENT, 

    name varchar(50) NOT NULL, 

    email varchar(100) default NULL, 

 --    ...more user information... 

    PRIMARY KEY (id) 

 ); 



 CREATE TABLE movie_preferences (  // 保存用户对电影的评分，即喜好程度

    userID INTEGER NOT NULL, 

    movieID INTEGER NOT NULL, 

    preference INTEGER NOT NULL DEFAULT 0, 

    timestamp INTEGER not null default 0, 

    FOREIGN KEY (userID) REFERENCES users(id) ON DELETE CASCADE, 

    FOREIGN KEY (movieID) REFERENCES movies(id) ON DELETE CASCADE 

 ); 



 CREATE TABLE movie_similarity (   // 保存电影和电影的相似程度

    movieID1 INTEGER NOT NULL, 

    movieID2 INTEGER NOT NULL, 

    similarity DOUBLE NOT NULL DEFAULT 0, 

    FOREIGN KEY (movieID1) REFERENCES movies(id) ON DELETE CASCADE, 

    FOREIGN KEY (movieID2) REFERENCES movies(id) ON DELETE CASCADE 

 ); 



 CREATE INDEX movie_preferences_index1 ON movie_preferences ( userID , movieID ); 

 CREATE INDEX movie_preferences_index2 ON movie_preferences ( userID ); 

 CREATE INDEX movie_preferences_index3 ON movie_preferences ( movieID );

在实际应用中，我们需要将应用中的实例数据写入到数据库中。作为例子，这里将从 GroupLen 下载的数据源写入数据库。

设计实现推荐引擎的 DataModel。

由于上面采用数据库存储用户的喜好信息，这里需要基于数据库的推荐引擎实现。这里扩展 MySQLJDBCDataModel 实现电影推荐引擎的 DataModel 实例。

清单 2. Taste DataModel 的实现

public class MovieDataModel extends MySQLJDBCDataModel { 



    // 保存用户对电影的评分的数据库表名

    public final static String PERFERENCETABLE = "movie_preferences";  

    public final static String USERID_COLUMN = "userID";   // 表中用户标识的列名

    public final static String ITEMID_COLUMN = "movieID";  // 表中电影标识的列名

    public final static String PERFERENCE_COLUMN = "preference";  // 表中评分的列名



    public MovieDataModel(String dataSourceName) throws TasteException {         

        super(lookupDataSource(dataSourceName), PERFERENCETABLE, USERID_COLUMN, 

            ITEMID_COLUMN, PERFERENCE_COLUMN); 

    } 



    public MovieDataModel() { 

        //DBUtil.getDataSource() 将返回应用的数据源

        // 此应用是 J2EE 应用，所以这里会采用 JDNI 的方式创建数据库链接。

        super(DBUtil.getDataSource(), PERFERENCETABLE, USERID_COLUMN, 

            ITEMID_COLUMN, PERFERENCE_COLUMN); 

    } 

 }

用户界面展示

实现一个推荐引擎的最后一步就是编写客户端代码，为电影推荐引擎提供一个友好的用户界面。下面展示一下我们为电影推荐引擎写的一个简单的用户界面：右边红色框中的是该用户已经打分的电影列表，左边蓝色框中是推荐引擎为用户推荐的电影列表。

首先，展示一下基于用户的推荐引擎的推荐结果，推荐引擎会根据用户已打分的电影找到用户的“邻居”，将“邻居”们比较喜欢的电影推荐给当前用户。

图 5. 基于用户的推荐结果（查看大图）

基于 Apache Mahout 构建社会化推荐引擎

其次，图 6 展示了基于内容的推荐引擎的推荐结果，推荐引擎会根据用户已打分的电影找到相似的电影，推荐给当前用户。

图 6. 基于内容的推荐结果（查看大图）

基于 Apache Mahout 构建社会化推荐引擎

最后，展示 SlopeOne 推荐引擎的推荐结果，这种推荐引擎计算速度较快，效果很好，是一种非常快速简单的基于项目的推荐方法。

图 7. SlopeOne 实现的推荐结果（查看大图）

基于 Apache Mahout 构建社会化推荐引擎

总结

目前几乎所有大型的电子商务系统，都不同程度地使用了各种形式的推荐引擎。推荐技术的使用，不仅大大的提高了用户购物的体验，增加了用户的粘着度，而且电子商务公司也由于推荐系统的应用而大大的提高了交叉销售的可能，从而大大的提高了营业额。今天，你有自己的商品推荐系统么？

借鉴于电子商务的成功经验，我们可以把推荐技术应用到其他的领域。像我们在文章中所演示的那样，你可以创建一个电影的推荐引擎。如果你是一个 blogger，那么你可以创建一个博客的推荐引擎，如果你是一个新闻提供商，你可以使用推荐技术为不同的用户推荐它可能关心的新闻，等等。

今天，你推荐了么？

你可能感兴趣的:(apache)

CDH大数据平台梦龙zmc 大数据大数据
CDH概念CDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的核心元素-可伸缩存储和分布式计算-以及基于web的用户界面和重要的企业功能。CDH是Apache许可的开放源码，是唯一
Spring Boot集成RocketMQ实现分布式事务 missterzy 分布式与微服务消息队列（MQ）java-rocketmq spring boot rocketmq
RocketMQ是由阿里巴巴集团开发的一款高性能、高可靠、分布式的开源消息中间件，它在2012年对外开源，并于2016年捐赠给Apache软件基金会，随后在2017年成为了Apache的顶级项目。RocketMQ的设计旨在满足互联网业务场景中的海量消息传递需求，尤其擅长处理高并发、大数据量以及实时计算场景。主要特点和功能包括：1.分布式架构：RocketMQ采用了分布式部署架构，允许生产者、消费者
Maven修改默认编码格式UTF-8 程柯梦想 maven java
文章目录查看当前编码格式修改编码格式查看修改后编码查看当前编码格式cmd命令C:\Users>mvn-vApacheMaven3.9.9(8e8579a9e76f7d015ee5ec7bfcdc97d260186937)Mavenhome:D:\develop\apache-maven-3.9.9Javaversion:1.8.0_421,vendor:OracleCorporation,runt
Kafka 原理深入解析啥子都不会吖分布式 kafka 分布式
1.Kafka简介ApacheKafka是一个分布式流处理平台，由LinkedIn开发并于2011年开源，后成为Apache软件基金会的顶级项目。核心概念Topic：主题，是消息分类的逻辑概念，生产者将消息发送到特定的Topic，消费者从Topic中订阅消息。Partition：分区，每个Topic可以被划分为多个Partition，每个Partition是一个有序的队列。Broker：Kafka
springboot实现webservice的发布和调用梦星剑魂 springboot mvc java spring
springboot使用cxf发布调用webservice发布webservicepom文件org.apache.cxfcxf-spring-boot-starter-jaxws3.2.5webservice接口packagecom.example.webservicedemo.fabu;importjavax.jws.WebMethod;importjavax.jws.WebParam;impo
用 Java 的思路快速学习 Scala 进朱者赤其他大数据 scala Scala
引言Scala是一种结合了面向对象和函数式编程的现代编程语言，广泛应用于大数据处理框架如ApacheSpark和ApacheFlink。对于熟悉Java的开发者来说，Scala的学习曲线相对平缓。本文将通过类比Java中的概念，帮助Java开发者快速上手Scala。1.基本语法1.1.数据类型以下是Scala和Java数据类型的汇总表格：Scala数据类型Java数据类型说明Intint32位整数
Spring Boot 3.4 正式发布，结构化日志！ m0_74823264 面试学习路线阿里巴巴 spring boot 后端 java
1从SpringBoot3.3升级到3.41.1RestClient和RestTemplate新增对RestClient和RestTemplate自动配置的支持，可用ReactorNetty的HttpClient或JDK的HttpClient。支持的客户端优先级：ApacheHTTPComponents(HttpComponentsClientHttpRequestFactory)JettyCli
小米Vela操作系统开源：AIoT时代的全新引擎 lilu8888888 开源前端
小米近日正式开源了其物联网嵌入式软件平台——Vela操作系统，并将其命名为OpenVela。这一举动在AIoT（人工智能物联网）领域掀起了不小的波澜，也为开发者们提供了一个强大的AI代码生成器和开发平台。OpenVela项目源代码已托管至GitHub和Gitee，采用Apache2.0开源协议，这意味着全球开发者都可以参与其中，共同推动物联网技术的进步。……Vela操作系统基于开源实时操作系统Nu
Java 生成 PDF 文档如此简单五行星辰业务系统应用技术 pdf java maven
嘿，朋友！在Java里实现PDF文档生成那可真是个挺有意思的事儿，今儿个就来好好唠唠这个。咱有不少好用的库可以选择，下面就给你详细讲讲其中两个超实用的库，一个是iText，另一个是ApachePDFBox。用iText库生成PDF思路先把iText库给引入进来，这就好比给咱的Java项目装上了一个生成PDF的“神器”。创建一个Document对象，这个对象就像是一张白纸，咱要在上面绘制PDF的内容
Linux搭建wordpress 长江空自流 vps linux wordpress 安装
Linux搭建wordpress一、环境vps：Centos6x86minimal512ram小内存xshell5：ssh远程连接主机首先搭建lamp环境（linuxapachemysqlphp或python等）二、apache1安装yuminstallhttpd2启动apacheservicehttpdstart直接在浏览器中输入IP地址，应该就可以访问到Apache的欢迎页面了三、mysql1
参加【2025年春季】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽子凯哥 web安全学习安全 CTF夺旗赛网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
Apache Doris主要应用场景和一些实际案例临水逸 apache
ApacheDoris是一个现代化的分布式分析型数据库，具备高性能、实时性和高并发性等特点，被广泛应用于多种场景。以下是Doris的主要应用场景和一些实际案例。应用场景1.实时数据分析数据流处理：Doris可以实时ingest（引入）和分析数据流，适用于监控系统、实时用户行为分析等场景。实时仪表盘：Doris适用于构建实时可视化仪表盘，为运营和业务决策提供实时数据支持。2.数据仓库OLAP（在线分
SkyWalking 小馋喵知识杂货铺性能 skywalking
SkyWalking是一款开源的APM（ApplicationPerformanceManagement）工具，主要用于监控、追踪和诊断微服务架构中的应用性能。它支持多种语言，包括Java、Go、Node.js、Python等，能够提供强大的分布式追踪、日志分析、性能监控等功能，是微服务和云原生架构中重要的性能管理工具之一。SkyWalking最初由ApacheSoftwareFoundation
【Flink 实战系列】Flink CDC 实时同步 Mysql 全量加增量数据到 Hudi JasonLee实时计算 Flink 实战系列 hbase spark 大数据
【Flink实战系列】FlinkCDC实时同步Mysql全量加增量数据到Hudi前言FlinkCDC是基于Flink开发的变化数据获取组件（Changedatacapture），简单的说就是来捕获变更的数据，ApacheHudi是一个数据湖平台，又支持对数据做增删改查操作，所以FlinkCDC可以很好的和Hudi结合起来，打造实时数仓，实时湖仓一体的架构，下面就来演示一下同步的过程。环境组件版本F
SSM项目中的Tomcat配置详细教学及启动失败原因总结高危型 tomcat java
一个小学弟找到我说ssm项目不会配tomcat，老出问题，记录一下。为了成功启动一个SSM项目，正确配置Tomcat是至关重要的一步。介绍SSM项目中Tomcat的配置步骤，并总结一些常见的启动失败原因及解决方法，帮助·同学们方便应对课程设计一、Tomcat配置详细教学1.1安装和配置Tomcat1.1.1下载和安装Tomcat下载Tomcat：访问ApacheTomcat官网，下载适合你系统版本
SpringBoot项目修改内置tomcat版本 egegerhn java java 后端
覆盖掉tomcat版本8.5.51org.apache.tomcat.embedtomcat-embed-core${tomcat.version}org.apache.tomcattomcat-juli${tomcat.version}忽略掉spring-boot-starter-web里的tomcatorg.springframework.bootspring-boot-starter-web
Nginx介绍和入门学习 _Eden_ nginx 学习运维
一、Nginx介绍1.nginx是什么？毋庸置疑它是一个web服务器，类似的，apache、lighttpd、tomcat、jetty、IIS都是web服务器。它们都具有web服务器的基本功能：基于rest架构风格，以同意资源描述符或者统一资源定位符作为沟通的依据，通过http为浏览器邓客户端提供各种网络服务。对于上述所提到的web服务器，分别具有各自的特点和弊端例如，tomcat和jetty都是
LNMP——搭建论坛（Linux、Nginx、Mysql、PHP） ML908 Web服务器群集 LNMP discuz
LNMP指的是一个基于CentOS/Debian编写的Nginx、Linux、MySQL、PHP,可以在独立主机上轻松的安装LNMP生产环境。此次我们使用LNMP框架部署Discuz!社区论坛应用。Nginx安装Nginx作为Web服务器。相比Apache,Nginx使用更少的资源，支持更多的并发连接，体现更高的效率。Nginx作为负载均衡服务器:Nginx既可以在内部直接支持Rails和PHP,
面向 Data+AI 的统一数据目录探索 | Data Infra NO.22 回顾（含资料发布）数据库
随着生成式人工智能（GenerativeAI）的崛起，从图像生成、自然语言处理到个性化推荐系统，生成式AI技术正迅速改变着各行各业的面貌。而在这场变革背后，数据的管理和治理显得尤为重要。对于企业来说，数据不仅是基础资源，更是构建AI应用和增强业务能力的关键。ApacheGravitino（incubating）与Databend作为数据领域两个知名的开源项目，正通过各自的创新技术和实践，为数据管理
CDP中的Hive3之Apache Hive3特性对许 #Hive #Spark hive cdp
CDP中的Hive3之ApacheHive3特性1、ApacheHive3特性2、Hive不支持的接口和功能3、HiveonTez简介4、ApacheHive3架构概述CDP中采用的是ApacheHive3版本，相比Hive1/2，该版本在事务和安全性等方面有重大改进，了解这些版本之间的主要差异对于SQL用户至关重要，包括使用ApacheSpark和ApacheImpala的用户1、ApacheH
debian php安装,如何在Debian 9上安装PHP 第四根肋骨 debian php安装
装有PHP7.0版的Debian9即将终止支持，并且不再收到安全更新。在本教程中，我们将引导您完成在Debian9服务器上安装PHP7.2的步骤。我们还将向您展示如何配置Apache和Nginx以运行PHP。先决条件在Debian9上安装PHP7.2以下步骤描述了如何使用OndrejSury存储库安装PHP7.2。首先，更新apt软件包列表并安装必要的依赖项，以通过HTTPS添加新存储库：sudo
Linux系统下minio设置SSL证书进行HTTPS远程连接访问薄荷街的兔比先生 linux ssl https
文章目录1.配置SSL证书使用HTTPS访问2.MINIOSDK忽略证书验证3.使用受信任的证书1.配置SSL证书使用HTTPS访问生成域名对应的SSL证书，下载Apache版本，我目前只发现Apache这个里面有对应的私钥和证书私钥重命名为private.key证书重命名为public.crt，不更改为指定格式则会无法被识别。将公钥和证书放入root/.minio/certs文件夹中，此文件夹安
RocketMQ介绍与应用场景我心向阳iu #RocketMQ Java面试知识点精讲 java-rocketmq rocketmq java
文章目录1.RocketMQ介绍1.1RocketMQ介绍1.2MQ的主要应用场景1.3MQ的应用场景举例1、限流削峰1、任务异步处理。3、应用程序解耦合4、日志收集：1.4消息队列技术选型对比1.3.1主流消息队列优缺点比较1.RocketMQ介绍1.1RocketMQ介绍RocketMQ是阿里开源的一款非常优秀中间件产品，脱胎于阿里的另一款队列技术MetaQ，后捐赠给Apache基金会作为一款
CentOS8下安装wget、wget2 奔跑吧邓邓子高效运维 linux centos wget wget2
提示：“奔跑吧邓邓子”的高效运维专栏聚焦于各类运维场景中的实际操作与问题解决。内容涵盖服务器硬件（如IBMSystem3650M5）、云服务平台（如腾讯云、华为云）、服务器软件（如Nginx、Apache、GitLab、Redis、Elasticsearch、Kubernetes、Docker等）、开发工具（如Git、HBuilder）以及网络安全（如挖矿病毒排查、SSL证书配置）等多个方面。无论
tomcat配置存放静态资源，实现网页访问并下载 qq_40711092 tomcat java
配置server.xml在server.xml文件中的Host标签下嵌入一个Context标签，path是映射的web路径，doBase是本地磁盘的物理路径。-->-->设置tomcat允许访问静态文件夹，修改web.xml文件中如下图位置将false修改为truedefaultorg.apache.catalina.servlets.DefaultServletdebug0listingstru
Flink系列-2、Flink架构体系技术武器库大数据专栏 flink 架构 jvm
版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。大数据系列文章目录官方网址：https://flink.apache.org/学习资料：https://flink-learning.org.cn/目录Flink中的重要角⾊Flink数据流编程模型Libraries支持Flink集群搭建Local本地模式（开发测试）Standalone-伪分布环境（开
Kafka 迁移 AutoMQ 时 Flink 位点管理的挑战与解决方案 AutoMQ 云计算云原生 Kafka 消息计算大数据 AWS AutoMQ 阿里云腾讯云 GCP
编辑导读：AutoMQ是一款与ApacheKafka100%完全兼容的新一代Kafka，可以做到至多10倍的成本降低和极速的弹性。凭借其与Kafka的完全兼容性可以与用户已有的Flink等大数据基础设施进行轻松整合。Flink是重要的流处理引擎，与Kafka有着密切的关系。本文重点介绍了当用户需要将生产Kafka集群迁移到AutoMQ时，如何处理好Flink的位点来确保整体迁移的平滑过渡。引言在云
RocketMQ源码之消息刷盘分析小虾米 ~ RocketMQ rocketmq
前言刷盘是将内存中的消息写入磁盘，分为同步刷盘和异步刷盘。同步刷盘指一条消息写入磁盘才返回成功，异步刷盘指写入内存就返回成功，稍后异步线程刷盘。在创建CommitLog对象的时候，会初始化刷盘服务：//代码位置：org.apache.rocketmq.store.CommitLogpublicCommitLog(finalDefaultMessageStoredefaultMessageStore
2024年社区高光时刻总结！数据库
亲爱的朋友们，让我们把时间的快门按下，一起回顾这一年的点点滴滴。就像翻阅一本精彩的相册，每一张照片都记录着我们ApacheDolphinScheduler社区的欢笑和泪水。那么，准备好了吗？让我们一起跳进时光机，回顾社区里2024年那些难忘的瞬间吧！时光荏苒，新年将至，2025年，愿我们所有人的梦想照进现实，愿所有愿美好如期而至！本文由白鲸开源科技提供发布支持！
Apache DolphinScheduler 限制秒级别的定时调度数据库
背景ApacheDolphinScheduler定时任务配置采用的7位Crontab表达式，分别对应秒、分、时、月天、月、周天、年。在团队日常开发工作中，工作流的定时调度一般不会细化到秒级别。但历史上出现过因配置的疏忽大意而产生故障时间，如应该配置每分钟执行的工作流被配置长了每秒执行，造成短时间内产生大量工作流实例，对ApacheDolphinScheduler服务可用性和提交任务的Hadoop集
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

基于 Apache Mahout 构建社会化推荐引擎

推荐引擎简介

Apache Mahout 简介

Taste 简介

Taste 工作原理

图 1. Taste 的主要组件图

Taste 的安装与简单的 Demo 实现

图 2. Taste Demo 运行结果界面

使用 Taste 构建推荐引擎实例 – 电影推荐引擎

抽取 Taste 工具包

图 3. MovieSite 工程中引用的 jar 文件

数据建模

图 4 电影和用户信息数据模型

清单 1. 创建数据库 SQL

清单 2. Taste DataModel 的实现

推荐引擎实现

清单 3. 基于用户相似度的推荐实现

清单 4. 基于内容相似度的推荐实现

清单 5. SlopeOne Recommeder 的实现

推荐引擎 API 设计与实现

清单 6. Servlet 的实现

图 4. 用 Poster 测试 Servlet 的结果（查看大图）

用户界面展示

图 5. 基于用户的推荐结果（查看大图）

图 6. 基于内容的推荐结果（查看大图）

图 7. SlopeOne 实现的推荐结果（查看大图）

总结

你可能感兴趣的:(apache)