诸葛钢铁云

电商推荐系统论文：基于Spark机器学习的电商推荐系统的设计与实现，大数据电商推荐系统毕设论文，Spring MLlib电商推荐系统

毕业设计（论文）
题目：基于Spark机器学习的电商推荐系统的设计与实现

这是我去年本科毕业时做的毕业设计论文，全文三万多字，知网查重对重复率1%，由于本科论文不会被发表到知网上，再加上我已毕业近一年，现在将论文发表到CSDN。如有需要做毕设论文可引用本文对内容，先到先得（内容纯原创，少有重复）。

由于作者对水平有限，文章中难免有错误对内容或作者对相关技术有错误对见解，望读者予以谅解，谢谢！

接上篇文章：电商推荐系统（下）：实时推荐服务、实时框架、实时推荐算法、获取用户的K次最近评分、商品推荐优先级、实时系统联调、更新实时推荐结果

摘要
本论文作者在2019年11月到2020年5月期间在中国民营企业500强（2019年胡润榜）公司“深圳传音控股股份有限公司（上海）”参加大数据平台开发实习，主要负责数据仓库上层数据的ETL、解析等开发任务。作者所在的公司是一家移动互联网行业的公司，主营业务为非洲智能手机研发、生产、销售、智能软件研发等，公司在2019年间完成了全球1.37亿部智能手机的出货量，该年的智能手机销量位居世界第四。在这个年代，大数据正随着互联网用户数据的兴起而蓬勃发展。智能手机设备每天会产生大量的数据，而智能手机用户每天的各种数据也随着用户量和用户对手机的使用频率而剧增。作者在参加实习前就曾通过学校或自学网课视频学习了大数据相关技术栈，研读过很多大数据技术资料。在实习期间通过实习巩固了大数据技术，有一定的海量数据批处理、实时计算和数据挖掘经验。此外，作者还曾对电商行业的一些业务有深入研究。电商行业是当今时代的热门行业，作者希望通过大数据技术实现电商推荐系统，以帮助推动电商行业的发展。
近些年来，电商、大数据逐渐成为当今时代信息技术发展的主题，基于大数据应用技术实现的电商推荐系统逐渐成为各大电商平台研究推荐系统服务的重点。阿里巴巴集团创始人马云也多次对外界强调阿里巴巴是一家大数据公司而不是电商企业，这足以说明数据是电商行业的命脉，可见大数据在电商行业中的重要性。然而，如何处理海量的用户行为数据，从用户行为中挖掘出用户的商品购买偏好是所有电商平台的重点难题，至今没有一家公司能做到推荐服务100%准确。在新的大数据时代里，一款名为Spark的大数据计算框架如同它的名字一样让星星之火照亮整个大数据世界，Spark以高效的海量数据处理能力等诸多优点，现已成为众多电商平台实现推荐服务的首选技术框架。SparkMLlib是Spark的机器学习库，本文会重点介绍SparkMLlib在电商行业中的具体实现，此外还对SparkSQL、SparkStreaming、微服务、非关系型数据库等技术做简单介绍，通过使用多项技术，查阅大量相关开源贡献资料，综合完成基于Spark机器学习的电商推荐系统的设计与实现。
关键词：Java；电商；Scala；微服务；大数据；机器学习；Spark；推荐系统；数据挖掘

（此处省略英文翻译）

目录
第1章绪论 1
1.1 选题背景 1
1.2 本课题研究的意义 1
1.3 国内外研究现状 2
1.3.1 国外研究现状 2
1.3.2 国内研究现状 2
1.4 论文的主要内容及组织结构 3
第2章相关理论及技术 4
2.1 JavaEE技术 4
2.1.1 SpringBoot后端框架 4
2.1.2 AngularJS前端框架 4
2.2 数据库 4
2.2.1 MongoDB 4
2.2.2 Redis 5
2.3 日志采集与消息缓冲 5
2.3.1 Flume-ng 5
2.3.2 Kafka 5
2.4 Spark技术栈 5
2.4.1 Scala 6
2.4.2 SparkSQL 6
2.4.3 SparkMLlib 6
2.4.4 SparkStreaming 6
2.5 推荐算法 6
2.5.1 统计分析算法 7
2.5.2 ALS交替最小二乘算法 7
2.5.3 过拟合与欠拟合 7
2.5.4 正则化项 8
2.5.5 协同过滤算法 8
2.5.6 实时推荐算法 9
2.5.7 其他推荐算法 9
2.6 Linux系统 9
2.6.1 CentOS虚拟机 9
2.6.2 云主机 9
2.7 未来技术选型 10
2.7.1 EMR-Hadoop 10
2.7.2 Hive 10
2.7.3 Flink 11
2.7.4 Dubbo与SpringCloud 11
2.7.5 用户画像 12
第3章系统可行性分析和需求分析 14
3.1 系统可行性分析 14
3.1.1 技术可行性 14
3.1.2 经济可行性 14
3.1.3 操作可行性 15
3.2 系统需求分析 15
3.2.1 JavaEE业务功能需求 15
3.2.2 商品推荐服务功能需求 16
第4章系统方案的设计 17
4.1 系统功能设计原则 17
4.1.1 微服务 17
4.1.2 MVC架构 18
4.1.3 系统的可靠性 18
4.1.4 系统的维护性 19
4.2 项目架构设计 19
4.3 JavaEE模块的设计 20
4.3.1 前端模块的设计 20
4.3.2 后端模块的设计 21
4.4 数据仓库设计 21
4.4.1 业务数据库 21
4.4.2 缓存数据库 22
4.4.3 业务数据表的设计 22
4.4.4 系统数据流程设计 25
4.5 离线推荐模块的设计 26
4.5.1 离线统计推荐模块的设计 26
4.5.2 离线个性化智能推荐模块的设计 26
4.6 实时推荐模块的设计 27
第5章推荐算法设计 1
5.1 离线统计推荐算法设计 1
5.1.1 历史热门商品统计推荐算法设计 1
5.1.2 近期热门商品统计推荐算法设计 1
5.1.3 商品平均评分统计推荐算法设计 2
5.2 离线个性化智能推荐算法设计 2
5.2.1 计算用户商品推荐列表 2
5.2.2 模型评估和参数选取 4
5.2.3 计算商品相似度矩阵 4
5.3 实时推荐算法设计 4
5.3.1 实时推荐算法思想 5
5.3.2 初步计算备选商品的推荐优先级 6
5.3.3 计算偏移项 6
5.3.4 计算备选商品的最终推荐优先级 6
5.4 其他推荐算法 6
5.4.1 基于内容的相似推荐算法 6
5.4.2 基于物品的协同过滤相似推荐算法 7
5.4.3 用户画像系统算法 7
第6章系统实现 8
6.1 前端用户系统实现 8
6.1.1 登录注册模块的实现 8
6.1.2 商品页功能的实现 8
6.2 推荐系统服务环境搭建 9
6.2.1 环境准备 9
6.2.2 Linux虚拟机搭建 10
6.2.3 安装框架组件 10
6.2.4 创建微服务项目 12
6.2.5 创建推荐服务子模块 14
6.3 离线统计推荐系统实现 16
6.3.1 历史热门商品统计 17
6.3.2 最近热门商品统计 17
6.3.3 商品平均得分统计 18
6.4 基于隐语义模型的协同过滤推荐 20
6.4.1 计算用户商品推荐列表 20
6.4.2 模型评估和参数选取 21
6.4.3 计算商品相似度矩阵 22
6.5 实时推荐系统实现 24
6.5.1 实时推荐功能的实现 26
6.5.2 商品推荐优先级计算 26
6.5.3 更新实时推荐结果 28
6.6 后台服务系统实现 28
6.6.1 后台系统注册登录模块实现 28
6.6.2 后台商品模糊查询功能实现 28
6.6.3 后台用户评分日志模块的实现 29
6.7 系统测试 30
6.7.1 系统演示 31
6.7.2 冷启动问题 33
第7章总结 34
7.1 课题总结 34
7.2 项目亮点 35
7.2.1 使用高效率的JavaEE框架 35
7.2.2 使用Spark作为推荐服务工具 35
7.2.3 使用多种智能推荐算法 35
7.2.4 使用非关系型数据库替换传统数据库 36
7.3 存在的问题 36
7.3.1 研究更准确的推荐算法 36
7.3.2 研究更高效的实时推荐框架 36
7.3.3 提升系统性能 36
致谢 38
参考文献 39

第1章绪论
1.1选题背景
截止2020年1月1日，阿里巴巴集团宣布淘宝用户已突破8亿，并且中国新零售市场月活跃用户超过8.24亿。网络资源在日益丰富，电商用户尤其是有“选择困难症”的人群要在海量的商品中挑选出自己喜欢的商品已经是一件非常困难的事。随着电商行业现在的“信息过载”现象日益严峻，使用电商推荐系统如何给用户精准推荐商品已经成为电商平台的重要难题。电商推荐系统的出现就是为了解决电商行业难以实现精准营销的情况，即使用技术帮助用户在海量商品中挑选出最合适、最喜欢的商品，为用户节省浏览商品的时间，丰富用户的个性化消费购物体验，同时为卖家提升商品的销量[1]。电商推荐系统现今日益受到各大电商平台开发者的青睐，也受到越来越多专家学者和推荐系统研究者的关注。
而实现电商推荐系统的技术选型也尤为重要，需要考虑系统的运行效率、推荐结果的准确性。经过对比后，本课题选用当前最为先进的推荐技术，即Spark框架，SparkMLlib就是Spark机器学习库，它本次课题项目实现的核心组件。
1.2本课题研究的意义
本课题采用Spark全栈技术实现商品的个性化推荐，借助大数据项目常用的一些工具，使JavaEE系统部署业务服务，将个性化推荐作为电商网络营销的一种新的手段，能为电商公司带来巨大的利润。国内最大的电商平台——阿里巴巴（淘宝）自从使用了电商推荐服务以后，淘宝的商品关联支付转化率提升了近100%，商品的客单价提升了29%，可见推荐系统在电子商务实现精准营销[2]技术研究中的重要意义。
电商推荐系统的目标是根据用户浏览商品以及对商品评分等行为，以此推测用户对其他相似商品的喜好程度，智能预测符合用户口味偏好的商品，并将推荐结果展示给用户[3]。可想而知，系统仅仅可通过用户近期浏览过的商品和对商品的评分情况就能知道用户喜欢什么样的口味、价位、质量等因素的商品，可以减少用户浏览商品的时间，而这样的推荐系统，一定会受到电商平台和电商用户的青睐。因此，有了电商个性化推荐系统和准确度较高的推荐算法，能为电商企业和消费者提升粘合度，达到商品的“精准营销”的目的，不仅能给电商平台提升市场竞争力，而且给用户提升网上购物的消费体验，实现电商交易的“双赢”。
1.3国内外研究现状
电商的概念最先起源于国外，而自从20世纪末以来电商在国内开始发展。直到现在，国外的亚马逊、EBay，国内的淘宝、天猫商城、京东、拼多多等电商大厂都赚的盆满钵满。
1.3.1国外研究现状
国外早在1994年就有人设计了新闻推荐系统，随后，全球著名的电商巨头亚马逊Amazon公司将推荐系统应用在了电商中，通过用户近期购买、浏览商品的行为猜测用户喜欢什么样的商品并推荐给用户[1]，这为今后二十多年的推荐系统发展产生了巨大的影响。
2006年Netflix通过悬赏百万美金大赛寻求将推荐算法的准确度提升10%以上的参赛者，重赏之下必有勇夫，从那以后各种高准确度的推荐算法就如同雨后春笋般涌现出来。虽然现在推荐系统在全球范围都在使用，在国外的电商推荐系统中主要是基于用户的点击、浏览、购买商品等行为预测用户是否喜欢该商品[4]。但是，如何提高推荐的准确度是各大电商公司都在思考的话题，因此，无论什么年代都要研究准确度更高的推荐算法。
1.3.2国内研究现状
与国外相比，虽然国内电商推荐系统的研究起步较晚，但是国内电商推荐系统发展速度较快，再加上当前用户的数据量过大以及技术的不断更新与迭代，国内各大电商企业对电商推荐系统的研究也越来越多。自从亚马逊公司将个性化电商推荐系统的成功应用以后，全球的电商推荐系统开始蓬勃发展，国内以阿里巴巴为首的电商巨头逐渐将商品推荐服务有原来的推荐算法发展到现今的“千人千面”的个性化精准智能推荐[2]。此外，国内的其他巨头企业如百度、腾讯、头条等公司都在发展电商业务，也在研究电商推荐系统。
2006年，国内的当当网首次使用个性化图书商品推荐系统，将书籍的给类信息智能推荐给用户，当时就收到很多读者用户的青睐；2008年，淘宝网也推出自己的电商个性化推荐服务模块“i淘宝”，这款产品可以根据用户对商品的浏览情况，短时间为用户找到自己喜欢的商品以及可能感兴趣的东西[4]，这就是淘宝电商推荐系统的雏形；2011年，百度也推出了搜索引擎的个性化推荐技术“一人一世界”，这个功能为百度积累用户的行为数据，方便于机器学习进行模型训练，为不同用户推荐不同的个性化内容；2016年，阿里巴巴的算法团队YunOS在ACM大赛上获得金牌。由此可见，国内在电商推荐系统的研究现今已经不逊色于国外。
1.4论文的主要内容及组织结构
本文将在第二章介绍实现基于Spark机器学习的电商推荐系统的设计原理与架构介绍，包括项目的整体架构、JavaEE介绍、数据库介绍、日志采集技术介绍、Spark技术栈介绍、Linux介绍等。由于电商推荐系统的原理包含多个方面，第二章结尾还将介绍项目的未来技术选型以及发展规划。在第三章中，本文将对电商推荐系统项目进行系统可行性分析与需求分析，以了解用户的需求和系统实现的可行性。在第四章里将介绍系统的设计方案，并在第五章中，文章会详细介绍系统的实现流程，包括JavaEE项目实现、统计推荐实现、基于隐语义模型协同过滤算法的实现、实时推荐以及其他推荐算法等等。在第六章对搭建商推荐系统的设计与实现进行全文总结，并在第七章对本次毕业设计毕业设计期间为我提供帮助的老师、同学们、实习公司以及全球开发者的开源贡献表示感谢。
本文不讲解大数据、人工智能、数据库相关的理论概念，若读者对相关技术概念还很陌生的话，请读者先参考其他相关的文章理解大数据与人工智能相关的技术理论。
在文章的结尾列举了设计与实现电商推荐系统的一些参考文献，需要特别声明的是，大数据、机器学习数据挖掘、数据采集等相关技术栈是近期来新兴起的技术，电商推荐系统目前还仅仅是一些电商互联网巨头企业才用得起的技术，当今无论国内还是国外都鲜有此类文献发表，学习相关技术主要依赖于官网的开源贡献文档。因此，本论文作者希望读者多参考如Apache Spark官网这样网站。在此，本文笔者祈愿能有更多的开发者或相关文献作者能早日在“大数据与机器学习”这块“新大陆”上创造出相关文献资料，为全球大数据、人工智能与电商行业的发展添砖加瓦。

第2章
相关理论及技术
2.1JavaEE技术
作为连续几年蝉联全球开发者使用频率最高的一门语言，Java是众多企业进行企业级项目开发的首选。由于其跨平台性、高效的计算性能，以及全球众多开发者在类库和框架方面的开源贡献，Java语言是本次课题项目实现处理系统综合业务的首选，此次选择的微服务框架是SpringBoot。
2.1.1SpringBoot后端框架
SpringBoot是Spring全家桶中的框架成员之一，也是当今最流行的JavaEE框架之一。它相当于以前流行的Spring框架的简化版，使用SpringBoot开发JavaEE项目实现成本低，项目运行效率高，并且支持高并发的运行环境，现在深受企业级Java项目开发者的喜爱。
2.1.2AngularJS前端框架
AngularJS是谷歌公司的开源框架之一，主要被用于前端开发，底层采用JS语言编写，由于本文项目采用的是微服务技术，前后端分离，因此可选择AngularJS作为前端框架，由前端程序员开发。
2.2数据库
本课题项目选择非关系型一来是非关系型数据库逐渐有取代关系型数据库的趋势，二来是大数据环境下业务的需要，具体会在文章后文进行说明。
2.2.1MongoDB
MongoDB是采用C++语言编写的文档型非结构化数据库，由于它存储的数据是JSON格式，并且性能比较好，现在逐渐被众多公司所采用。本课题项目的电商推荐系统摒弃了传统的关系型数据库（如Oracle、MySQL、SQL Server）而采用MongoDB作为业务数据库，不仅是考虑到MongoDB能存储大量的小文件，并且对存储海量数据有着非常好的支持，还考虑后期将业务数据导入到Hadoop、Hive表（底层数据存储在Hadoop-HDFS或AWS-S3上）的简便性，同时，MongoDB在安装和运维上也相对传统的关系型数据库更为简单。
2.2.2Redis
与MongoDB相同，Redis也是一种非结构化数据库，但是Redis是一种基于内存的缓存数据库，它的读写性能极高。现在众多企业也在使用Redis，本文的电商推荐系统就是借助Redis存储和传输实时数据用于实时推荐模块。
2.3日志采集与消息缓冲
在大数据实时计算中，数据的实时性非常重要，因此需要有日志采集与消息缓冲服务，在大数据环境中常用的日志采集与消息缓冲服务组件分别是Flume与Kafka。
2.3.1Flume-ng
Flume是一种被用于数据采集的框架，主要通过类似管道的形式采集与发送数据，它具有很强的拓展性与良好的容错性等诸多优点[5]，成为大数据行业中必备的工具之一。本文的电商推荐系统通过Flume采集Nginx收集到的埋点数据，实时发送给Kafka。
2.3.2Kafka
与Flume不同的是，Kafka更做适合下游的数据消费，而Flume更做适合上游的数据采集，但是也有公司使用Kafka采集数据发送到Flume。本文的电商推荐系统使用Kafka广播数据传到SparkStreaming进行实时计算。
2.4Spark技术栈
Spark于2014年被加州大学开源捐赠给Apache基金会，随后其火热程度就如它的名字一样以星星之火迅速燎原，不到一年就成为Apache的顶级项目[6]。从被开源至今仅6年的发展历史，它虽然非常火爆，但是迄今为止Spark相关的期刊论文还是极少，研究相关的技术主要依赖于官网及其他开发者的博客贡献，因此本文的参考文献以Apache Spark官网为主。
在Spark Core的基础上，Spark技术栈包含的组件有SparkSQL、SparkStreaming、SparkMLlib和GraphX，它们分别被用于离线交互式计算、实时流失计算、机器学习、图计算[7]。由于本课题电商推荐系统没有使用到图计算相关的技术，因此本次不介绍和使用GraphX。
2.4.1Scala
Scala是一种类似于Java但语法比Java简单的语言。Scalac会通过类似Javac编译器将Scala语言编译成.class文件，因此，Scala可以是一种能“运行在JVM上的语言（说法不准确）”，它的运行效率和Java相当[7]，主要被用在大数据行业。此外，本文的电商推荐系统使用的Spark框架正是用Scala编写的，因此，本课题项目使用Scala语言写电商推荐系统的推荐服务。
2.4.2SparkSQL
SparkSQL是Spark框架的组件之一，它可以充当分布式SQL查询引擎，也可以通过使用DataFrame或DataSet对大数据进行开发，主要被用于交互式计算[7]。本课题项目选择SparkSQL来处理电商推荐系统的统计推荐服务，一方面是因为SparkSQL开发起来比Hadoop的MapReduce简单，二是因为Spark（基于内存）的运行速度比MapReduce（基于磁盘，有频繁的I/O操作）更快[7]，Spark是众多公司的大数据开发处理数据的首选。
2.4.3SparkMLlib
SparkMLlib也是Spark框架的组件之一，全称为“Spark machine learning library”，即Spark的机器学习库[9]，它降低大数据与人工智能技术之间的技术成本。虽然Hadoop也提供了机器学习库——Mahout[10]，但是人们更喜欢用SparkMLlib。SparkMLlib包含了一些如聚类、分类、回归、协同过滤、分类等机器学习算法[8]，本文的电商推荐系统的个性化推荐服务主要借助于SparkMLlib的协同过滤算法实现。
2.4.4SparkStreaming
SparkStreaming也是Spark框架的组件之一，它被用于大数据的流式处理实时计算[11]。课题项目电商推荐系统就是借助SparkStreaming接收Kafka的实时数据，再借助推荐算法完成实时推荐服务。
2.5推荐算法
推荐算法是实现电商推荐系统的推荐功能的核心，也是本课题项目的关键所在，本项目包含统计分析、机器学习智能推荐和实时推荐算法，下面将对相关算法做简要说明。
2.5.1统计分析算法
统计推荐模块使用SparkSQL进行统计分析实现，仅仅需要在Spark脚本程序中写SQL和UDF函数（用于处理数据的自定义函数）即可，具体的算法实现有SparkSQL封装的函数完成，在此不对该算法做重点介绍，读者感兴趣的话可以研读SparkSession.sql()函数中具体算法的实现流程。
2.5.2ALS交替最小二乘算法
ALS（alternating least squares，交替最小二乘法）是一种常常被用于推荐系统中的算法，该算法的核心原理就是将一个矩阵分解成两个包含隐特征的矩阵。与传统的矩阵分解算法SVD相比，ALS算法能解决数据中的缺失项问题。
电商推荐系统会使用ALS算法进行模型训练，通过计算将用户（行）-商品（列）-评分（值）矩阵R（m×n）分解成两个低维度的用户对商品隐特征偏好矩阵X（m×k）和商品包含的隐特征矩阵Y（n×k），在计算的过程中，为使分解后的矩阵X与Y相乘后更接近于R，需要计算损失函数，具体算法会在后文中介绍。
2.5.3过拟合与欠拟合
计算损失函数的算法就是计算方差，即真实值减去预测值后计算平方取平均值以后再开方。但是这个方差值并不是越低越好：若损失函数值偏大，则拟合度不够；若损失函数过小（趋近于0），则出现过拟合问题。
什么是过拟合与欠拟合？过拟合就是特征集过大，导致系统不能很好地识别数据，如果一味地追求预测能力，则很容易出现过拟合问题；而欠拟合就是特征集过小，模型不能很好地拟合数据。
如图2-1所示，“人工智能之父”艾伦·图灵曾以一片树叶做形象地比喻：

图 2-1过拟合与欠拟合
套用毛泽东的话说：“每片树叶都不同”。通俗地讲，在人工智能领域里，若模型训练出现过拟合问题，则机器学习识别人脸的时候，若此人化妆了，或者是双胞胎兄弟姐妹，程序就识别不出来，此时仅能识别本人刚刚被拍照的样子。若模型训练出现欠拟合的问题，则机器学习识别人脸的时候，会把猴子、大猩猩甚至其他动物识别成人，这样的识别效果自然不言而喻。
2.5.4正则化项
正则化是风险最小化的实现，它是模型复杂度的单调递增函数，即在风险上增加一个正则化项或者罚项，模型越复杂，正则化项的值也就也大。
通俗地讲，电商推荐系统的训练模型越复杂，就越有可能出现过拟合的问题，因此正则化项系数也就越大。那么此时损失函数的计算结果就不可能小，因此使用正则化项可以降低复杂模型的复杂度，从而避免出现过拟合的现象。
2.5.5协同过滤算法
协作过滤算法通常用于推荐系统。这些技术旨在填充用户项关联矩阵的缺失条目。 SparkMLlib当前支持基于模型的协作过滤，其中通过一小部分潜在因素来描述用户和产品，这些潜在因素可用于预测缺少的条目。SparkMLlib使用交替最小二乘（ALS）算法来学习这些潜在因素，本课题项目使用基于隐语义模型协同过滤算法计算用户推荐列表和商品推荐列表，具体实现算法将在后文说明。
2.5.6实时推荐算法
实时推荐算法主要依托于离线推荐的计算结果，推荐列表具备实时性，并且更新推荐结果的速度快。推荐原理是根据离线智能推荐计算的商品预测评分与用户对商品的真实评分相乘再取平均值，从而得出候选商品的推荐优先级。此外，还要考虑用户对商品的好评与差评对商品实时推荐列表优先级的影响。
2.5.7其他推荐算法
其他的混合推荐算法主要包含基于内容的推荐、基于物品的协同过滤推荐和借助用户画像系统实现推荐。除用户画像系统以外，具体算法将在后文中简单地做介绍。
2.6Linux系统
Linux有基于商业开发版如Redhat Linux和社区开发版如CentOS（RedHat简化免费版），由于其免费、开源、稳定等诸多优点，Linux系统是众多企业部署项目的首选，而本课题项目电商推荐系统的大部分组件（如Flume、Kafka）更适合在Linux系统中运行，项目的开发环境在Windows系统中，Spark生态系统组件运行在Linux系统中。
2.6.1CentOS虚拟机
由于CentOS是一款免费、开源的Linux社区版，本课题项目选择CentOS6.8版本的Linux操作系统部署电商推荐系统项目。本课题项目目前仅需在本地部署实现运行，无需部署上线，因此，需要在Window操作系统中搭建CentOS Linux虚拟机用来部署电商推荐系统。
2.6.2云主机
云主机产品来自于云计算平台，主要包含公有云和私有云。在公司的大数据平台中，推荐使用亚马逊云或私有云，但是本课题项目电商推荐系统对用户信息数据安全比较重要，而用户用户行为数据安全就没那么重要了。因此，可以使用私有云存储用户信息数据，使用公有云存储用户用户行为数据。
2.7未来技术选型
大数据、人工智能数据挖掘这些技术是近几年开始火起来的新技术，由于时代的发展和技术的更新迭代，势必将会使用新技术来取代旧技术，下面就以当前时间背景下的电商推荐系统的未来技术选型做简单的介绍。
注意本课题项目设计时间为2019年9月，论文提交时间为2020年5月，本文中的“未来”是以论文提交时间为起点，以下技术也许将在多年以后被淘汰，仅以当前时间点为参考。
2.7.1EMR-Hadoop
尽管Spark生态系统先进已经非常强大，甚至可以独立于Hadoop运行，但是如果本课题项目采用Yarn调度Spark任务的话，Spark的运行效率可能会比部署在本地（local）更高一些。此外，Spark目前还没有像HDFS（即Hadoop Distributed File System）那样的数据存储系统[12]，本课题项目电商推荐系统的业务数据目前还存储在MongoDB中，在未来的电商推荐系统架构中，本课题项目需要将数据存储在多台不同的机器上，未来会用到Hadoop或EMR。
Yarn、HDFS都是Hadoop框架的组件，此外还有MapReduce[13]，在现今众多企业中还在使用HDFS存储数据。因此，使用Hadoop框架还是很有必要的。
Amazon EMR是全球领先的云计算大数据平台，它能和Apache Spark、Hive、HBase、Flink等大数据组件兼容，Amazon S3可以取代Hadoop的HDFS来存储海量分布式数据，因此，本文的电商推荐系统在未来可以选取EMR云大数据服务。
EMR-Hadoop是Amazon EMR对Hadoop的封装，保留Hadoop的功能不变，使用Amazon S3存储数据，使用Hadoop的Yarn作为调度器。
2.7.2Hive
Hive是由FaceBook公司开发的一款大数据分析工具，Hive通过建立映射关系存储数据，它的底层通过将Hive SQL转换成MapReduce程序处理和分析数据，具有低延迟高效率等优点。在本文的电商系统的未来架构规划中，免不了要使用Hive建表和数据分析，因此，未来需要使用Hive。
2.7.3Flink
本文的电商推荐系统既然使用Spark框架，为什么还要使用Flink？因为Flink是一款纯流式计算框架，而Spark的流式处理框架SparkStreaming还只是微批处理思想[14]，在实时性要求更高的情况下，使用Flink处理实时计算任务效率更高。此外，Flink还对离线计算、机器学习这方面技术有着很好的支持。
既然Flink这么优秀，为什么现在不使用Flink呢？Apache Flink是一款新框架，在稳定性以及安全性等多方面目前还有待考证，未知Bug可能比较多。另一方面，在对数据量大的数据处理和历史数据交互查询计算方面，Spark的表现还是非常优秀的，因此，本课题项目推荐系统目前使用Spark框架。
2.7.4Dubbo与SpringCloud
Apache Dubbo是阿里巴巴公司开发并捐给Apache的一款开源RPC框架，它在分布式与微服务系统中被广泛应用，曾经风靡国内乃至全球。Dubbo曾在2014年停止更新，一度让Dubbo开发者和爱好者失落，而在2018年Dubbo传来继续更新的消息，Dubbo再次吸引了众多开发者的关注，Dubbo是电商推荐系统的未来技术框架选型之一。
SpringCloud是一款微服务框架，本课题的电商推荐系统是使用SpringBoot作为业务服务，而SpringCloud对SpringBoot灵活地架构支持，项目后期会使用SpringCloud。
与Dubbo相比，尽管SpringCloud目前对资源的消耗更高，效率更低，但是SpringCloud支持的核心功能比Dubbo多，且开发难度比Dubbo小，目前很多公司的微服务架构都从Dubbo往SpringCloud方向迁移。
在未来的架构设计中，将设计电商微服务系统，现在的电商推荐系统将作为电商系统的一个子模块为电商业务服务，其中的用户对商品的偏好信息主要来源于用户对商品的浏览以及用户对商品的购买情况，采用代理链条模式，借助SpringCloud实现微服务电商系统，未来的电商微服务系统设计图如图2-2所示。

图 2-2未来架构：SpringCloud代理链条设计模式
在未来的电商微服务系统中，采用Consumer管理注册中心，分别管理User服务、Product服务、Recommend服务、Order服务、Trade服务。每个服务模块功能高度内聚，分别负责各自的服务模块，不同的服务模块之间借助Consumer通信。当用户使用电商微服务系统时，通过User服务实现注册登录，完成以后方可浏览Product服务中的商品；用户浏览商品以后将浏览行为信息通知给Recommend服务实现浏览推荐功能；若用户对商品下订单，Order模块将通知Recommend模块实现购买推荐；若用户通过Trade模块完成了对订单支付，则Trade模块通知Order模块更新订单支付结果，并通知Recommend模块提升已支付订单中商品的推荐优先级。
2.7.5用户画像
用户画像技术是一种能有效预测用户对商品的喜好的技术，它能根据用户的众多行为虚构出用户的“形象”，如图2-3所示。比如：性别、年龄、婚否、育否、收入、消费能力、消费价位、消费口味等等标签，即用户信息“标签化”，从而提升电商推荐系统的推荐准确度[15]。比如用户为男性、青少年，用户在搜索“服装”的时候就不会被推荐到女装、老年服装等等商品。

图 2-3使用用户画像对用户进行聚类分析
在后期的电商推荐系统设计中，将会对用户进行聚类分析，给每位用户构建一个虚拟的“模型”，从而提升电商推荐系统的推荐准确度。此外，使用用户画像技术在用户首次注册时手机用户的购物偏好标签，从而解决电商推荐系统的“冷启动”问题（文章后面会介绍），使电商推荐系统能懂用户的“初心”，由于课题主题与用户画像无关，本文不对用户画像技术的具体实现做介绍。
第3章
系统可行性分析和需求分析
本课题项目要明确电商平台的用户需求，对用户的需求进行合理性的分析，如果需求合理，方可对推荐系统进行开发。
3.1系统可行性分析
系统的可行性分析是衡量系统是否可实现的重要指标，主要包含以下三点：
3.1.1技术可行性
系统目前借助Angular实现用户的可视化，由于项目前后端分离，未来会考虑微信与支付宝小程序、安卓、IOS等用户可视化服务的开发；综合业务层采用JavaEE的SpringBoot微服务实现，部署在Tomcat上；数据存储部分借助于MongoDB和Redis；离线推荐部分采用SparkSQL与SparkMLlib实现；实时推荐部分采用Flume-ng对用户评分行为数据进行采集，采用Kafka作为流式消息缓冲，将数据推送到SparkStreaming进行实时推荐。
在研究这个课题的时候，作者使用的开发环境是Windows10操作系统，最终将项目部署到单节点伪分布式Linux操作系统中，Linux系统采用8G内存+8核16线程的CPU+500G磁盘，系统运行正常。
这些技术是当今前沿新技术，尚存在很多未知Bug，但项目选择比较稳定的版本，因此在开发中很少存在问题。
3.1.2经济可行性
系统的经济可行性分析是衡量系统能否实现的重要标准，是企业开发信息系统对经济花费进行评估的前提，包括人力、物力、投资成本等诸多方面，同时考虑使用系统以后可能带来的收益。因此，务必在系统实施之前对系统进行经济可行性分析后方可进行系统开发。
本课题项目虽然使用了很多新技术框架，如Apache基金会的项目、SpringFrameWork，但是这些框架全部都是开源的，在选择项目框架上完全是“0成本”。由于使用电商推荐系统的过程中可能会有系统运维上的成本，但由于大数据技术可以使用Zookeeper（上述架构中未描述）搭建高可用，在分布式系统中某个节点宕机后，系统还能正常运行而不受任何影响，以确保系统的稳定性，降低运维成本。
在技术可行性分析中提到，目前采用的单节点Linux服务器成本并不高，但随着后期将电商推荐系统项目上线后，未来会搭建分布式系统，扩大系统可用磁盘空间、内存空间、CPU核数等等，也会搭建分布式文件系统、内存集群与CPU集群等等，这些开销将会根据公司上线项目的具体业务进行计算，但总体成本远比项目收入低。
尽管现在国内外很多大公司（如阿里巴巴、亚马逊）的电商推荐系统做得已非常成熟，但我此次研究推荐系统的在一方面可以帮助众电商平台尤其是中小企业降低个性化推荐系统的实现成本。
3.1.3操作可行性
本次课题电商推荐系统选用选用B/S的架构模式开发，由于采用了微服务技术，前后端分离，未来仅需开发小程序界面、安卓应用界面等即可实现C/S的架构模式，而不需要再次进行后端开发。因此，项目不仅降低了前端开发成本，也可以提供多个流量入口，既丰富了用户的购物体验，又给电商平台增加了用户流量。
在B/S架构的基础上，显示层用JavaEE前端技术的AngularJS框架，用户只需要打开浏览器输入网址即可即可访问Web页面，使用非常方便。
在未来的C/S架构的基础上，用户的操作更简单了，只需要打开电商平台APP或者打开微信、支付宝使用小程序进行本课题项目的电商平台就可以“一键”登录系统。
3.2系统需求分析
系统包含了多个模块，需要对不同的模块进行需求分析，下面简单地介绍系统需求。
3.2.1JavaEE业务功能需求
JavaEE模块主要用于处理用户前后端业务交互的需求，不是本课题项目的重点，在JavaEE模块中仅需要提供用户注册、登录、采集用户行为数据和商品查询功能。
（1）用户注册和登录
电商推荐系统目前只设计用户注册和登录功能，用户首次使用电商推荐系统时，用户需要先注册方可登录。由于新用户尚未对任何商品有过评分和浏览行为，系统无法预测用户的商品口味偏好，因此需要收集用户的偏好标签。
（2）用户可视化
电商推荐系统服务的用户是普通消费者，因此需要提供JavaEE（或微信小程序、安卓界面等等）前端界面展示。
（3）埋点数据采集
用户的每次浏览商品、对商品进行评分等行为都会被系统记录下来，系统将用户的行为数据发送给推荐模块和数据库方可实现电商推荐系统的推荐功能[11]。
（4）商品模糊查询
用户登录操作系统后除了查看推荐商品以外，还可以根据自己的购物需求查找商品。用户不需要知道商品的详细信息，仅需输入商品名称关键字即可，商品模糊查询功能可为用户查看商品提供便利。
3.2.2商品推荐服务功能需求
项目的核心在推荐服务功能模块上，推荐功能主要包含离线推荐与实时推荐功能需求，项目中的数据需要被持久化，因此需要考虑数据存储需求。
（1）数据存储部分
存储数据主要需要使用业务数据库和缓存数据库，主要有有两点需求：
一是业务数据库需要存储对海量数据频繁增删改查的支持。
二是缓存数据库需要高效率，是其满足实时计算的需求。
（2）离线推荐部分
离线推荐要求海量数据处理能力比较强，并且推荐准确度要高，主要有有两点需求：
一是统计推荐需要使用能进行交互式计算处理海量数据框架。
二是机器学习个性化推荐要求推荐的准确度较高[8]。
（3）实时推荐部分
实时推荐要求高效率而不要求特别高的准确率，主要有有两点需求：
一是日志采集和消息缓冲服务要求传输效率高、延迟低，避免低效率的处理速度影响用户的购物体验感[16]。
二是实时推荐计算框架要求计算效率高，计算的复杂度低，使计算结果能尽快被推送到前端界面。
第4章
系统方案的设计
4.1系统功能设计原则
通过以上的分析，综合当前JavaEE开发和大数据开发行业的原则，本课题电商推荐系统设计主要遵循以下几点原则：
4.1.1微服务
项目采用SpringBoot搭建微服务项目，微服务系统主要设计原则如下图4-1所示。

图 4-1商品表数据样例
以下是微服务六大设计原则概述：
（1）高内聚低耦合
高内聚主要体现在系统的功能强度内联系，保证系统的某个功能的各个元素之间紧密联系[3]。除了功能内聚以外，还要保证通信、顺序、逻辑等多个内聚指标。
耦合性主要体现在系统的各个模块之间的联系，若系统的不同模块之间联系很紧密，则耦合性就强，系统开发不需要这么强的耦合性，各个模块之间要要松耦合。
（2）高度自治
高度自治原则便于服务进行拓展开发和运行，使项目团队对整个生命周期负责，对于不同团队开发的模块由各自所在的团队进行维护和开发。
（3）以业务为中心
以业务为中心原则认为不同的服务代表不同的业务逻辑，使整个服务能快速响应和更新业务的变化。
（4）弹性设计
弹性设计原则使系统的可容错性提高，使系统具有更强的自我保护能力。
（5）日志与监控
日志与监控原则在监控系统的时候，如果发现系统出现异常或者错误，能够快速定位出错的位置，方便排查错误，并且检测可能发生的意外和错误，使运维人员能提前做好防范。
（6）自动化
自动化原则可以淘汰传统的手工运维，使运维变得自动化，这样就能极大地节约电商平台的运维成本。
4.1.2MVC架构
MVC即模型、视图、控制器，是现今JavaEE项目开发的常用架构，在开发电商推荐系统的时候可以根据不同的技术人员的专项擅长技术进行开发。
在数据模型层模型需要将代码实现多个视图的复用，减少代码的重复。
在视图层可以开发不同的图形界面，如JavaWeb前端、微信支付宝小程序、安卓，而实现电商推荐系统的功能主要依赖于调用后端程序API，这样前端开发人员不用处理后端代码，后端开发人员也不用处理前端代码。
在业务逻辑层使用Controller控制器接受用户不同的操作行为来处理用户请求即可。
4.1.3系统的可靠性
在企业级JavaEE大数据项目中，经常会出现通信中断、高并发、服务器宕机等情况，因此，务必要保证系统的可靠性。
（1）微服务的可靠性
在微服务的设计原则中提到，使用日志与监控原则能提高系统的可靠性。此外，还要对数据链路进行检测，以杜绝网络通讯时出现故障；使用断链重连机制在系统断开与客户端连接后自动重连；使用消息缓存重发实现异步地发送消息；使用高并发技术使系统能承受众多用户的请求等等。
（2）大数据平台的可靠性
本课题项目电商推荐系统目前虽然是单节点伪分布式项目，如果遇到问题很容易追溯问题位置并解决问题，而在电商公司的企业级项目中，使用单节点项目是完全不可以的。在企业级电商项目中，通常使用分布式系统存储数据和处理数据，因为数据量实在是太大了。在前面的分析中，为了保证环境系统环境的可靠性，部署分布式系统时考虑到部署HA（高可用）；在此之外为了保证内存、CPU的可靠性，可以根据业务实际情况搭建内存、CPU集群；为了保证实时推荐的可靠性，使用基于内存的缓存数据库Redis作为辅助数据库。
4.1.4系统的维护性
系统的可维护性是衡量系统在出现故障或者错误以后可改进的难易程度。目前电商推荐系统的可维护性包括JavaEE微服务项目的可维护性与Linux服务器Spark生态系统的可维护性。
JavaEE模块可由Java开发团队进行维护，谁开发由谁维护。Spark生态系统的维护则有点复杂，如果电商企业对数据安全要求不高，可以选用公有云如阿里云、百度云、腾讯云等公有云平台部署项目，如果对数据安全要去较高则应当使用公司的私有云；在技术选型上，如果电商企业有雄厚的专业运维团队，可选取Apache Hadoop搭建Hadoop生态系统，该框架开源但维护成本高。若果如果电商企业没有专业的运维团队，可选取CDH（Cloudera’s Distribution Including Apache Hadoop）版本的Hadoop搭建Hadoop生态系统，该发行版部分闭源且免费，运维简单，但如果出现故障需要Cloudare公司维护则需要支付维护费用。
4.2项目架构设计
电商推荐系统的架构主要包含四大模块，分别是JavaEE模块、数据库模块、离线推荐服务模块、实时推荐服务模块，电商推荐系统架构设计图如图42所示。

图 4-2电商推荐系统架构设计图
目前架构设计如下：
JavaEE前端采用AngularJS作为可视化界面，后端采用SpringBoot实现综合业务服务，在SpringBoot服务中部署埋点用于用户评分行为数据采集。
数据持久化层采用MongoDB和Redis分别作为电商推荐系统的业务数据库和缓存数据库。
离线推荐服务采用适合离线交互式计算的SparkSQL进行统计推荐，智能推荐服务采用SparkMLlib实现。
实时推荐采用SparkStreaming实现，需要借助Flume、Kafka作为实时数据传输的中间组件。
4.3JavaEE模块的设计
本课题设计的电商系统借助微服务部署，主要包含JavaEE模块和大数据模块两个部分。JavaEE模块包含前端界面和后端服务，大数据模块包含离线推荐、实时推荐模块。
4.3.1前端模块的设计
前端模块使用AngularJS设计，由于电商推荐系统前后端分离，前端界面仅需前端开发人员设计，而后端开发人员仅需提供调用API即可。
目前电商推荐系统的JavaWeb前端模块仅需开发首页为用户提供注册、登录、浏览商品、对商品评分功能。
首页：用户输入电商推荐系统网址后需要先登录，若用户已登录，则显示商品页面。
用户注册：若是新用户，必须先注册才能登录。
商品搜索：在电商行业中搜索引擎非常重要，在本项目中仅仅设计模糊查询功能。
商品页：展示商品的近期热门、猜你喜欢等；若是用户首次使用，由于尚未收集到用户的评分数据，系统只能展示近期热门商品。
商品详情页：用户通过点击商品页的商品进入商品详情页，可以看到商品详情，此处有商品评分按钮，用户可以对商品进行评分。
4.3.2后端模块的设计
后端模块借助SparingBoot封装Tomcat，用来处理前端发送的请求，主要设计如下：
用户登录：通过判断用户输入的信息是否正确实现登录。
用户注册：前端界面校验用户输入合法后方可完成注册。
商品页面：商品页页面仅提供查看商品详情页的API。
商品详情页：商品详情页仅提供对商品评分的API。
日志采集：使用Nginx部署埋点采集用户对商品的浏览和评分数据，追加写入到日志文件中方便进行实时推荐。
商品搜索：项目采用Elasticsearch提供的API来实现商品搜索功能。
4.4数据仓库设计
如果说推荐算法是电商推荐系统的灵魂，那么数据就是电商推荐系统的筋骨了，因此，进行数据库设计是非常必要的。由于业务的需要以及对海量数据的管理，本课题项目电商推荐系统摒弃了传统的关系型数据库（如MySQL、Oracle），选择MongoDB和Redis作为电商推荐系统的业务数据库和缓存数据库。
4.4.1业务数据库
由于系统有频繁的对海量数据进行增删改操作，使用传统的关系型数据库可能有点力不从心[4]。因此，本课题项目采用现今被广泛使用的文档型数据库MongoDB，MongoDB主要负责电商推荐系统的逻辑数据的存储。
令人感到遗憾的是，MongoDB在4.0版本更新以后才增加对事务的支持。而出于对项目的稳定性以及与各个大数据组件之间的兼容性的考虑，本课设项目目前采用的是不支持事务的MongoDB-RHEL-3.4.3版本，因此会遗留数据库事务上的问题，具体会在文章后面讨论。
4.4.2缓存数据库
在电商推荐系统项目中，由于系统需要根据用户近期的浏览行为快速地[16]了解到用户的购物偏好，因此必须使用实时推荐，因此需要借助Redis作为缓存数据库来满足实时推荐需求。
以上两种数据库的表设计方案将在文章的后面进行详细地说明。
4.4.3业务数据表的设计
本课题属于大数据项目，由于需要存储海量的数据，因此不能像设计关系型数据库那样设计表。在数据仓库中，通常选择维度建模，各表之间不能有太多的Join（连接）操作。在模型架构上，选取星型架构，根据OLAP的需求，确保系统的稳定性、高效率能得以保证。
项目的业务数据模型的具体表结构如下：
1.Product【商品表】
表 41 商品表

字段名

字段类型

字段描述

_id

ObjectId

主键

productId

Int

商品的ID

name

String

商品的名称

tags

String

商品UGC标签，用“|”分割

（4）Ratings数据集
数据格式：userId,prudcutId,rating,timestamp
Ratings数据集样例如图617所示。

图 6-17Ratings数据集
Rating数据集有4个字段，每个字段之间通过“，”分割。
表 62 Ratings表字段

字段名

字段类型

字段描述

userId

Int

用户ID

produtId

Int

商品ID

score

Double

评分值

timestamp

Long

评分的时间

（5）数据初始化到MongoDB
首先定义Product、Rating、MongoConfig三个样例类，类的属性分别为两表所需的字段和MongoDB的配置信息，商品、评分、MongoDB配置样例类如下图6-18所示。

图 6-18商品、评分、MongoDB配置样例类
然后读取Product和Rating数据，将数据以overwrite的方式保存在MongoDB中，执行代码代码后查看linux中的MongoDB表，发现商品表和评分表已被创建，创建结果如图6-19所示。

图 6-19商品表和评分表
查看表Product，看商品信息是否被写入MongoDB，发现数据已被写入商品表，Product表中数据如下图6 20所示。

图 6-20Product表中数据
查看表Rating表中的数据，发现数据已被写入商品表，Rating表中数据如下图6 21所示。

图 6-21Rating表中的数据
到此为止，电商推荐系统的数据准备阶段已基本完成，接下来就是实现电商推荐系统的统计推荐模块功能。
6.3离线统计推荐系统实现
电商推荐系统的统计推荐模块主要借助于SparkSQL处理历史数据，根据历史热评、近期热评、平均评分等不同的统计指标统计不同的历史数据，反映的是商品在一段时间内的评分情况[18]，为后面的离线推荐（统计推荐也归属于离线推荐，在离线推荐系统功能实现模块中将重点介绍SparkMLlib）与实时推荐提供数据支持。
在StatisticsRecommender模块中，需要在StatisticsRecommender.pom.xml中配置Scala、Spark、MongoDB的相关依赖，相关代码省略。
然后需要创建Rating和MongoConfig两个样例类，分别定义各自的属性，Rating和MongoConfig样例类及属性如下图6-22所示。

图 6-22Rating和MongoConfig样例类
创建好样例类以后接下来就可以编写统计推荐业务逻辑代码了。
6.3.1历史热门商品统计
该模块的核心原理是SparkSQL统计评分次数最多的商品，使用SparkSQL读取评分数据集，通过统计计算得出所有评分最多的商品，使用函数将结果从小到大排序，将计算结果写入数据库，具体实现SQL语句和代码如下如6-23所示。

图 6-23历史热门商品统计代码
执行该Spark脚本后查看数据库中历史热门商品统计数据分析结果，具体实现在下文中说明。
6.3.2最近热门商品统计
“最近”可以表示为近一个月、进一周、近三天都行，根据设定的时间跨度计算近期时间商品评分最多的商品集合。
使用SparkSQL读取评分表，通过UDF（Spark中的自定义函数）将评分时间格式化为月、周或者天，再按月、周、天统计商品的评分数，以下以月为例，将统计结果写入到MongoDB，具体实现SQL语句和代码如下如6-24所示。

图 6-24最近热门商品统计代码
执行该Spark脚本后查看数据库中近期热门商品统计数据分析结果，具体实现在下文中说明。
6.3.3商品平均得分统计
统计MongoDB表中所有历史评分数据，每天计算每个商品的评价得分。实现方式为使用SparkSQL读取Rating表的数据，再计算商品的平均分，将结果写入到MongoDB，具体实现SQL语句和代码如下如6-25所示。

图 6-25商品平均得分统计代码
执行程序后，查看MongoDB表，发现三个统计评分表已被创建，统计推荐结果表如图6-26所示。

图 6-26统计推荐结果表
点击查看AverageProducts表中的数据，发现数据已被写入商品平均评分表，AverageProducts表中的数据样例如下图6-27所示。

图 6-27AverageProducts表中的数据
查看RateMoreProducts表中的数据，发现数据已被写入商品最多评分表，RateMoreProducts表中的数据如下图6-28所示。

图 6-28RateMoreProducts表中的数据
查看RateMoreRecentlyProducts表中的数据，发现数据已被写入商品近期评分表，RateMoreRecentlyProducts表中的数据如下图6-29所示。

图 6-29RateMoreRecentlyProducts表中的数据
根据以上结果可以看出，使用SparkSQL统计推荐模块已被基本实现。
6.4基于隐语义模型的协同过滤推荐
该模块是离线推荐的核心，使用的技术是SparkMLlib实现，具体步骤如下：
6.4.1计算用户商品推荐列表
计算用户推荐列表的具体做法为：
1.读取MongoDB获取userId和productId作为训练数据集；
2.使用模型预测（userId，productId）对应的商品评分；
3.过滤计算分值最大的几个商品作为用户的商品推荐列表[19]，将数据存储到MongoDB的UserRecs表中。
实现过程：在OfflineRecommender模块的pom.xml，引入Spark、Scala、Mongo和Jblas的依赖，代码省略。
分别创建Recommendation、UserRecs、ProductRecs三个样例类并分别定义类的属性，Recommendation、UserRecs、ProductRecs样例类及属性如图6-30所示。

图 6-30Recommendation、UserRecs、ProductRecs样例类
首先要进行模型训练，ALS的模型训练代码如下图6-31所示。

图 6-31ALS模型训练代码
接着对User表和Product表进行笛卡尔积计算，得到空的User-Product评分矩阵，主要实现代码如下图6-32所示。

图 6-32计算用户-商品笛卡尔积代码
计算用户推荐列表的主要代码如下图6-33所示。

图 6-33计算用户推荐列表代码
执行该Spark脚本后查看数据库中用户推荐列表结果，具体结果在下文中说明。
6.4.2模型评估和参数选取
通过手动调整参数，选择均方根误差最小的一组参数作为最终参数，核心代码实现如下图634所示。

图 6-34ALS参数调整代码
计算均方根误差的函数的代码实现如下图6-35所示。

图 6-35计算RMSE代码
运行代码，就可以得到目前数据的最优模型参数，最优模型参数如下图6-36所示。当然，这个最优模型参数不唯一，要根据实际计算结果而确定。

图 6-36最优模型参数
根据以上结果可以看出，使用SparkMLlib基于隐语义模型协同过滤推荐模块已被基本实现。
6.4.3计算商品相似度矩阵
计算商品相似度的代码如下图6-37所示，执行该Spark脚本后查看数据库中商品推荐列表结果，具体结果在下文中说明。

图 6-37计算商品相似度代码
求两个向量余弦相似度的函数关键代码实现如下6-38所示。

图 6-38计算商品余弦相似度代码
运行程序，查看MongoDB表，发现用户推荐表、商品推荐表已被创建，如图6-39所示。

图 6-39用户推荐表、商品推荐表
查看用户推荐列表UserRecs表中的内容，发现数据已被写入用户推荐列表，如图6-40所示。

图 6-40UserRecs表中的内容
查看商品推荐列表ProductRecs表中的内容，发现数据已被写入商品推荐列表，如图6-41所示。

图 6-41ProductRecs表中的内容
到此为止基于隐语义模型协同过滤的个性化智能推荐功能已基本实现，接下来将介绍实时推荐功能。
6.5实时推荐系统实现
电商推荐系统的实时推荐主要反映用户的近期偏好，而离线推荐反映的是用户的长期偏好。因此，用户的实时偏好比长期偏好更能反映用户的购买偏好。
假设用户近期对A商品评了高分，而对B商品却评了低分，那么实时计算就要求系统近期会多给用户推荐A商品，而潜在地给用户屏蔽B商品。但是实时计算的复杂度不能太高，因此要使用时间复杂度稍微简单的算法。
实现思路：在StreamingRecommende模块中添加Scala、Spark、MongoDB、Redis、Kafka、Fume依赖，代码省略。
创建Recommendation、UserRecs、ProductRecs三个样例类并定义属性，标准推荐对象、用户推荐列表、商品相似度列表样例类及属性如下图6-42所示。

图 6-42标准推荐对象、用户推荐列表、商品相似度列表样例类
使用KafkaStream处理评分流数据具体算法实现如下图6-43所示。

图 6-43KafkaStream处理评分流数据算法
处理数据的核心算法部分如下图6-44所示。

图 6-44处理评分流核心代码
实时推荐需要借助Redis获取实时数据，从Redis里获取最近num次评分的核心代码如下图6-45所示。

图 6-45从redis里获取最近评分代码
获取当前商品的相似列表计算备选商品的代码如下图6-46所示。

图 6-46计算备选商品相似列表代码
以上是实时推荐模型算法介绍，下面将介绍实时推荐算法的具体实现。
6.5.1实时推荐功能的实现
实时推荐算法的前提是数据库中已经存储了部分商品推荐信息，并且实时计算框架已经获取到了用户的实时浏览和评分信息。
实时推荐算法过程主要为：首先获取用户的实时评分，获取相似的关联商品，再计算商品的推荐优先级，下面将详细介绍实时推荐算法。
6.5.2商品推荐优先级计算
计算备选商品推荐得分的算法代码如下图6-47所示。

图 6-47计算备选商品推荐得分算法
计算结果需要加上偏移项，即对好评进行加分，对差评商品进行扣分，从而得出商品最终预测得分，最终得出商品推荐列表，具体算法代码如下图6-48所示。

图 6-48计算商品推荐列表核心代码
计算候选商品和已评分商品的相似度代码核心算法如下图6-49所示。

图 6-49计算候选商品和已评分商品的相似度代码
使用logN进行偏移项计算，这里实现为取10的对数（常用对数），计算偏移量代码如下图6-50所示。

图 6-50计算偏移量代码
运行以上Spark脚本，系统开始启动实时推荐，实时推荐功能基本完成。
6.5.3更新实时推荐结果
通过实时计算得出新的商品推荐优先级以后，实时计算结果要和历史计算结果进行合并，并覆盖替换掉过时的数据，以保持对推荐结果的实时性，在后文将会展示实时推荐结果。
6.6后台服务系统实现
JavaEE模块不是电商推荐系统的重点，在此不做重点介绍，在项目的businessServer模块下的java目录、log目录、resources目录、webapp目录下分别存放Java后端代码、系统日志（包含埋点采集日志）、配置文件和前端代码，电商推荐系统自动生成日志如下图6-51所示。简要介绍下用户注册与登录、用户评分模块以及埋点数据采集部分。

图 6-51电商推荐系统自动生成日志
执行JavaEE模块，系统将会自动在log目录下生成日志记录。
6.6.1后台系统注册登录模块实现
系统前端接收用户的请求，经用户名和密码都被校验正确后方可跳转到商品页。
在注册用户模块中，仅需判断MongoDB中是否有该用户信息即可。
6.6.2后台商品模糊查询功能实现
后台通过获取前端提交的查询请求即可使用Elasticsearch进行模糊匹配查找商品，实现模糊查询代码如下图652所示。

图 6-52模糊查询Controller代码
使用Elasticsearch查询商品的业务代码如下图653所示。

图 6-53Elasticsearch的Configuration代码
用户在前端页面搜索框输入商品名，前端展示商品的查询结果如图654所示。

图 6-54模糊查询结果展示
模糊查询是电商系统的必备功能，不是推荐服务的核心功能，在此不重点介绍，读者可以参考ELK的相关官网。
6.6.3后台用户评分日志模块的实现
项目实现个性化推荐技术需要采集用户行为日志，通过Nginx生成埋点日志代码如下图6-55所示。

图 6-55Nginx生成埋点日志代码
启动项目以后，系统自动通过Nginx获取用户评分日志，agent.log日志文件如图6-56所示。

图 6-56 agent.log日志文件
系统自动将日志追加写入到agent.log文件中，通过Flume-ng此采集服务实时发送到Kafka和写入到Redis，再传到SparkStreaming进行实时计算。
用户在浏览商品或对商品评分以后，系统会自动收集用户的评分信息并写入到日志文件中，日志中用户评分行为记录结果如图6-57所示。

图 6-57日志中详细地记载了用户评分行为
从上述结果看来，JavaEE前台服务系统已基本完成用户行为数据采集，接下来就进行系统测试。
6.7系统测试
完成电商推荐系统的开发以后，首先要进行测试，确保测试无误后方可上线。
6.7.1系统演示
演示系统的主要流程如下：
1、创建四个测试用户a1、b1、c1、d1，密码均为“123”。
2、分别登录用户a1、b1、c1、d1的账户，模拟浏览商品、对商品评分。
3、一段时间后查看更新后的商品推荐结果。
假设用户a1初次使用电商推荐系统，那么系统一开始不会知道用户a1的商品口味偏好，因此在“猜你喜欢”模块中不会有任何推荐内容，这就出现了电商推荐系统的“冷启动”问题（如图6-58所示），后文会详细介绍。

图 6-58用户首次使用电视推荐系统出现“冷启动”问题
分别使用用户a1、b1、c1、d1对商品进行模拟浏览和评分，其中，用户分别代表的购物口味如下：
（1）用户a1喜欢看书，偶尔会看生活用品。
（2）用户b1与用户a1的口味相似，也喜欢书和生活用品，但是用户b1和用户a1对商品的评分不完全相同。
（3）用户c1与用户a1、b1的口味不同，喜欢数码产品而不喜欢书。
（4）用户d1为系统的流失用户，即注册后就再也没有使用过电商推荐系统，也没对浏览过任何商品和对任何商品评分，主要被用于对照。
一段时间后数据更新的推荐结果如下：
用户a1的商品推荐结果如图6-59所示，电商推荐系统给用户a1推荐了4种书。

图 6-59用户a1的个性化推荐结果
用户b1的商品推荐结果如图6-60所示，电商推荐系统给用户b1也推荐了4种书，但是书名及内容与用户a1不完全相同。

图 6-60用户b1的个性化推荐结果
用户c1的商品推荐结果如图6-61所示，电商推荐系统给用户a1推荐了4种数码而仅仅推荐了一种书。

图 6-61用户c1的个性化推荐结果
用户d1的商品推荐结果如图6-62所示，电商推荐系统没有给d1推荐任何商品，因为用户d1未曾浏览过任何商品，也未给任何商品评分。

图 6-62用户d1的个性化推荐结果
从最终的推荐结果来看，用户a1、b1、c1的“猜你喜欢”模块中的推荐数据都不同，这是因为用户a1、b1、c1的购物口味偏好不尽相同。而“热门推荐”和“评分最多”推荐模块的历史推荐结果始终保持不变，这证明本课题项目的已基本成功地实现。
6.7.2冷启动问题
冷启动问题主要体现在用户首次注册系统时，由于用户从未对任何商品进行过评分，因此系统无法判断任何用户偏好[21]，所以不能实现个性化推荐，这时候系统就看似出了问题而实际上没出问题。
解决方式：在用户首次注册电商推荐系统的时候，系统发出弹窗收集用户的行为偏好，让用户选择自己的标签，这样用户在注册的时候系统就知道用户的商品口味偏好了[22]，这也是各大APP在针对新用户收集用户标签的原因之一。

第7章
总结
7.1课题总结
本文基于当前大数据环境下的电商业务，介绍了当前主流的Spark相关技术与推荐算法，并借助Spark尤其是SparkMLlib以及其他的辅助框架工具实现了电商推荐系统，完成了推荐功能。在此期间，我查阅了大量的理论资料和技术文档，再加上对相关技术的深入学习，最终设计并实现了该系统，实属不易，以下是本次课设的总结。
在文章的一开始介分析了一下国内外推荐系统的发展状况以及应用，从而得出推荐系统在电商行业中的“隐藏价值”。如果将大数据比喻成未来电商行业信息技术发展的“石油”，那么电商推荐系统就是“石油开采机”。
在文章的第二章介绍了当前主流的JavaEE微服务技术，并对当前快速发展的非关系型数据库进行了介绍，同时介绍了在大数据背景下实时采集日志数据的两大框架，接着介绍了Spark技术栈以及本课题项目使用到的Spark组件，此外还对电商推荐系统的相关算法理论做了简单的介绍。在介绍了Linux服务器以后，最后介绍了电商推荐系统的未来技术选型，讲解了一下当前正在热门发展的Flink框架以及和Spark的对比，说明了本课题当前选择Spark而不使用Flink原因，并在结尾简单地概述了用户画像技术在电商推荐系统中的应用。
在文章的第三章首先从技术、经济、操作的角度出发，综合地分析了电商推荐系统的实现可行性，结果证明本课题电商推荐系统是可行的。接着对系统进行需求分析，分别从系统的业务需求、离线推荐服务需求、实时推荐需求、用户需求、功能需求等进行分析。
在文章的第四章简单地说明了设计电商推荐系统的思想，从系统功能设计原则出发，简单地介绍了JavaEE模块的设计、数据仓库设计与表设计、电商推荐系统的数据流程设计，再详细地介绍电商推荐系统的离线推荐模块设计与实时推荐模块的设计。本章从外到内，由浅到深，逐步介绍电商推荐系统的设计思想，为后面的电商推荐系统的实现做模型架构准备。
第五章是本文的精髓，本章介绍了电商推荐系统的各种算法，包括统计推荐算法、ALS最小二乘法、协同过滤算法、实时推荐算法与其他常用的电商推荐系统的推荐算法，为后文的系统实现提供理论基础。
第六章先简单地介绍前端服务模块的实现，从搭建Linux虚拟机开始，逐步实现Spark生态系统组件的安装，再分别介绍统计推荐、基于隐语义模型协同过滤推荐算法的离线推荐、实时推荐模块的详细实现方案，同时将项目的核心源码展示出来，并介绍推荐思想，再介绍如何部署、启动项目，实现搭建电商推荐系统的“一条龙”介绍，方便读者阅读。在本章的结尾说明了项目会遇到的非功能性的“冷启动”问题以及解决方案，同时介绍了其他的推荐算法。
在实现本课题项目之后，我对电商推荐系统的推荐准确性、推荐效率进行了测试与评估，测试证明项目的推荐结果比较准确，并且推荐的实时性比较高。但是迄今为止还没有准确率高达100%的推荐系统，在今后的工作和学习中，需要研究更加准确的推荐算法，来使得电商推荐系统的推荐准确率更高。
7.2项目亮点
本文诞生于大数据技术被电商行业广泛应用的时代，本课题项目主要有以下几个亮点，可供电商行业和大数据行业进行参考：
7.2.1使用高效率的JavaEE框架
本课题项目采用轻量级且高效率的SpringBoot作为JavaEE微服务框架，摒弃了已被淘汰的SSH、SSM框架，使得系统的业务服务效率得到了很大的提升。同时，SpringBoot被公认为是Spring框架的简化配置版，使用SpringBoot会使开发成本变低，能降低项目的成本投入并提高系统运行效率。
7.2.2使用Spark作为推荐服务工具
本课题项目的推荐模块采用Scala语言开发，因此项目的拓展性更好，稳定性更强，项目的运行效率更快。
项目没有依赖于Hadoop，而是使用SparkSQL作为统计推荐服务引擎，其效率远比使用MapReduce高；使用SparkMLlib进行机器学习推荐算法的实现，缩短了大数据与机器学习人工智能领域的边界距离；使用SparkStreaming进行实时推荐，不仅效率高而且推荐准确度也高。
7.2.3使用多种智能推荐算法
除了使用SparkSQL实现统计推荐以外，本课题项目主要借助基于隐语义模型协同过滤算法和实时推荐算法完成商品推荐。在此之外，文章还介绍了多种推荐算法，使用不同的算法能有效地提升商品推荐的准确度。
7.2.4使用非关系型数据库替换传统数据库
随着时间的推移，非关系型数据库越来越受开发者的欢迎。2019年11月的数据库流行度排行榜中，众所周知的三大关系型数据库前三甲已经大幅下跌，但是目前绝大多数企业仍然使用关系型数据库存储业务数据。本文希望能引导开发者们将视线从关系型数据库向非关系型数据库转移。
本课题项目选择MongoDB存储业务数据，使其在存储海量数据以后对性能不会造成影响；使用Redis作为缓存数据库，使得实时推荐模块的推荐结果更加准确。无论从数据的存储量还是处理的速度来看，本课题项目对推进大数据技术应用发展都有非常积极的作用。
7.3存在的问题
尽管本课题实现的电商推荐系统在推荐准确度和推荐效率等诸多方面有很多优势，但是它仍有很大的改善空间，以下是项目需要改善的地方：
7.3.1研究更准确的推荐算法
文章一开始提到，世界上没有100%准确的推荐算法，即便是你身上细胞都不肯能完全知道你对不同商品的口味偏好。因此，推荐算法只有更准确的，没有最准确的。今后要研究更加准确的推荐算法，结合用户行为以及用户的需求分析，使用用户行为数据进行多次机器学习模型训练，从而使得电商推荐系统的推荐准确性得到提升。
7.3.2研究更高效的实时推荐框架
本文的前面提到了Flink，由于诸多原因目前还不适合使用Flink，但是Flink处理实时计算的效率比SparkStreaming高，在后期的设计中可以逐步测试Flink，确保测试稳定且推荐准确无误后再慢慢将实时推荐模块往Flink上迁移。
7.3.3提升系统性能
在实现该电商推荐系统的过程中，系统选用不支持数据库事务管理MongoDB-RHEL-3.4.3版本作为业务数据库，而在进行用户推荐列表与商品推荐列表更新，由于要考虑到用户的实时数据对推荐结果的影响，目前采用“overwrite”覆盖写入的方式更新业务数据库。我们知道在覆盖数据表的第一步就是清空原表数据，再写入数据，而这期间系统将花费一部分的时间开销。此外，本系统采用本地的CentOS（Redhat简化版）虚拟机搭建搭建单节点伪分布式项目运行环境，在性能上远比不上各大巨头企业的分布式系统。因此，本课题项目在进行个性化推荐的时候系统会有几秒的数据更新延迟。
在此，未来项目可以考虑以下两种解决方案：
(1)升级MongoDB组件
在大数据环境中，本课题项目使用的绝大多数组件都是近几年才开源的组件，尽管很多组件已有新的版本，但是新版本会存在很多未知的Bug，并且新版本组件的相关技术文档非常少。在企业中使用这样的组件是很危险的，虽然能在一定程度上提升系统的性能，但是会给系统遗留更多的安全漏洞，并且运维成本也高。因此，在运维技术不够雄厚的企业不建议使用这种方式提升系统性能。
(2)搭建分布式系统或集群
大数据环境主要使用分布式计算与分布式存储技术，此外还可以使用分布式服务，它能在很大程度上提升数据的存储容量和计算效率。在分布式系统中，多台独立的主机分别负责各自的服务模块，通过资源的动态分配、负载均衡等技术，系统的多个模块协作共同完成一个任务，使其更像是单个系统。推荐本课题项目使用搭建完全分布式系统来提升系统的运行、计算效率。
与分布式系统不同的是，集群主要包含一个系统的多个相同组件，而分布式表示一个系统的多个不同组件。在我们看来，百度、淘宝、腾讯等公司的服务器好像从来都不用重启，并且它们的系统更新数据的速度特别快。真是这样吗？其实它们的服务器也是要经常重启的，之所以没影响到用户的体验，重启速度快是一个原因，其主要原因还是它们的系统很多个集群并实现了“高可用”。它们采用系统热备份的方式部署系统集群，系统的任意一个节点宕机都不会影响到整体系统的性能，从而对用户体验毫无影响。因此，在企业级电商推荐系统项目中，搭建系统集群或MongoDB集群，将数据存储在不同节点的MongoDB数据库中，这样系统每次覆盖更新用户推荐列表与商品推荐列表只用更新单个节点的表数据信息，从而对用户体验感无影响。

致谢
近四个月的毕业设计已经结束，在这段时间里得到老师和同学的很大的帮助，首先我要感谢我的导师蔡亮老师。无论从论文的写作与修改，还是相关操作技术的指导，蔡老师都给予了我极大的帮助。毫不夸张的说，如果没有蔡老师的细心直到，我根本无法完成本次毕业设计。在这个过程中，蔡老师在各方面给予了我极大的帮助。这将对我以后的学习生活产生很大的帮助，让我不断前进、进步。谨以此表达我对蔡老师最崇高的敬意和深深的感谢，他将对我的学习及工作产生很大的影响。
此外，作为一个“技术的使用者、代码的搬运工”，我一直对全球各大开源技术源码和资料的提供者保持尊敬、感谢的态度。本课题项目从头到尾使用的组件包括Apache Spark、Apache Flume、Apache Kafka、Apache Zookeeper、Scala、Java、Redis、MongoDB、CentOS-Linux、Maven、SpringBoot、Angular等等软件无一例外全部都是永久免费的。在此，我衷心地对Apache等开源贡献组织以及全球的开源项目贡献开发者们表示感谢！是他们推动了大数据的发展，推动了时代的进步。
另外，我还要感谢我的实习公司给我提升技术的机会，感谢我的同学家人在百忙之中予以支持，感谢在此期间帮助过我的所有人。
最后，我还要感谢我的学校，在这里，我实现从一个懵懵懂懂的高中生到大学生的蜕变。我相信，我在这四年里学到的知识，将会是我一生最大的财富。

参考文献
[1]流言.亚马逊如何猜你喜欢[J].电脑爱好者,2013(02):26-27.
[2]洪亮,任秋圜,梁树贤.国内电子商务网站推荐系统信息服务质量比较研究——以淘宝、京东、亚马逊为例[J].图书情报工作,2016,60(23):97-110.
[3]伍之昂,曹杰. 电子商务推荐系统导论[M]. 科学出版社 2019.2
[4]颜颖.个性化推荐系统在电子商务中的应用研究[J].太原城市职业技术学院学报,2019(11):35-37.
[5]K. G. Srinivasa,Siddesh G. M.,Srinidhi H.. Apache Flume[M].Springer International Publishing:2018-05-16.
[6]Jason Bell John Wiley & Sons, Inc. Apache Spark [J]. 2020
[7]纪涵，靖晓文，赵政达著. Spark SQL入门与实践指南[M]. 清华大学出版社.2018: 82-120.
[8]王晓华,夏毓彦. SparkMLlib机器学习实践(第2版) [M]. 清华大学出版社 2017.3
[9]Dominique Laffly John Wiley & Sons, Inc.Spark and Machine Learning Library[J]. 2020
[10]Karima Sid,Mohamed Batouche. Ensemble Learning for Large Scale Virtual Screening on Apache Spark[M].Springer International Publishing:2018-05-16.
[11]王佳娴,王中杰.基于Spark的分布式实时推荐系统[J].系统仿真技术,2017,13(02):158-161.
[12]Mikhail Genkin,Frank Dehne,Pablo Navarro,Siyu Zhou. Machine-Learning Based Spark and Hadoop Workload Classification Using Container Performance Patterns[M].Springer International Publishing:2019-10-08.
[13]周恒新. 基于Hadoop架构的商业推荐引擎协同过滤算法设计与实现[D].电子科技大学,2016.
[14]岑凯伦,于红岩,杨腾霄.大数据下基于Spark的电商实时推荐系统的设计与实现[J].现代计算机(专业版),2016(24):61-69.
[15]单京晶. 基于内容的个性化推荐系统研究[D].东北师范大学,2015.
[16]韩德志,陈旭光,雷雨馨,戴永涛,张肖.基于Spark Streaming的实时数据分析系统及其应用[J].计算机应用,2017,37(05):1263-1269.
[17]郑凤飞,黄文培,贾明正.基于Spark的矩阵分解推荐算法[J].计算机应用,2015,35(10):2781-2783+2788.
[18]Hien Luu. Spark SQL (Foundations)[M].Apress:2018-08-20.
[19]王建芳. 机器学习算法实践——推荐系统的协同过滤理论及其应用[M]. 清华大学出版社 2018.11
[20]陆俊尧,李玲娟.基于Spark的协同过滤算法并行化研究[J].计算机技术与发展,2019,29(01):85-89.
[21]李聪,马丽. 电子商务推荐系统瓶颈问题研究[M]. 科学出版社有限责任公司 2017.4
[22]李思. 基于Spark平台的个性化新闻推荐系统研究[D].华北理工大学,2019.
[23]黄美灵. 推荐系统算法实践[M]. 电子工业出版社. 2019.9
[24]郇长武,朱琳,陈俊材,周锋奇,张智勇.基于“互联网+”的多能融合个性化方案推荐平台设计[J].电子设计工程,2020,28(08):30-33+38.
[25]车晋强,谢红薇.基于Spark的分层协同过滤推荐算法[J].电子技术应用,2015,41(09):135-138.
————————————————
版权声明：本文为CSDN博主「DougLeaMrConcurrency」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_43265673/article/details/114647715

你可能感兴趣的:(解决方案,运维架构,大数据,运维,linux,python)

使用Selenium和bs4进行Web数据爬取和自动化(爬取掘金首页文章列表) 程序员霄霄软件测试 selenium 前端自动化软件测试功能测试自动化测试程序人生
前言：Web数据爬取和自动化已成为许多互联网应用程序的重要组成部分。本文将介绍如何使用Python中的两个强大库，即Selenium和BeautifulSoup，来实现自动化操作、网页数据提取以及网页内容分析。并以爬取掘金首页文章列表标题和url为例子进行讲解.安装和使用Selenium本文是在python环境下使用selenium，使用浏览器是火狐，系统是win10系统。python环境的配置这
python爬虫之自动化爬取网页陌小 python selenium python chrome
以下为公开源码fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionsimporttimefrombs4importBeautifulSoupurl='https://movie.douban.com/'chrome_optins=Options()chrome_optins.add_argument
自动化爬取json_爬虫解决方案之爬取“搜狗引擎” 公子大白0m0 自动化爬取json
主题.jpg1.爬取的背景为甚我们会提到“搜狗引擎爬虫呢”，一切根源来自于最近需要爬取领英的会员资料，我们可以通过人名|领英的方式具体的搜索以查询结果，这只是爬取领英的其中一个方法，具体的方法我们之后会讲，大家可以期待一下哦！，好了，讲回正题，我们该如何爬取“搜狗引擎”呢，我们先去首页看看搜狗首页.png我们可以看到每个链接的右下角都会有对应的时间和快照，这个是什么意思呢，因为我们爬取领英时需要登
【PCIe 总线及设备入门学习专栏 10.1 -- Linux PCIe 驱动框架之 RK3399 Region1 访问】主公讲 ARM #【PCIe Bus 专栏】pcie
文章目录CPU读写region0的地址MEM/IO读写示例配置Region1用于内存读写配置Region1地址转换Region1地址访问descregistersCPU读写region0的地址本篇文章紧接【PCIe总线及设备入门学习专栏10–LinuxPCIe驱动框架】由【PCIe总线及设备入门学习专栏10–LinuxPCIe驱动框架】我们知道RK3399的PCIecontrollerRegion
2.4K star的GOT-OCR2.0：端到端OCR 模型 AI 研习所人工智能大模型 AI AIGC 人工智能
GOT-OCR2.0是一款新一代的光学字符识别（OCR）技术，标志着人工智能在文本识别领域的重大进步。作为一款开源模型，GOT-OCR2.0不仅支持传统的文本和文档识别，还能够处理乐谱、图表以及复杂的数学公式，为用户提供了更加全面和高效的解决方案。产品功能及特点多语言支持：GOT-OCR2.0主要支持中文和英文字符识别，并能够通过进一步的微调扩展到更多语言。这种灵活性使其适用于国际化应用，满足不同
自由软件与Linux:一段共同的革命性旅程寒水馨 Linux问题解决方案 linux 运维服务器
自由软件与Linux:一段共同的革命性旅程摘要本文深入探讨了自由软件运动和Linux操作系统的发展历程、关系及其对现代技术世界的影响。文章详细介绍了自由软件的定义、GNU项目的诞生、Linux内核的发展，以及两者如何结合形成了完整的GNU/Linux操作系统。同时，文章还探讨了开源开发模式的优势、Linux在各个领域的应用，以及自由软件和Linux面临的挑战和未来展望。通过本文，读者将全面了解自由
推荐：MacOS上的3D加速QEMU虚拟化神器秋玥多
推荐：MacOS上的3D加速QEMU虚拟化神器去发现同类优质开源项目:https://gitcode.com/项目简介如果你是Mac用户，并且希望拥有一套完整的Linux开发或测试环境，那么这个项目将给你带来惊喜。基于AkihikoOdaki的开创性工作，它实现了在Mac上使用3D加速的QEMU虚拟机。项目以易于安装的Homebrew包形式提供，无论是Intel还是M1芯片的Mac电脑，都能享受到
通过理解 sk_buff 深入掌握 Linux 内核自定义协议族的开发实现 109702008 编程 #C语言网络 linux 网络人工智能
要开发Linux内核中的自定义协议族（如私有传输层或网络层协议），需基于sk_buff的结构和操作，结合内核网络栈的扩展机制。以下是实现这一目标的分步指南：1.协议族开发的核心步骤(1)注册自定义协议族定义协议号在或自定义头文件中分配唯一的协议标识符（例如ETH_P_MYPROTO）。注册协议处理函数使用dev_add_pack()（链路层）或inet_add_protocol()（网络层）注册协
Visual Studio Code配置Python开发环境 ai74583 python 开发工具 json
1.安装Python插件在VScode界面按Crtl+Shift+P或者F1输入extinstall直接安装Python，也就是点击它，然后等待，安装好后会提示你重启2.配置运行Python程序同样的打开命令面板（Crtl+Shift+P或F1），然后输入Tasks:ConfigureTaskRunner（中文输入：任务，然后选择任务：配置任务运行程序），选择Other此时VScode会自动生成.
开机出现fixing(c:) stage...问题解决方案 QuartusII7 KMJ公司运维
1.使用官方提供的疑难解答程序后并更新系统https://aka.ms/wudiag2.修复系统文件要检查和修复系统文件，请执行以下操作：请您启动管理员模式的命令提示符，依次输入以下命令并回车，之后重新启动计算机。sfc/scannowDism/Online/Cleanup-Image/ScanHealthDism/Online/Cleanup-Image/CheckHealthDISM/Onli
Python | 学习type()方法动态创建类胜天半月子 Python基础及应用 python 学习开发语言
getattr方法的使用场景是在访问不存在的属性时，会触发该方法中的处理逻辑。尤其是在动态属性获取中结合type()动态创建类有着良好的使用关系。type()方法常用来判断属性的类别，而动态创建类不常使用，通过如下的几个实例来学习使用：defsay_hello(self):print("Hello,I'maninstanceofadynamicallycreatedclass!")#使用type函
Python实用技巧：轻松上手自动化数据爬取与存储傻啦嘿哟 python 自动化开发语言
目录一、准备阶段：确定目标与安装工具1.确定目标网站2.安装Python及必要库二、编写爬虫程序：发送请求与解析网页1.发送HTTP请求2.解析网页内容三、处理反爬虫机制：应对挑战与策略1.设置请求头2.使用代理IP四、数据存储与处理：保存与分析数据1.存储为文本文件2.存储为数据库3.存储为Excel文件五、实战案例：爬取电商平台商品价格1.分析目标网站2.编写爬虫程序3.运行爬虫程序六、优化与
使用 Vosk 实现语音识别分发吧语音识别 xcode 人工智能
在近两年里，如果说想要在本地部署离线语音识别模型，那么Whisper和FunASR肯定是首选项。所以为什么要使用Vosk呢？优势Vosk是一个离线开源语音识别工具包，它的优点在于：轻量：Vosk提供轻量级的模型（小于50MB大小），可以用于低功耗平台（例如Android、树莓派之类）多编程语言、多平台支持：Python、Java、Node.js、C#、C++、Rust、Go等多语种支持：支持二十多
在 Spring Boot 中使用异步线程时的 HttpServletRequest 复用问题老友@ 后端 spring boot java 后端 request Tomcat 异步线程多线程
在SpringBoot中使用异步线程时的HttpServletRequest复用问题一、问题描述：异步线程操作导致请求复用时`Cookie`解析失败1.场景背景2.问题根源二、问题详细分析1.场景重现2.问题分析三、解决方案四、总结一、问题描述：异步线程操作导致请求复用时Cookie解析失败1.场景背景在一个Web应用中，通常每个请求都会有一个HttpServletRequest对象来保存该请求的
10个简单、有趣且适合初学者的Python编程实例！！ shuaige_shiwoa python+AI python 开发语言
好的！以下是10个简单、有趣且适合初学者的Python编程实例，每个例子都附带简要说明和代码（可直接运行）：猜数字游戏用户猜一个随机生成的数字，程序会提示“太大”或“太小”。importrandomnumber=random.randint(1,100)whileTrue:guess=int(input("猜一个1-100之间的数字:"))ifguess==number:print(“猜中了！”)
3.1 RK3588 MPP硬件编码YUYV为H264（待更新） kw23571113 RK3588入门教程 h.264
3.1.1资源功能描述获取USB摄像头1080P@5fpsYUYV格式图片，经过MPP编码成H264，然后写入文件。3.1.2开发环境准备（使用rock5b_debain开发）#下载依赖应用sudoaptinstall-ygitmakecmakegccg++wget#下载mpp库githttps://github.com/rockchip-linux/mpp.gitcd./mpp/build/li
哪个python解释器好？ lmseo5hy python培训 python解释器
Python是一门解释器语言，代码想运行，必须通过解释器执行，Python存在多种解释器，分别基于不同语言开发，每个解释器有不同的特点，但都能正常运行Python代码，以下是常用的五种Python解释器：CPython当从Python官方网站下载并安装好Python2.7后，就直接获得了一个官方版本的解释器：Cpython，这个解释器是用C语言开发的，所以叫CPython，在命名行下运行pytho
python编译安装vosk语音识别包 hzjxinyue python
不知道为什么，谁把vosk从pip源上删了。没办法只能自己编译安装了。下载源代码gitclonehttps://github.com/alphacep/vosk-api.git进入python文件夹cdvosk-api/python编译安装python3setup.pyinstall
基于 Linux 系统（迅为 iTOP-4412）设计的倒车雷达系统鱼弦 Linux系统编程与驱动开发 linux 运维服务器
鱼弦：公众号：红尘灯塔，CSDN博客专家、内容合伙人、新星导师、全站领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）基于Linux系统（迅为iTOP-4412）设计的倒车雷达系统介绍倒车雷达系统是一种辅助驾驶系统，它通过超声波传感器检测车辆后方障碍物，并通过声音或视觉信号向驾
VOSK语音识别工具包使用教程邴联微
VOSK语音识别工具包使用教程voskVOSKSpeechRecognitionToolkit项目地址:https://gitcode.com/gh_mirrors/vo/vosk1.项目介绍VOSK是一个开源的语音识别工具包，旨在提供高效的语音识别解决方案。VOSK基于大规模信号数据库概念，通过音频指纹技术进行语音识别。它支持多种语言，并且可以在不同的硬件平台上运行，包括Android和Linu
【北京迅为】iTOP-RK3568OpenHarmony系统南向驱动开发-第5章 UART接口运作机制北京迅为鸿蒙 harmonyos 鸿蒙嵌入式硬件人工智能 RK3568
瑞芯微RK3568芯片是一款定位中高端的通用型SOC，采用22nm制程工艺，搭载一颗四核Cortex-A55处理器和MaliG522EE图形处理器。RK3568支持4K解码和1080P编码，支持SATA/PCIE/USB3.0外围接口。RK3568内置独立NPU，可用于轻量级人工智能应用。RK3568支持安卓11和linux系统，主要面向物联网网关、NVR存储、工控平板、工业检测、工控盒、卡拉OK
Eclipse极速安装指南：3分钟掌握Java开发环境三流搬砖艺术家 java java eclipse ide
目录为什么要选Eclipse？️准备工具清单步骤一：下载安装包⚙️步骤二：安装与配置步骤三：界面优化步骤四：创建第一个项目必装效率插件推荐❗常见问题排雷效率对比表为什么要选Eclipse？✅跨平台神器：Windows/Mac/Linux全支持✅免费开源：IBM开发，全球开发者共同维护✅插件生态强大：支持Java/Python/C++等20+语言✅智能代码提示：媲美IDEA的代码补全能力️准备工具清
SSH 密钥验证失败，GitHub 无法识别你的 SSH 公钥 weixin_74979678 ssh github 运维
目录**1.检查SSH密钥是否正确添加到GitHub**1.**检查本地SSH密钥**：-确保你已经生成了SSH密钥。默认情况下，公钥文件位于`2.**将公钥添加到GitHub**：3.**测试SSH连接**：**2.检查SSH配置**1.**检查默认密钥文件**：2.**检查SSH代理**：3.**检查权限**：**3.确保仓库存在****4.使用HTTPS克隆（作为临时解决方案）****5.其
PythonLearn yadanuof yy的学习之路 python
简单数据类型数据类型转换int(x)float(x)str(x)chr(x)ord(x)hex(x)oct(x)bin(x)eval函数Python中的内置函数,用于去掉字符串最外侧的引号,并按照逻辑运算age=eval(input('请输入年龄:'))#将input读入的字符串类型转成了int类型,相当于int(age)print(age,type(age))#18hello='北京欢迎你'pr
Anaconda的详细配置过程（附图）椰卤工程师机器学习 anaconda tensorflow
Anaconda是Python的一个科学计算发行库，内置了上千个Python经常会用到的库，包括Scikit-learn、Numpy、Scipy、Pandas等。1.Anaconda下载下载地址：https://www.anaconda.com/download/官网下载速度很慢，慎用！建议通过国内镜像网站下载。Anaconda是跨平台的，有Windows、macOS、Linux版本，博主这里以W
linux shell脚本 cp,shell命令之cp 李启方 linux shell脚本 cp
操作系统为macOS10.12.4cp为复制命令，实际中分为文件间的复制，目录间的复制，文件到目录的复制以及链接的复制。文件间的复制cpfile1file2如果file2不存在，就先创建file2，然后把file1内容复制到file2中如果file2存在，把把file1的内容覆盖file2的内容覆盖file2的内容，有时候并不是所希望的参数-i可以提示是否覆盖file2参数-n让复制命令不覆盖fi
VMware NSX 4.2.1.3 下载 - 网络安全虚拟化平台 vmware
VMwareNSX4.2.1.3-网络安全虚拟化平台构建具有网络连接和安全性的云智能网络，跨多种云环境支持一致的策略、运维和自动化。请访问原文链接：https://sysin.org/blog/vmware-nsx-4/查看最新版。原创作品，转载请保留出处。作者主页：sysin.orgVMwareNSX4.2.1.3|10FEB2025|Build24533884VMwareNSX4.2.1.2|
WGCLOUD 和 WGCAT 有什么区别
WGCLOUD是运维监控软件，WGCAT是工单管理软件不过，这两个产品都是同一个团队(WGCLOUD团队)开发的，WGCAT是团队近期发布的一款工单管理系统
控制对文件的访问上邪o_O linux 运维
什么是文件系统权限？它是如何工作的？如何查看文件的权限？文件系统权限是一种安全机制，用于控制用户和组对文件和目录的访问权限。它规定了不同用户角色（所有者、所属组、其他用户）对文件或目录可以执行的操作，如读取、写入和执行。Linux系统为每个文件和目录分配了三组权限，分别对应文件的所有者、所属组和其他用户。每组权限包含读取（r）、写入（w）和执行（x）三种基本权限。当用户尝试访问文件或目录时，系统会
互联网医院实时数据监测智能分析系统设计概述（上） Allen_LVyingbo 医疗高效编程研发 python 健康医疗 python 互联网医院人工智能
研究背景近年来，随着互联网技术的飞速发展，互联网医疗作为一种新兴的医疗模式，正逐渐改变着传统的医疗服务方式。互联网医疗借助互联网、大数据、人工智能等技术手段，实现了医疗服务的线上化、智能化和便捷化，为患者提供了更加高效、优质的医疗服务。根据中国互联网络信息中心（CNNIC）发布的报告显示，我国互联网医疗用户规模达4.18亿人，较2023年12月增长372万人，占网民整体的37.7%，这表明互联网医
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/