lixuguang

使用Mahout搭建推荐系统之入门篇2-玩转你的数据1

目录[-]

用意: 搞推荐系统或者数据挖掘的, 对数据要绝对的敏感和熟悉, 并且热爱你的数据. 分析数据既要用统计分析那一套,又要熟悉业务发掘有趣的特征(feature). 后者有意思的多,但是因为我业务做的不多,还不太熟悉, 跪求大牛们分析业务经历. 听豆瓣上的大神"懒惰啊我"说过,有一个Nokia的比赛,有一个团队直接用陀螺仪参数就发现了性别分布,因为男生手机都放在口袋里, 而女生往往放在包里面. 不知道记错没有.

下面主要讲些统计分析或者简单的内容分析, 说说我自己的总结, 这个话题以后可以常说.

这部分不涉及Mahout的内容,主要是使用Python和Linux命令简单处理数据. 不感兴趣的朋友可以直接跳到最后面看看一些不错的数据集推荐.

一. 前期数据分析的三个阶段

1. 打开你的数据,读懂每一行的含义

2. 统计你的数据, 用python\excel pivot table\R\SPSS等都可以, 考虑到复用性建议写代码

数据的行数

item和user的数量

rate的评分方式,是boolean还是1-5分或者其它.

数据稀疏还是稠密 sparse or dense

3. 找到合适的存储方式存储,DenseVector还是SparseVector

二. 数据分析实例

现在国内的数据还比较少, 感谢下百度,提供了一些不错的数据.

首先来看一份国内的数据

百度举办的电影推荐系统算法创新大赛提供的用户数据. http://pan.baidu.com/s/1y15w4

1. 读懂你的数据, 知道每一行的含义.

一共有五个文件:

movie_tag.txt 每行表示一个有效数据项, 下面类似. 每行由电影id以及tag的id, 用"\t"隔开; tag用","隔开.

training_set.txt 每行表示用户id, 电影id, 评分, 用"\t"隔开.

user_social.txt 每行表示用户id和用户关注的好友id集合；好友id集合用","隔开.

predict.txt 每行表示用户id和电影id

user_history.txt 每行表示用户id和用户看过的电影id.

数据如下图所示: head -n 2 *.txt

2. 数据统计

主要参数:

用户个数\电影个数

每个用户平均电影个数,平均值,标准差\每个电影平均用户个数,平均值,标准差

评分的范围

行数分析: wc -l *.txt

traning_set.txt数量为1262741行,predict.txt数量为314679行, 电影和用户数量未知,大概在万的级别,所以写些

python代码简单分析一下. 100万用户级别的数据项使用python dict数据结构消耗内存在MByte级别且由于Python使用共享池共享int类,对象的冗余开销也不会暴涨, 普通PC既可以计算.

Python数据分析

Python代码输出如下:

     用户(总数,平均值,标准差)=( 9722 129.884900226 223.778624272 )
     电影(总数,平均值,标准差)=( 7889 160.063506148 360.171047305 )
     评分范围=( 1.0 5.0 )

简要分析:

由数据可见,用户数量和电影数量在10000左右级别, 由于电影更少一些,使用item-based较合适;当然,由于用户和电影数量差距不大,最终还是要用实验来证明一下两者的性能优异.

另外:两者标准差分别为223与336可见, 基本可以判定数据为稀疏矩阵.

[比较: 我使用了movieLens上的1M数据集进行对比, 运行结果如下]

http://www.grouplens.org/datasets/movielens/

用户(总数,平均值,标准差)=( 6040 165.597516556 192.731072529 )
电影(总数,平均值,标准差)=( 3706 269.889098759 383.996019743 )
评分范围=( 1.0 5.0 )

评价: 平均值更大, 数据更加致密一些. 每个用户和电影的数据推荐效果应该也会更好一些.

[吐槽点: 你给了id不给电影和标签的真实名称,看着一堆id, 推荐一大堆数字有个毛兴趣啊. 但是movieLens给出了电影名称,以后还是使用movieLens来作为预测数据更加有兴趣一些.]

Python代码如下:

 
          <strong> 
          # -*- coding: utf-8 -*-  
         
          ''' 
         
          Created on 2 Nov, 2013 
         
          @author: cool 
         
          ''' 
         
          import 
          math 
         
          #return user_num, movie_num, movie_mean, movie_variant 
         
          def 
          countData(filename): 
         
          user_count  
          = 
          {}  
          #the number of movie about every user 
         
          movie_count  
          = 
          {}  
          #the number of user about every movie 
         
          max 
          = 
          - 
          100 
         
          min 
          = 
          100 
         
          #Assuming no duplicate data 
         
          for 
          line  
          in 
          open 
          (filename): 
         
          (user, movie, rating)  
          = 
          line.split( 
          "\t" 
          ) 
         
          #(user, movie, rating, xx) = line.split("::") 
         
          rating  
          = 
          float 
          (rating.replace(r 
          "\r\r\n" 
          , "")) 
         
          #print rating 
         
          user_count.setdefault(user,  
          0 
          ) 
         
          user_count[user]  
          + 
          = 
          1 
         
          movie_count.setdefault(movie,  
          0 
          ) 
         
          movie_count[movie]  
          + 
          = 
          1 
         
          if 
          ( 
          max 
          < rating):  
          max 
          = 
          rating 
         
          if 
          ( 
          min 
          > rating):  
          min 
          = 
          rating  
         
          uSum  
          = 
          sum 
          ([user_count[user]  
          for 
          user  
          in 
          user_count]) 
         
          uSqSum  
          = 
          sum 
          ([user_count[user] 
          * 
          * 
          2 
          for 
          user  
          in 
          user_count]) 
         
          user_mean  
          = 
          float 
          (uSum)  
          / 
          len 
          (user_count) 
         
          user_variant  
          = 
          math.sqrt( 
          float 
          (uSqSum)  
          / 
          len 
          (user_count)  
          - 
          user_mean 
          * 
          * 
          2 
          )  
         
          mSum  
          = 
          sum 
          ([movie_count[movie]  
          for 
          movie  
          in 
          movie_count]) 
         
          mSqSum  
          = 
          sum 
          ([movie_count[movie] 
          * 
          * 
          2 
          for 
          movie  
          in 
          movie_count]) 
         
          movie_mean  
          = 
          float 
          (mSum)  
          / 
          len 
          (movie_count) 
         
          movie_variant  
          = 
          math.sqrt( 
          float 
          (mSqSum)  
          / 
          len 
          (movie_count)  
          - 
          movie_mean 
          * 
          * 
          2 
          ) 
         
          return 
          len 
          (user_count),  
          len 
          (movie_count), user_mean, user_variant, movie_mean, movie_variant,  
          min 
          ,  
          max 
         
          if 
          __name__  
          = 
          = 
          '__main__' 
          : 
         
          (user_count, movie_count, user_mean, user_variant, movie_mean, movie_variant,  
          min 
          ,  
          max 
          ) \ 
         
          = 
          countData( 
          "../data/baidu/training_set.txt" 
          ) 
         
          #(user_count, movie_count, user_mean, user_variant, movie_mean, movie_variant, min, max) \ 
         
          # = countData("../data/baidu/ratings.dat") 
         
          print 
          "用户(总数,平均值,标准差)=(" 
          , user_count, user_mean, user_variant,  
          ")" 
         
          print 
          "电影(总数,平均值,标准差)=(" 
          , movie_count, movie_mean, movie_variant,  
          ")" 
         
          print 
          "评分范围=(" 
          ,  
          min 
          ,  
          max 
          ,  
          ")" 
          < 
          / 
          strong>

三. 不错的数据来源

[1] GroupLens数据集(推荐相关:电影数据\书\笑话等): http://grouplens.org/datasets/

[2] UCI数据集(数据丰富,无所不包) http://archive.ics.uci.edu/ml/index.html

[3] Kaggle数据(数据丰富,规范,KDD2012是腾讯提供的微博数据) http://www.kddcup2012.org/c/kddcup2012-track1

[4] Scikit-learn 提供的一些Python数据库,可以教你怎么玩转数据,我自己只玩过一点,以后得深挖一下. 此外这个Python机器学习库的文档堪称天人所写 http://scikit-learn.org/stable/datasets/

你可能感兴趣的:(Mahout,推荐系统)

从零开始搭建搜索推荐系统（五十四）多路召回之万剑归宗 hanyi_ 搜索推荐 java java 搜索系统
聊的不止技术。跟着小帅写代码，还原和技术大牛一对一真实对话，剖析真实项目筑成的一砖一瓦，了解最新最及时的资讯信息，还可以学到日常撩妹小技巧哦，让我们开始探索主人公小帅的职场生涯吧！（PS：本系列文章以幽默风趣风格为主，较真侠和杠精请绕道~）一、奶茶引发的血案（会议室里，行服小姐姐把笔记本往桌上一拍，屏幕上是密密麻麻的搜索日志）行服姐姐："小帅！你自己看看！用户搜'朝阳区低糖芝士草莓冰沙'，你家系统
机器学习模型-从线性回归到神经网络 Earth explosion 机器学习线性回归神经网络
在当今的数据驱动世界中，机器学习模型是许多应用程序的核心。无论是推荐系统、图像识别，还是自动驾驶汽车，机器学习技术都在背后发挥着重要作用。在这篇文章中，我们将探索几种基础的机器学习模型，并了解它们的基本原理和应用场景。1.线性回归基本原理线性回归是最简单的机器学习模型之一。它旨在找到一个最佳拟合线来预测目标变量（通常是连续值）。线性回归假设输入变量和输出变量之间存在线性关系，其数学表达式为：[y=
机器学习入门指南：从 TensorFlow 到 PyTorch 6v6-博客机器学习 tensorflow pytorch
机器学习入门指南：从TensorFlow到PyTorch机器学习（MachineLearning）是人工智能的核心领域之一，近年来在图像识别、自然语言处理、推荐系统等领域取得了巨大进展。本文将从基础概念入手，介绍机器学习的核心知识，并带你快速上手两大主流框架：TensorFlow和PyTorch。机器学习基础什么是机器学习？机器学习是一种通过数据训练模型，使计算机能够自动学习和改进的技术。它主要分
H800实战应用深度解析endofsentence 智能计算研究中心其他
内容概要H800作为新一代计算架构的核心组件，其设计理念聚焦于高性能计算与人工智能场景的深度融合。通过模块化异构计算架构，H800实现了计算密度与能效比的突破性提升。下表展示了H800在不同场景下的性能表现对比：场景类型训练速度提升推理延迟降低能效比提升自然语言处理35%22%40%计算机视觉28%18%33%推荐系统41%29%37%资深系统架构师指出："H800的异构计算架构在模型并行处理方面
LWC-KD：图结构感知的推荐系统增量学习对比知识蒸馏宇直不会放弃 GKD-Middle layer 人工智能 python chatgpt gpu算力深度学习机器学习神经网络
LWC-KD：图结构感知的推荐系统增量学习对比知识蒸馏《GraphStructureAwareContrastiveKnowledgeDistillationforIncrementalLearninginRecommenderSystems》2021作者是YueningWang、YingxueZhang和MarkCoates论文地址：https://dl.acm.org/doi/10.1145/
基于大数据架构的就业岗位推荐系统的设计与实现【java或python】—计算机毕业设计源码+LW文档 qq_375279829 大数据架构 python 课程设计算法
摘要随着互联网技术的迅猛发展和大数据时代的到来，就业市场日益复杂多变，求职者与招聘方之间的信息不对称问题愈发突出。为解决这一难题，本文设计并实现了一个基于大数据架构的就业岗位推荐系统。该系统通过收集、整合并分析大量求职者简历信息、企业招聘信息以及市场动态数据，运用先进的机器学习算法，为求职者提供个性化的岗位推荐服务，同时帮助企业快速定位到合适的候选人。本文将从系统设计的背景与意义、技术基础、需求分
向量数据库简介 openwin_top python编程示例系列 python编程示例系列二数据库
向量数据库（VectorDatabase）是一种专门用于存储和查询向量数据的数据库系统。向量数据库通常使用高效的向量索引技术，支持基于向量相似度的查询和检索，可以应用于图像搜索、自然语言处理、推荐系统、机器学习等领域。与传统的关系型数据库不同，向量数据库通常使用基于向量的数据模型，将向量作为数据的核心表示形式。向量数据库可以存储和处理大量的向量数据，支持高效的向量相似度计算和查询。常见的向量索引技
开源向量数据库介绍说明 ❀͜͡傀儡师开源数据库
开源向量数据库Milvus特点：分布式、高性能，支持亿级向量检索。支持的数据类型：文本、图像、音频、视频等。使用场景：推荐系统、语义搜索、图像搜索。数据存储后端：支持多种后端，如SQLite、MySQL、PostgreSQL。Qdrant特点：高可用性、易用性，支持实时更新和过滤。编程接口：支持REST和gRPC。使用场景：个性化推荐、自然语言搜索、商品搜索。Weaviate特点：基于GraphQ
计算机毕业设计JAVA人职匹配推荐系统mybatis+源码+调试部署+系统+数据库+lw 诺诺网络 java mybatis 开发语言
计算机毕业设计JAVA人职匹配推荐系统mybatis+源码+调试部署+系统+数据库+lw计算机毕业设计JAVA人职匹配推荐系统mybatis+源码+调试部署+系统+数据库+lw本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5
Python构建基于协同过滤的推荐系统：从理论到实践清水白石008 python Python题库 python 开发语言
构建基于协同过滤的推荐系统：从理论到实践推荐系统在现代应用中无处不在，从电商平台的商品推荐到流媒体服务的内容推荐，推荐系统极大地提升了用户体验。本文将详细介绍如何使用Python构建一个基于协同过滤算法的推荐系统，内容涵盖理论基础、数据处理、算法实现以及实际应用。一、推荐系统概述推荐系统主要分为三类：基于内容的推荐、基于协同过滤的推荐和混合推荐系统。本文重点介绍基于协同过滤的推荐系统。协同过滤（C
知识图谱与金融——基于知识图谱的风险监控与决策支持 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介知识图谱(KG)是一种用来表示大量互相关联数据的多维网络结构，它通过三元组（subject-predicate-object）的方式来表述实体之间的关系。它经常被用在文本分析、数据挖掘、推荐系统等领域。而随着金融行业对海量信息数据的需求越来越高，知识图谱技术也越来越受到重视。实际上，知识图谱已经成为构建和处理金融知识的重要工具之一。本文将探讨知识图谱在金融中的应
专业英语程序员爱德华英语专业英语
文章目录一、计算机1.计算机基础(1)计算机组成原理(2)计算机网络(3)数据库(4)编译原理(5)离散数学2.软件开发(1)编程词汇(2)开发术语(3)Linux(4)软件3.就业领域(1)职场(2)芯片(3)自动驾驶(4)嵌入式硬件4.深度学习(1)论文(2)深度学习DL(3)计算机视觉CV(4)自然语言处理NLP(5)推荐系统(6)计算机图形学二、数学三、机械、材料四、医药五、英美计量单位一
跨领域算法安全优化与实践路径智能计算研究中心其他
内容概要在算法技术加速渗透金融、医疗、自动驾驶等关键领域的背景下，跨领域算法的安全性与可落地性成为核心挑战。本书从联邦学习的隐私保护架构切入，探讨如何通过可解释性算法增强模型透明度，并引入量子计算与边缘计算的协同优化框架，构建兼顾效率与安全的技术范式。值得注意的是，医疗影像分析中的对抗攻击防御机制与生成对抗网络驱动的推荐系统创新，揭示了算法动态演进中的风险控制逻辑。技术整合不应局限于单一场景优化，
Django 中的算法应用与实现岱宗夫up 教学 sqlite 数据库 python django opencv
Django中的算法应用与实现在Django开发中，算法的应用可以极大地扩展Web应用的功能和性能。从简单的数据处理到复杂的机器学习模型，Django都可以作为一个强大的后端框架来支持这些算法的实现。本文将介绍几种常见的算法及其在Django中的使用方法。1\.协同过滤算法1.1算法简介协同过滤是一种常用的推荐系统算法，通过分析用户的行为数据（如评分、浏览历史等），为用户推荐他们可能感兴趣的内容。
大模型不确定性量化与提示词校准 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型不确定性量化与提示词校准关键词大模型不确定性量化提示词校准自然语言处理计算机视觉推荐系统摘要本文旨在探讨大模型不确定性量化与提示词校准这一前沿技术。首先，我们将介绍大模型不确定性的背景及其重要性，然后深入探讨不确定性量化的原理和方法，以及提示词校准在其中的作用。通过具体案例分析，我们将展示这些技术在自然语言处理、计算机视觉和推荐系统等领域的应用。最后，我们将讨论实现大模型不确定性量化与提示词
新闻推荐系统：Spring Boot框架详解 2402_85758936 spring boot 后端 java
2相关技术2.1MYSQL数据库MySQL是一个真正的多用户、多线程SQL数据库服务器。是基于SQL的客户/服务器模式的关系数据库管理系统，它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等，非常适用于Web站点或者其他应用软件的数据库后端的开发工作。此外，用户可利用许多语言编写访问MySQL数据库的程序。作为开放源代码运动的产物之一，MyS
搜广推校招面经三十六 Y1nhl 搜广推面经机器学习人工智能算法 python 深度学习 pytorch 推荐算法
快手推荐算法一、有10亿个数据量如何快速做召回在推荐系统的召回阶段，面对海量数据（如10亿条记录），需要快速筛选出与目标用户相关的候选物品集合。由于数据规模巨大，直接对所有数据进行计算是不现实的，因此需要设计高效的召回策略。1.1.核心挑战数据规模大:10亿级别的数据无法直接加载到内存中。实时性要求高:召回过程通常需要在毫秒级完成。稀疏性问题:用户行为数据通常是稀疏的，导致相似性计算复杂度增加。多
图数据库Neo4j面试内容整理-图遍历和最短路径不务正业的猿面试 Neo4j 数据库 neo4j 网络面试职场和发展图数据库
图遍历和最短路径是图数据库中两个非常重要的概念，尤其是在图数据结构中，它们是解决许多问题（如社交网络分析、推荐系统、网络分析等）的核心算法。Neo4j提供了强大的图遍历和最短路径查询能力，帮助用户有效地从图中提取信息。1.图遍历（GraphTraversal）
《DataWorks：为人工智能算法筑牢高质量数据根基》人工智能深度学习
在当今数字化时代，人工智能（AI）技术的迅猛发展深刻地改变着各个行业的面貌。从智能推荐系统到医疗影像诊断，从自动驾驶到自然语言处理，AI正以前所未有的速度渗透到我们生活和工作的方方面面。而在这一系列AI应用的背后，高质量的训练数据是其能够发挥强大效能的关键所在。就如同巧妇难为无米之炊，没有优质的数据，再先进的AI算法也难以施展拳脚。阿里巴巴的DataWorks，作为一款强大的大数据开发治理平台，在
2025年具有百度特色的软件测试面试题噔噔噔噔@ 软件测试基础及工具分享程序人生软件测试面试题专栏测试工具经验分享自动化
百度业务场景如何测试一个高并发的搜索系统（如百度搜索）？如何测试一个在线地图服务（如百度地图）？如何测试一个大型推荐系统（如百度推荐）的性能？百度技术栈你对百度的PaddlePaddle框架有了解吗？如何测试基于PaddlePaddle的服务？如何测试百度云的API服务？你对百度的DevOps实践有什么了解？
《基于Django和ElasticSearch的学术论文搜索推荐系统的设计与实现》开题报告 Python数据分析与机器学习毕业论文/研究报告 elasticsearch 大数据搜索引擎课程设计 python django 开发语言
目录一、选题的背景和意义（一）选题背景（二）选题意义2.1.提升科研效率2.2促进学术创新2.3优化资源配置二、选题的国内外现状与总结（一）国内现状（二）国外现状（三）总结三、选题的主要内容和拟解决关键问题（一）主要内容1.数据库设计与实现2.搜索功能实现3.推荐功能实现4.用户管理与交互功能实现（二）拟解决关键问题1.数据质量与整合难题解决措施：2.搜索精准度与性能优化解决措施：四、选题的设计方
微信小程序毕业设计大全 QQ1305637939 小程序毕业设计小程序答辩 java idea
微信小程序程序列表:微信小程序健身房课程预约系统6638微信小程序投票系统6640微信小程序小说阅读推荐系统6641微信小程序垃圾分类识别系统（语音识别，拍照识别）qt-93982微信小程序网上书店qt-93982微信小程序在线购物系统qt-93982微信小程序课堂签到系统qtail-93982微信小程序人脸识别图书馆座位预约系统qt-93982微信小程序二手物品交易系统qt-93982微信小程序
基于Python豆瓣电影评论的数据处理与分析 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于Python豆瓣电影评论的数据处理与分析作者：禅与计算机程序设计艺术1.背景介绍1.1豆瓣电影评论数据的价值1.1.1反映观众观影偏好1.1.2影响电影市场走向1.1.3为推荐系统提供数据支持1.2Python在数据处理与分析中的优势1.2.1丰富的数据处理库1.2.2强大的数据分析和可视化能力1.2.3简洁高效的语法1.3本文的研究目的和意义1.3.1探索豆瓣电影评论数据的特点1.3.2实践
融合多源高校画像数据与协同过滤算法的高考择校推荐系统[Java]—计算机毕业设计源码+LW文档 qq_375279829 高考 java spring boot javascript vue.js spring
摘要随着信息技术的飞速发展和教育数据的日益丰富，高考择校推荐系统已成为帮助学生和家长做出明智选择的重要工具。本文介绍了一种基于SpringBoot的融合多源高校画像数据与协同过滤算法的高考择校推荐系统。该系统通过整合高校的多源画像数据，如地理位置、学科实力、师资力量、就业情况等，结合协同过滤算法，为学生提供个性化的高校推荐。本文详细阐述了系统的设计与实现过程，包括技术选型、需求分析、系统设计、功能
mysql数据推荐算法_Mahout推荐算法基础爱看书的小兔纸 mysql数据推荐算法
转载自(http://www.geek521.com/?p=1423)Mahout推荐算法分为以下几大类GenericUserBasedRecommender算法：1.基于用户的相似度2.相近的用户定义与数量特点：1.易于理解2.用户数较少时计算速度快GenericItemBasedRecommender算法：1.基于item的相似度特点：1.item较少时就算速度更快2.当item的外部概念易于
python 推荐算法库_[译] 详解个性化推荐五大最常用算法 weixin_39612733 python 推荐算法库
允中若朴编译自Stats&Bots量子位出品|公众号QbitAI推荐系统，是当今互联网背后的无名英雄。我们在某宝首页看见的商品，某条上读到的新闻，甚至在各种地方看见的广告，都有赖于它。昨天，一个名为Stats&Bots的博客详解了构建推荐系统的五种方法。量子位编译如下：现在，许多公司都在用大数据来向用户进行相关推荐，驱动收入增长。推荐算法有很多种，数据科学家需要根据业务的限制和要求选择最好的算法。
Python智能推荐系统与个性化电商 master_chenchengg python python 办公效率 python开发 IT
Python智能推荐系统与个性化电商探索宝藏：揭开推荐系统的神秘面纱数据炼金术：挖掘用户行为背后的黄金智能导购员：为每位顾客定制专属购物体验实时响应大师：打造即时反馈的动态推荐社交网络效应：借助朋友的力量扩大影响力反馈循环艺术家：持续改进与优化用户体验未来展望：迎接智能化零售的新时代探索宝藏：揭开推荐系统的神秘面纱在电子商务的世界里，推荐系统就像是一个藏宝图，它帮助商家找到那些隐藏在海量商品中的“
Python实现个性化推荐二 Ninina1992 python 人工智能开发工具
基于内容的推荐引擎是怎么工作的基于内容的推荐系统，正如你的朋友和同事预期的那样，会考虑商品的实际属性，比如商品描述，商品名，价格等等。如果你以前从没接触过推荐系统，然后现在有人拿枪指着你的头，强迫你在三十秒之内描述出来，你可能会描述这样一个基于内容的系统：呃，呃，我可能会给你看一大堆来自同一个厂家，并且拥有类似的说明的产品。你正在利用商品本身的属性来推荐类似的商品。这样做非常合理，因为这就是我们在
计算机毕业设计 ——jspssm510springboot 的人职匹配推荐系统程序媛9688 课程设计
作者：程序媛9688开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等。文末获取源码+数据库感兴趣的可以先收藏起来，还有大家在毕设选题（免费咨询指导选题），项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人计算机毕业设计——jspssm510springboot的人职匹配推荐系统人职匹配推荐系统技术说明本毕业设计项目“jsps
python爬虫项目（一百九十八）：电商平台用户行为数据分析与推荐系统、爬取电商平台用户行为数据人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫数据分析开发语言信息可视化 okhttp
在现代电商平台中，用户的行为数据对于优化用户体验、提升销量以及个性化推荐至关重要。通过抓取和分析用户的浏览、点击、购买等行为数据，电商平台能够更好地了解用户的偏好，从而推荐相关产品，增加用户的黏性和购买意愿。本篇博客将详细介绍如何通过爬虫技术抓取电商平台的用户行为数据，并结合数据分析和推荐算法，构建一个简单的推荐系统。目录一、电商平台用户行为数据二、爬虫技术实现2.1网站分析2.2使用Seleni
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，