Yuan-Programmer

Python机器学习实战教学——基于协同过滤的电影推荐系统（超详细教学，算法分析）

注重版权，转载请注明原作者和原文链接
作者：Yuan-Programmer

结尾处有效果展示

文章目录

- 引言
- 一、技术原理
- - - （一）推荐算法介绍
    - （二）主流距离计算法
    - （三）余弦距离计算法
- 二、数据介绍
- - - （一）数据来源
    - （二）数据展示
- 三、数据预处理
- - - （一）分离数据
    - （二）预处理代码
- 四、Neo4j图形数据库
- - - （一）介绍
    - （二）展示
- 五、创建实体图和关系图
- - - （一）原理
    - （二）代码
- 六、搭建推荐系统
- - - （一）原理
    - （二）代码
- 七、结果演示

引言

推荐系统的兴起与互联网的发展息息相关。最早的自动化协同过滤系统可以追溯到1994年，明尼苏达大学双城分校计算机系的GroupLens研究组设计了名为GroupLens 的新闻推荐系统。该工作不仅首次提出了协同过滤的思想，并且为推荐问题建立了一个形式化的模型，为随后几十年推荐系统的发展带来了巨大影响。该研究组后来创建了MovieLens推荐网站，一个推荐引擎的学术研究平台，其包含的数据集是迄今为止推荐领域引用量最大的数据集。

一、技术原理

（一）推荐算法介绍

当今最流行的推荐算法有五个，分别如下

（1）基于流行度的算法

基于流行度的算法非常简单粗暴，类似于各大新闻、微博热榜等,根据PV、UV、日均PV或分享率等数据来按某种热度排序来推荐给用户

（2）基于协同过滤的算法

协同过滤算法(Collaborative Filtering, CF)是很常用的一种算法,在很多电商网站上都有用到。CF算法包括基于用户的CF(User-based CF)和基于物品的CF(Item-based CF)

（3）基于内容的推荐

基于内容的推荐算法 (Content-BasedRecommendations) 是基于标的物相关信息、用户相关信息及用户对标的物的操作行为来构建推荐算法模型，为用户提供推荐服务

（4）基于模型的推荐

基于模型的方法使用一些机器学习算法来对物品的向量(针对—个特定的用户)来训练，然后建立模型来预测用户对于新的物品的得分。流行的基于模型的技术是贝叶斯网络、奇异值分解和隐含概率语义分析

（5）混合算法

机器学习中有所谓的集成学习(EnsembleLearning),广泛应用于分类和回归问题，本质上是利用多个分类或者回归算法，通过这些算法的有效整合获得更好的分类或者预测双果。通过不同的算法组合可以有效地降低系统性误差(方差)

（二）主流距离计算法

本次推荐系统采用的是协同过滤的方法，计算用户相似度是必不可少的，我们通过计算距离来决定用户之间的相似度高低，当今主流的距离计算法有六个，如下

（1）欧式距离计算法
（2）曼哈顿距离计算法
（3）切比雪夫距离计算法
（4）余弦距离计算法
（5）皮尔森系数计算法
（6）杰夫德距离计算法

这里我就不一一介绍每个距离计算法的原理了，我只介绍本次有用到的余弦距离计算法，其他有想了解的伙伴可以网上找找资料，有很多介绍的

（三）余弦距离计算法

余弦距离，也称为余弦相似度，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。

余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。

上图两个向量a,b的夹角很小可以说a向量和b向量有很高的的相似性，极端情况下，a和b向量完全重合。如下图:

余弦公式

在向量表示的三角形中，假设a向量是(x1, y1)，b向量是(x2, y2)，那么可以将余弦定理改写成下面的形式:

我们转换为多维就能得到如下公式

技术原理讲完了，就正式开始讲解代码了

二、数据介绍

（一）数据来源

本次项目所有的数据均来源于 Kaggle平台 https://www.kaggle.com/
用到的有三个数据集，如下

tmdb_5000_movies.csv 电影数据集，来源 https://www.kaggle.com/tmdb/tmdb-movie-metadata

movie_titles.csv 电影属性集，来源 https://www.kaggle.com/netflix-inc/netflix-prize-data?select=movie_titles.csv

combined_data_1.txt 用户电影评分数据集，来源 https://www.kaggle.com/netflix-inc/netflix-prize-data?select=combined_data_1.txt

（二）数据展示

tmdb_5000_movies.csv 电影数据集
有电影的编号、类型、导演、公司、关键词······
movie_titles.csv 电影属性集
有电影的年份和电影名

combined_data_1.txt 用户电影评分数据集

三、数据预处理

在上述中我们可以看到非常多的数据，但不是所有的数据我们都用的到，只需要把我们所需要的数据分离出来。同时多种数据不统一，我们需要规划到一起，这就是预处理操作

（一）分离数据

我们一共分离出五个数据集，分别如下

out_genre.csv 电影类型数据集
out_grade.csv 用户评分数据集
out_keyword.csv 电影关键词数据集
out_movies.csv 电影名称数据集
out_productor.csv 电影制作方数据集

（二）预处理代码

import pandas as pd
import json
import re

def Netflix():
    print("Loading Netflix-data...")
    print()
    
    MAX_USER = 1000  # 读取一千个用户
    d_movie = dict() #字典集
    s_movie = set()  #集合（无序不重复）

#====================================================================================== 生成 movies.csv数据集（电影名称）
    out_movies = open("handle-data/out_movies.csv","w")
    out_movies.write("title\n")
    
    for line in open("base-data/movie_titles.csv","r",encoding = 'ISO-8859-1'):
        line = line.strip().split(',')    #通过“,”字符进行切割
        movie_id = int(line[0])
        title = line[2].replace("\"","")  #将“\”字符去掉
        title = "\"" + title + "\""
        
        d_movie[movie_id] = title
        
        if title in s_movie:
            continue
        s_movie.add(title)
        
        out_movies.write(f"{title}\n")    #读入数据
    
    print("out_movies.csv Create Success...")
    out_movies.close()   #关闭

#====================================================================================== 生成 grade数据集（评分）
    out_grade = open("handle-data/out_grade.csv","w")
    out_grade.write("user_id,title,grade\n")
    
    files = ["base-data/combined_data_1.txt"]
    for f in files:
        movie_id = -1
        for line in open(f,"r"):
            pos = line.find(":")
            if pos != -1:
                movie_id = int(line[:pos])
                continue
            line = line.strip().split(",")
            user_id = int(line[0])    #用户编号
            rating = int(line[1])     #评分
            
            if user_id > MAX_USER:    #获取1000个用户（看自己需求）
                continue
            
            out_grade.write(f"{user_id},{d_movie[movie_id]},{rating}\n")
        
    print("out_greade.csv Create Success...")
    out_grade.close()
    
#=======================================================================================================
"""
genre.csv数据集（电影类型）
keyword.csv数据集（电影关键词）
productor.csv数据集（电影导演及公司）
"""
def TMDB():
    print("Loading TMDB-data...")
    print()
    
#============================================================== 写入表格列名标题
    pattern = re.compile("[A-Za-z0-9]+")
    out_genre = open("handle-data/out_genre.csv","w",encoding="utf-8")
    out_genre.write("title,genre\n")
    out_keyword = open("handle-data/out_keyword.csv","w",encoding="utf-8")
    out_keyword.write("title,keyword\n")
    out_productor = open("handle-data/out_productor.csv","w",encoding="utf-8")
    out_productor.write("title,productor\n")
    
#============================================================== 读入数据
    df = pd.read_csv("base-data/tmdb_5000_movies.csv",sep=",")
    json_columns = ['genres', 'keywords', 'production_companies']
    for column in json_columns:
        df[column] = df[column].apply(json.loads) # 处理字典
    df = df[["genres", "keywords", "original_title", "production_companies"]]
    
    for _, row in df.iterrows():
        title = row["original_title"]
        if not pattern.fullmatch(title): #匹配
            continue
        title = "\"" + title + "\""
        
#====================================================================================== 生成out_genre.csv数据集（电影类型）
        for g in row["genres"]:
            genre = g["name"]
            genre = "\"" + genre + "\""
            out_genre.write(f"{title},{genre}\n")
            
#====================================================================================== 生成out_keyword数据集（电影关键词）
        for g in row["keywords"]:
            keyword = g["name"]
            keyword = "\"" + keyword + "\""
            out_keyword.write(f"{title},{keyword}\n")
            
#====================================================================================== 生成out_productor.csv数据集（电影制片人）
        for g in row["production_companies"]:
            productor = g["name"]
            productor = "\"" + productor + "\""
            out_productor.write(f"{title},{productor}\n")
            
    print("out_genre.csv Create Success...")
    print("out_keyword.csv Create Success...")
    print("out_productor.csv Create Success...")
    out_genre.close()
    out_keyword.close()
    out_productor.close()
       
#=======================================================================================================
if __name__ == "__main__":
    Netflix()
    print("="*40)
    TMDB()

四、Neo4j图形数据库

注意：如果没有安装Neo4j数据库和python库的可以去我上一篇文章或者点击下方链接查看安装教程https://blog.csdn.net/weixin_47971206/article/details/119860728

（一）介绍

作为图数据库，Neo4j最大的特点是关系数据的存储，图数据库除了能够像普通的数据库一样存储一行一行的数据之外，还可以很方便的存储数据之间的关系信息。

例如，对于一个社交网络的用户数据库，你除了要存储每个用户的姓名、性别、喜好这些基本信息外你还需要存储一个用户和哪些用户是朋友，和哪个用户是情侣这些关系数据，这个时候Neo4j这样的图数据就可以派上用场啦!

通过下图，大家可以了解下什么是图数据库以及什么是关系数据

在上图中，包含两个标签为“人”的数据节点，分别代表Ann和Dan两个用户。这两个数据节点还包含姓名、出生地等属性信息，用于表示两个用户的基本信息，就如同常规数据库中的两行数据。

除此之外，两个数据节点之间还包含两条关系数据，即Ann嫁给了Dan，Ann和Dan同居。利用这些关系数据，你就可以方便的作出基于关系的查询，例如你可以查询Ann跟谁结婚了，这就是图数据库的优势。

（二）展示

左边有两部分
一个是Node Labels，翻译过来是节点标签，它是一个实体图的展示。
一个是Relationship Types，翻译过来就是关系类型，它是一个实体间的关系图展示。

最上方的白色输入框是指令输入，Neo4j数据库包含大部分的SQL语法，本身也有自己的语法结构，有兴趣的可以去学学

五、创建实体图和关系图

注意：需要将分离出来的五个csv数据集复制到Neo4j数据库解压文件目录下的 import 文件夹里面

（一）原理

通过指令 pip install neo4j 安装neo4j库，导入 GraphDatabase 模块，通过调用内部的 driver 方法进行连接数据库，再通过 session 操作数据库

（二）代码

from neo4j import GraphDatabase
import pandas as pd

# 连接Neo4j数据库
uri = "bolt://localhost:7687"  #本地地址
driver = GraphDatabase.driver(uri,auth=("neo4j","ydw18778450107"))  #自己的账号和密码

# 相关设置及参数
k = 10
movies_common = 3
user_common = 2
threshold_sim = 0.9

def load_data():
    with driver.session() as session:
        session.run("""MATCH ()-[r]->() DELETE r""")
        session.run("""MATCH (r) DELETE r""")
        
#================================================================================ 创建电影名称数据实体图
        print("Loading movies...")
        
        session.run("""
            LOAD CSV WITH HEADERS FROM "file:///out_movies.csv" AS csv
            CREATE (:Movie {title: csv.title})
        """)

#================================================================================ 创建用户评分实体图
        print("Loading gradings...")
        
        session.run("""
            LOAD CSV WITH HEADERS FROM "file:///out_grade.csv" AS csv
            MERGE (m:Movie {title: csv.title})
            MERGE (u:User {id: toInteger(csv.user_id)})
            CREATE (u)-[:RATED {grading : toInteger(csv.grade)}]->(m)
        """)
        
#================================================================================ 创建电影类型实体图
        print("Loading genres...")
        
        session.run("""
            LOAD CSV WITH HEADERS FROM "file:///out_genre.csv" AS csv
            MERGE (m:Movie {title: csv.title})
            MERGE (g:Genre {genre: csv.genre})
            CREATE (m)-[:HAS_GENRE]->(g)
        """)
        
#================================================================================ 创建电影关键词实体图
        print("Loading keywords...")
        
        session.run("""
            LOAD CSV WITH HEADERS FROM "file:///out_keyword.csv" AS csv
            MERGE (m:Movie {title: csv.title})
            MERGE (k:Keyword {keyword: csv.keyword})
            CREATE (m)-[:HAS_KEYWORD]->(k)
        """)
        
#================================================================================ 创建电影导演、公司等实体图
        print("Loading productors...")
        
        session.run("""
            LOAD CSV WITH HEADERS FROM "file:///out_productor.csv" AS csv
            MERGE (m:Movie {title: csv.title})
            MERGE (p:Productor {name: csv.productor})
            CREATE (m)-[:HAS_PRODUCTOR]->(p)
        """)
        
#================================================================================ 主函数

if __name__ == "__main__":
    if int(input("是否需要重新加载并创建知识图谱？（输入0或1）")):
        load_data()
        print("创建完毕...")

六、搭建推荐系统

（一）原理

前面已经介绍了余弦距离计算法的原理，搭建推荐系统的核心就是用户相似度的计算，本次项目采用的是协同过滤的算法，用余弦距离计算法计算用户间的相似度，原理是通过用户对电影的评分来匹配拥有相同爱好的用户，在相似度高的一群用户中，给用户一推荐电影，那么就可以把用户二评分过电影且用户一没评分过的推荐给用户一。

（1）推荐用户
选择需要推荐的用户,给出选择是否过滤不喜欢的电影类型
（2）计算相似度
计算用户和用户之间的相似度，用过余弦距离计算法计算两者的相似度，筛选出>0.9的用户
（3）推荐电影
通过相似用户给推荐的用户推荐电影

（二）代码

下面代码是计算用户间的相似度的，用过余弦距离计算法求得用户间的相似度，然后筛选出相似度大于0.9的高相似度用户。

下面代码是过滤的操作，用户可以过滤掉自己不喜欢的电影类型

整体代码

def queries():
    while True:
        userid = input("请输入要为哪位用户推荐电影，输入其ID即可（回车结束）：")
        
        if userid == "":
            break
       
        userid = int(userid)
        m = int(input("为该用户推荐多少个电影呢？"))
        
        genres = []
        if int(input("是否需要过滤不喜欢的类型？（输入0或1）")):
            with driver.session() as session:
                try:
                    q = session.run(f"""MATCH (g:Genre) RETURN g.genre AS genre""")
                    result = []
                    for i,r in enumerate(q):
                        result.append(r["genre"])
                    df = pd.DataFrame(result, columns={"genre"})
                    print()
                    print(df)
                    
                    inp = input("输入不喜欢的类型索引即可，例如：1 2 3")
                    if len(inp) != 0:
                        inp = inp.split(" ")
                        genres = [df["genre"].iloc[int(x)] for x in inp]
                except:
                    print("Error")
                    
        # 找到当前ID
        with driver.session() as session:
            q = session.run(f"""
                    MATCH (u1:User {{id : {userid}}})-[r:RATED]-(m:Movie)
                    RETURN m.title AS title, r.grading AS grade
                    ORDER BY grade DESC
                """)
            
            print()
            print("Your ratings are the following（你的评分如下）:")
            
            result = []
            for r in q:
                result.append([r["title"], r["grade"]])
                
            if len(result) == 0:
                print("No ratings found")
            else:
                df = pd.DataFrame(result, columns=["title", "grade"])
                print()
                print(df.to_string(index=False))
            print()
            
            session.run(f"""
                MATCH (u1:User)-[s:SIMILARITY]-(u2:User)
                DELETE s
            """)
            
            # 找到当前用户评分的电影以及这些电影被其他用户评分的用户，with是吧查询集合当做结果方便后面用where余弦相似度计算
            """
            Cosine相似度计算法(Cosine Similarity)
            """
            session.run(f"""
                    MATCH (u1:User {{id : {userid}}})-[r1:RATED]-(m:Movie)-[r2:RATED]-(u2:User)
                    WITH
                        u1, u2,
                        COUNT(m) AS movies_common,
                        SUM(r1.grading * r2.grading)/(SQRT(SUM(r1.grading^2)) * SQRT(SUM(r2.grading^2))) AS sim
                    WHERE movies_common >= {movies_common} AND sim > {threshold_sim}
                    MERGE (u1)-[s:SIMILARITY]-(u2)
                    SET s.sim = sim
            """)
            
            # 过滤操作
            Q_GENRE = ""
            if (len(genres) > 0):
                Q_GENRE = "AND ((SIZE(gen) > 0) AND a"
                Q_GENRE += "(ANY(x IN " + str(genres) + " WHERE x in gen))"
                Q_GENRE += ")"
                
            # 找到相似的用户，然后看他们喜欢什么电影Collect，将所有值收集到一个集合List中
            """
            s:SIMILARITY通过关系边查询
            ORDER BY 降序排列
            """
            q = session.run(f"""
                    MATCH (u1:User {{id : {userid}}})-[s:SIMILARITY]-(u2:User)
                    WITH u1, u2, s
                    ORDER BY s.sim DESC LIMIT {k}
                    MATCH (m:Movie)-[r:RATED]-(u2)
                    OPTIONAL MATCH (g:Genre)--(m)
                    WITH u1, u2, s, m, r, COLLECT(DISTINCT g.genre) AS gen
                    WHERE NOT((m)-[:RATED]-(u1)) {Q_GENRE}
                    WITH
                        m.title AS title,
                        SUM(r.grading * s.sim)/SUM(s.sim) AS grade,
                        COUNT(u2) AS num,
                        gen
                    WHERE num >= {user_common}
                    RETURN title, grade, num, gen
                    ORDER BY grade DESC, num DESC
                    LIMIT {m}
            """)
            
            print("Recommended movies（推荐电影如下）:")
            
            result = []
            for r in q:
                result.append([r["title"],r["grade"],r["num"],r["gen"]])
            if len(result) == 0:
                print("No recommendations found（没有找到适合推荐的）")
                print()
                continue
            
            df = pd.DataFrame(result, columns=["title", "avg grade", "num recommenders", "genres"])
            print()
            print(df.to_string(index=False))
            print()
            
if __name__ == "__main__":
    queries()

七、结果演示

相关资源：
Python期末大作业——采用Neo4j的基于协同过滤电影推荐系统.zip

Python实现自动百度搜索图片并下载（内附exe文件，不需要软件即可运行）.zip

BmobLoginService.zip

本次文章分享就到这，有什么疑问或有更好的建议可在评论区留言，也可以私信我
感谢阅读~

python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
python strip()函数牛也唱歌
strip函数原型声明：s为字符串，rm为要删除的字符序列.只能删除开头或是结尾的字符或是字符串。不能删除中间的字符或是字符串。s.strip(rm)删除s字符串中开头、结尾处，位于rm删除序列的字符s.lstrip(rm)删除s字符串中开头处，位于rm删除序列的字符s.rstrip(rm)删除s字符串中结尾处，位于rm删除序列的字符注意：1.当rm为空时，默认删除空白符（包括'\n','\r',
用python执行js代码：PyExecJS库详解数据知道 2025年爬虫和逆向教程 python javascript 爬虫数据采集 nodejs
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.介绍和安装1.1PyExecJS介绍1.2安装JavaScript运行时1.3安装PyExecJS2.PyExecJS的基本使用2.1执行简单的JavaScript代码2.2使用外部JavaScript文件2.3先编译、后调用2.4传递参数和获取返回值3.PyExecJS的高级功能3.1指定JavaScript运行时3.2处理异步JavaSc
Python中strip()函数详细讲解甯公子_ Python入门程序 python 开发语言算法
strip()是Python中字符串（str）对象的一个内置方法，用于去除字符串开头和结尾的空白字符（包括空格、换行符、制表符等）。它不会修改字符串中间的空白字符。语法str.strip([chars])str：需要处理的字符串。chars（可选）：指定要去除的字符集合。如果未指定，默认去除空白字符（包括空格、换行符\n、制表符\t等）。返回值返回一个新的字符串，去除了开头和结尾的指定字符。常见用
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
二分查找算法在有序数组中的解题分析与优化带给我一点小幸运算法
摘要本文深入剖析二分查找算法在有序数组中的应用，详细阐述其基本原理、实现步骤与时间复杂度，通过实际案例展示其解题过程，并针对算法在实际应用中的常见问题提出优化策略，旨在帮助读者全面掌握二分查找算法，提升解决相关问题的能力。一、引言在计算机科学领域，查找算法是解决众多问题的基础。二分查找算法作为一种高效的查找方法，在有序数组的查找场景中具有显著优势。随着数据规模的不断增大，二分查找算法相较于其他查找
利用Python爬虫获取淘宝商品评论：实战案例分析数据小爬虫@ API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是对于电商平台而言，商品评论作为用户反馈的重要载体，蕴含着丰富的信息。本文将详细介绍如何利用Python爬虫技术获取淘宝商品评论，包括代码示例和关键步骤解析。淘宝商品评论的重要性淘宝商品评论不仅对消费者购买决策有着重要影响，而且对于商家来说，也是了解市场需求、改进产品和服务的重要途径。因此，获取并分析淘宝商品评论数据，对于电商运营和市场分析具有重要意义。Pyt
Python 自动探索性数据分析库———KLib 若木胡 tools python 数据分析开发语言
Python自动探索性数据分析库——KLib一、引言在当今数据驱动的时代，数据分析师和科学家们面临着海量的数据需要处理和分析。探索性数据分析（EDA）作为数据处理流程中的关键环节，旨在帮助人们快速理解数据的特征、分布、相关性等重要信息，从而为后续的深入分析、建模以及决策提供坚实的基础。Python以其丰富的生态系统和强大的功能在数据分析领域占据着重要地位，而KLib则是其中一款专注于自动探索性数据
源码篇：python生成《蔬菜店销售数据分析报告》案例 IT小本本 python python 数据分析开发语言
本文将通过Python实现一个完整的蔬菜销售数据分析项目，涵盖数据生成、清洗、分析及可视化全流程。我们将利用模拟数据生成技术创建90天的销售记录，通过Pandas进行数据处理，结合Matplotlib和Seaborn实现多样化的可视化图表，并最终生成动态交互报告。一、数据生成：模拟真实销售场景为了模拟真实的蔬菜销售数据，我们设计了包含10种蔬菜（白菜、土豆、西红柿等）的90天销售记录。数据生成逻辑
[附源码]Python计算机毕业设计SSM基于B-S的心理健康管理系统（程序+LW) Python、JAVA毕设程序源码 java 开发语言
环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：SSM+mybatis+Maven+Vue等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境：
5-1 使用ECharts将MySQL数据库中的数据可视化上课的牛马实训大数据
方法一：使用PythonFlask框架搭建API对于技术小白来说，使用ECharts将MySQL数据库中的数据可视化需要分步骤完成。以下是详细的实现流程：一、技术架构‌后端服务‌：使用PythonFlask框架搭建API（简单易学，适合新手）数据库连接‌：通过Python的pymysql库连接MySQL前端可视化‌：HTML+JavaScript+ECharts数据流向‌：MySQL数据库→Pyt
图论：以二维数组表示的连通图/树应如何表示？leetcode1042.不邻接种花坠金技术面算法图论算法 leetcode
1042.不邻接植花-力扣（LeetCode）容器在这道题中输入类似[[1,2],[3,4]]，这意味着花园1连通了花园2，花园3连通了花园4。那么该怎么根据这个输入，获取一个方便后面算法的表示呢？我们通常管这种存放邻居的数据格式叫做：邻接表通常我的思路是使用下列容器作为邻接表：哈希表，key就是花园i，value是与花园i接壤的其他所有花园。二维数组，第i个数组中的元素是与花园i接壤的其他所有花
基础算法高精度运算 #大数加法旧物有情基础算法算法高精度加法
文章目录题目链接题目解读完整代码参考题目链接题目解读题目描述输入两个正整数a,b，输出a+b的值。输入格式两行，第一行a，第二行b。a和b的长度均小于1000位。输出格式一行，a+b的值。完整代码#includeusingnamespacestd;vectoradd(vectora,vectorb){vectorres;intt=0;intsize=max(a.size(),b.size());f
绕过 reCAPTCHA V2/V3：Python、Selenium 指南 qq_33253945 python selenium javascript 网络爬虫爬虫算法
前言验证码（CAPTCHA）技术已经存在许多年，尽管它的有效性一直备受争议，但许多网站仍然依赖它来保护资源。尤其是Google推出的reCAPTCHA系列，一直是验证码领域的佼佼者。本文将详细介绍如何绕过reCAPTCHAV2和V3，并提供实用的代码示例。详情请见：解决验证码recaptcha、cloudflare、incapsula1.什么是reCAPTCHA？reCAPTCHA是Google推
图论——Prim算法水代码的程序猿力扣算法图论数据结构
53.寻宝（第七期模拟笔试）题目描述在世界的某个区域，有一些分散的神秘岛屿，每个岛屿上都有一种珍稀的资源或者宝藏。国王打算在这些岛屿上建公路，方便运输。不同岛屿之间，路途距离不同，国王希望你可以规划建公路的方案，如何可以以最短的总公路距离将所有岛屿联通起来（注意：这是一个无向图）。给定一张地图，其中包括了所有的岛屿，以及它们之间的距离。以最小化公路建设长度，确保可以链接到所有岛屿。输入描述第一行包
CSP-J备考冲刺必刷题（C++） | AcWing 11 背包问题求方案数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：11.背包问题求方案数-AcWi
python数据可视化绘制图表（直方图，饼图圆环图，散点或气泡图，误差棒图） 2224070304 信息可视化 python 数据分析
一，直方图#先导入模块importnumpyasnp importmatplotlib.pyplotasplt#准备50个随机的数据scores=np.random.randint(0,100,50)#绘制直方图plt.hist(scores,bins=8,histtype='stepfilled')plt.show()其中，scores为数组（可为单个或多个的数列)bins=8,表示矩形的条数为
数组模拟邻接表 #图论旧物有情数据结构图论数据结构
文章目录为什么要用数组来模拟邻接表存储思路遍历思路树是特殊的图，因此邻接表可以存储图和树两种数据结构。为什么要用数组来模拟邻接表在算法设计当中，利用数组来代替结构体模拟各种数据结构会更加简单。存储思路给定如下数据,我们可以构造如下的一个邻接表请看代码/**idx:索引,代表数组哪个位置,是否连续不重要,因为我们的存储是链式的。h[idx]:顶点表,下标idx代表是哪个顶点,初始值全部为-1,代表没
LeetCode 热题 100_跳跃游戏 II（79_45_中等_C++）(贪心算法) Dream it possible！ LeetCode 热题 100 leetcode c++贪心算法算法
LeetCode热题100_跳跃游戏II（79_45）题目描述：输入输出样例：题解：解题思路：思路一（贪心选择）：代码实现代码实现（思路一（贪心算法））：以思路一为例进行调试题目描述：给定一个长度为n的0索引整数数组nums。初始位置为nums[0]。每个元素nums[i]表示从索引i向后跳转的最大长度。换句话说，如果你在nums[i]处，你可以跳转到任意nums[i+j]处:0&nums){in
用Python实现SFM 薄辉 python opencv 计算机视觉人工智能图像处理
SFM(结构化光流法)是一种用于解决三维重建问题的方法，它可以根据许多二维图像和它们之间的相对位置，估计出三维场景的深度和摄像机的姿态。在Python中，你可以使用OpenCV库来实现SFM。下面是一个简单的例子，展示了如何使用OpenCV库的cv2.sfm_create函数来实现SFM：importcv2#读入图像，存入列表images中images=[]foriinrange(1,11):im
使用Python轻松拆分PDF，每页独立成文件 AI航海家(Ethan) python python pdf
使用Python轻松拆分PDF，每页独立成文件嗨，各位PDF爱好者！如果你曾经有想要拆分一个大PDF文件的想法，让每一页都成为独立的文件，那么这篇博客就是为你准备的！我们将使用Python中的一个非常强大的库–PyPDF2，把这些需求变得简单易行。PyPDF2登场首先，我们需要安装PyPDF2库。如果你还没有安装，别担心，只需要在终端运行以下命令：pipinstallPyPDF2安装好了吗？下面我
决策树算法及其python实例 m0_74831463 算法决策树 python
一、决策数的概念什么是决策树算法呢？决策树（DecisionTree）是一种基本的分类与回归方法，本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。它可以认为是if-then规则的集合。每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
OpenCV图像拼接（2）基于羽化（feathering）技术的图像融合算法拼接类cv::detail::FeatherBlender 村北头的码农 OpenCV opencv 算法人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::FeatherBlender是OpenCV中用于图像拼接的一个类，它属于stitching模块的一部分。这个类实现了基于羽化（feathering）技术的图像融合算法，用于平滑地混合重叠区域中的图像，从而生成无缝的全景图。主要特点羽化技术：
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
OpenCV图像拼接（1）自动校准之校准旋转相机的函数calibrateRotatingCamera() 村北头的码农 OpenCV opencv 人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::calibrateRotatingCamera是OpenCV中用于校准旋转相机的函数。它特别适用于那种相机相对于一个固定的场景进行纯旋转运动的情况，比如在全景拼接过程中。此函数可以从一系列单应性矩阵（HomographyMatrices）中
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
Python Textract库：文本提取程序员喵哥 python 开发语言
更多Python学习内容：ipengtao.comTextract是一个强大的Python库，用于从各种文件格式中提取文本。无论是PDF、Word文档、Excel电子表格、HTML页面还是图像，Textract都能有效地提取其中的文本内容。Textract通过集成多种开源工具和库，实现了对多种文件格式的支持，使得文本提取变得简单而高效。本文将详细介绍Textract库的安装、主要功能、基本操作、高
【小白深度教程 1.32】手把手教你从多视角图像进行 3D 重建（SfM 算法）小寒学姐学AI 3d 算法计算机视觉人工智能深度学习 python 三维重建
【小白深度教程1.32】手把手教你从多视角图像进行3D重建（SfM算法）1.SfM三维重建算法简介2.SfM方法和原理3.安装依赖库4.构建数据集5.可视化结果6.完整代码1.SfM三维重建算法简介从多张照片中开发三维模型被称为多视图3D重建。数码相机的进步以及图像分辨率和清晰度的提高，使得利用仅有的相机而非昂贵的特殊传感器来重建3D图像成为可能。重建的目标是从一组照片中推导场景的几何结构，假设摄
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

Python机器学习实战教学——基于协同过滤的电影推荐系统（超详细教学，算法分析）

文章目录

引言

一、技术原理

（一）推荐算法介绍

（二）主流距离计算法

（三）余弦距离计算法

二、数据介绍

（一）数据来源

（二）数据展示

三、数据预处理

（一）分离数据

（二）预处理代码

四、Neo4j图形数据库

（一）介绍

（二）展示

五、创建实体图和关系图

（一）原理

（二）代码

六、搭建推荐系统

（一）原理

（二）代码

七、结果演示

你可能感兴趣的:(Python专区,python,大数据,推荐系统,算法,机器学习)