阿坨

基于ALS的音乐分析及离线推荐系统的设计与实现报告

文章目录

- - 摘要
  - 数据说明
  - 相关技术介绍
  - - Sqoop概述
    - Spark概述
    - 协同过滤推荐算法概述
  - 系统设计与实现
  - - 数据分析
    - 热门推荐
    - 个性化推荐
    - 前台交互展示
  - 总结

摘要

在互联网时代，各类的音乐网站提供了成千上万的需求，满足了人们对于音乐的需求，让我们在通勤出行或者闲暇之余可以听到各种不同类型的音乐。而通过分析挖掘海量的历史音乐欣赏记录和用户数据，我们得以窥见消费者选择音乐背后的动机，并可以揭示特定人群的“音乐DNA”。这能够启发强大的营销战略，能够给音乐运营商带来极富价值的数据。而数字音乐的迅速发展造成了音乐歌曲的过剩，面对海量的歌曲和人们艰难的抉择，音乐推荐系统的出现可以为用户推荐其可能喜欢的歌曲，这种推荐服务可以为用户提供良好的体验，带来商业利益，并使可能“沉睡蒙尘”的歌曲重新焕发它的生机。

在分析方面，本系统采取Pandas对音乐数据进行分析，并利用Flask、MySQL和Echarts等架构对分析后的数据进行可视化呈现，挖掘出数据背后的规律；
在推荐方面，本系统采取Spark Mlib中的ALS算法对音乐数据进行推荐。ALS算法是基于模型的推荐算法。其基本思想是对稀疏矩阵进行模型分解，评估出缺失项的值，以此来得到一个基本的训练模型，然后依照此模型可以针对新的用户和物品数据进行评估。Spark是新一代并行计算框架，已经成为大数据处理领域的应用热点，本系统采用Spark Mlib集成的ALS算法，借助Spark强大的内存计算和并行化计算的能力，提高大数据处理的效率。

关键词：音乐、分析、推荐、Spark、ALS

数据说明

本文采用kaggle平台上KKBox举办的—KKBox’s Music Recommendation Challenge比赛的公开数据集，对相应的音乐数据进行相应的基础统计分析和音乐推荐算法的实现。

KKBox是亚洲领先的音乐流媒体服务商，在台湾音乐占着重要的地位。官方比赛数据都来自都来自原数据集的抽样，除了对相应的ID进行了加密处理，其余数据都是原始数据。该数据集包含几个小文件

train.csv包含6个字段，msno（用户ID），song_id，source_system_tab（触发收听事件的选项卡的名称），source_screen_name（用户见到的页面名称），source_type（用户首先在移动应用上播放音乐的入口点。入口点可以是专辑，在线播放列表，歌曲等），target。
test.csv包含5个字段，以上和train.csv一致，除了缺少target字段。
songs.csv为歌曲信息，包含7个字段，song_id，song_length（歌曲时长，单位为毫秒），genre_ids（音乐类型），artist_name（歌手），composer（作曲），lyricist（作词），language
members.csv为用户信息，包含7个字段，msno，city，bd（年龄），gender（性别），registered_via（注册方式），registration_init_time（注册时间），expiration_date（服务截止时间）。
song_extra_info.csv为歌曲扩展信息，包含3个字段，song_id，song name，isrc（歌曲标识）。

各数据文件的关系如下

系统设计与实现

本系统选取kaggle平台上KKBox的公开数据集来做离线分析和推荐服务，并把各项服务串起来搭建出一个基于ALS的音乐分析及离线推荐系统。

系统搭建流程图如下

该系统主要功能集中在数据分析、热门推荐、个性化推荐、前台交互展示方面

数据分析

采用pandas进行数据集的离线分析，并把分析后获取的数据存储到MySQL。

数据分析主要分为用户方面的数据分析和歌曲方面的数据分析。

有关数据分析数据获取的代码如下

import pandas as pd
import numpy as np
import pymysql
from sqlalchemy import create_engine
from sklearn.preprocessing import LabelEncoder

train= pd.read_csv(r"kkbox-music-dataset\train.csv")
song_extra_info = pd.read_csv(r"kkbox-music-dataset\song_extra_info.csv")
songs = pd.read_csv(r"kkbox-music-dataset\songs.csv")
members = pd.read_csv(r"kkbox-music-dataset\members.csv")

def get_songs_info(conn):
    #歌曲时长从毫秒转为秒
    language_songs_length = songs.groupby(by = ["language"])["song_length"].mean()/1000/60
    pd.io.sql.to_sql(language_songs_length,'language_songs_length', con=conn, if_exists='replace', index=True)
    

    #统计被重复听的歌曲前200,得到song_repeats
    repeats=train[train.target==1]
    song_repeats=repeats["song_id"].value_counts()
    song_repeats = pd.DataFrame({
     'song_id':song_repeats.index,'count':song_repeats.values})
    #三表合并
    song_repeats = pd.merge(song_repeats,song_extra_info,on='song_id')
    song_repeats = pd.merge(song_repeats,songs,on = "song_id")

    pd.io.sql.to_sql(song_repeats[:200],'hotsongs', con=conn, if_exists='replace', index=True)
    

    #统计
    artistWordFre = pd.Series(song_repeats[:200]["artist_name"].tolist()).value_counts()
    composerWordFre = pd.Series(song_repeats[:200]["composer"].tolist()).value_counts()
    lyricistWordFre = pd.Series(song_repeats[:200]["lyricist"].tolist()).value_counts()
    #series转dataframe
    artistWordFre = pd.DataFrame({
     "artist":artistWordFre.index,"count":artistWordFre.values})
    composerWordFre = pd.DataFrame({
     "composer":composerWordFre.index,"count":composerWordFre.values})
    lyricistWordFre = pd.DataFrame({
     "lyricist":lyricistWordFre.index,"count":lyricistWordFre.values})

    pd.io.sql.to_sql(artistWordFre,'artist_wordfre', con=conn, if_exists='replace', index=True) 
    pd.io.sql.to_sql(composerWordFre,'composer_wordfre', con=conn, if_exists='replace', index=True)
    pd.io.sql.to_sql(lyricistWordFre,'lyricist_wordfre', con=conn, if_exists='replace', index=True)
    

def get_users_info(conn):
    #转换时间
    members["registration_init_time"] = pd.to_datetime(members['registration_init_time'],format = r"%Y%m%d")
    members["expiration_date"] = pd.to_datetime(members['expiration_date'],format = r"%Y%m%d")

    #获取注册年份
    members["registration_year"] = members["registration_init_time"].dt.year

    #获取年份-注册渠道的数量关系
    year_registered_via = members.groupby(by = ["registration_year","registered_via"],as_index = False)["msno"].count()

    #构建年份-注册渠道透视表
    registered_via_list = year_registered_via["registered_via"].value_counts().index.tolist()
    registered_year_list = year_registered_via["registration_year"].value_counts().index.tolist()
    year_via_df = pd.DataFrame(0,index = registered_year_list,columns = registered_via_list)

    for i in year_registered_via.index:
        year_via_df.loc[year_registered_via.loc[i, 'registration_year'], year_registered_via.loc[i, 'registered_via']] = year_registered_via.loc[i, 'msno'] 

    pd.io.sql.to_sql(year_via_df,"year_via_df",con=conn, if_exists='replace', index=True)

    #用户注册的城市分布
    city_df = members.groupby(by = ["city"])["msno"].count().sort_values(ascending = True)
    pd.io.sql.to_sql(city_df,"city_df",con=conn, if_exists='replace', index=True)


    #用户注册的年份分布
    year_df = members.groupby(by = ["registration_year"])["msno"].count().sort_index()
    year_df.plot(kind = "area",title="注册用户的年份分布")
    pd.io.sql.to_sql(year_df,"year_df",con=conn, if_exists='replace', index=True)


    #获取年份-城市的数量关系
    year_city = members.groupby(by = ["registration_year","city"],as_index = False)["msno"].count()

    #构建年份-城市透视表
    city_list = year_city["city"].value_counts().index.tolist()
    registered_year_list = year_city["registration_year"].value_counts().index.tolist()
    year_city_df = pd.DataFrame(0,index = registered_year_list,columns = city_list).sort_index()

    for i in year_city.index:
        year_city_df.loc[year_city.loc[i, 'registration_year'],year_city.loc[i, 'city']] = year_city.loc[i, 'msno'] 

    pd.io.sql.to_sql(year_city_df,"year_city_df",con=conn, if_exists='replace', index=True)


def main():
    plt.rcParams['font.sans-serif']=['SimHei']
    conn = create_engine("mysql+pymysql://root:root@localhost/kkbox_music")
    get_songs_info(conn)
    get_users_info(conn)

main()

运行代码后，相关数据分析的结果数据存储到MySQL，在指定的数据库生成相应的数据表

下面根据数据分析得到的数据进行可视化呈现后的图表进行分析，相关可视化的步骤这里不详说。

各城市的用户注册占比

用户注册的城市分布，city1独占鳌头（猜测是台北），注册量比其余名次之和还要多，从注册人数来看，KKBox的受众城市分布为

第一簇：city1、city13、city5等；
第二簇：city4、city15、city22等；
第三簇：city6、city14、city12等；

说明KKBox在非第一簇的城市中推广的潜质极大。

各年份的用户注册数量变化

十年间，KKBox注册用户的数量发展呈现出三个阶段的发展。第一阶段（2004—2009），KKBox的注册渠道只有PC端，而PC端听音乐不方便，不能随时随地地听，此时发展是缓慢而稳定的，第二阶段（2009-2015），移动端开始发展崛起，用户听音乐的途径被拓宽，此时发展有了明显的增长，第三阶段（2015-2016），随着移动端穿戴设备的兴起，KKBox似乎又发现了一片红海。

热门歌手

占据热门歌曲排行榜的歌手主要有邓紫棋、周杰伦、五月天、田馥甄、林俊杰等

热门作曲家

占据热门歌曲排行榜的作曲家主要有周杰伦、韦礼安、阿信等

热门作词家

占据热门歌曲排行榜的作词家主要有方文山、阿信、林夕等

各城市各年份的用户注册数量分布

对于各城市各年份的用户注册人数数量发展来说，具有明显发展态势的城市有city22、city4、city5、city13、city15、city1，其中city1的发展和其他城市的发展拉开较大的差距，其余城市的发展相对持平。city1的迅猛发展得益于KKBox在台北策划的数起营销活动，包括成为Facebook亚太地区第一个合作伙伴，台北小巨蛋举行数字音乐风云榜等。

2004-2017年间用户注册渠道数量分布

12年间KKBox用户注册渠道注册数量总体趋于多元化转变。在2009年以前，所有用户都是从渠道9注册的，因为当时智能手机并没有普及，PC端几乎是一切网络平台的渠道来源。

KKBox于2008年开始推出了Mac版本，延伸到更多PC平台；2009年开始开始全面进军移动端，iOS和android版本均于当年上线。越来越多的用户选择在移动端注册听歌，这种发展趋势在2016年达到高潮。在2015年开始，KKBox相继退出AppleWatch和AndriodWear智慧手表，又迎来了一批注册高峰。

各语种歌曲的时长分布

各语种歌曲的时长分布基本集中在3-5分钟内，平均为4分钟。其实我们纵观歌曲的发展史，无论音乐风格如何变化，歌曲的平均时长基本集中在3-5分钟，原因如下：

早期唱片在工业技术上的限制导致了歌曲时长的局限性，进而影响了歌曲的创作与制作，即使后面技术的发展解决了唱片只能记录3分钟的技术局限性问题，3分钟左右的这个标准已经在音乐产业中得到了广泛认可，而且，相关学者表示3分钟左右的歌曲长度刚好足够表达创作者的情感，刚好能使得听者能产生共鸣并不会感到厌烦。于是大多数歌曲的创作都围绕着“三分钟定律”来创作。

并且在现代生活中，3-5分钟相比一小时的歌曲，可适用的场景更多更灵活，符合人么利用生活闲暇时间来听歌的生活习惯。

个性化推荐

把用户收听歌曲的记录进行数据预处理，把用户ID和歌曲ID的字符串ID进行独热编码转换为自然数ID，并获取target字段（是否重复收听）组成建模数据，并上传至HDFS，方便Spark的取用。

import pandas as pd
from sklearn.preprocessing import LabelEncoder

train= pd.read_csv(r"kkbox-music-dataset\train.csv")

def change_id(dataset):
    product_tags = dataset
    le = LabelEncoder() #实例化
    le = le.fit(product_tags)
    label = le.transform(product_tags)
    return label


def main():
    #id进行label编码 dataset为数据集  product_tags为需要编码的特征列(假设为第一列)
    train_copy = train
    train_copy.iloc[:, :1] = change_id(train.iloc[:,:1])
    train_copy.iloc[:, 1:2] = change_id(train.iloc[:,1:2])
    traindata = train_copy[["msno","song_id","target"]]
    traindata.to_csv("traindata.csv")

后可采取Hadoop命令将建模数据集导入到HDFS中

hadoop dfs -put traindata.csv hdfs://Master:9000/kkbox_music

建模的数据如下

利用Spark Mlib的协同过滤推荐算法ALS进行推荐计算，编写Scala代码，运行程序，为每位用户推荐5首歌曲，并把得到的推荐结果（用户ID::歌曲ID::推荐度）存储到HDFS。

Scala代码如下

import org.apache.spark.{
     SparkConf, SparkContext}
import org.apache.spark.mllib.recommendation.ALS
import org.apache.spark.mllib.recommendation.MatrixFactorizationModel
import org.apache.spark.mllib.recommendation.Rating

object MusicALSRmd{
     
  def main(args: Array[String]): Unit = {
     
	  
	val conf = new SparkConf().setAppName("musicALSRmd").setMaster("spark://Master:7077")
    val sc = new SparkContext(conf)
	val data1 = sc.textFile("hdfs://Master:9000/kkbox_music/traindata.csv")

	val header = data1.first()
	val tmpdata = data1.filter(x => x != header)
	val rawrating1 = tmpdata.map(x=>x.split(",").slice(1,4))

	val ratings2 = rawrating1.map {
      case Array(user,product, rating) => Rating(user.toInt, product.toInt, rating.toDouble) }
	val rank = 5
	val numIterations = 15
	val model = ALS.train(ratings2, rank, numIterations, 0.01)

	#保存模型
	model.save(sc,"hdfs://Master:9000/kkbox_result/")

	/*
	推荐n件商品给所有用户
    val predictProductsForUsers = model.recommendProductsForUsers(4)
    predictProductsForUsers.foreach{
      t =>
        println("\r\n向id为：" + t._1 + "的用户推荐了以下四件商品：")
        for(i <- 0 until t._2.length){
          println("UID:" + t._2(i).user + ",PID:" + t._2(i).product + ",SCORE:" + t._2(i).rating)
        }
    }
    */
	
	#保存推荐结果
	val recommendResult = model.recommendProductsForUsers(5)
	recommendResult.map{
     
		t =>{
     
			var str = ""
			for(i <- 0 until t._2.length){
     
				str += t._2(i).user + "::" + t._2(i).product + "::" + t._2(i).rating + "\n"
			}
			str  
		}
	}.saveAsTextFile("hdfs://Master:9000/kkbox_result/rmdResult1")
}
}

获取到的HDFS上存储的推荐结果数据如下

可再利用Sqoop把HDFS上的推荐结果导出到MySQL

先在MySQL上创建rmd_songs表存储推荐结果

create table rmd_songs(
userID varchar(50),
songID varchar(50),
rmd_level varchar(50)
)

再运行Sqoop导出代码

sqoop export \
--connect 'jdbc:mysql://192.168.43.10:3306/kkbox_music' \
--username 'root' \
--password 'root' \
--table 'rmd_songs' \
--export-dir '/kkbox_result/rmdResult1/*' \
--columns 'userID,songID,rmd_level' \
--mapreduce-job-name 'hdfs to mysql' \
--input-fields-terminated-by '::' \
--input-lines-terminated-by '\n'

前台交互展示

利用Flask、Bootstrap4、Echarts、MySQL搭建起一个Web应用程序，其功能如下：

构建该Web应用程序的首页；

把该系统的功能封装成一个个子页面，首页链接了去到各个页面的入口，可从首页去到本系统的任何一个页面。

首页的Flask代码如下，跳转到首页时，其路由逻辑会从comments表中提取出评论内容和评论的用户账号，利用jinja渲染到评论区，模板里的jinja代码也会判断用户名是否为空（用户是否登录），如已登录，会把登录用户的用户名渲染到导航栏。

app = Flask(__name__)
app.config['SECRET_KEY'] = 'atuo'

user_info = ""

@app.route("/",methods = ["GET","POST"])
def index():
	db = Mysql()
	comments,comment_users = db.get_comments()
	return render_template("index.html",comments = comments,comment_users = comment_users,user_info = user_info)

model层获取评论内容和评论的用户账号的代码如下

# -*- coding: utf-8 -*-
import pymysql
import pandas as pd
from sqlalchemy import create_engine
import pymysql.cursors
class Mysql(object):
    def __init__(self):
        self.conn = create_engine("mysql+pymysql://root:root@localhost/kkbox_music")
		"""以下代码省略"""
    def get_comments(self):
        comment_sql = "SELECT * FROM comments;"
        result = pd.read_sql(comment_sql,con=self.conn)
        comments = result["comment"].tolist()
        users = result["user"].tolist()
        return comments,users

首页的前端代码如下


<html lang="en">

<head>
    <meta charset="UTF-8">
    <title>KKBox音乐数据分析及推荐系统首页title>

    <link rel="stylesheet" href="{
        { url_for('static', filename='css/bootstrap.css') }}">
    <script src="{
        { url_for('static', filename='jquery-3.4.0.min.js') }}">script>
    <script src="{
        { url_for('static', filename='bootstrap.min.js') }}">script>
    <style>
        .empty {
        
            height: 30px;
        }
        
        .empty2 {
        
            height: 10px;
        }
        
        .col-center-block {
        
            float: none;
            display: block;
            margin-left: auto;
            margin-right: auto;
        }
        
        body {
        
            background-color: #f3f3f3!important;
        }
        
        .carousel-inner img {
        
            width: 100%;
            height: 100%;
        }
        
        #cards {
        
            margin-left: 20px;
        }
        
        .w3copyright-agile {
        
            margin: 2em 0 1em;
            text-align: center;
        }
    style>
head>

<body>

    <div class="container">
        <nav class="navbar navbar-expand-lg bg-light">
            <a class="navbar-brand" href="#">Atuo Musica>
            <button class="navbar-toggler" type="button" data-toggle="collapse" data-target="#navbarSupportedContent" aria-controls="navbarSupportedContent" aria-expanded="false" aria-label="Toggle navigation">
              <span class="navbar-toggler-icon">span>
            button>

            <div class="collapse navbar-collapse" id="navbarText">
                <ul class="navbar-nav ml-auto">
                    {%if user_info == ""%}
                    <li class="nav-item active">
                        <a class="nav-link" href="{
        {url_for('login')}}">登录a>
                    li>
                    <li class="nav-item">
                        <a class="nav-link" href="{
        {url_for('register')}}">注册a>
                    li>
                    {%else%}
                    <li class="nav-item active">
                        <a class="nav-link" href="#">{
      {user_info}}<img src="/static/img/person.png" class="d-inline-block align-top" width="28" height="28">a>
                    li>
                    <li class="nav-item">
                        <a class="nav-link" href="/quit_login">退出登录a>
                    li>

                    {%endif%}
                ul>
            div>
        nav>

        <div class="empty2">div>

        <div id="demo" class="carousel slide">

            
            <ul class="carousel-indicators">
                <li data-target="#demo" data-slide-to="0" class="active">li>
                <li data-target="#demo" data-slide-to="1">li>
                <li data-target="#demo" data-slide-to="2">li>
            ul>

            
            <div class="carousel-inner">
                <div class="carousel-item active">
                    <img src="/static/img/rol_music1.jpg">
                    <div class="carousel-caption">
                        <h1>Atuo Musich1>
                        <h3>基于ALS的音乐分析及离线推荐系统h2>
                    div>
                div>
                <div class="carousel-item">
                    <img src="/static/img/rol_music2.jpg">
                div>
                <div class="carousel-item">
                    <img src="/static/img/rol_music3.jpg">
                div>
            div>

            
            <a class="carousel-control-prev" href="#demo" data-slide="prev">
                <span class="carousel-control-prev-icon">span>
            a>
            <a class="carousel-control-next" href="#demo" data-slide="next">
                <span class="carousel-control-next-icon">span>
            a>

        div>
        <div class="empty">div>
        <div class="row" id="cards">
            <div class="col-lg-4">
                <div class="card" style="width: 18rem;">
                    <img class="card-img-top" src="/static/img/music1.jpg">
                    <div class="card-body">
                        <h5 class="card-title">热门歌曲推荐h5>
                        <p class="card-text">对重复收听的歌曲记录进行统计聚合得到热门歌曲推荐p>
                        <a href="{
        { url_for('mysql') }}" class="btn btn-primary">showa>
                    div>
                div>
            div>
            <div class="col-lg-4">
                <div class="card" style="width: 18rem;">
                    <img class="card-img-top" src="/static/img/music2.jpg">
                    <div class="card-body">
                        <h5 class="card-title">数据分析h5>
                        <p class="card-text">对KKBox音乐数据进行基础性分析，并进行图表展示p>
                        <a href="{
        { url_for('huge') }}" class="btn btn-primary">showa>
                    div>
                div>
            div>

            <div class="col-lg-4">
                <div class="card" style="width: 18rem;">
                    <img class="card-img-top" src="/static/img/music3.jpg">
                    <div class="card-body">
                        <h5 class="card-title">个性化推荐h5>
                        <p class="card-text">输入用户ID，按照推荐度从高到低排序推荐5首歌曲p>
                        <a href="{
        { url_for('rmd_music') }}" class="btn btn-primary">showa>
                    div>
                div>
            div>
        div>

        <div class="empty">div>

        
        <div class='col-center-block' style="width: 90%; height: auto;">
            <h5>请发布您对该系统的看法h5>
            <form method="POST" action="/comment">
                <div class="form-container">
                    <div class="form-group">
                        <textarea name="content" rows="2" class="form-control" placeholder="请输入评论">textarea>
                    div>
                    <div class="form-group">
                        <button class="btn btn-success">发布button>
                    div>
                div>
            form>
        div>
        <div class="col-center-block" style="width: 90%; height: auto;">
            {%for i in comments%}

            <div class="card text-center">
                <div class="card-header text-white bg-info">
                    <ul class="nav nav-tabs card-header-tabs">
                        <li class="nav-item">
                            <a class="nav-link active" href="#">{
      {loop.index}}楼a>
                        li>
                    ul>
                div>
                <div class="card-body">
                    <p class="card-text text-left">{
      {i}}p>
                    <p class="card-text text-right">{
      {comment_users[loop.index-1]}}p>
                div>
            div>

            {%endfor%}
        div>

        <div class="empty">div>
        <div class="w3copyright-agile">
            <p>© 2021 小坨毕设p>
        div>
    div>

body>

html>

首页的前端效果如下

2. **把数据分析获取到的数据进行Echarts的前端展示**；

由于篇幅问题，这里不对全部代码作展示，仅以各年份的用户注册数量变化数据为例。Flask获取数据接口代码和渲染HTML模板代码如下

@app.route('/year_via',methods = ["GET","POST"])
def year_via():
	db = Mysql()
	data = db.get_yearVia_data()
	return data

#可视化图表页面展示
@app.route("/huge",methods = ["GET","POST"])
def huge():
    return render_template("imgview.html")

model层代码如下

# -*- coding: utf-8 -*-
import pymysql
import pandas as pd
from sqlalchemy import create_engine
import pymysql.cursors
class Mysql(object):
    def __init__(self):
		"""以上代码省略"""
        self.conn = create_engine("mysql+pymysql://root:root@localhost/kkbox_music")
		"""以下代码省略"""
    
    def get_yearVia_data(self):
        result = pd.read_sql("select * from year_df",con=self.conn)
        year = result["registration_year"].values.tolist()
        vias = result["msno"].values.tolist()
        return {
     "year":year,"vias":vias}

Echarts绘图代码如下（imgview.html）

<!DOCTYPE html>
<html>

<head>
    <meta charset="utf-8">
    <title>KKBox音乐数据分析</title>
    <link rel="stylesheet" href="/static/css/bootstrap.css">
    <script src="/static/bootstrap.min.js"></script>
    <script src="/static/echarts.min.js"></script>
    <script src="https://echarts-www.cdn.bcebos.com/zh/asset/theme/macarons.js"></script>
    <script src="/static/echarts-wordcloud.min.js"></script>
    <script src="/static/echarts-gl.min.js"></script>

    <style>
        body {
     
            background-image: url("/static/bg.jpeg");
        }
        
        h1 {
     
            color: #fff;
        }
        
        #box1,
        #box2,
        #box3,
        #box4,
        #box5,
        #box6,
        #box7,
        #box8 {
     
            background-color: azure!important;
            display: inline-block;
        }
        
        .contain {
     
            text-align: center;
        }
        
        .public {
     
            width: 600px;
            height: 500px;
            padding: 10px;
            border: 1px solid #ccc;
            box-shadow: 0 0 8px #aaa inset;
        }
        
        .empty {
     
            height: 30px;
        }
    </style>
</head>

<body>
    <div class="container-fluid">

        <nav class="navbar navbar-expand-lg bg-light">
            <a class="navbar-brand" href="{
     { url_for('index') }}">返回首页</a>
            <button class="navbar-toggler" type="button" data-toggle="collapse" data-target="#navbarSupportedContent" aria-controls="navbarSupportedContent" aria-expanded="false" aria-label="Toggle navigation">
              <span class="navbar-toggler-icon"></span>
            </button>

        </nav>
    </div>
    <div class="empty"></div>
    <h1 align="center">KKBox音乐数据分析</h1>
    <div class="empty"></div>
    <div class="contain">
        <div id="box1" class="public"></div>
        <div id="box2" class="public"></div>
        <div id="box3" class="public"></div>
        <div id="box4" class="public"></div>
        <div id="box5" class="public"></div>
        <div id="box6" class="public"></div>
        <div id="box7" class="public"></div>
        <div id="box8" class="public"></div>
    </div>

    <script>
//---------------------------以上代码省略---------------------------

//年份-注册条形图
        var yearVia_chart = echarts.init(document.getElementById("box2"), 'macarons');
        $.get("/year_via", function(data) {
     
            dataAxis = data.year;
            dataValue = data.vias;

            option = {
     
                title: {
     
                    text: '各年份的用户注册数量变化',
                    x: 'left',
                },
                color: ['#3398DB'],
                tooltip: {
     
                    trigger: 'axis',
                    axisPointer: {
      // 坐标轴指示器，坐标轴触发有效
                        type: 'shadow' // 默认为直线，可选为：'line' | 'shadow'
                    }
                },
                grid: {
     
                    left: '3%',
                    right: '4%',
                    bottom: '10%',
                    containLabel: true
                },
                xAxis: [{
     
                    type: 'category',
                    data: dataAxis,
                    axisTick: {
     
                        show: true,
                        alignWithLabel: true,
                        interval: 0
                    },
                    axisLabel: {
     
                        interval: 0,
                        rotate: 45,
                    }
                }],
                yAxis: [{
     
                    type: 'value',
                    nameLocation: 'middle',
                    nameGap: 50
                }],
                series: [{
     
                    name: "年份-注册",
                    type: 'bar',
                    barWidth: '60%',
                    data: dataValue
                }]
            };
            yearVia_chart.setOption(option);
        })
//---------------------------以下代码省略---------------------------

绘图结果如下

把热门推荐得到的歌曲榜单进行表格展示，并实现了翻页和根据歌手名搜索歌曲的功能；

Flask获取数据接口代码和渲染HTML模板代码如下

@app.route('/mysql')
def mysql():
	page = request.args.get("page")
	if not page or int(page) <= 0:
		page = 1
	db = Mysql()
	keyword = request.args.get("keyword")
	infos = db.get_info(int(page),keyword)
	page_end = db.get_infos_number()
	#这里做个if验证
	if int(page)-3<= 0:
		page_range = range(1, 8)
	else:
		page_range = range(int(page)-3,int(page)+4)
		if int(page)+4 >= page_end:
			page_range = range(int(page_end)-6, math.ceil(page_end)+1)
	return render_template("hotsongs.html",infos = infos,page = int(page),page_range = page_range)

model层代码如下，包含了分页和按歌手名搜索歌曲的实现

# -*- coding: utf-8 -*-
import pymysql
import pandas as pd
from sqlalchemy import create_engine
import pymysql.cursors
class Mysql(object):
    def __init__(self):
        db = 'kkbox_music'
        host = 'localhost'
        port = 3306
        user = 'root'
        passwd = 'root'

        self.db_conn = pymysql.connect(host=host, port=port, db=db, user=user, passwd=passwd, charset='utf8')
        self.conn = create_engine("mysql+pymysql://root:root@localhost/kkbox_music")
        self.db_cur = self.db_conn.cursor()
        self.db_conn.autocommit(1)


    def get_info(self,page,keyword):
        sql = "select * from hotsongs "
        if keyword:
            sql = sql + "where artist_name like '%" + keyword + "%'"
        start = (page-1)*10
        sql = sql + "limit " + str(start) + ",10;"
        num = self.db_cur.execute(sql)
        infos = self.db_cur.fetchall()
        return infos

    def get_infos_number(self):
        sum_sql = "select * from hotsongs"
        infos_number = self.db_cur.execute(sum_sql)
        return infos_number/10

    def __del__(self):
        self.db_conn.close

榜单的前端代码如下（hotsongs.html）


<html lang="en">

<head>
    <meta charset="UTF-8">
    <title>KKBox热门歌曲推荐Top200title>
    <link rel="stylesheet" href="{
      { url_for('static', filename='css/bootstrap.css') }}">
    <script src="{
      { url_for('static', filename='jquery-3.4.0.min.js') }}">script>
    <script src="{
      { url_for('static', filename='bootstrap.min.js') }}">script>

    <style>
        body {
      
            background-image: url("/static/bg.jpg");
        }
        
        h1 {
      
            margin-bottom: 40px;
        }
        
        .main {
      
            padding: 10px;
            width: 1200px;
            /*height: 750px;*/
            margin: 0 auto;
        }
        
        .empty {
      
            height: 30px;
        }
        
        .form-control,
        .btn-default {
      
            margin-top: 20px;
            display: inline-block;
            width: 50px;
        }
        
        .w3copyright-agile {
      
            margin: 2em 0 1em;
            text-align: center;
        }
    style>
head>

<body>
    <div class="container">
        <nav class="navbar navbar-expand-lg bg-light">
            <a class="navbar-brand" href="{
      { url_for('index') }}">返回首页a>
            <button class="navbar-toggler" type="button" data-toggle="collapse" data-target="#navbarSupportedContent" aria-controls="navbarSupportedContent" aria-expanded="false" aria-label="Toggle navigation">
              <span class="navbar-toggler-icon">span>
            button>

        nav>
        <div class="empty">div>
        <h1 align="center">KKBox热门歌曲推荐Top200h1>

        

        <table class="table table-dark">
            <thead>
                <tr>
                    <th>IDth>
                    <th>播放次数th>
                    <th>歌曲名th>
                    <th>音乐类型th>
                    <th>歌手th>
                    <th>作曲家th>
                    <th>作词家th>
                    <th>语言类型th>
                tr>
            thead>
            <tbody>
                {%for info in infos%}
                <tr>
                    <td>{
    {info[0]}}td>
                    <td>{
    {info[2]}}td>
                    <td>{
    {info[3]}}td>
                    <td>{
    {info[6]}}td>
                    <td>{
    {info[7]}}td>
                    <td>{
    {info[8]}}td>
                    <td>{
    {info[9]}}td>
                    <td>{
    {info[10]}}td>
                tr>
                {%endfor%}
            tbody>
        table>

        <nav aria-label="Page navigation">
            <ul class="pagination">
                <li class="page-item">
                    <a href="/mysql?page={
      { page-1 }}" aria-label="Previous" class="page-link">
                        <span aria-hidden="true">«span>
                    a>
                li>
                {% for pg in page_range %}
                <li class="page-item"><a href="/mysql?page={
      { pg }}" class="page-link">{
    { pg }}a>li>
                {% endfor %}

                <li class="page-item">
                    <a href="/mysql?page={
      {page + 1}}" aria-label="Next" class="page-link">
                        <span aria-hidden="true">»span>
                    a>
                li>
            ul>
        nav>

        <form action="/mysql">
            <div class="row">
                <div class="col-xl-8">
                    <div class="input-group">
                        <input type="text" class="form-control" name="keyword" placeholder="搜索你喜欢的歌手">
                    div>
                div>
                <div class="col-xl-4 align-self-end">
                    <button class="btn btn-success" type="submit">Go!button>
                div>
            div>

        form>

        <div class="w3copyright-agile">
            <p>© 2021 小坨毕设p>
        div>
    div>

body>

html>

榜单的前端效果

构建一个表单，根据用户提交的用户ID，后台根据个性化推荐得到的推荐结果中搜索，按照推荐度从高到低排序推荐5首歌曲，返回歌曲ID给用户；

Flask代码如下

#个性化推荐
@app.route("/rmd_form",methods = ["GET","POST"])
def rmd_music():
	if request.method == "GET":
		return render_template("form.html")
	user_info = request.form.to_dict()
	user_id = user_info.get("user_id")
	db = Mysql()
	musics_id = db.get_rmd_music(user_id)
	return render_template("form.html",infos = musics_id,tops = [0,1,2,3,4],user_id = user_id)

model层代码如下

# -*- coding: utf-8 -*-
import pymysql
import pandas as pd
from sqlalchemy import create_engine
import pymysql.cursors
class Mysql(object):
    def __init__(self):
		"""以上代码省略"""
        self.conn = create_engine("mysql+pymysql://root:root@localhost/kkbox_music")
		"""以下代码省略"""


    def get_rmd_music(self,user_id):
        sql = "SELECT * FROM rmd_songs where userID = " + user_id +";"
        result = pd.read_sql(sql,con=self.conn)
        rmd_musics = result["rmd_level"].tolist()
        return rmd_musics

前端代码如下（form.html）


<html lang="en">

<head>
    <meta charset="UTF-8">
    <link rel="stylesheet" href="/static/css/bootstrap.css">
    <script src="/static/jquery-3.4.0.min.js">script>
    <script src="/static/bootstrap.min.js">script>
    <title>KKBox音乐个性化推荐title>
    <style>
        .empty {
      
            height: 60px;
        }
        
        .col-center-block {
      
            float: none;
            display: block;
            margin-left: auto;
            margin-right: auto;
        }
        
        h1 {
      
            margin-top: 20px;
        }
        
        body {
      
            background-image: url("/static/bg.jpg");
        }
        
        .w3copyright-agile {
      
            margin: 2em 0 1em;
            text-align: center;
        }
    style>
head>

<body>
    <div class="container">

        <nav class="navbar navbar-expand-lg bg-light">
            <a class="navbar-brand" href="{
      { url_for('index') }}">返回首页a>
            <button class="navbar-toggler" type="button" data-toggle="collapse" data-target="#navbarSupportedContent" aria-controls="navbarSupportedContent" aria-expanded="false" aria-label="Toggle navigation">
            button>

        nav>

        <div class="empty">div>
        <h1 align="center">KKBox音乐个性化推荐h1>

        <div class="empty">div>

        <div class="col-center-block">
            <form class="form-horizontal" role="form" action="/rmd_form" method="post">
                <div class="form-group">
                    <div class="row">
                        <div class="col-xl-5 offset-xl-3">
                            <input type="text" class="form-control" name="user_id" placeholder="请输入用户ID">
                        div>
                        <div class="col-xl-4">
                            <button type="submit" class="btn btn-success">提交button>
                        div>
                    div>
                div>
            form>
        div>
        <p align="center">以下为给用户{
    {user_id}}推荐的五首歌曲p>
        <div class="col-center-block" style="width: 75%; height: auto;">
            <table class="table table-dark">
                <thead>
                    <tr>
                        <th>推荐度排名th>
                        <th>歌曲IDth>
                    tr>
                thead>
                <tbody>
                    {%for i in tops%}
                    <tr>
                        <td>{
    {i+1}}td>
                        <td>{
    {infos[i]}}td>
                    tr>
                    {%endfor%}
                tbody>
            table>
        div>
        <div class="w3copyright-agile">
            <p>© 2021 小坨毕设p>
        div>
    div>
body>

html>

前端效果如下，比如查询给用户18624的个性化推荐歌曲

5. 用户可进行注册、登录，注册用户名不可重复，若登录时用户名或密码输错，会有相应的错误提示；

Flask代码如下

app = Flask(__name__)
app.config['SECRET_KEY'] = 'atuo'

user_info = ""

#----------------增加登录和注册功能------------------
@app.route('/login', methods=['GET', 'POST'])
def login():
    if request.method == 'GET':
        return  render_template('login.html')
    else:
        db = Mysql()
        username = request.form.get('username')
        password = request.form.get('password')
        user_password = db.get_user(username)
        if user_password == password:
            global user_info
            user_info = username
            return redirect(url_for("index"))
        elif user_password == "用户不存在":
            flash("该用户不存在",category='nouser_error')
            return render_template('login.html')
        else:
            flash("密码错误",category='error')
            return render_template('login.html')


@app.route("/register",methods = ["GET","POST"])
def register():
	if request.method == 'GET':
		return render_template("register.html")
	else:
		db = Mysql()
		username = request.form.get('username')
		password = request.form.get('password')
		user_password = db.get_user(username)
		if user_password != "用户不存在":
			flash("该用户已存在",category='error')
			return render_template('register.html')
		else:
			db.user_register(username = username,password = password)
			return redirect(url_for('login'))

model层代码如下

# -*- coding: utf-8 -*-
import pymysql
import pandas as pd
from sqlalchemy import create_engine
import pymysql.cursors
class Mysql(object):
    def __init__(self):
        db = 'kkbox_music'
        host = 'localhost'
        port = 3306
        user = 'root'
        passwd = 'root'

        self.db_conn = pymysql.connect(host=host, port=port, db=db, user=user, passwd=passwd, charset='utf8')
        self.conn = create_engine("mysql+pymysql://root:root@localhost/kkbox_music")
        self.db_cur = self.db_conn.cursor()
        self.db_conn.autocommit(1)


    def get_user(self,username):
        login_sql = "select password from users where username='" + username+"';"
        self.db_cur.execute(login_sql)
        try:
            user_password = self.db_cur.fetchall()[0][0]
            return user_password
        except:
            return "用户不存在"
            

    def user_register(self,username,password):
        register_sql = "INSERT INTO users (username,password) VALUES('{}','{}');".format(username,password)
        self.db_cur.execute(register_sql)

    def __del__(self):
        self.db_conn.close

登录页面前端代码（注册页面和登录页面的前端代码基本一致）


<html lang="en">

<head>
    <title>登录页面title>
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    <link href="/static/css/login.css" rel="stylesheet" type="text/css" media="all" />

head>

<body>
    <div class="main-w3layouts wrapper">
        <div class="main-agileinfo">

            <div class="agileits-top">

                <form action="/login" method="post">
                    
                    <input class="text" type="text" name="username" placeholder="用户名" required="">
                    <input class="text" type="password" name="password" placeholder="密码" required="">
                    <input type="submit" value="登录"> {% for msg in get_flashed_messages() %}
                    <p style="color: rgb(255, 67, 67);">{
    { msg }}p>
                    {% endfor %}
                form>
                <p>创建一个账号? <a href="/register"> 立即注册!a>p>
                <p><a href="/">返回首页a>p>
            div>
        div>

        <div class="w3copyright-agile">
            <p>© 2021 小坨毕设p>
        div>

        <ul class="w3lsg-bubbles">
            <li>li>
            <li>li>
            <li>li>
            <li>li>
            <li>li>
            <li>li>
            <li>li>
            <li>li>
            <li>li>
            <li>li>
        ul>
    div>
body>

html>

注册登录效果如下，可在注册页面注册相应的用户名和密码

注册成功之后会自动跳转到登录页面，进行用户登录

登录之后跳转到首页，导航栏出现用户名

6. 用户可在首页下方的评论区发表评论；

在评论区点击“提交”按钮后，页面会跳转到“/comment”路由，执行下面Flask代码的逻辑，model层写入评论内容和用户账号到数据库的comments表，路由重定向到首页

@app.route("/comment",methods = ["GET","POST"])
def comment():
	if request.method == "POST":
		comment_info = request.form.to_dict().get("content")
		db = Mysql()
		db.insert_comment(comment_info,user_info)
		return redirect(url_for('index'))

model层代码如下

# -*- coding: utf-8 -*-
import pymysql
import pandas as pd
from sqlalchemy import create_engine
import pymysql.cursors
class Mysql(object):
    def __init__(self):
        db = 'kkbox_music'
        host = 'localhost'
        port = 3306
        user = 'root'
        passwd = 'root'

        self.db_conn = pymysql.connect(host=host, port=port, db=db, user=user, passwd=passwd, charset='utf8')
        self.conn = create_engine("mysql+pymysql://root:root@localhost/kkbox_music")
        self.db_cur = self.db_conn.cursor()
        self.db_conn.autocommit(1)

    def insert_comment(self,comment,user_info):
        insert_sql = "INSERT INTO comments (comment,user) VALUES('{}','{}');".format(comment,user_info)
        self.db_cur.execute(insert_sql)

评论区的前端代码如下

        
        <div class='col-center-block' style="width: 90%; height: auto;">
            <h5>请发布您对该系统的看法h5>
            <form method="POST" action="/comment">
                <div class="form-container">
                    <div class="form-group">
                        <textarea name="content" rows="2" class="form-control" placeholder="请输入评论">textarea>
                    div>
                    <div class="form-group">
                        <button class="btn btn-success">发布button>
                    div>
                div>
            form>
        div>
        <div class="col-center-block" style="width: 90%; height: auto;">
            {%for i in comments%}

            <div class="card text-center">
                <div class="card-header text-white bg-info">
                    <ul class="nav nav-tabs card-header-tabs">
                        <li class="nav-item">
                            <a class="nav-link active" href="#">{
    {loop.index}}楼a>
                        li>
                    ul>
                div>
                <div class="card-body">
                    <p class="card-text text-left">{
    {i}}p>
                    <p class="card-text text-right">{
    {comment_users[loop.index-1]}}p>
                div>
            div>

            {%endfor%}
        div>

评论区的前端效果如下。评论内容的显示以类似贴吧楼层的形式展示，每一层评论的楼层的空白区域为评论内容，空白区域右下角显示该评论的用户的用户名。

总结

音乐在日常生活中是非常重要的娱乐方式，新一次的信息革命也顺势带来了数字音乐的迅速传播，我们进入音乐大数据的时代，得以去倾听海量的歌曲，在音乐的海洋里遨游。但随着音乐大数据时代的到来所面临的挑战是，数字音乐难免会存在信息过载和存在长尾数据等问题，在这种情况下，对用户进行个性化的音乐推荐显得极为重要。而传统的协同过滤推荐算法存在冷启动和数据稀疏的问题，并受到可扩展性的制约，海量的数据难以得到有效的利用。基于上述的问题，本文采用kaggle平台上KKBox举办的—KKBox’s Music Recommendation Challenge比赛的公开数据集，借助了两个强大的工具——Spark和ALS算法，构建起一个音乐分析及离线推荐系统。

本文首先对Sqoop、Spark和协同过滤推荐算法等相关技术作了简要的概述，介绍了Sqoop的相关用处和Spark在大数据时代下所具备的优势，探讨了传统协同过滤推荐算法存在的冷启动和数据稀疏问题，提出了ALS算法是解决传统协同过滤推荐算法应用时所存在的数据稀疏问题的有效方法，基于这样的前景提要来介绍基于ALS的音乐分析及离线推荐系统的设计与实现

在分析方面，本系统采取Pandas对音乐数据进行分析，并利用Flask、MySQL和Echarts等架构对分析后的数据进行可视化呈现；
在推荐方面，本系统采取Spark Mlib中的ALS算法对音乐数据进行推荐。借助Spark强大的内存计算和并行化计算的能力，提高大数据处理的效率；
在前台交互展示方面，本系统采取Flask+MySQL+Bootstrap4构建起一个Web应用程序，具备如注册登录、发表评论等基本交互展示功能；

你可能感兴趣的:(数据分析,Spark,python,Spark,数据分析,ALS,大数据)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

基于ALS的音乐分析及离线推荐系统的设计与实现报告

文章目录

摘要

数据说明

相关技术介绍

Sqoop概述

Spark概述

协同过滤推荐算法概述

系统设计与实现

数据分析

热门推荐

个性化推荐

前台交互展示

总结

你可能感兴趣的:(数据分析,Spark,python,Spark,数据分析,ALS,大数据)