音乐下载日志的关联分析

在人大DMC学习的时候获得了一批某公司音乐下载log数据，有7天的日访问log文件，共7个文件，每个文件大概1.2G，还有一个是mp3_rid_info.txt，是音乐id对应的歌曲信息。

数据格式如下：

*共6个字段，以{]分隔，utf-8编码；

*ESID：session id

*PHONE: 手机号，空

*UID：user id

*TIME

*TYPE：不同行为，d下载，s搜索，v查看
*VALUE：歌曲名，如果是数字，到mp3_rid_info.txt文件找对应的歌曲名和歌手

数据示例如下：

_qQaHMAb9aH{]{]{]20110701 000000{]v{]4854453

4qQaHxxNa84{]{]HQaHxvNwoA{]20110701 000000{]v{]4899081

VQS55L0lfa2HqQajg3zOQEO3z3GQ33zQ3{]{]VQS5WL2v_wDNfojjj3z3O2O3z3GQ33z2O{]20110701 000000{]v{]4854453

4qQaHtCw7gK{]{]4qQaHtCw7gK{]20110701 000000{]v{]109720

HqQaHYE14lp{]{]7aQaHojc6ju{]20110701 000000{]d{]12947091

VQS5WLwGxWg4qQajV3zOQEO3zG2QGGz2O{]{]VQS5WLwGxWg4qQajV3zOQEO3zG2QGGz2O{]20110701 000000{]v{]95073

Y1VqQajs80L5Jj-{]{]VQS5WLKQwrW5COajI3zVGVO3zOOZE3z2O{]20110701 000000{]v{]2652954

KM4qQajwobL5YDq{]{]XLueQaj7obL5bjt{]20110701 000000{]d{]19171739

VQS5WLWu4VE2qQajK3zOQEO3z_3QQ2z2O{]{]VQS5WLoqjIHFKQaj93zOQEO3z_3QQ2z2O{]20110701 000000{]s{]刘承俊

4qQaHiEnsi5{]{]zqQaHFFxBwL{]20110701 000000{]d{]5922248

VQS5WL-yEGT4qQajT3zOQEO3zVO3ez2O{]{]gdAB1c3a4x4sheoOam{]20110701 000000{]d{]11776465

3qHqQajc80L5bsV{]{]3qHqQajc80L5bsV{]20110701 000000{]v{]4904109

VQS5WLuuo-04qQajQ3zOQEO3zO_GOGz2O{]{]VQS5WLz8N7CfqQaj13zOQEO3zO_GOGz2O{]20110701 000000{]s{]黄家驹

yxHqQajB80L5oJB{]{]1lDNFjjm80L5w7y{]20110701 000000{]v{]1899686

IqQaHJi6YbK{]{]IqQaH3wxlaU{]20110701 000000{]s{]厉志歌曲

v-n3EqQa4eerAqmQaB{]{]{]20110701 000000{]v{]1023

U9fqQajfoxyi2mJ{]{]dZbr3aj2oxyixcc{]20110701 000000{]v{]3459364

7G2SjP05164qQaarG3_OG3O3oWLW7b{]{]X6GaHRq8VrA{]20110701 000000{]v{]1937019

p84qQajpobL54O0{]{]DFIqQaj5obL5lmQ{]20110701 000000{]d{]18900639

H64qQajgobL5BZv{]{]pHc1Qaj7obL5xfz{]20110701 000000{]d{]6445841

4qQaHVaIRa5{]{]4qQaHVaIRa5{]20110701 000000{]d{]12067314

VQS05L4JUDr4qQajP3zOQEO3zZ33Ez_O{]{]VQS05L4JUDr4qQajP3zOQEO3zZ33Ez_O{]20110701 000000{]d{]36028283

VQS55LNqP-GnqQaj83zOQEO3zVO3ezQ3{]{]ThlE3ajl80L5NKt{]20110701 000000{]s{]刀郎

hqQaHwOcF9M{]{]_qQaHnEIQ2B{]20110701 000000{]d{]30389904

4qQaHilUFEB{]{]U4JjHXDdSCQ{]20110701 000000{]d{]36227787

rZnqQajFoxyi2ZA{]{]n3tcQajtoxyiKfX{]20110701 000000{]v{]4126779

4qQaHKpbaNa{]{]4qQaHKpbaNa{]20110701 000000{]s{]我这个你不爱的人+迪克牛

VQS5WLZDENS4qQajU3zOQEO3zOG2E3z2O{]{]VQS5WLNCYrbHqQajb3zOQEO3zOG2E3z2O{]20110701 000000{]s{]最幸福的人

fqQaHEv1cpS{]{]BpQaHjADVEj{]20110701 000000{]s{]黄小琥

4qQaHDUEMXY{]{]CBvAJKQa4ecVpsQa0{]20110701 000000{]s{]少女时代

jJucbdfqQaad80L5aCn_-u{]{]jJucbdfqQaad80L5aCn_u{]20110701 000000{]v{]1023

sELFnqQa4480JOvQax{]{]sELFnqQa4480JOvQax{]20110701 000000{]v{]1993325

这些数据如何用来做分析呢，我考虑了一下，可以做推荐、用户活跃度变化的分析、歌曲或者用户的聚类。不过，刚拿到数据的时候，我也没想到这么多，正好当时在学习频繁项集，就拿这个来练习吧。由于我比较习惯用python作数据分析，就选择python了。

频繁项集主要用于购物车内商品关联分析，这里把歌曲作为商品，每个session id一样的项集作为一个“购物车”。

条件：我手头的机器不是很给力，ubuntu的虚拟机，32bit，从CPU为E6600虚拟的主机出来一个核，512MB内存。但是我还是想试试看，7天的数据难处理，就先处理一天的数据。

预处理
将同样session的所有项集放在一起，作为一个“购物车”。
编程目标：从大量的log信息中将同一session的下载歌曲的id归类。

1.mongodb方案

逐行匹配后插入mongodb，然后用mongodb的mapreduce功能进行处理。
代码如下（mogodbdump.mp3）：

# coding=UTF-8

import re

import sys

import fileinput

import inspect

from pymongo import Connection

import bson

reload(sys)

sys.setdefaultencoding("utf-8")

 

linereg=re.compile(r"([^ ]+)\{\](\d*)\{\]([^ ]*)\{\](\d{8} \d{6})\{\]([dsv])\{\]([^ ]+)")

 

class recordItem:#记录类，包含各字段

    def __init__(self,*groups):

        self.sessionid,self.phone,self.uid,self.time,self.typ,self.value=groups

        try:

            self.value=self.value.decode("utf-8")

        except UnicodeDecodeError:

            try:

                self.value=self.value.decode("gbk")

            except UnicodeDecodeError:

                self.value=self.value

 

class visitLogFile():#该类为一个生成器，每个元素即为每个记录

    def __init__(self,filename):

        self.fd=fileinput.input(filename)

 

    def close(self):

        self.fd.close()

 

    def __iter__(self):

        for line in self.fd:

            if line:

                line=line.rstrip("\n")

                line=line.strip()

                m=re.match(linereg,line)

                if not m:

                    try:

                        line=line.decode("utf-8")

                    except UnicodeDecodeError:

                        try:

                            line=line.decode("gbk")

                        except UnicodeDecodeError:

                            print "shit!",fileinput.lineno()

                    print line,fileinput.lineno()

                else:

                    try:

                        record=recordItem(*m.groups())

                        yield record

                    except GeneratorExit:

                        pass

                    except Exception as e:

                        print "GENERATOR ERROR:",line,fileinput.fileno()

 

def prop(obj):

    pr={}

    for name in dir(obj):

        value=getattr(obj,name)

        if not name.startswith("__") and not inspect.ismethod(value):

            pr[name]=value

    return pr

 

if __name__ == "__main__":  

    conn=Connection()

    db=conn.easou

    collection=db.visit

 

    vlf=visitLogFile("visit.txt.20110701.2")#以文件名作为参数

    for item in vlf:#遍历生成器，并将每条记录写进mogodb

        try:

            collection.insert(prop(item))

        except bson.errors.InvalidStringData:

            print "Encode Error",item

    vlf.close()

View Code

失败原因：数据库大于2G，而我的系统是32bit的，32bit的系统最多只能在mongodb里面存放2G的数据库。

2.shell管道流方案

这里可以借鉴mapreduce的工作原理，先将同样session id的记录归类，然后将它们收集起来，形成一个一个“购物车”的形式。

(1) mapper

将所有session id一样的记录归在一起，便于后续的reducer收集处理。

通过sys.stdin逐行读取，匹配的方式提取出各字段。

如果字段4为“d”，则输出第0个字段和第5个字段。
代码如下（mapvisit.py）：

import sys

import re

reload(sys)

sys.setdefaultencoding("utf-8")

 

linereg=re.compile(r"([^ ]+)\{\](\d*)\{\]([^ ]*)\{\](\d{8} \d{6})\{\]([dsv])\{\]([^ ]+)")#匹配字符串

 

def read_input(file):

    for line in file:

        line=line.strip()

        if not line=="":

            m=re.match(linereg,line)

            if m:

                match=m.groups()

                if match[4]=="d":

                    try:

                        value=match[5].decode("utf-8")

                    except UnicodeDecodeError:

                        try:

                            value=match[5].decode("gbk")

                        except UnicodeDecodeError:

                            value=match[5]

                    yield match[0]+"\t"+value#输出session id与歌曲id

 

input=read_input(sys.stdin)

 

for item in input:

    print item

　　用法：cat visit.txt.2011xxxx.2 | python mapvisit.py | sort > sorted.xxxx.txt

这里，shell的sort可以以行为单位进行排序，sort还是挺给力的，117MB的数据，大概几分钟就排好了。

(2) reducer，生成项集

将刚才获取的已经排好序的记录进行归类就方便多了，只要用sys.stdin逐行扫描，若session与前一行相同，则加入容器，否则输出容器里面所有的id（用逗号分开），并清空容器

代码如下（genCollection.py）：

import sys

 

def read_input(file):

    for line in file:

        line=line.rstrip()

        yield line

 

input=read_input(sys.stdin)

prev=""#存放前一个记录的session id

collection=[]#用于临时存放统一购物车的项的容器

for item in input:

    groups=item.split("\t")

    session=groups[0]

    value=groups[1]

    if not session==prev:#如果与前一个记录的session id不一样，那么输出并把容器清空

        if not len(collection)==0:

            coll=set(collection)

            coll=",".join([x for x in coll])

            print coll

        collection=[]

    collection.append(value)#将当前记录放入容器

    prev=session

if not len(collection)==0:#最后的处理

    coll=set(collection)

    coll=",".join([x for x in coll])

    print coll

　　用法：cat sorted.xxxx.txt | python genCollection.py > ck.xxxx.txt

这样输出的文件就是一个个“购物车”了，示例如下，每一行代表一个“购物车”，由歌曲的id构成，用“,”分隔：

25821471

23888779,23888780

19323097

13005242

20837081

26011932

30389910

17682189

13014949,25704721,11957138

8865282

12072426

5180610

6570888

30389910,8770990

25724699

8561271

15451360,16386868

17618286

36186443

22469762

11513471

36151688

12300387

12041000

36168455

6318481

13018096,33361116,20135287,30389912

36314621,8254907,7741279,301796,36481093,25775400

36478533

36484454,36488370,36484452

9737456

36492246

36283045

36435458

22033394

36263322

36486287

20868410

生成C1及其频数

    接下来就可以对购物车进行Apriori分词了。其实这个过程自动化生成Ck，并扫描就可以了，不过为了观察从小到大的各元祖的频繁度，还是一步一步来吧。如果支持度设置过高，可能都无法生成频繁的二元组，如果设置过低，可能需要机器跑好长时间才能出结果。
  方案一：
  扫描一遍整个“购物车”数据集，提取出C1。
再次扫描一遍数据集，扫描每个“购物车”时，将C1中的元素逐个判断，是否是该“购物车”的子集，如果是，则将相应的C1对应的出现次数加1
缺点：C1较多，耗时较长

方案二：

扫描的同时，将每个购物车的元素作为字典的键，值为出现的次数，每扫描到一个元素，将字典中该元素对应的值加一。扫描结束后，根据值排序，输出到文件
代码如下（genC1num.py）：

import sys

from operator import itemgetter

 

def read_input(file):

        for line in file:

                line=line.rstrip()

                yield line

 

C1={}#用于存放各一元组及其频数

input=read_input(sys.stdin)

for line in input:

        transaction=line.strip().split(",")

        if not len(transaction)==0:

                for item in transaction:

                        if not C1.has_key(item):

                C1[item]=1

            else:

                C1[item]+=1

 

sCnt=sorted(C1.iteritems(), key=itemgetter(1), reverse=True)#按照字典的值进行排序

for item in sCnt:

    print item[0]+"\t"+str(item[1])

　　用法：cat ck.xxxx.txt | python genC1num.py > C1num.py

用Apriori算法生成Ck，选出频繁项

通过Ck-1中满足支持度的项集生成Ck的候选项集。扫描每一数据集，遍历Ck的候选项集，如果是此数据集的子集，则相应的字典加一。最后将每一项集及其的数量排序后输出。
代码如下（apriori.py）：

import sys

from operator import itemgetter

 

def genCandidate(F):#通过满足支持度的Ck-1项集生成候选的Ck项集

    C=[]

    k=len(F[0])+1

    print "k="+str(k)

    length=len(F)

    for i in range(length):

        for j in range(i+1,length):

            L1=list(F[i])[:k-2]

            L2=list(F[j])[:k-2]

            L1.sort()

            L2.sort()

            if L1==L2:

                C.append(F[i]|F[j])

    return C

 

def scanD(D,Ck):#扫描每一“购物车”，统计每一候选项集出现的频率

        ssCnt={}

        i=0

        for tid in D:

                i+=1

                for can in Ck:

                        if can.issubset(tid):

                                if not ssCnt.has_key(can):

                                        ssCnt[can]=1

                                else:

                                        ssCnt[can]+=1

 

                if i%1000==0:#用于观察进度

                        print str(i)+" lines scaned!"

        sCnt=sorted(ssCnt.iteritems(), key=itemgetter(1), reverse=True)

    return sCnt,ssCnt

 

def read_input(file):

        for line in file:

                line=line.rstrip()

                yield line.split(",")

 

fd=open("C2num.txt","r")#操作Ck-1项集的文件，可以按照需要修改文件名

ck1=[]#存放Ck-1项集

while True:

    line=fd.readline()

    if not line:

        break

    item=line.split("\t")

    if int(item[1])<487:

        break

    ck1.append(item[0].split(","))

 

ck1=map(frozenset,ck1)

ck=genCandidate(ck1)

fd.close()

print "Length of Ck is "+str(len(ck))

print "Load Ck completely!"

 

input=read_input(sys.stdin)

sCnt,ssCnt=scanD(input,ck)

 

fdout=open("C3num.txt","w")#生成Ck项集的文件，可以按照需要修改文件名

for item in sCnt:

    ss=""

    for i in item[0]:

        ss+=i+","

    ss=ss.rstrip(",")

    ss+="\t"+str(item[1])+"\n"

    fdout.write(ss)

fdout.close()

　　用法：cat ck.xxxx.txt| python apriori.py > C3num.txt

循环此步骤，直到Ck中没有满足支持度的项集。在本数据集中，到C3就没有，满足支持度的项集了。因此接下来的分析中主要围绕C1和C2进行分析。

关联规则抽取

获取频繁项集以后，我们就可以进行关联规则的抽取，按照信任度的公式P->H=support(PH)/support(P)。在抽取的同时，按照这样的原则：如果某条规则不满足最小可信度要求，那么该规则的所有自己也不会满足最小信任度的要求。
可以先从一个频繁项集开始，接着创建一个规则列表，其中规则右边包含一个元素，然后对这些规则进行测试。接下来合并所有剩余规则来创建一个新的规则列表，其中规则右边包含两个元素。在这里，由于只有一元组和二元组两种频繁项集，所以抽取的规则比较简单。

　　代码如下（relationExtraction.py）：

def loadCk(filename,supportData):#加载Ck的函数

    Ck=[]

    fd=open(filename,"r")

    while True:

        line=fd.readline()

        if not line:break

        line=line.rstrip()

        item=line.split("\t")

        if int(item[1])<487:break

        Ck.append(item[0].split(","))

        supportData[frozenset(item[0].split(","))]=int(item[1])

    return map(frozenset,Ck)

 

def generateRules(L,supportData):#抽取关联规则的函数

    bigRuleList=[]

    for i in range(1,len(L)):

        for freqset in L[i]:

            H1=[frozenset([item]) for item in freqset]

            calcConf(freqset,H1,supportData,bigRuleList)

 

def calcConf(freqset,H,supportData,bigRuleList):

    for conseq in H:

        conf=float(supportData[freqset])/supportData[freqset-conseq]

        bigRuleList.append((freqset-conseq,conseq,conf))

        if conf>0.1:#可信度的阈值为0.1，可以按照需求改变

            print ",".join(freqset-conseq)+"\t"+",".join(conseq)+"\t"+str(conf)

            #print freqset-conseq+"\t"+conseq+"\t"+conf

 

retlist=[]

supportData={}

retlist.append(loadCk("C1num.txt",supportData))#一元组的加载

retlist.append(loadCk("C2num.txt",supportData))#二元组的加载

 

generateRules(retlist,supportData)

　　用法：python relationExtraction.py > relation.txt

抽取的关联规则如下（左边->右边信任度）：

36435459    36455065    0.100081699346

36259037    26032040    0.100420838775

36435458    36455064    0.102110885046

36314621    36163849    0.102863822326

36314622    36488369    0.103251231527

36455066    36435460    0.104193971166

36314621    36488368    0.108240794857

36314623    36163851    0.11100049776

36494430    36455066    0.111133685494

36481096    36273013    0.114648033126

36280476    36280477    0.115893297467

36481094    36481093    0.12092463923

36273013    36481096    0.123432711062

36435460    36455066    0.127506014435

36314623    36488370    0.135390741663

30389910    30389896    0.145206766917

30389896    30389910    0.159196290572

35979647    26032038    0.178885630499

17818175    36314621    0.179292929293

17818177    36314623    0.185461956522

36280477    36280476    0.195463137996

36280476    36163849    0.219905850706

36280477    36163851    0.239697542533

36481093    36481094    0.24720021852

思考

从大量的数据中抽取的关联规则特别少，原因是同一session id下载的歌曲很多都是只有一首歌。是不是应该考虑不以session作为单位进行频繁项集的抽取，而是以用户作为单位进行抽取。而且，有些id对应同一首歌，这样同样会被抽取为关联度较大的规则，这是没有意义的，作为噪声需要避免。如果是处理多天的数据，可能就需要多台机器并行处理了，针对此还需要稍微改进一下现在的算法。
同时，关联规则的抽取只是一个小的方面，还有很多方面可以对这些数据进行抽取，期待以后的工作能将此做的更好。

个人博客地址：http://gujianbo.1kapp.com/

新浪微博：http://weibo.com/gujianbobo

欢迎读者交流讨论并提出宝贵意见。

基于CATIA VBA与Python的自动化音乐生成技术对比研究 Python×CATIA工业智造 python 开发语言 CATIA二次开发
在工程软件二次开发领域，CATIA也可以许多另类的玩法。通过CATIA自带的VBA可以演奏歌曲，但实际效果往往差强人意。为了进一步优化实际演奏效果，本文以自动生成林宥嘉《说谎》钢琴前奏旋律为案例，探讨两种语言在多媒体控制领域的技术实现差异。一、CATIAVBA实现：极简音频方案1.1技术原理PrivateDeclarePtrSafeFunctionBeepLib"kernel32"(ByValdw
【bluedroid】A2dp Source播放流程源码分析(1) byte轻骑兵解读 Android 通信协议蓝牙 Bluedroid C++
在蓝牙音频传输领域，A2DP（AdvancedAudioDistributionProfile，高级音频分发协议）扮演着关键角色，它能够实现高质量音频（如立体声音乐）通过蓝牙在不同设备间的传输。在Android系统所采用的Bluedroid蓝牙协议栈里，A2DPSource承担着音频流发送的重任，将音频数据传输至A2DPSink（像车载音响、蓝牙耳机等接收设备）。一、概述Bluedroid作为An
【Bluedroid】A2dp Sink初始化源码分析 byte轻骑兵解读 Android c++通信协议蓝牙 Bluedroid
在Bluedroid蓝牙协议栈中，A2DP（AdvancedAudioDistributionProfile）Sink负责接收来自A2DPSource（如手机、音乐播放器等）的音频流，并将其播放到本地设备（如车载音响、蓝牙耳机等）上。A2DPSink的初始化是确保A2DPSink服务能够正确运行的关键步骤。一、A2DPSink初始化流程系统启动或用户请求：当系统启动或用户请求启动A2DPSink服
Discord机器人与Webhooks：构建实时交互熬夜修钩机器人人工智能交互媒体
实时交互和通信变得越来越重要。Discord，作为一个广受欢迎的通讯平台，通过其强大的API支持，允许开发者创建功能丰富的机器人和利用Webhooks实现实时数据推送。一、Discord机器人：智能交互的新伙伴1.1机器人简介Discord机器人是可以通过编程实现自动化任务和提供交互服务的应用程序。它们可以在服务器中发送消息、管理角色、播放音乐等，极大地丰富了用户的通讯体验。1.2技术实现创建一个
[网络安全自学篇] 一.入门笔记之看雪Web安全学习及异或解密示例鱼馬网络网络安全 web安全笔记测试工具职场和发展
最近开始学习网络安全相关知识，接触了好多新术语，感觉自己要学习的东西太多，真是学无止境，也发现了好几个默默无闻写着博客、做着开源的大神。准备好好学习下新知识，并分享些博客与博友们一起进步，加油。非常基础的文章，大神请飘过，谢谢各位看官！文章目录一.工具&术语1.网安术语2.常用工具3.推荐文章二.常见攻击1.SQL注入2.XSS跨站3.越权漏洞4.CSRF跨站请求伪造5.支付漏洞三.音乐异或解密示
《高效迁移学习：Keras与EfficientNet花卉分类项目全解析》机器学习司猫白深度学习迁移学习 keras 分类 tensorflow efficientnet 性能优化
从零到精通的迁移学习实战指南：以Keras和EfficientNet为例一、为什么我们需要迁移学习？1.1人类的学习智慧想象一下：如果一个已经会弹钢琴的人学习吉他，会比完全不懂音乐的人快得多。因为TA已经掌握了乐理知识、节奏感和手指灵活性，这些都可以迁移到新乐器的学习中。这正是迁移学习（TransferLearning）的核心思想——将已掌握的知识迁移到新任务中。1.2深度学习的困境与破局传统深度
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
项目实操分享：一个基于 Flask 的音乐生成系统，能够根据用户指定的参数自动生成 MIDI 音乐并转换为音频文件 mosquito_lover1 ai python
系统架构1.1核心组件MusicGenerator类负责音乐生成的核心逻辑包含MIDI生成和音频转换功能管理音乐参数和音轨生成FluidSynth集成用于MIDI到音频的转换支持高质量的音色合成需要正确配置声音字体文件功能特性2.1音乐风格支持Pop（流行）:钢琴主旋律，弦乐伴奏，原声贝斯Rock（摇滚）:电吉他主导，失真吉他伴奏，电贝斯Classical（古典）:钢琴主旋律，弦乐组伴奏，低音提琴
p5.js 交互应用实战 —— 音乐可视化(案例) 十一迪迪数据可视化 canvas
案例一将振幅转化为图形准备工作：打开编辑器左边菜单，uploadmp3音乐素材（不超过5m）//定义变量//Sound--声音,amplitude--振幅letSound,amplitude;//1.预读器（新建函数用来读取上传的音频）functionpreload(){Sound=loadSound('sound.mp3');}//2.初始化functionsetup(){createCanva
使用Python从酷狗音乐网站下载音乐 0zxm 爬虫实战项目 python 网络爬虫前端 xhtml
当然可以！以下是你的博客文章的Markdown格式：使用Python从酷狗音乐网站下载音乐!!!本程序仅供学习参考1.程序介绍这个程序使用了Python的requests库，以及一些哈希算法来实现从酷狗音乐网站搜索歌曲并下载的功能。下面是它的主要功能：从酷狗音乐网站搜索歌曲展示搜索结果列表选择并下载指定的歌曲2.代码实现#代码实现部分，包括get_signature、get_list、show_l
python爬虫项目（十二）：爬取各大音乐平台排行榜并分析音乐类型趋势人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫开发语言 python爬虫项目 python爬虫
目录1.项目简介2.工具与技术3.爬取音乐平台排行榜数据3.1使用requests和BeautifulSoup爬取网易云音乐排行榜3.2爬取QQ音乐排行榜4.数据处理4.1合并数据5.分析音乐类型趋势5.1使用关键词匹配类型6.数据可视化6.1绘制音乐类型分布图6.2绘制时间趋势图7.总结爬取各大音乐平台排行榜并分析音乐类型趋势是一个有趣且有意义的项目。我们可以通过以下步骤来实现：1.项目简介本项
【python爬虫】免费爬取网易云音乐完整教程（附带源码）景天科技苑爬虫副业实战零基础进阶教学 python 爬虫开发语言 js逆向
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~所属专栏：爬虫实战，零基础、进阶教学景天的主页：景天科技苑文章目录网易云逆向网易云逆向https://music.163.com/下载云音乐胡广生等，可以选择自己喜欢的歌曲首先，我们可以先根据抓包找到的m4a文件，下载试试在这个请求
手机投屏到电脑，将一加手机投射到Linux大屏共享娱乐 AirDroid_cn 手机投屏手机投屏远程投屏无线投屏手机投屏电脑 Linux
当有多个朋友或家人想要一起观看手机上的内容时，投屏到电脑上可以让每个人都能轻松看到，无需挤在一起看小屏幕，提升了共享的乐趣。无论你是想展示旅行中拍摄的照片和视频，还是播放最新的电影或音乐作品，亦或是进行一场紧张刺激的游戏对战，通过简单的操作就能实现从移动设备到大屏幕的无缝连接。以一加手机投屏到Linux系统电脑为例，教大家将手机投屏到电脑的方法（安卓、iOS可投屏到Windows、macOS或Li
python爬取酷狗音乐的mv地址_爬取酷狗音乐.py HAR.王帅真
importrequestsfromseleniumimportwebdriverfrompyqueryimportPyQueryaspq#获取歌名defAccess_to_the_song(C):doc=pq(C)The_song=doc('.audioName').text()returnThe_song#进入听歌的界面爬取HTMLdefBrowser_access(URL):The_brow
Python爬虫之爬取酷狗音乐进击的Loser‭
Python爬虫之爬取酷狗音乐废话不说，上代码：#!Python#-*-encoding:utf-8-*-'''1.文件名称:酷我音乐爬虫.py2.创建时间:2021/03/2117:29:093.作者名称:ZAY4.Python版本:3.7.0'''importosimportgetpassimportrequestsfromurllib.parseimportquoteclassSpider(
Python爬虫–爬取酷狗音乐 2024亲测可用！！！ LinHZ2012 爬虫 python
相信很多小伙伴都有听歌的习惯~今天我们就来学习怎么用Python来爬取音乐吧~~~首先打开音乐网站，找到想听的歌，打开播放页面在网页上右键点击检查，调出开发者工具，找到网络（Network）选项。然后刷新网页以上是其他多数博主的做法然后，你在右边一顿翻找，却根本找不到mp3......不要慌！教程来喽！首先在右下角的歌单里面随便找一首其他的歌播放~然后再重新点回来——————你就会惊喜的发现——m
如何在html中插入本地音乐猫化工具经验(杂)html
如何在html中插入本地音乐1.前言首先下载音乐文件夹结构2.源码3.修改1.前言没有呢懒得写首先下载音乐太麻烦了,直接下载一个音乐客户端,例如网易云,下载的音乐就是mp3格式找到它的本地下载路径,直接拖到你的网页项目里文件夹结构给萌新看的,有一定前端编程经验的大佬可以略过差不多就是这个样子的2.源码应该是这样的,试一下吧-->3.修改src是地址,music是所在文件夹,2.mp3是音乐的格式a
音乐自动播放html代码大全,网页HTML音乐播放器代码大全 weixin_39786155 音乐自动播放html代码大全
网页HTML音乐播放器代码大全HituxCMS.com2013年5月26日字体大小:autostart="true"中true或1表示自动播放，false或0表示手动播放loop="true"中的true或1表示重复播放，false或0表示只播放一次width=height=中的数字分别表示播放器的宽度和高度=0表示隐藏播放器EnableContextMenu="0"禁右键ShowStatusBa
html播放本地音乐 HackerTom 乱搞 html 前端 audio 音乐 javascript
本地有多个音乐文件，想用html逐个播放，或循环播放，并设置初始音量。audio在html中播放音乐文件用audio标签：controls启用控制按钮，如进度条、播放、音量、速度等。不加不显示任何widget。autoplay理应启用自动播放，但浏览器似乎禁止自动播放，故目前没什么用。muted静音。Failed.Failed.SetVolumeAutomatically想在打开html文件时，自
AIGC从入门到实战：ChatGPT+Midjourney，绘出中国古风意境之美杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据 java python javascript kotlin golang 架构人工智能
AIGC从入门到实战：ChatGPT+Midjourney，绘出中国古风意境之美关键词：AI生成内容(AIGC),ChatGPT,Midjourney,中国古风,创意设计,艺术表达1.背景介绍1.1问题由来人工智能生成内容（ArtificialIntelligenceGeneratedContent,AIGC）作为AI技术的重要分支，近年来在视觉、音乐、文本等多个领域取得了显著进展，引领了内容创作
Redis数据结构的业务应用、秒杀问题、缓存相关问题、分布式锁、双写一致性等 Forever Nore Redis redis java 数据库
hash购物车存储对象set网站投票统计程序sadd把用户添加到某个投票项的投票用户集合里去，sismember可以检查用户是否已经对任何一个投票项发起过投票，scard可以统计每个投票箱的投票人数，smembers可以拿到每个投票项的投票人zset音乐网站的排行榜程序zadd把音乐加入排行榜中，刚开始分数可能就是0；zscore可以获取音乐的分数；zrem可以删除某个音乐；zincrby可以给某
Permute 3 for mac(全能媒体格式转换器)v3.11.4中文版不知名女娃 macos
Permute3功能介绍Permute3是Macos上一款全能媒体格式转换器，能轻松转换视频、音乐和图像，非常便捷，Permutemac版还支持批量文件转换处理。Permute3formac(全能媒体格式转换器)软件地址https://www.macv.com/mac/75.html?id=Mzc1MjAz易于使用从头开始构建，Permute是Mac应用程序的完美示例。凭借华丽的界面和拖放简单，无
解密网易云音乐Web端的请求参数params与encSecKey 江梦寻 javascript 前端网络算法经验分享
网易云音乐作为一款功能强大的音乐流媒体平台，为用户提供了丰富的音乐体验和社区互动。然而，当用户希望批量下载音乐资源，尤其是整个歌单或某位歌手的全部歌曲时，受限于版权保护和平台策略，官方渠道通常无法直接实现这一需求。在这种情况下，一些技术爱好者或开发者可能会转向使用爬虫技术来获取所需资源。对于像网易云音乐这样通过加密请求参数（如params和encSecKey）来保护数据的平台，逆向工程成为解析这些
抖音采集工具Gui版：高效无水印下载抖音视频的神器东风西巷音视频软件需求
抖音采集工具Gui版是一款由52pojie论坛的@biqiang大神自制的功能强大的采集工具。它专为抖音视频下载设计，能够帮助用户轻松获取抖音平台上的各种视频资源，支持批量下载，极大地提升了下载效率。全面的资源采集支持采集抖音作品、Webp动态封面、短剧、喜欢、话题、音乐等多种内容。无论是热门视频还是小众作品，都能轻松下载。批量下载与高效管理用户可以批量下载指定作者的所有作品、单个视频、某话题下的
Python 中的异步与同步：解析与实践子墨将大数据 python
Python中的异步与同步：深度解析与实践在Python编程世界里，异步和同步的概念是理解程序执行流程和性能优化的关键。这篇文章将带你深入了解它们的差异，以及阻塞和非阻塞的特性，同时通过实际代码示例来加深理解。异步与同步的定义异步异步意味着多任务处理，任务之间的执行没有严格的先后顺序，甚至可以同时运行。这就好比你一边听音乐，一边浏览网页，听音乐和浏览网页这两个任务之间互不干扰，多条任务的执行路径同
鸿蒙系统分布式文件概述、访问、拷贝小时代的大玩家鸿蒙 harmonyos 分布式华为
1.分布式文件系统概述分布式文件系统（hmdfs，HarmonyOSDistributedFileSystem）提供跨设备的文件访问能力，适用于如下场景：两台设备组网，用户可以利用一台设备上的编辑软件编辑另外一台设备上的文档。平板保存的音乐，车载系统直接可见并可播放。户外拍摄的照片，回家打开平板直接访问原设备拍摄的照片。hmdfs在分布式软总线动态组网的基础上，为网络上各个设备结点提供一个全局一致
成为 Android 开发人员的最佳途径 – 完整路线图大门口的猴子 android应用 android
Android是一个开源操作系统，基于Linux内核，用于智能手机、平板电脑等移动设备。此外，它还为智能手表和AndroidTV开发。它们每个都有一个专门的界面。Android一直是智能手机最畅销的操作系统之一。Android操作系统由谷歌于2005年收购的AndroidInc.开发游戏、音乐播放器、相机等各种应用程序都是为这些智能手机构建的，可在Android上运行。GooglePlayStor
小爱音箱结合xiaomusic实现尘封的NAS音乐不自由 wjcroom 日常小操作智能音箱智能音箱
xiaomusic地址前年下载了一批老歌,为了买U盘,从淘宝带来的资源.上传在NAS吃灰.今天拿出来,辅助小爱音箱,实现一下语音控制听歌不自由.打开群晖openwrt等家庭里常开的一个设备作为docker的容器.然后安装docker版的xiaomusic.项目资源中有介绍.此处需要注意的.a.docker在国内的使用,项目中的缓存,在我的群晖环境,总是不定期中断下载.这里需要指定docker的源到
每日OJ_牛客_合唱队形_DP_C++_Java GR鲸鱼 c++java 算法数据结构
目录牛客_合唱队形_DP题目解析C++代码Java代码牛客_合唱队形_DP合唱队形_牛客题霸_牛客网描述：N位同学站成一排，音乐老师要请其中的(N-K)位同学出列，使得剩下的K位同学排成合唱队形。合唱队形是指这样的一种队形：设K位同学从左到右依次编号为1，2…，K，他们的身高分别为T1，T2，…，TK，则他们的身高满足t1ti+1>...>tk−1>tk(1≤i≤k)你的任务是，已知所有n位同学的
汽车扶手屏里的FPC应用有哪些?【新立电子】珠海新立电子FPC FPC柔性线路板汽车扶手屏幕车载系统
汽车扶手屏作为现代汽车内饰设计的一大亮点，通常被安装在座椅扶手位置，其设计初衷是为了方便乘客在乘车过程中进行各种操作和控制。屏幕不仅具备触控功能，还支持语音控制、手势识别等多种交互方式，使得乘客可以更加轻松、直观地操作车内的各种设备和功能。从功能上来看，汽车扶手屏的应用范围非常广泛。它可以作为多媒体娱乐系统的控制中心，可以在屏幕上选择并播放音乐、视频等多媒体内容。还可以作为导航系统的显示屏，提供清
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

音乐下载日志的关联分析

你可能感兴趣的:(音乐)