HoweChenya

教你用Python爬取QQ音乐上的付费专辑

Hello,there!好久没写爬虫的博客啦，今天来写一下怎么爬取QQ音乐上的付费专辑（理论上所有专辑都可以）。想爬QQ音乐是因为实在没钱买那些专辑，太多想听的了！！

附上运行结果截图：

先说一下需要的环境：

系统是：基于Linux的DeepinOS桌面版15.7。为什么用Linux?因为Terminal啊。

IDE是：PyCharm Community2018

语言&模块：Python3.5+requests+json+pymysql，为什么用数据库？因为数据库好用啊！最近数据库课设，写了好多SQL语句。爱上数据库了。你爬虫不用re模块或者是BeautifuiSoup?垃圾!我就不用，你打我啊。这又要说到课设了，以前爬虫总喜欢re.compile()，然后findall()。课设写服务器端用到json数据,然后发现Python的json模块也挺好用的。直接和字典互相转换，不要太爽。其实主要是这次爬虫都是处理的QQ音乐的json数据。

好了废话就说这么多，我们开始吧。

首先呢我们要爬的是QQ音乐（https://y.qq.com/）的专辑，顺便也把歌手的一些信息爬下来，然后再把专辑里的歌曲保存到自己的电脑上。

一．分析专辑页面

１．在浏览器中打开专辑页面，我用的是Chrome然后打开开发者模式

第二个箭头所指的文件里有这个专辑的信息直接双击点开：

这里面有这个专辑的很多信息：名称、流派、发行时间、公司.....等等，最重要的是歌曲的信息（songmid,songname）我们待会儿爬歌曲的时候要用到。先爬这个javascript文件，进行数据“清洗”，然后保存到数据库。数据库建表的代码如下：

//歌手表
CREATE TABLE artists(
name VARCHAR(50),
id VARCHAR(20) NOT NULL PRIMARY KEY,
genre VARCHAR(10),
sex VARCHAR(10),
intro VARCHAR(10000),
area VARCHAR(10)
)engine innodb default charset =utf8;
//专辑表
CREATE TABLE albums(
name VARCHAR(50) NOT NULL,
id VARCHAR(20)NOT NULL PRIMARY KEY,
genre VARCHAR(10),
type VARCHAR(10),
company VARCHAR(20),
intro VARCHAR(1000),
area VARCHAR(10),
time VARCHAR(10)
)engine innodb default charset =utf8;
//歌曲表
CREATE TABLE songs(
name VARCHAR(200) NOT NULL,
id VARCHAR(20)NOT NULL PRIMARY KEY,
genre VARCHAR(10),
language VARCHAR(10),
time VARCHAR(10)
)engine innodb default charset =utf8;
//歌曲专辑关系表
CREATE TABLE so_to_al(
song_id VARCHAR(20),
album_id VARCHAR(20),
FOREIGN KEY (song_id) REFERENCES songs(id),
FOREIGN KEY (album_id) REFERENCES albums(id)
)engine innodb default charset =utf8;
//专辑歌手关系表
CREATE TABLE al_to_ar(
artists_id VARCHAR(20),
album_id VARCHAR(20),
FOREIGN KEY (artists_id) REFERENCES artists(id),
FOREIGN KEY (album_id) REFERENCES albums(id)
)engine innodb default charset =utf8;

爬专辑信息：

在Headers可以看到专辑信息的URL，也可以在双击打开的页面看到。

下面是处理专辑信息的代码handle_album_callback.py：

import requests
import json
import pymysql
import delete_from_db#在保存在数据库之前，先将数据库里与这个专辑相关的数据删除

class Song(object):
    def __init__(self,name,mid):
        self.name = name
        self.mid = mid


def get_album_callback(album_id):
    text = ''
    try:#未登录时的专辑信息URL
        url = 'https://c.y.qq.com/v8/fcg-bin/fcg_v8_album_info_cp.fcg?albummid='+album_id+'&g_tk=5381&jsonpCallback=albuminfoCallback&loginUin=0&hostUin=0&format=jsonp&inCharset=utf8&outCharset=utf-8¬ice=0&platform=yqq&needNewCode=0'
        res = requests.get(url)
        text = res.text
    except Exception as e :
        print(e)
    return text


def handle_album_callback(album_id):
    songs =[]
    #去掉多余的文本
    text = get_album_callback(album_id)
    text = text.replace("albuminfoCallback(","")
    text = text[:-1]
    #用json模块将json转为python的字典类型（我猜的）
    album_js = json.loads(text)
    singername = album_js['data']['singername']
    singerid = album_js['data']['singermid']
    company = album_js['data']['company']
    aDate = album_js['data']['aDate']
    intro = album_js['data']['desc']
    genre = album_js['data']['genre']
    area = album_js['data']['lan']
    albumname = album_js['data']['name']
    albumid = album_js['data']['mid']
    delete_from_db.delete_from_db(album_id, singerid)
    conn = pymysql.connect(host='localhost',user='root',password='109071',db='musicDB')
    try:
        with conn.cursor() as cursor:
            sql = 'INSERT INTO `artists` VALUES(%s,%s,%s,%s,%s,%s)'
            cursor.execute(sql,(singername,singerid,'test','test','test','test'))
            sql1 = 'INSERT INTO `albums` VALUES(%s,%s,%s,%s,%s,%s,%s,%s)'
            cursor.execute(sql1,(albumname,album_id,genre,"null",company,intro[:100],area,aDate))
            sql2 = 'INSERT INTO `al_to_ar` VALUES(%s,%s)'
            cursor.execute(sql2, (singerid, albumid))
            for k in album_js['data']['list']:
                song = Song("", "")
                song.name = k['songname']
                song.mid = k['songmid']
                songs.append(song)
                sql3 = 'INSERT INTO `songs` VALUES(%s,%s,%s,%s,%s)'
                cursor.execute(sql3,(song.name,song.mid,genre,area,aDate))
                sql4 = 'INSERT INTO `so_to_al` VALUES(%s,%s)'
                cursor.execute(sql4,(song.mid,albumid))
                print(song.name, song.mid)
            conn.commit()
    except Exception as e:
        print(str(e)+'  HAC')
　　 #将歌曲的mid,和名字返回
    return songs

这时候我们已经拿到了很多信息了，但是最主要的歌曲没有弄到。

随便播放一首能播放的歌：

在Network里点最长的那个，这个就是我们想要的音乐数据。为了获取这个数据，我们得先制造这个歌曲资源的URL。而这个歌曲资源的URL里vkey(秘钥)是由QQ音乐专门的秘钥服务器生成的。这时候我就就要去找哪个文件里保存了服务器返回的秘钥。

我们找到了这个文件，然后在右边Header里看到Request URL 里面有点乱。为了让这个URL通俗易懂，我们需要用python2里的urllib模块（我不知道为什么我的python3里的urllib模块为啥没有这个功能）具体用法如下：

其实开发者模式也可以看到这个URL的参数，但是我懒得凑出来。这个URL最主要的参数是guid、songmid和loginUin这三个。这里需要注意一下，这个是需要登录才能获得的URL。由于这个我怕腾讯爸爸封我号，所以不敢多爬（手动狗头）。不登录就不能获取这个guid，这个东西是用来验证的，你登录时在服务端生成了这个东西。然后这里的songmid就是用来区分每一首歌的，这个东西就是我们在处理专辑信息时返回的Song类的mid。

接下来就是访问这个URL拿到里面的vkey:

拿到了这个purl我们就可以凑成歌曲资源的URL了，然后保存到电脑上。

下面是爬虫的主代码grab_songs,py：

import handle_album_callback
import requests
import generate_song_url
import pymysql
import os

headers={'Accept': '*/*',
'Accept-Encoding': 'identity;q=1, *;q=0',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Connection': 'keep-alive',
'Host': '122.190.14.159',
'Range': 'bytes=0-',
'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'}

headers1={'authority': 'u.y.qq.com',
'method': 'GET',
'path': '/cgi-bin/musicu.fcg?callback=getplaysongvkey8040123747165813&g_tk=1617931267&jsonpCallback=getplaysongvkey8040123747165813&loginUin=1090710046&hostUin=0&format=jsonp&inCharset=utf8&outCharset=utf-8¬ice=0&platform=yqq&needNewCode=0&data={%22req%22:{%22module%22:%22CDN.SrfCdnDispatchServer%22,%22method%22:%22GetCdnDispatch%22,%22param%22:{%22guid%22:%227978049712%22,%22calltype%22:0,%22userip%22:%22%22}},%22req_0%22:{%22module%22:%22vkey.GetVkeyServer%22,%22method%22:%22CgiGetVkey%22,%22param%22:{%22guid%22:%227978049712%22,%22songmid%22:[%22001KKIbk3vD39M%22],%22songtype%22:[0],%22uin%22:%221090710046%22,%22loginflag%22:1,%22platform%22:%2220%22}},%22comm%22:{%22uin%22:1090710046,%22format%22:%22json%22,%22ct%22:20,%22cv%22:0}}',
'scheme': 'https',
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'accept-encoding': 'gzip, deflate, br',
'accept-language': 'zh-CN,zh;q=0.9',
'cache-control': 'max-age=0',
'cookie': 'pgv_pvid=7978049712; eas_sid=31h5x3C1H0Q5C7t3C561l6i5D1; pt2gguin=o1090710046; RK=Fhp8FqShTu; ptcz=a5dfc959cadde7f185167913f1ca3dfd0a107e07cb63d2c1cc3d7d20d25e9470; pgv_pvi=7308248064; ptui_loginuin=1090710046; ts_uid=1811149517; wf_tid=1148256b2a52; wf_rid=0fd757881c20; pgv_info=ssid=s1763371196; pgv_si=s8480007168; qqmusic_fromtag=66; ptisp=cnc; ts_refer=xui.ptlogin2.qq.com/cgi-bin/xlogin; uin=o1090710046; skey=@CVMCk5RED; luin=o1090710046; lskey=00010000d3eab41a990cfc37b089f29764ec6057a610ff2a499b7bd67dba47affb73c1bf21547356109c9947; p_uin=o1090710046; pt4_token=4qW6bkRx-4GOHiOp-7C2R537dGLrlYlF7aGND6BAfv0_; p_skey=RjDyrGp-*NaDu4nleLdOpBGT7XrY69jy1aU9nAASZSc_; p_luin=o1090710046; p_lskey=00040000bb83c4265423609a0ae3abe12d4b8c3c89535839d24cd70f525a25630f28a623f752260a99036107; yq_index=0; yq_playschange=0; yq_playdata=; player_exist=1; yplayer_open=0; yqq_stat=0; ts_last=y.qq.com/n/yqq/album/001v3NMj3Pi45u.html',
'upgrade-insecure-requests': '1',
'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'}

def grab_song(album_id):
    album_name = ''
    singer_name = ''
    songs = handle_album_callback.handle_album_callback(album_id)
    conn = pymysql.connect(host='localhost', user='root', password='109071', db='musicDB')
    try:
        with conn.cursor() as cursor:
             sql = 'select name from `albums` where id =%s'
             cursor.execute(sql,album_id)
             album_name = cursor.fetchone()[0]
             sql1 = 'SELECT name FROM artists where id in (SELECT artists_id FROM al_to_ar WHERE album_id = %s)'
             cursor.execute(sql1,album_id)
             singer_name = cursor.fetchone()[0]
    except Exception as e :
        print(str(e)+' GS')
    #path是歌曲的保存在本机的路径，请根据自己的电脑路径修改
    path = '/home/alexhowe/grabed_music/' + album_name+'/'
    if not os.path.exists(path):
        os.mkdir(path)
        print('The song will be stored at '+path)
    for s in songs:
        #请按照上面的方法得到这个获取vkey的URL（guid处为数字）
        url = 'https://u.y.qq.com/cgi-bin/musicu.fcg?callback=getplaysongvkey8040123747165813&g_tk=1617931267&jsonpCallback=getplaysongvkey8040123747165813&loginUin=1090710046&hostUin=0&format=jsonp&inCharset=utf8&outCharset=utf-8¬ice=0&platform=yqq&needNewCode=0&data=' \
              '{"req":{"module":"CDN.SrfCdnDispatchServer","method":"GetCdnDispatch","param":' \
              '{"guid":"7978049712","calltype":0,"userip":""}},"req_0":{"module":"vkey.GetVkeyServer",' \
              '"method":"CgiGetVkey","param":{"guid":"7978049712","songmid":["'+s.mid+'"],' \
              '"songtype":[0],"uin":"1090710046","loginflag":1,"platform":"20"}},' \
              '"comm":{"uin":1090710046,"format":"json","ct":20,"cv":0}}'
        res = requests.get(url,headers=headers1)
　　　　　＃song_url是我们获取vkey后凑成的歌曲资源URL
        song_url = generate_song_url.gen_song_url(res.text)
        res_song = requests.get(song_url,headers=headers)
        #保存到本地就不多说了
        with open(path+s.name+'-'+singer_name+'.m4a','wb') as f:
            f.write(res_song.content)
            print(s.name+' by '+singer_name+' has been saved！')
      
if __name__=='__main__':
    grab_song('000h66z521TUCT')＃这里输入专辑ID

注意主爬虫代码(grab_songs.py)里的url要自己去登录（https://y.qq.com/）然后按照上面的方法获取的，其中的guid是阿拉伯数字。然后再像代码里那样将url里的songmid参数拼接成"songmid":["’+s.mid+‘"]，因为我们要获取专辑里每一首歌的vkey。

下面是凑成歌曲资源URL的代码generate_song_url.py:

import json

#这个比较简单就不解释了，和专辑信息“清洗”差不多
def gen_song_url(text):
    text = text.replace('getplaysongvkey8040123747165813(','')
    text = text[:-1]
    song_js = json.loads(text)
    url_js = song_js['req_0']['data']['midurlinfo'][0]
    return 'http://122.190.14.159/amobile.music.tc.qq.com/'+url_js['purl']

结语：

好了，到这里我们爬取QQ音乐的爬虫代码就全部写好了。总结一下思路：

打开专辑页面－>在地址栏里可以拿到专辑ID（这是主代码grab_songs.py里grab_song()函数的参数）－>获取到专辑信息的javascript文件，然后再用handle_album_callback.py处理并返回Song类－>这是已经拿到了songmid和歌曲名字，然后再用songmid去获取vkey－>到generate_song_url.py就把拿到的vkey凑成歌曲资源URL返回。

整个过程是不是很简单?相信聪明的你一定能理解的～

最后还有一个delete_from_db.py（handle_album_callback.py里面调用了）等着你去写，没错这是一片关于SQL数据库的博客！没想到吧！

注意，代码运行前请在第一行添加：# -- coding: utf-8 --（因为添加了注释）

你要是实在不想写可以把handle_album_callback.py里用到的地方删掉，或者你要是想支持我也行：

点击下载

博客有点长感谢耐心看完！祝你在Python爬虫领域所向披靡！

Python迭代器和生成器的区别及其各自实现方式和使用场景
目录1.迭代器(Iterator)1.1迭代器的创建1.2自定义迭代器2.生成器(Generator)2.1生成器的创建2.2生成器一个范围2.3生成器死循环2.4生成器大文件处理3.区别对比4.总结1.迭代器(Iterator)迭代器提供了一种惰性（lazyevaluation）获取数据的方法，使得我们能够逐步访问序列中的元素，而无需一次性加载所有数据。其主要优点包括节省内存、提高性能、支持自定
Python推导式，常见语句和内置函数拉不拉嘟妍算法
目录1.Python推导式1.1列表推导式1.2字典推导式1.3集合推导式2.常见语句2.1赋值语句2.2条件语句2.2.1if-elif-else2.2.3match-case2.3循环语句2.3.1for循环2.3.2while循环2.3.3range2.4循环控制语句2.4.1break2.4.2continue2.4.3pass2.5函数定义语句2.6异常处理语句2.6.1try-exce
“今天我不想去上学！” 蕙芊芊
2020.12.8-90天宝贝日记-32今天早上不到八点钟就吃完饭了，我和二宝两人也都收拾利索了，按正常发展，我俩儿八点钟就能出门，二宝会比往常早到校，我也会提早到单位，我心里设想的挺好，不过临出门，二宝不干了，“妈妈，今天我不想去上学！”“为什么不想上学呢？”我边问边穿上羽绒服，准备出发。“我想在家玩，上学不好玩，读书也不好玩！”小家伙儿边说边哭了起来。“在家玩什么呢？”我蹲下来，看着这个哭得满
Python的基础变量类型之字符串和数字类型拉不拉嘟妍 python 开发语言
目录1.基础变量类型1.1字符串str1.1.1基本特征1.1.2字符串操作1.1.2.1字符串连接1.1.2.2相邻的两个或多个字符串字面值会自动合并1.1.2.3字符串多次重复1.1.2.4字符串下标访问1.1.2.5字符串切片访问1.1.2.4关系判断1.1.2.5格式化表达式1.1.2.6f-string1.2数字类型1.2.1整数int1.2.2浮点数float1.2.3布尔类型bool
基于Python根据两个字符串给出相似度/近似度_Python实现字符串语义相似度算法（附上多种实现算法）袁袁袁袁满 Python实用技巧大全 python 算法开发语言相似度自然语言处理相似度算法 sklearn
以下是几种基于语义的字符串相似度计算方法，每种方法都会返回0.0到1.0之间的相似度分数（保留一位小数）。文章目录方法1：计算Levenshtein距离(基于字符的相似度)方法2：使用Sentence-BERT预训练模型方法3：使用spaCy进行语义相似度比较方法4：使用spaCy和词向量方法5：使用UniversalSentenceEncoder(USE)方法6：使用BERT-as-Servic
python 自动获取通达信自定义板块股票 2503_92652889 python 开发语言前端
对于个人量化开发投资者来讲，有两个事情最难，1、一个好的策略，2、好的行情数据源。好的策略相信大部分人自己都会有想对应的策略，但想把这些策略全部搬到量化平台还是挺难的，今天介绍一个比较简单的方案。使用通达信的预警功能，或者是使用策略股票池功能，来自动计算哪些标的符合自己的要求。然后通过下面的py代码就可以直接读取到数据，并保存在dltp.csv文件中进行存储。当然这是第一步获取标的。其后是获取行情
六公里变成了五公里_2023年1月30日跑步日记跑渣汤姆
跑步时间：2023年1月30日06:43跑步地点：马路上当时气温：零下1度左右污染指数：72（空气质量为良）跑步距离：5.66公里跑步时长:48分56秒平均配速：8分39秒平均心率:170次/分钟（数据错误）平均步频：187步/分钟平均步幅：62厘米跑完后手测即时心率:21*6=126次/分六十秒后心率手测心率:17*6＝102次/分今天还是慢跑，八分多的配速。回程孩子一直努想跑，走走跑跑的。最后
Python基础-列表香辣西红柿炒蛋 Python python
list列表由多个元素组成的数据类型>>>可迭代的数据类型[],列表中的每一个元素，用逗号隔开a=[]#创建了一个空列表b=[3,4,5,"hello","python",3.14,5.55]print(type(a))#print(type(b))#读取列表的元素下标print(b[2])#5列表的元素个数len()print(len(b))#7切片：切片开始位置的索引（包含），切片结束位置的索
寇寇自律之路～第二百七十二天寇艺馨
【[太阳]272[太阳]】【72/100寇寇的每日三件事】1.读书❎：换眼镜，没看书/p>2.运动❎：休息一天3.饮食❎：吃了美味【挑战任务】①泡脚❎②欣赏日记11/100✅③一篇27/100✅④给父母的问候一周三次以上（6次）今日小确幸：①今日做了件错事，今天答应了晚上9点帮大家录制视频，结果我临时有事。其实谁都会有突发事件，但是遇到突发事件如何解决呢？是不是应该提前预想一下呢？感谢遇到的人都是
2019.7.6 星期六小雨转多云亲子日记第257篇百日行30篇 9c2fc64f124c
今天闺女写的字比昨天认真一些，我昨天看到她写的字，想说她一顿呐。结果又想了想，就换个语气说的，我给闺女开玩笑说她写的字像被大风吹过一样，有点飘，再认真点写就更好看啦！今天闺女写的有进步，我就夸她棒棒哒！她高兴的还谢谢我。好孩子是夸出来的，所以，能不批评的就不批评，用闺女喜欢的方式和她说话。给闺女视频时，闺女戴着一个大口罩，我问她为什么戴口罩，她说她是医生，还让我叫她尹医生。还说她在给病人看病，说她
Python 进阶（九）：网络编程海哥编程 Python进阶 python 网络开发语言
目录1.简介2.使用2.1API介绍2.2TCP方式2.3UDP方式1.简介网络编程主要的工作就是在发送端将信息通过指定的协议进行组装包，在接收端按照规定好的协议对包进行解析并提取出对应的信息，最终达到通信的目的。传输协议主要有TCP和UDP，TCP需要建立连接，是可靠的、基于字节流的协议，通常与IP协议共同使用；UDP不需要建立连接，可靠性差，但速度更快。网络编程有一个重要的概念socket（套
孕期日记监考天边的星
孕19周1天，今日宝宝，162mm，280g。还有三天，就放寒假。今天监考一上午，中午收拾完办公室，就进城了，准备后头阅卷。上午监考三年级。三年级的学生，好像还没有完全适应考试，很多的人都坐不住。第一节考英语，时间为40分钟，其中有15分钟的听力。有些学生边听边念，电脑里怎么念，他们就重复一遍，似乎忘了是在考试，或者并不清楚考试的规则。听力结束后，还有25分钟的时间，结果这些学生动作极快，有的5分
Python爬虫进阶：解决反爬虫机制的技巧程序员威哥 python 爬虫开发语言
✨前言在爬虫初学阶段，我们常常使用requests和BeautifulSoup就能轻松抓取网页数据。但当目标网站对爬虫设置了各种“反爬虫机制”时，简单的方法往往无效，甚至直接被封禁IP或跳转到验证页面。本篇文章将深入讲解常见的反爬虫机制类型，并配合Python解决策略与代码实例，帮助你掌握破解反爬的核心技巧，提升数据抓取成功率与稳定性。️一、常见反爬虫机制类型反爬类型说明举例网站User-Agen
如何用python爬虫下载视频_用python做爬虫下载视频 weixin_39675963 如何用python爬虫下载视频
用python有一段时间了，对python是十二分喜爱，在我看来python是个好工具，可以轻松简洁的帮我完成一些我想要完成的工作。下面和大家分享一下我用python爬取某网站视频的案例。用python去保存网站的视频，主要是为了后续的查看和备份。如果有需要做爬虫研究的同学可以一起探讨下。本文主要用到requests库和BeautifulSoup库。1.抓取视频第一步，分析目标网站的地址本文中我爬
深入解析 Pandas：Python 数据分析的强大工具 chy存钱罐 pandas python 数据分析
引言在当今数据驱动的时代，数据分析成为了从各个领域挖掘价值的关键手段。Python作为一种广泛应用于数据科学的编程语言，拥有众多强大的库来支持数据分析任务。其中，Pandas无疑是最为耀眼的明星之一。Pandas为Python提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。无论是数据清洗、预处理，还是复杂的数据分析和建模，Pandas都能发挥巨大的作用，极大地提升数据处理
2025年03月中国电子学会青少年软件编程（Python）等级考试试卷（一级）答案 + 解析伶俐角少儿编程 python 少儿编程青少年编程等级考试中国电子学会等级考试
青少年软件编程（Python）等级考试试卷（一级）分数：100题数：37一、单选题(共25题，共50分)1.下列哪个软件不能运行Python程序？（）A.JupyterNotebookB.PycharmC.原版的ScratchD.IDLE正确答案：C答案解析：本题考察的Python编程软件，原版的Scratch不是Python的编程软件2.下面print语句，哪一个是正确的用法？（）A.print
2025年03月中国电子学会青少年软件编程（Python）等级考试试卷（四级）答案 + 解析伶俐角少儿编程 python 青少年编程中国电子学会青少年编程等级考试少儿编程
青少年软件编程（Python）等级考试试卷（四级）分数：100题数：38一、单选题(共25题，共50分)1.下列程序段的运行结果是？（）defs(n):ifn==3:return4else:returnn+s(n-1)print(s(5))A.1B.12C.13D.15正确答案：C答案解析：函数f作用是如果是3，返回值是4，如果是非3，就返回n+s(n-1)。因实参为5，运行后返回值依次是5+s(
python爬虫入门：批量下载图片有盐、在见 python 爬虫开发语言
引言：爬虫也被称为网络蜘蛛（Spider），是一种自动化的软件程序，能够在互联网上漫游，按照一定的规则和算法抓取数据。爬虫技术广泛应用于搜索引擎、数据挖掘、信息提取等领域，是互联网技术的重要组成部分。摘要：很多初学者对于一个这样新奇的事务当然愿意去探索，我也一样，突然想要学一点关于python爬虫的知识，说干就干！那就学！如果以下说的有错误，及时指出，定会修改。本文将介绍如何从图片网站批量下载图片
Python列表去重的4种核心方法详解与实战指南 PythonicCC python 开发语言
在Python开发中，处理列表数据时经常需要去除重复元素。本文将详细介绍4种最实用的列表去重方法，包括它们的实现原理、代码示例和性能特点，并提供实际应用建议。方法1：集合(set)去重法（最快速）原理与实现利用集合自动去除重复元素的特性，转换为集合后再转回列表：original_list=[11,77,33,55,33,55,77,99,44,77]unique_list=list(set(ori
Flask转发 [Siemens.Sistar.Api.dll] Braumat API---＞DLL to restAPI
文章目录importosimportclr#导入pythonnet提供的clr模块fromtypingimportAnyimportfunc_timeoutfromfunc_timeoutimportfunc_set_timeoutfromfunc_timeout.exceptionsimportFunctionTimedOut#加载DLL文件current_path=os.getcwd()dll
CloudSimPy 开源项目使用教程黎连研Shana
CloudSimPy开源项目使用教程1.项目的目录结构及介绍CloudSimPy是一个数据中心作业调度仿真框架，基于离散事件仿真框架SimPy，利用Python语言进行实现。项目的目录结构如下：CloudSimPy/├──core/│├──config/│├──job/│├──machine/│├──cluster/│├──algorithm/│├──scheduler/│├──broker/│├
Flask后端框架的路由系统详解 AI大模型应用实战 flask python 后端 ai
Flask后端框架的路由系统详解关键词：Flask、路由系统、URL映射、视图函数、装饰器、动态路由、RESTfulAPI摘要：本文深入探讨Flask框架的路由系统，从基础概念到高级应用全面解析。文章首先介绍路由的基本原理，然后详细讲解Flask的路由实现机制，包括静态路由、动态路由、HTTP方法处理等核心功能。通过Python代码示例和Mermaid流程图，展示路由系统的内部工作原理。最后，结合
Python爬虫实战：全方位解析前程无忧（51job）职位详情爬取及反爬破解 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据库 selenium
1.引言在现代求职招聘市场，前程无忧（51job）作为国内领先的招聘网站，聚合了海量的职位信息。对这些数据进行抓取和分析，不仅能帮助求职者精准定位岗位，也助力企业洞察招聘趋势。本文将从零开始，带你用Python技术完整爬取51job职位详情页数据，讲解反爬破解策略，并附带实用代码示例。2.前程无忧（51job）简介与数据价值平台规模：覆盖全国各行业、数百万条岗位信息。数据特点：职位描述详细，职位标
Python 爬虫（一）：爬虫伪装
目录1简介2伪装策略2.1RequestHeaders问题2.2IP限制问题3总结1简介对于一些有一定规模或盈利性质比较强的网站，几乎都会做一些防爬措施，防爬措施一般来说有两种：一种是做身份验证，直接把虫子挡在了门口，另一种是在网站设置各种反爬机制，让虫子知难而返。2伪装策略我们知道即使是一些规模很小的网站通常也会对来访者的身份做一下检查，如验证请求Headers，而对于那些上了一定规模的网站就更
Python爬虫教程：爬取知识产权裁判文书数据 Python爬虫项目 python 爬虫开发语言数据分析自动化
引言知识产权（IP）裁判文书是法院在处理知识产权案件时作出的判决、裁定等法律文书。这些文书包含了案件的基本信息、法院的判决意见以及对案件相关知识产权的解释。爬取知识产权裁判文书数据不仅有助于法律工作者、学者进行案例分析和法律研究，也为企业提供了分析竞争对手和行业趋势的宝贵数据。本文将介绍如何使用Python爬虫技术来抓取中国法院网、裁判文书网等网站上的知识产权裁判文书。通过本文，你将学会如何获取并
用一年时间重生第51天 ting_寓言
大家好，我是日记星球875号星宝宝寓言，我正在参加日记星球第43期的21天蜕变之旅，用文字记录生活，用坚持唤醒懒惰，用一年时间重生。2020年4月8日星期三晴每日心语用一年时间重生第51天202004067人生关键词：自信探索突破输入：早上阅读同组小伙伴的日记输出：日记，小木屋书评开源：和偶像又五月开启了深度链接固本：陪娃，去绘本馆面谈感恩：1.我万分荣幸并深深感恩，自己已经好久不睡懒觉了，虽然起
[hot 100] 移动零-Python3 每日一道力扣算法数据结构指针
1.左指针始终指向左侧无零序列尾后一个位置，右边指针如果指到非零值则和左指针进行交换2.如果右指针指到非零值，则交换后，左指针向右移到左序列尾的后一个位置，为下一次交换做准备3.如果右指针指向0，则右指针向右移动指向下一次可能交换的值
幸福感恩日记第31天橙子二多
时间：2019年12月2日（农历十一月初七）周一天气晴学经方法：137累积法学经内容：《易经》；《论语》；《唐诗300首》。参加人员：妈妈，橙子读经过程：今天橙子又把读经典的时间安排到早晨，刚开始橙子读经典，我来听早课，后来橙子要求我和她一起读，因为我们的早读当中有一本是山海经，而这本书是老师要求的，里面有很多的生僻字，大多数都不认识，我就一个一个查字典，给他注上拼音，和我们版本的经典相比，读起来
python 字符串常用处理函数 CATTLECODE python java 前端
以下是Python中字符串常用处理函数的系统整理，涵盖字符串创建、修改、查找、分割、判断等核心操作。根据功能分类说明，并附带简洁示例，方便快速查阅和使用。一、字符串创建与基础操作创建字符串Python支持单引号、双引号、三引号创建字符串：s1='Hello'#单引号s2="World"#双引号s3='''Multi-linestring'''#三引号支持多行字符串[6](@ref)访问字符与切片索
split() 函数在 Java、JavaScript 和 Python 区别 CATTLECODE python java
split()函数在Java、JavaScript和Python中均用于字符串分割，但在语法、参数设计和行为上存在显著差异。以下是三者的核心区别及使用示例：1.语法与参数设计语言语法参数说明JavaString.split(regex,limit)regex：必须为正则表达式（需转义特殊字符如.、`JavaScriptstr.split(separator,limit)separator：支持字符
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

教你用Python爬取QQ音乐上的付费专辑

一．分析专辑页面

你可能感兴趣的:(Python日记)