HelloWorldOnly

网易云音乐听歌量爬虫(免登陆版)

最近学习了一下爬虫的原理和基本的思路, 并且利用selenium + Python + Chrome 进行了一系列的爬虫.

最开始的想法是, 想每天爬取自己网易云音乐的一些数据, 比如每天听歌量, 之类的.

可以很轻松的利用selenium中的CSS selector 或者 XPath路径找到对应的HTML标签元素, 再通过鼠标等操作, 完成登陆, 进而爬取数据,

但是, 后来发现网易云音乐的登陆有机器人检测, 在监视模式下无法通过selenium直接登陆. 参考了网上的各方意见之后, 找到解决的方法有两种:

1. 通过get/post请求分析, 并修改header来提交表单完成登陆操作;(在requests模块中)

2. 通过模拟鼠标移动来登陆(但听说这种方法现在也会直接被认定为机器人!)

最终这个登陆问题也没有得到解决!!

但是, 这并没有打消我爬虫的积极性. 所以就有了现在的免登陆爬虫:

零、运行环境搭建：

1. 运行环境

我的爬虫是在win7下运行的，用到的爬虫软件有：

ChromeDriver 70.0.3538.67

Python 3.7.0

Selenium 3.14.1

当然, 如果你和我一样, 也是Firefox的忠实粉丝, 我也为你做了测试:

geckodriver-v0.23.0-win64

Firefox 60.0.1

Python 3.7.0

Selenium 3.14.1

这么做的目的主要是因为, 一开始不知道Firefox也有headless模式(无头), 所以专门下载的Chrome.

2. 爬虫部署:

Win7下: 可以使用任务计划程序来定制爬虫; 我使用的是一个叫Ontimer的软件, 可以一键设置和管理所有自定义的计划, 并实现后台静默运行;

Linux下: 我的服务器是CentOS6.9, 比较难搭建运行环境, 如果是CentOS7的操作系统, 可以使用crontab来部署你的爬虫!

一、取得并分析URL地址：

取得的URL地址如：https://music.163.com/#/user/songs/rank?id=你的网易云音乐ID

上面id=, 可以通过找到你的个人主页来得到(也可以修改id来访问别人的主页)

二、设置请求头:

# 设置Chrome请求头(无头模式):
options = webdriver.ChromeOptions()
options.add_argument('--headless')

options.add_argument('lang=zh_CN.UTF-8') # 设置中文
options.add_argument('disable-infobars') #隐藏"Chrome正在受到自动软件的控制"
options.add_argument('--disable-gpu') #谷歌文档提到需要加上这个属性来规避bug
    # 更换头部
user_agent = (
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_4) " +
    "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.57 Safari/537.36"
    )
options.add_argument('user-agent=%s'%user_agent)

这个是Chrome浏览器请求头设置的代码, 如果你用的是Firefox浏览器:

# 设置Chrome请求头(无头模式):
options = webdriver.FirefoxOptions()
options.add_argument('-headless')

options.add_argument('lang=zh_CN.UTF-8') # 设置中文
options.add_argument('disable-infobars') #隐藏"Chrome正在受到自动软件的控制"
options.add_argument('--disable-gpu') #谷歌文档提到需要加上这个属性来规避bug
    # 更换头部
user_agent = (
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_4) " +
    "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.57 Safari/537.36"
    )
options.add_argument('user-agent=%s'%user_agent)

基本和Chrome一致.

如果很不幸, 你用的是PhantomJS或者其他的浏览器驱动, 我这里并没有配置header的代码;

(其实我是有PhantomJS配置的代码的, 但是由于听说PhantomJS要停止维护了, 所以在这里就不写了! 有需要的朋友请自行百度)

三、配置并请求链接:

        browser = webdriver.Chrome(chrome_options=options)
        browser.get("https://music.163.com/#/user/songs/rank?id=" + user_id)

在这里, 我通过一个str类型的变量user_id来实现了访问网易云音乐不同用户的页面;

三'、预处理:

        browser.switch_to.frame("g_iframe")

认真读过网易云音乐页面源代码之后, 发现, 其实他的页面是一个嵌入到body中的一个叫g_iframe的框架构成的;

其实这也是我放弃requests 转而用selenium的最主要原因, 因为貌似requests只能在单个页面中寻找元素, 而无法处理iframe框架.

四、寻找对应元素的xpath:

xpath在类似于Chrome或者Firefox这种主流的浏览器里非常简单:

按下F12, 找到对应的元素, 右键源代码, 复制xpath即可!

这里以

歌曲名为例: /html/body/div[3]/div/div[2]/div/div[1]/ul/li[1]/div[2]/div[1]/div/span/a/b

五、处理对应元素:

        xpath_musicname_left = "/html/body/div[3]/div/div[2]/div/div[1]/ul/li["
        xpath_musicname_right = "]/div[2]/div[1]/div/span/a/b"

        for i in range(1, 101):  
            # 歌曲名处理:
            try: # 排行榜内部不到一百首歌, 退出
                xpath_musicname = xpath_musicname_left + str(i) + xpath_musicname_right
                each_info["name"] = (browser.find_element_by_xpath(xpath_musicname))
                # 正则表达式,去掉歌名中的逗号, 并将"name"处理为str类型!:
                each_info["name"] = re.sub(",", "", each_info["name"].text)
            except:
                break

通过查看多个元素的xpath可以找到规律, 将其分为'左边'和'右边', 从而插入相应的数量信息即可确定对应的xpath;

再通过查看selenium的手册, 找到driver.find_element_by_xpath()函数, 可以返回一个Web类型的变量(.text为对应的字符串)

六、处理数据:

最后, 可以保存相应的数据, 不论是JSON, .csv, 还是.txt类型都是可以的!!!!

我为了方便处理数据, 最终选择了将数据保存为.txt格式.

源代码:

Chrome:

#!/usr/bin/python 
#-*- coding: utf-8 -*-
import re
import sys
import datetime
from selenium import webdriver
from time import sleep
from selenium.webdriver.common.action_chains import ActionChains

def scrap_music(user_id):
    try:
        # 打开网页: 
        browser = webdriver.Chrome(chrome_options=options)
        browser.get("https://music.163.com/#/user/songs/rank?id=" + user_id)

        # selenium预处理: (转换到iframe内部)
        browser.switch_to.frame("g_iframe")

        xpath_musicname_left = "/html/body/div[3]/div/div[2]/div/div[1]/ul/li["
        xpath_musicname_right = "]/div[2]/div[1]/div/span/a/b"

        xpath_artist_left = "/html/body/div[3]/div/div[2]/div/div[1]/ul/li["
        xpath_artist_right = "]/div[2]/div[1]/div/span/span/span"
        
        xpath_artist_text_left = ""
        xpath_artist_text_right = ""

        xpath_playtimes_left = "/html/body/div[3]/div/div[2]/div/div[1]/ul/li["
        xpath_playtimes_right = "]/div[3]/span"

        # 用列表类型来整合toplist, each_info存放每一个的表单
        toplist = list()
        each_info = dict()

        # 时间戳处理:
        year = datetime.datetime.now().strftime("%Y")
        month = datetime.datetime.now().strftime("%m")
        day = datetime.datetime.now().strftime("%d")
        hour = datetime.datetime.now().strftime("%H")
        now_time = month + u"/" + day + u":" + hour + u"h"

        for i in range(1, 101):  
            # 歌曲名处理:
            try: # 排行榜内部不到一百首歌, 退出
                xpath_musicname = xpath_musicname_left + str(i) + xpath_musicname_right
                each_info["name"] = (browser.find_element_by_xpath(xpath_musicname))
                # 正则表达式,去掉歌名中的逗号, 并将"name"处理为str类型!:
                each_info["name"] = re.sub(",", "", each_info["name"].text)
            except:
                break
            # 歌唱家处理:
            try: # 第一个try 用来判断是否为100首歌, 若通过, 说明有歌, 这个try 用来判断歌手是链接形式还是文本形式给出!
                xpath_artist = xpath_artist_left + str(i) + xpath_artist_right
                each_info["artist"] = (browser.find_element_by_xpath(xpath_artist).get_attribute("title"))
            except:
                break
            # 播放次数(百分比)处理: (由于未登录, 所以采用默认排名末位的歌曲仅播放一次, 并通过第一与末尾元素的比例来判定播放次数)
            xpath_playtimes = xpath_playtimes_left + str(i) + xpath_playtimes_right
            each_info["playtime_percent"] = (browser.find_element_by_xpath(xpath_playtimes).get_attribute("style"))
            
            # 正则表达式将非数字的字符全部转化为空字符, 完成数字的提取:
            each_info["playtime_percent"] = int(re.sub("\D", "", each_info["playtime_percent"]))
            
            # 排行榜序列索引
            each_info["index"] = i
              
            # 处理时间戳  
            each_info["time"] = now_time
            
            # 加入处理后的数据到列表toplist中:
            toplist.append(each_info)
            each_info = dict()
            
            
        # 播放次数(真实数据)处理: (由于未登录, 所以采用默认排名末位的歌曲仅播放一次, 并通过第一与末尾元素的比例来判定播放次数)
        # 处理首个和末尾单元的播放次数:
        toplist[-1]["playtimes"] = 1

        if toplist[-1]["playtime_percent"] == 0: # 如果网页上最后一名的长度为0, 则第一位的播放量应当大于100, 选取为101(预测)
            toplist[0]["playtimes"] = 101
        else:
            toplist[0]["playtimes"] = (toplist[0]["playtime_percent"] / toplist[-1]["playtime_percent"]) * toplist[-1]["playtimes"]

        # 处理所有其他的次数:
        for i in toplist:
            if i["playtime_percent"] == toplist[-1]["playtime_percent"]:
                i["playtimes"] = 1
            else:
                i["playtimes"] = int((i["playtime_percent"] / 100.0) * toplist[0]["playtimes"])

        # 注: 以上计算方法仅仅是预测, 所以会有一定的误差!    

        # 输出到文件中:
        # 打开文件追加a模式
        filename = user_id + ".txt"
        fileout = open(filename, "a+", encoding='utf-8')
        #写入数据:
        for i in toplist:
            fileout.writelines(i["name"] + "," + i["artist"] + "," + str(i["playtimes"]) + "," + i["time"] + "\n")    
            
    finally:
        # 关闭文件和窗口:
        fileout.close()
        browser.close()


#-----------------------------------------  程序开始处 -------------------------------------------#

# 设置Chrome请求头(无头模式):
options = webdriver.ChromeOptions()
options.add_argument('--headless')

options.add_argument('lang=zh_CN.UTF-8') # 设置中文
options.add_argument('disable-infobars') #隐藏"Chrome正在受到自动软件的控制"
options.add_argument('--disable-gpu') #谷歌文档提到需要加上这个属性来规避bug
    # 更换头部
user_agent = (
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_4) " +
    "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.57 Safari/537.36"
    )
options.add_argument('user-agent=%s'%user_agent)

usr_id = []
for each_id in usr_id:
    scrap_music(str(each_id))
# 退出程序:
#    sys.exit(0)

Firefox:

#!/usr/bin/python 
#-*- coding: utf-8 -*-
import re
import sys
import datetime
from selenium import webdriver
from time import sleep
from selenium.webdriver.common.action_chains import ActionChains

def scrap_music(user_id):
    try:
        # 打开网页: 
        browser = webdriver.Firefox(firefox_options=options)
        browser.get("https://music.163.com/#/user/songs/rank?id=" + user_id)

        # selenium预处理: (转换到iframe内部)
        browser.switch_to.frame("g_iframe")

        xpath_musicname_left = "/html/body/div[3]/div/div[2]/div/div[1]/ul/li["
        xpath_musicname_right = "]/div[2]/div[1]/div/span/a/b"

        xpath_artist_left = "/html/body/div[3]/div/div[2]/div/div[1]/ul/li["
        xpath_artist_right = "]/div[2]/div[1]/div/span/span/span"
        
        xpath_artist_text_left = ""
        xpath_artist_text_right = ""

        xpath_playtimes_left = "/html/body/div[3]/div/div[2]/div/div[1]/ul/li["
        xpath_playtimes_right = "]/div[3]/span"

        # 用列表类型来整合toplist, each_info存放每一个的表单
        toplist = list()
        each_info = dict()

        # 时间戳处理:
        year = datetime.datetime.now().strftime("%Y")
        month = datetime.datetime.now().strftime("%m")
        day = datetime.datetime.now().strftime("%d")
        hour = datetime.datetime.now().strftime("%H")
        now_time = month + u"/" + day + u":" + hour + u"h"

        for i in range(1, 101):  
            # 歌曲名处理:
            try: # 排行榜内部不到一百首歌, 退出
                xpath_musicname = xpath_musicname_left + str(i) + xpath_musicname_right
                each_info["name"] = (browser.find_element_by_xpath(xpath_musicname))
                # 正则表达式,去掉歌名中的逗号, 并将"name"处理为str类型!:
                each_info["name"] = re.sub(",", "", each_info["name"].text)
            except:
                break
            # 歌唱家处理:
            try: # 第一个try 用来判断是否为100首歌, 若通过, 说明有歌, 这个try 用来判断歌手是链接形式还是文本形式给出!
                xpath_artist = xpath_artist_left + str(i) + xpath_artist_right
                each_info["artist"] = (browser.find_element_by_xpath(xpath_artist).get_attribute("title"))
            except:
                break
            # 播放次数(百分比)处理: (由于未登录, 所以采用默认排名末位的歌曲仅播放一次, 并通过第一与末尾元素的比例来判定播放次数)
            xpath_playtimes = xpath_playtimes_left + str(i) + xpath_playtimes_right
            each_info["playtime_percent"] = (browser.find_element_by_xpath(xpath_playtimes).get_attribute("style"))
            
            # 正则表达式将非数字的字符全部转化为空字符, 完成数字的提取:
            each_info["playtime_percent"] = int(re.sub("\D", "", each_info["playtime_percent"]))
            
            # 排行榜序列索引
            each_info["index"] = i
              
            # 处理时间戳  
            each_info["time"] = now_time
            
            # 加入处理后的数据到列表toplist中:
            toplist.append(each_info)
            each_info = dict()
            
            
        # 播放次数(真实数据)处理: (由于未登录, 所以采用默认排名末位的歌曲仅播放一次, 并通过第一与末尾元素的比例来判定播放次数)
        # 处理首个和末尾单元的播放次数:
        toplist[-1]["playtimes"] = 1

        if toplist[-1]["playtime_percent"] == 0: # 如果网页上最后一名的长度为0, 则第一位的播放量应当大于100, 选取为101(预测)
            toplist[0]["playtimes"] = 101
        else:
            toplist[0]["playtimes"] = (toplist[0]["playtime_percent"] / toplist[-1]["playtime_percent"]) * toplist[-1]["playtimes"]

        # 处理所有其他的次数:
        for i in toplist:
            if i["playtime_percent"] == toplist[-1]["playtime_percent"]:
                i["playtimes"] = 1
            else:
                i["playtimes"] = int((i["playtime_percent"] / 100.0) * toplist[0]["playtimes"])

        # 注: 以上计算方法仅仅是预测, 所以会有一定的误差!    

        # 输出到文件中:
        # 打开文件追加a模式
        filename = user_id + ".txt"
        fileout = open(filename, "a+", encoding='utf-8')
        #写入数据:
        for i in toplist:
            fileout.writelines(i["name"] + "," + i["artist"] + "," + str(i["playtimes"]) + "," + i["time"] + "\n")    
            
    finally:
        # 关闭文件和窗口:
        fileout.close()
        browser.close()


#-----------------------------------------  程序开始处 -------------------------------------------#

# 设置Chrome请求头(无头模式):
options = webdriver.FirefoxOptions()
options.add_argument('-headless')

options.add_argument('lang=zh_CN.UTF-8') # 设置中文
options.add_argument('disable-infobars') #隐藏"Chrome正在受到自动软件的控制"
options.add_argument('--disable-gpu') #谷歌文档提到需要加上这个属性来规避bug
    # 更换头部
user_agent = (
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_4) " +
    "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.57 Safari/537.36"
    )
options.add_argument('user-agent=%s'%user_agent)

usr_id = []
for each_id in usr_id:
    scrap_music(str(each_id))
# 退出程序:
#    sys.exit(0)

注:

需要注意的是, 在处理并计算网易云音乐播放次数的时候, 如果没有登陆, 则播放的次数是不会被显示的!!!

而, 可以观察到: 其实每一个播放的歌曲后面都有一定的阴影面积, 通过计算, 可以发现, 这些都是和第一位播放量的比例.

所以不妨认为播放排行榜中的最后一首歌的播放次数为1次, 从而推测出(注意: 这里也仅仅是推测!!!)第一位播放量;

所以对于想要精确播放量的朋友, 现在可以关闭这个网页了, 因为精确的数据是本爬虫算法无法获取的.(笑)

但是经过本人测试, 对于一般的用户而言, 基本上相差很小!!(至少对于我数据可视化来说, 这些数据造成的误差可以忽略了!)

大概就是这样吧, 本人也是最近才开始学习爬虫, 有什么错误的地方也请大家批评指正, 也欢迎大家一起交流!

python 数据可视化TVTK库安装与使用范哥来了信息可视化 python 开发语言
TVTK（Traits-basedVisualizationToolKit）是一个基于Python的可视化库，它为VTK（VisualizationToolkit）提供了一个更易于使用的接口。VTK本身是非常强大的可视化工具，但使用起来可能稍微复杂一些，而TVTK通过简化API来提高易用性。下面我将指导您如何安装TVTK以及一个简单的示例来展示其基本用法。安装TVTKTVTK可以通过pip轻松安装
python web开发flask库安装与使用范哥来了 python 前端 flask
要在Python中使用Flask进行Web开发，首先需要安装Flask库。Flask是一个轻量级的Web框架，它使开发者能够快速构建网站或web服务。下面是安装Flask和创建一个简单的Flask应用程序的基本步骤。安装Flask确保您的环境中已经安装了Python（推荐版本3.7或更高）。接着，您可以通过pip来安装Flask。打开命令行工具（如终端或命令提示符），然后执行以下命令：pipins
Pytorch使用手册—扩展 TorchScript 使用自定义 C++ 操作符（专题五十三） AI专题精讲 Pytorch入门到精通 pytorch c++人工智能
提示本教程自PyTorch2.4起已弃用。有关PyTorch自定义操作符的最新指南，请参阅PyTorch自定义操作符。PyTorch1.0版本引入了一种名为TorchScript的新编程模型。TorchScript是Python编程语言的一个子集，可以被TorchScript编译器解析、编译和优化。此外，编译后的TorchScript模型可以选择序列化为磁盘文件格式，随后你可以从纯C++（以及Py
Pybind11教程：从零开始打造 Python 的 C++ 小帮手 Yc9801 c++开发语言
参考官网文档：https://pybind11.readthedocs.io/en/stable/index.html一、Pybind11是什么？想象你在Python里写了个计算器，但跑得太慢，想用C++提速，又不想完全抛弃Python。Pybind11就像一座桥，把C++的高性能代码“嫁接”到Python里。你可以用Python调用C++函数，就像请了个跑得飞快的帮手来干活。主要功能：绑定函数：
python自定义函数的参数有多种类型_python自定义函数的参数之四种表现形式 weixin_39860755
(1)defa(x,y):printx,y这是最常见的定义方式，调用该函数，a(1,2)则x取1，y取2，形参与实参相对应，如果a(1)或者a(1,2,3)则会报错(2)defa(x,y=3):printx,y提供了默认值，调用该函数，a(1,2)同样还是x取1，y取2，但是如果a(1)，则不会报错了。上面这俩种方式，还可以更换参数位置，比如a(y=4,x=3)用这种形式也是可以的如果是defa(
Python文件操作红虾程序员 Python python
在Python中文件操作是一项基础且重要的功能，它主要包括打开、读写、关闭等操作。1.打开文件使用open()函数来打开文件，其基本语法如下： f=open(file_path,mode,encoding=None)f：是open函数的文件对象，拥有属性和方法。file_path：文件的路径，可以是相对路径或绝对路径。mode：打开文件的模式，常见的模式有：r：以只读模式打开文件，文件指针会放在文
Windows使用Browser Use笔记人工智能ai开发
相关文档：https://docs.browser-use.com/quickstart首先安装UV命令行cmdpowershell-ExecutionPolicyByPass-c"irmhttps://astral.sh/uv/install.ps1|iex"设置环境变量setPath=C:\xx\.local\bin;%Path%查看版本uv-V查看可用和已安装的Python版本uvpytho
查看 CUDA cudnn 版本查看Navicat GPU版本 FergusJ 备份 python 开发语言
查看显卡型号：lspci|grepVGA（lspci是linux查看硬件信息的命令），屏幕会打印出主机的集显几独显信息python中查看显卡型号fromtensorflow.python.clientimportdevice_libdevice_lib.list_local_devices()
python函数的多种参数使用形式红虾程序员 Python python 开发语言 pycharm
目录1.位置参数（PositionalArguments）2.关键字参数（KeywordArguments）3.默认参数（DefaultArguments）4.可变参数（VariablePositionalArguments）5.关键字可变参数（VariableKeywordArguments）6.特殊用法：传递列表或字典作为参数Python中函数的参数使用形式非常灵活，主要包括以下几种类型：位置
【附JS、Python、C++题解】Leetcode面试150题（7） moz与京 leetcode整理 javascript python c++
一、题目167.两数之和II-输入有序数组给你一个下标从1开始的整数数组numbers，该数组已按非递减顺序排列，请你从数组中找出满足相加之和等于目标数target的两个数。如果设这两个数分别是numbers[index1]和numbers[index2]，则1targetIndex(vectornums,inttarget){intlength=nums.size();if(length<2){
量化交易api有哪些类型？如何选择适合自己的量化交易api？股票程序化交易接口量化交易股票API接口 Python股票量化交易区块链量化交易 api类型选择数据获取股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>量化交易API的主要类型量化交易依赖大量数据，数据获取型API就显得尤为重要。这种类型的API能够连接到各种数据源，如股票市场数据、期货数据等。它可以为交易者提供实时价格数据、历史数据等。一些API能从各大证券交易所获取股票的最新成交
python读取excel数据和提取图片我就是全世界 python excel 开发语言
1.引言1.1日常工作中Excel的使用在现代办公环境中，Excel（电子表格软件）是数据管理和分析的重要工具之一。无论是财务报表、销售数据、项目管理还是日常报告，Excel都扮演着不可或缺的角色。其强大的数据处理能力、灵活的格式设置以及丰富的图表功能，使得Excel成为各行各业专业人士的首选工具。Excel的主要功能包括：数据录入与管理：用户可以轻松输入、编辑和管理大量数据。数据分析：通过内置的
从 0 开始使用 cursor 开发一个移动端跨平台应用程序沐怡旸 react native
1.安装必要的工具和环境在开始之前，确保你的开发环境已经安装了以下工具：a.安装Node.js和npmReactNative依赖Node.js和npm（NodePackageManager）。你可以从Node.js官网下载并安装最新版本。b.安装PythonReactNative的Android开发需要Python。确保你已经安装了Python2.7或Python3.x。c.安装Java环境Rea
2020年第十一届蓝桥杯python组省赛 Ruoki~ 蓝桥杯python真题蓝桥杯职场和发展
前言：python最简单的一套题了，适合小白入门练手目录填空题门牌制作寻找2020跑步锻炼蛇形填数排序编程大题成绩统计单词分析数字三角形平面切分装饰珠填空题门牌制作题目：小蓝要为一条街的住户制作门牌号。这条街一共有2020位住户，门牌号从1到2020编号。小蓝制作门牌的方法是先制作0到9这几个数字字符，最后根据需要将字符粘贴到门牌上，例如门牌1017需要依次粘贴字符1、0、1、7，即需要1个字符0
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
Python 问题：ModuleNotFoundError: No module named ‘matplotlib‘ 我命由我12345 Python -问题清单 python matplotlib 开发语言 c++c#后端
问题与处理策略1、问题描述importmatplotlib.pyplotaspltfig,ax=plt.subplots()ax.plot([1,2,3,4],[1,4,2,3])plt.show()执行上述代码，报如下错误ModuleNotFoundError:Nomodulenamed'matplotlib'#翻译ModuleNotFoundation错误：没有名为matplotlib的模块2
Python函数专题：引用传参圣逸从入门到精通Python语言 python 开发语言 Python入门精通python 数据结构
在Python编程中，函数是一个非常重要的概念。函数不仅能提高代码的可重用性，还能够使代码结构更加清晰。在函数的设计和使用中，参数的传递方式是一个关键的因素。Python中的参数传递有两种主要形式：值传递和引用传递。虽然Python的参数传递机制有时被称为"引用传递"，但实际上它更接近于"对象引用传递"。本文将深入探讨Python中的引用传参及其相关概念。一、基本概念在讨论引用传参之前，首先要理解
python函数支持哪些参数类型_Python函数的几种参数类型 weixin_39965283
以下代码均以Python3为基础理解。初识Python函数大部分常见的语言如C、Java、PHP、C#、JavaScript等属于C系语言，Python不属于他们中的一员（ruby亦然）。在这些语言中，Python也属于比较新奇的一派，就函数来说，它没有大括号，用def关键字定义一个函数，定义后用:然后换行tab指定函数函数的范围，当然也不存在什么分号。作为一个函数，那个它肯定是有参数的，Pyth
python自定义函数的参数有多种类型_Python实现自定义函数的5种常见形式分析 weixin_39632728
Python自定义函数是以def开头，空一格之后是这个自定义函数的名称，名称后面是一对括号，括号里放置形参列表，结束括号后面一定要有冒号“：”，函数的执行体程序代码也要有适当的缩排。Python自定义函数的通用语法是：def函数名称(形参列表)：执行体程序代码Python自定义函数的5种常见形式：1、标准自定义函数：形参列表是标准的tuple数据类型>>>defabvedu_add(x,y):pr
深入了解Python的shutil模块上官美丽技术分享 python
在Python编程中，处理文件和目录是一个常见的需求。而shutil模块就像一个得力助手，专门用于文件和目录的操作！这篇文章将带你深入探索shutil模块的各种功能，让你在管理文件时游刃有余。什么是shutil模块？shutil是Python的一个标准库，主要用于高效地处理文件和目录。这个模块提供了很多有用的功能，比如复制、移动、删除文件，甚至可以压缩和解压文件！无论你是要整理文档、备份数据，还是
Django ORM自定义排序的实用示例上官美丽技术分享 django 数据库 sqlite
在使用Django进行开发时，ORM（对象关系映射）是一个非常强大的工具。它让我们可以用Python代码直接操作数据库，而不需要写SQL语句。当我们需要对数据进行排序时，DjangoORM同样提供了丰富的功能。今天，我们就来聊聊如何在Django中实现自定义排序，帮助你更好地管理和展示数据！理解DjangoORM的排序功能DjangoORM提供了order_by()方法，允许我们对查询集进行排序。
Python for循环详解红虾程序员 Python 开发语言 ide python pycharm
目录一、基本语法二、用法示例1、遍历字符串2、遍历列表3、遍历元组4、遍历字典5、使用range()函数6、使用enumerate()函数7、嵌套循环8、break和continue语句9、else子句三、优点四、缺点在Python中，for循环是一种用于迭代可迭代对象（如列表、元组、字典、集合、字符串或任何实现了迭代协议的对象）的语句，它允许按顺序访问可迭代对象中的每个元素，并对每个元素执行一组
Python：区块链 Blockchain 入门的技术指南拾荒的小海螺 Python python 区块链开发语言
1、简述区块链（Blockchain）是一种去中心化、不可篡改的分布式账本技术，最初因比特币而广为人知。如今，区块链已发展成为一种可以应用于金融、供应链管理、智能合约等多个领域的技术。本文将简要介绍区块链的基本概念和原理，并通过Python实现一个简化的区块链原型，帮助您快速上手区块链的实践。2、基本原理区块链是一种链式结构，由多个“区块”串联而成。每个区块中包含若干交易信息，并通过加密哈希指向前
python实现一个通讯录，拥有添加联系人，删除联系人，修改联系人，查询联系人，查找通讯录，退出功能新手懒羊哥 python 开发语言
print('-'*25)#输出25个横杠print('-'*25)print("欢迎使用通讯录")print("1.添加联系人")print("2.查看通讯录")print("3.删除联系人")print("4.修改联系人")print("5.查找联系人")print("6.退出")print('-'*25)list1=[0]*10all_user=[]whileTrue:choose=inpu
基于Python爬虫的商业新闻趋势分析：数据抓取与深度分析实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言媒体游戏
在信息化和数字化日益发展的今天，商业新闻成为了行业动向、市场变化、竞争格局等多方面信息的重要来源。对于企业和投资者来说，及时了解商业新闻不仅能帮助做出战略决策，还能洞察市场趋势和风险。在此背景下，商业新闻分析的需求日益增长。通过爬虫技术获取和分析商业新闻数据，不仅可以节省时间和成本，还能高效、精准地进行趋势预测与决策支持。本篇博客将详细介绍如何使用Python爬虫技术抓取商业新闻数据，并进行趋势分
基于Python的金融领域AI训练数据抓取实战（完整技术解析）海拥✘ python 金融人工智能
项目背景与需求分析场景描述为训练一个覆盖全球金融市场的多模态大语言模型（LLM），需实时采集以下数据：全球30+主要证券交易所（NYSE、NASDAQ、LSE、TSE等）的上市公司公告企业财报PDF文档及结构化数据社交媒体舆情数据（Twitter、StockTwits）新闻媒体分析（Reuters、Bloomberg）技术挑战地理封锁：部分交易所（如日本TSE）仅允许本国IP访问历史数据动态反爬：
视频转音频, 音频转文字言之。 python 音视频
Ubuntu24环境准备#系统级依赖sudoaptupdate&&sudoaptinstall-yffmpegpython3-venvgitbuild-essentialpython3-dev#Python虚拟环境python3-mvenv~/ai_summarysource~/ai_summary/bin/activate核心工具链工具用途安装命令Whisper语音识别pipinstallope
用 Python 实现每秒百万级请求 weixin_33719619 python 网络后端
本文讲的是用Python实现每秒百万级请求，用Python可以每秒发出百万个请求吗？这个问题终于有了肯定的回答。许多公司抛弃Python拥抱其他语言就为了提高性能节约服务器成本。但是没必要啊。Python也可以胜任。Python社区近来针对性能做了很多优化。CPython3.6新的字典实现方式提升了解释器的总体性能。得益于更快的调用约定和字典查询缓存，CPython3.7会更快。对于计算密集型工作
详解离线安装Python库爱编程的喵喵 Python基础课程 python 离线安装 requirements
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了详解离线安装Python库，希望能对
Argos Translate 开源项目教程经优英
ArgosTranslate开源项目教程argos-translateOpen-sourceofflinetranslationlibrarywritteninPython项目地址:https://gitcode.com/gh_mirrors/ar/argos-translate项目介绍ArgosTranslate是一个开源的离线翻译库，使用Python编写。它利用OpenNMT进行翻译，Sent
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

网易云音乐听歌量爬虫(免登陆版)

你可能感兴趣的:(Python,Python爬虫)