7RPH

Python爬虫：网易云音乐评论爬取

0x00 写在前面

这次的网易云音乐评论爬取跟ctfhub登录+签到一样，算是一次实战吧，也算是把这几天学习到的给真正拿来运用了，在这期间呢也确实又学到了新的知识，也对之前学的selenium的知识做了巩固。

0x01 iframe处理

先来看网页源码

这里采用了iframe来构造页面，当我们单纯显示网站源码时，iframe里的东西我们时看不到的，所以我这里采用了selenium的switch_to.frame来切换到iframe页面进行元素的定位和信息的填写

	url = "https://music.163.com/#/search/m/"
    driver.get(url)
    driver.switch_to.frame('g_iframe')#切换到iframe部分
    sleep(1)
    driver.find_element_by_id('m-search-input').send_keys(user)#找到输入框并输入信息
    driver.find_element_by_id('m-search-input').send_keys(Keys.ENTER)

回到网站，我是想搜索用户并访问其主页，再获取用户自己创建的歌单列表和歌单网址的列表，所以我们先去获得用户主页的网址，还是先去看看网页

显然我们可以通过id搜索来确定输入框，接着我偷了个懒没有管搜索的按钮，而是直接在输入框输入enter来达到目的。最后，我们还要点击用户按钮来使得我们的搜索显示的是用户以及用户主页，最后获得table元素即可
从而，getUser函数完整代码如下：

def getUser(user, driver):#user是要搜索的用户名，driver是我们的浏览器驱动
    url = "https://music.163.com/#/search/m/"
    driver.get(url)
    driver.switch_to.frame('g_iframe')#根据iframe的id切换到iframe部分
    sleep(1)
    driver.find_element_by_id('m-search-input').send_keys(user)#向搜索框中输入用户名
    driver.find_element_by_id('m-search-input').send_keys(Keys.ENTER)#输入enter，代表开始搜索
    driver.find_element_by_xpath('//*[@class="m-tabs m-tabs-srch f-cb ztag"]/li[8]').click()#点击网页中的用户按钮，改变table的值
    sleep(1)
    tab = driver.find_element_by_xpath('/html/body/div[3]/div/div[2]/div[2]/div/table/tbody')#获得table内的元素
    users = tab.find_elements_by_tag_name('a')#从table中分离出包含有用数据的所有标签
    list = []
    for i, n in enumerate(users):
        if (i - 1) % 3 == 0:
            tu = (n.get_attribute('title'), n.get_attribute('href'))
            list.append(tu)#通过循环把所有的用户id和对应主页url成对放在列表list里
    for i, n in enumerate(list):
        print('[' + str(i) + ']\t' + n[0] + '\t' + n[1])#打印list
    num = input('请输入用户对应序号：')#输入对应想要查看的用户
    return list[int(num)]#返回该用户的url以及用户id，即(id,url)元组

0x02 获取歌单

获取到了用户的url，接下来我们就要获取对应用户的歌单列表，这里我偷了个懒，只获得用户自己创建的歌单，先来看看网页

又是一个iframe，其中，用户自己创建的歌单在id为cbox的ul里，这里就跟搜索用户一样，直接上代码

def getSongs(user, driver):
    driver.get(user[1])#打开对应网页
    sleep(1)
    driver.switch_to.frame('g_iframe')#移动到iframe里
    box = driver.find_element_by_xpath('//*[@id="cBox"]')#找到歌单所在位置
    li = box.find_elements_by_tag_name('a')#找到里面包含歌单名和url的标签
    list = []
    for i, n in enumerate(li):
        if i % 3 == 0:
            tu = (n.get_attribute('title'), n.get_attribute('href'))
            list.append(tu)#循环写把歌单和url成对写入列表里
    print(user[0] + '创建的歌单如下：')
    for i, n in enumerate(list):
        print('[' + str(i) + ']\t' + n[0] + '\t' + n[1])#打印列表
    num = input('请选择对应歌单:')#输入序号选择
    return list[int(num)]

0x03 获取歌曲

打开了歌单网页，接下来就是获取歌曲名和对应url了，代码写到这里的时候我才发现网页上只能显示前20首歌，自己登陆了看自己的歌单能看前1000首…所以我在这里又多写了一个登陆的代码块

登陆按钮位置：

对登录弹框的处理(这里我选的是手机登录)：

别忘了要先勾选同意条款：

接着输入账号密码：

就能登录成功了，其实这一步可以省略，因为这步只是让我们爬取自己的歌单的时候可以爬到更多的信息…

接下来是歌曲的获取部分，位置如图（这里图方便我就只获得了歌曲名，没有去多获取歌手名，其实影响不大）:

ok，位置都找到了，接下来就是写代码了

def getSong(driver, songsname):
    sleep(3)#sleep都是为了等待网页加载...
    driver.find_element_by_xpath('/html/body/div[1]/div[1]/div/div[1]').click()#点击登录按钮
    sleep(1)
    driver.find_element_by_xpath('/html/body/div[3]/div[2]/div/div[2]/div/div[3]').click()#点击[其他登录方式]
    sleep(1)
    driver.find_element_by_xpath('/html/body/div[3]/div[2]/div/div[1]/div[1]/div[3]/input').click()#勾选[同意条款]
    sleep(1)
    driver.find_element_by_xpath('/html/body/div[3]/div[2]/div/div[1]/div[1]/div[1]/div[2]').click()#点击[手机号登录]
    sleep(1)
    driver.find_element_by_xpath('/html/body/div[3]/div[2]/div/div[1]/div[1]/div/div/input').send_keys('手机号码')
    sleep(1)
    driver.find_element_by_xpath('/html/body/div[3]/div[2]/div/div[1]/div[2]/input').send_keys(
        '密码' + Keys.ENTER)#输入手机号跟密码并用enter表示登录
    sleep(1)
    driver.switch_to.frame('contentFrame')#登录成功后歌单能够加载完全，进入iframe准备抓取信息
    sleep(1)
    a = driver.find_elements_by_xpath(
        '/html/body/div[3]/div[1]/div/div/div[2]/div[2]/div/div[1]/table/tbody/tr/td[2]/div/div/div/span/a')#该a标签下包含了歌曲的url
    b = driver.find_elements_by_xpath(
        '/html/body/div[3]/div[1]/div/div/div[2]/div[2]/div/div[1]/table/tbody/tr/td[2]/div/div/div/span/a/b')#该b标签下包含了歌曲名，注意这里的ab都是find_elements，返回的是包含所有符合xpath的所有标签的列表
    dic = {
     }
    for i in range(len(a)):
        title = b[i].get_attribute('title')
        dic[title] = [a[i].get_attribute('href')]#循环把信息写入字典
    #这里后续还会有一部分函数
	for i in dic:
        # print(i,dic[i][0])
        comment = getComment(driver, dic[i][0], i)#把歌曲的名称和url传给下一个函数，并通过循环得到每个歌曲的评论

0x04 获取评论

走到了最后一步了，这里我当时花费了很长时间，一开始还是按部就班的先切换到iframe内，然后再找到评论的位置，如图

这两个div分别带有评论内容，时间和点赞数，当然，如果是回复其它评论，会多出一个div来装其它的评论

比如看这个评论

用户，评论内容，回复的评论，发布时间，点赞数都能找到，然后我最初的想法是得到大的div标签下所有的text再用纯正则匹配分割所有的内容，在之前的实践中text()仅能够得到当前标签的文本，下级标签的文本是不会被读取的，但是，我们可以使用

get_attribute('textContent')

来得到该标签下的所有文本，所以我最初的想法是。。。

	driver.get(url)
    sleep(1)
    driver.switch_to.frame('g_iframe')#切换至iframe
    comment=driver.find_elements_by_xpath('/html/body/div[3]/div[1]/div/div/div[2]/div/div[2]/div[2]/div/div[2]')#找到评论的最高级div标签
    print(song)#打印当前准备爬取的歌曲名
    for n, i in enumerate(comment):
        if n >= 15:#当前评论超过15个就break;因为精彩评论最多就15条，我也没有让他切换至下一页爬取最新评论，但是这也导致了精彩评论不足15条的时候会去爬取最新评论
            break
        print(i.get_attribute('textContent'))
        text = i.get_attribute('textContent')#获取所有文本并打印
        li = re.findall(r'(.*?)：(.*)20(.*?)日 [(](.*?)[)][|]回复', text)[0]#通过正则分割用户名，评论，时间，点赞数
        print(li)
        content = {
     
            '用户': li[0],
            '内容': li[1],
            '时间': '20' + li[2] + '日',
            '点赞数': li[3]#将得到的数据放入字典
        }
        print(content)

可以看到，我的正则很有问题…首先，时间不一定都是年开头，还可能是月或者几点开头，其次，可能没有点赞数据，所以这样是不能够找到正确的数据的，所以我就又写了一个版本

def getComment(driver, url, song):
    driver.get(url)
    sleep(1)
    driver.switch_to.frame('g_iframe')
    client = driver.find_elements_by_xpath(
        '/html/body/div[3]/div[1]/div/div/div[2]/div/div[2]/div[2]/div/div[2]/div[1]/div/a')#定位用户名
    # content=driver.find_elements_by_xpath('/html/body/div[3]/div[1]/div/div/div[2]/div/div[2]/div[2]/div/div[2]/div[1]/div')
    time = driver.find_elements_by_xpath(
        '/html/body/div[3]/div[1]/div/div/div[2]/div/div[2]/div[2]/div/div[2]/div[@class="rp"]/div')#定位时间
    thumbs = driver.find_elements_by_xpath(
        '/html/body/div[3]/div[1]/div/div/div[2]/div/div[2]/div[2]/div/div[2]/div[@class="rp"]/a[1]')#定位点赞数
    text = driver.find_elements_by_xpath('/html/body/div[3]/div[1]/div/div/div[2]/div/div[2]/div[2]/div/div[2]')获得评论最高级div下的所有文本，因为正则仅用来分割评论内容和回复的评论还是容易做到的
    print('正在爬取:' + song)
    li = []
    for n, i in enumerate(time):
        if n >= 15:#只爬取前15条
            break
        if re.search(r'[(](.*)[)]', thumbs[n].text) == None:
            thumb = '0'#如果点赞数为None，就把点赞数变成0，这里是str而不是int是为了防止后续的re报错
        else:
            thumb = re.findall(r'[(](.*)[)]', thumbs[n].text)[0]#否则就获取点赞数
        if re.search(r'万', thumb) != None:
            thumb = thumb.split('万')[0]
            thumb = int(float(thumb) * 10000)#如果带汉字万，就换成数字*10000，便于后续的排序
        else:
            thumb = int(thumb)#都变成int类型
        comment = {
     
            '歌曲': song,
            '用户': client[n].text,
            '内容': ILLEGAL_CHARACTERS_RE.sub(r'', re.findall(r'：(.*)' + i.text, text[n].get_attribute('textContent'))[0]),#正则匹配评论正文，这里的ILLEGAL_CHARACTERS_RE.sub后续再做解释
            '时间': i.text,
            '点赞数': thumb,
            '类型': '评论',
            '关联评论': '无'#写入字典
        }
        if re.search(r'◆◆', comment['内容']) != None:#根据◆◆来判断是否是回复
            tu = re.findall(r'(.*)◆◆(.*)', comment['内容'])[0]
            # print(tu[0]+'回复了评论：'+tu[1])
            comment['内容'] = tu[0]
            comment['类型'] = '回复'
            comment['关联评论'] = tu[1]#是回复的话就改变字典里对应的值
        li.append(comment)把这个字典加入列表
    # print(li)
    return li#返回列表

至此我们已经获得了所有的数据并且都存在了列表里，后续我又有了个想法，就是把数据写入excel，这里用到了 openpyxl 库，有大佬已经详细的写了关于这个库的使用，我这里就不赘述了，直接上代码

#这部分代码是在getSong函数里的
    wb = openpyxl.Workbook()
    sheet = wb.active
    sheet.merge_cells(start_row=1, start_column=1, end_row=1, end_column=7)#这里是合并几个单元格
    sheet['A1'].value = songsname
    sheet['A2'].value = '歌曲名'
    sheet['B2'].value = '用户'
    sheet['C2'].value = '内容'
    sheet['D2'].value = '时间'
    sheet['E2'].value = '点赞数'
    sheet['F2'].value = '类型'
    sheet['G2'].value = '关联评论'#给第二行的单元格写入数据
    I = 3
    for i in dic:
        # print(i,dic[i][0])
        comment = getComment(driver, dic[i][0], i)
        for n in comment:
            sheet['A' + str(I)].value = n['歌曲']
            sheet['B' + str(I)].value = n['用户']
            sheet['C' + str(I)].value = n['内容']
            sheet['D' + str(I)].value = n['时间']
            sheet['E' + str(I)].value = n['点赞数']
            sheet['F' + str(I)].value = n['类型']
            sheet['G' + str(I)].value = n['关联评论']
            I += 1
    wb.save(filename=songsname + '歌单爬取.xlsx')#循环写入数据后并保存为文件

结果如图：

0x05 完整代码

from openpyxl.cell.cell import ILLEGAL_CHARACTERS_RE
from selenium.webdriver.common.keys import Keys
import re
from selenium import webdriver
from time import sleep
import openpyxl


def getUser(user, driver):
    url = "https://music.163.com/#/search/m/"
    driver.get(url)
    driver.switch_to.frame('g_iframe')
    sleep(1)
    driver.find_element_by_id('m-search-input').send_keys(user)
    driver.find_element_by_id('m-search-input').send_keys(Keys.ENTER)
    driver.find_element_by_xpath('//*[@class="m-tabs m-tabs-srch f-cb ztag"]/li[8]').click()
    sleep(1)
    tab = driver.find_element_by_xpath('/html/body/div[3]/div/div[2]/div[2]/div/table/tbody')
    users = tab.find_elements_by_tag_name('a')
    list = []
    for i, n in enumerate(users):
        if (i - 1) % 3 == 0:
            tu = (n.get_attribute('title'), n.get_attribute('href'))
            list.append(tu)
    for i, n in enumerate(list):
        print('[' + str(i) + ']\t' + n[0] + '\t' + n[1])
    num = input('请输入用户对应序号：')
    return list[int(num)]


def getSongs(user, driver):
    driver.get(user[1])
    sleep(1)
    driver.switch_to.frame('g_iframe')
    box = driver.find_element_by_xpath('//*[@id="cBox"]')
    li = box.find_elements_by_tag_name('a')
    list = []
    for i, n in enumerate(li):
        if i % 3 == 0:
            tu = (n.get_attribute('title'), n.get_attribute('href'))
            list.append(tu)
    print(user[0] + '创建的歌单如下：')
    for i, n in enumerate(list):
        print('[' + str(i) + ']\t' + n[0] + '\t' + n[1])
    num = input('请选择对应歌单:')
    return list[int(num)]


def getSong(driver, songsname):
    sleep(3)
    driver.find_element_by_xpath('/html/body/div[1]/div[1]/div/div[1]').click()
    sleep(1)
    driver.find_element_by_xpath('/html/body/div[3]/div[2]/div/div[2]/div/div[3]').click()
    sleep(1)
    driver.find_element_by_xpath('/html/body/div[3]/div[2]/div/div[1]/div[1]/div[3]/input').click()
    sleep(1)
    driver.find_element_by_xpath('/html/body/div[3]/div[2]/div/div[1]/div[1]/div[1]/div[2]').click()
    sleep(1)
    driver.find_element_by_xpath('/html/body/div[3]/div[2]/div/div[1]/div[1]/div/div/input').send_keys('手机号')
    sleep(1)
    driver.find_element_by_xpath('/html/body/div[3]/div[2]/div/div[1]/div[2]/input').send_keys(
        '密码' + Keys.ENTER)
    sleep(1)
    driver.switch_to.frame('contentFrame')
    sleep(1)
    a = driver.find_elements_by_xpath(
        '/html/body/div[3]/div[1]/div/div/div[2]/div[2]/div/div[1]/table/tbody/tr/td[2]/div/div/div/span/a')
    b = driver.find_elements_by_xpath(
        '/html/body/div[3]/div[1]/div/div/div[2]/div[2]/div/div[1]/table/tbody/tr/td[2]/div/div/div/span/a/b')
    dic = {
     }
    for i in range(len(a)):
        title = b[i].get_attribute('title')
        dic[title] = [a[i].get_attribute('href')]
    wb = openpyxl.Workbook()
    sheet = wb.active
    sheet.merge_cells(start_row=1, start_column=1, end_row=1, end_column=7)
    sheet['A1'].value = songsname
    sheet['A2'].value = '歌曲名'
    sheet['B2'].value = '用户'
    sheet['C2'].value = '内容'
    sheet['D2'].value = '时间'
    sheet['E2'].value = '点赞数'
    sheet['F2'].value = '类型'
    sheet['G2'].value = '关联评论'
    I = 3
    for i in dic:
        # print(i,dic[i][0])
        comment = getComment(driver, dic[i][0], i)
        for n in comment:
            sheet['A' + str(I)].value = n['歌曲']
            sheet['B' + str(I)].value = n['用户']
            sheet['C' + str(I)].value = n['内容']
            sheet['D' + str(I)].value = n['时间']
            sheet['E' + str(I)].value = n['点赞数']
            sheet['F' + str(I)].value = n['类型']
            sheet['G' + str(I)].value = n['关联评论']
            I += 1
    wb.save(filename=songsname + '歌单爬取.xlsx')

def getComment(driver, url, song):
    driver.get(url)
    sleep(1)
    driver.switch_to.frame('g_iframe')
    # comment=driver.find_elements_by_xpath('/html/body/div[3]/div[1]/div/div/div[2]/div/div[2]/div[2]/div/div[2]')
    # print(song)
    # for n, i in enumerate(comment):
    #     if n >= 15:
    #         break
    #     print(i.get_attribute('textContent'))
    #     text = i.get_attribute('textContent')
    #     li = re.findall(r'(.*?)：(.*)20(.*?)日 [(](.*?)[)][|]回复', text)[0]
    #     print(li)
    #     content = {
     
    #         '用户': li[0],
    #         '内容': li[1],
    #         '时间': '20' + li[2] + '日',
    #         '点赞数': li[3]
    #     }
    #     print(content)
    client = driver.find_elements_by_xpath(
        '/html/body/div[3]/div[1]/div/div/div[2]/div/div[2]/div[2]/div/div[2]/div[1]/div/a')
    # content=driver.find_elements_by_xpath('/html/body/div[3]/div[1]/div/div/div[2]/div/div[2]/div[2]/div/div[2]/div[1]/div')
    time = driver.find_elements_by_xpath(
        '/html/body/div[3]/div[1]/div/div/div[2]/div/div[2]/div[2]/div/div[2]/div[@class="rp"]/div')
    thumbs = driver.find_elements_by_xpath(
        '/html/body/div[3]/div[1]/div/div/div[2]/div/div[2]/div[2]/div/div[2]/div[@class="rp"]/a[1]')
    text = driver.find_elements_by_xpath('/html/body/div[3]/div[1]/div/div/div[2]/div/div[2]/div[2]/div/div[2]')
    print('正在爬取:' + song)
    li = []
    for n, i in enumerate(time):
        if n >= 15:
            break
        if re.search(r'[(](.*)[)]', thumbs[n].text) == None:
            thumb = '0'
        else:
            thumb = re.findall(r'[(](.*)[)]', thumbs[n].text)[0]
        if re.search(r'万', thumb) != None:
            thumb = thumb.split('万')[0]
            thumb = int(float(thumb) * 10000)
        else:
            thumb = int(thumb)
        comment = {
     
            '歌曲': song,
            '用户': client[n].text,
            '内容': ILLEGAL_CHARACTERS_RE.sub(r'', re.findall(r'：(.*)' + i.text, text[n].get_attribute('textContent'))[0]),#这里的ILLEGAL_CHARACTERS_RE就是为了过滤excel的非法字符，防止程序报错
            '时间': i.text,
            '点赞数': thumb,
            '类型': '评论',
            '关联评论': '无'
        }
        if re.search(r'◆◆', comment['内容']) != None:
            tu = re.findall(r'(.*)◆◆(.*)', comment['内容'])[0]
            # print(tu[0]+'回复了评论：'+tu[1])
            comment['内容'] = tu[0]
            comment['类型'] = '回复'
            comment['关联评论'] = tu[1]
        li.append(comment)
    # print(li)
    return li


driver = webdriver.Chrome()
user = input('请输入你要查找的用户：')
li = getUser(user, driver)
songs = getSongs(li, driver)
print('准备开始爬取歌单: ' + songs[0] + ' 中的内容')
driver.get(songs[1])
getSong(driver, songs[0])

0x06 总结

这次爬取走了很多弯路，这也说明我学的还不是很到位…最后也是终于成功了，也算是对前面的一次复习吧，当然，也学到了很多新知识，接下来要继续努力呀

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
python抓包与解包_Python—网络抓包与解包（pcap、dpkt） weixin_39691055 python抓包与解包
pcap安装[root@localhost~]#pipinstallpypcap抓包与解包#-*-coding:utf-8-*-importpcap,dpktimportre,threading,requests__black_ip=['103.224.249.123','203.66.1.212']#抓包：param1eth_name网卡名，如：eth0,eth3。param2p_type日志捕
华为OD机试 - 单向链表中间节点（Java & JS & Python & C & C++）华为OD题库华为od 链表 java
须知哈喽，本题库完全免费，收费是为了防止被爬，大家订阅专栏后可以私信联系退款。感谢支持文章目录须知题目描述输出描述解析代码题目描述给定一个单链表L，请编写程序输出L中间结点保存的数据。如果有两个中间结点，则输出第二个中间结点保存的数据。例如：给定L为1→7→5，则输出应该为7；给定L为1→2→3→4，则输出应该为3；输入描述每个输入包含1个测试用例。每个测试用例：第一行给出链表首结点的地址、结点总
python 推导式(派生、衍生) sanduo112 人工智能 python windows 开发语言
python推导式一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。2.列表(list)推导式3.字典(dict)推导式4.集合(set)推导式5.元组(tuple)推导式二、代码概述一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。Python支持各种数
数据挖掘|数据预处理|基于Python的数据标准化方法皖山文武数据挖掘数据建模与分析 python 数据挖掘开发语言
基于Python的数据标准化方法1.z-score方法2.极差标准化方法3.最大绝对值标准化方法在数据分析之前，通常需要先将数据标准化（Standardization），利用标准化后的数据进行数据分析，以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。1.z-score方法Z-score方法是基于原始数据的均值和标准差来进行数据标准化的，处理后的数据均值为0，方差为1，符合标准正态分布
CSV指南：Python程序获取大型CSV文件行数孤独打铁匠Julian 笔记经验分享 python
本指南提供了几种使用Python来获取大型CSV文件行数的方法，并解释了每种方法的适用场景。方法1:使用csv.reader处理复杂CSV文件当你的CSV文件中包含多行字段（即某些字段的值中包含换行符）时，使用csv.reader是一个可靠的选择，因为它能够正确处理这些复杂情况。这个方法适用于大多数大小的CSV文件，但是对于非常大的文件，读取整个文件可能会占用较多的时间和内存。对于极大的文件，考虑
谷歌浏览器驱动Chromedriver（114-120版本）文件以及驱动下载教程 pigerr杨 Python python chrome drivers
ChromeDriver官方网站GitHub||GoogleChromeLabs/chrome-for-testingChromeDriver113-125_JSONChromeforTestingavailability123-125zip白月黑羽Python基础|进阶|Qt图形界面|Django|自动化测试|性能测试|JS语言|JS前端|原理与安装
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
python转码 Desamond python 开发语言
转码在许多场景中都有应用，以下是一些常见的场景：网页开发：当用户在网页上输入文本时，可能需要将特殊字符（如空格、引号、特殊符号等）进行转码，以防止这些字符对URL或HTML代码产生干扰。文件名处理：在处理文件名时，可能需要将特殊字符进行转码，以避免文件名被错误地解析或显示。数据传输：在数据传输过程中，为了确保数据的完整性和正确性，可能需要将数据中的特殊字符进行转码。数据存储：在数据库或数据存储中，
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
27.Python从入门到精通—Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为以山河作礼。 #Python基础入门—详解版 python java 服务器
27.从入门到精通：Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理在Python中，异常处理是一种处理程序在执行期间可能遇到的错误的方法。当Python解释器遇到错误时，它会引发异常。异常是一种Python对象，它包含有关错误的信息，例如错误类型和错误位置。为了处理异常，您可以使用try-except语句。在
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
Python | Redis工具类 -拟墨画扇- Python redis 数据库缓存 python
一、需求自动连接Redis数据库，通过连接池处理数据对输出结果进行Log打印并保存到文件二、代码Utils.redisUtils.py#!/usr/bin/envpython#-*-coding:utf-8-*-importredisfromUtils.loggerimportlog"""Redis数据格式(1)字符串|存储形式:key-value:str-存储二进制数据:可以存储任意类型的数据，
Python dict字符串转json对象，小数精度丢失问题朝如青丝暮成雪 json python
一前言JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式，dict是Python的一种数据格式。本篇介绍一个float数据转换时精度丢失的案例。二问题描述importjsontest_str1='{"π":3.1415926535897932384626433832795028841971}'test_str2='{"value":10.00000}'print
Python+Requests模拟发送GET请求爱学习的执念自动化测试软件测试技术分享 python 开发语言
模拟发送GET请求前置条件：导入requests库一、发送不带参数的get请求代码如下：以百度首页为例importrequests#发送get请求response=requests.get(url="http://www.baidu.com")print(response.content.decode("utf-8"))#以utf-8的编码输出内容二、发送带参数的get请求发送带参数的get请求有
Python极速入门：五分钟开启实战之旅！知白守黑V Python 编程语言系统运维 python 编程语言 python开发 python学习 python入门 python数据分析
1.Python基础语法和结构：了解Python的基本语法，包括变量、数据类型、运算符、注释等。控制流：掌握条件语句（if-elif-else）、循环（for和while）及其控制（break和continue）。函数：学习如何定义和使用函数，包括参数传递、返回值、作用域和闭包。模块和包：理解如何导入和使用模块，以及如何创建和使用自己的包。2.数据处理列表、元组和集合：学习这些序列类型的操作和方法
Python Flask 使用数据库安果移不动 python flask 开发语言
pipinstallflask_sqlalchemy官方文档：Flask-SQLAlchemy—Flask-SQLAlchemyDocumentation(3.1.x)为了不报错也需要导入另外两个库#pipinstallflask_sqlalchemy#pipinstallmysqlclient完整代码importosfromflaskimportFlaskfromflask_sqlalchemy
PaperWeekly sapienst Papers PaperwithCode General ML
1.Python软件包解决DL在未见过的数据分布下性能差的问题：（1）神经网络和损失分离的模块化设计（2）强大便捷的基准测试能力（3）易于使用但难以修改（4）github:https://github.com/marrlab/domainlabTrainer和Models之间是什么关系Trainer和Models是DomainLab中的两个核心概念。Trainer是一个用于指导数据流向模型并计算S
使用Python读取Excel文件并计算平均分嘻嘻爱编码 Python从入门到放弃 python excel 开发语言
在这篇博客中，我们将探讨如何使用Python的pandas库来读取Excel文件，并计算其中数据的平均分。pandas是一个强大的数据分析工具，它允许我们以简单直观的方式处理表格数据。安装必要的库在开始之前，确保你的环境中安装了pandas和openpyxl库。可以使用以下命令进行安装：pipinstallpandasopenpyxl读取Excel文件首先，我们需要读取Excel文件。假设我们有一
python项目练习——7.网站访问日志分析器 F—— python项目练习 python 信息可视化数据分析数据挖掘开发语言学习
项目功能分析：这个项目可以读取网站的访问日志文件，统计访问量、独立访客数、访问来源等信息，并以图表或表格的形式展示出来。这个项目涉及到文件操作、数据处理、数据可视化等方面的技术。示例代码：importrefromcollectionsimportCounterimportmatplotlib.pyplotaspltdefparse_log_file(log_file):#读取日志文件内容witho
python的while双重循环九九乘法表 Jinm_R python 开发语言
a=1whilea<=9:b=1#乘数每次需要从1开始whileb<=a:print(f"{a}*{b}={a*b}\t",end='')#\t为制表符使乘法表整齐end=''代表用空格代替换行b+=1a+=1print()#乘数每加一换行
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
Python自动化测试web常见框架汇总自动化测试薰儿软件测试技术分享 python 前端开发语言
1、前言目前，有非常多的Python框架，用来帮助你更轻松的创建web应用。这些框架把相应的模块组织起来，使得构建应用的时候可以更快捷，也不用去关注一些细节（例如socket和协议），所以需要的都在框架里了。接下来我们会介绍不同的选项。经过初期的不起眼，Python已经成为互联网最流行的服务端编程语言之一。根据W3Techs的统计，它被用于很多的大流量的站点很多的大流量的站点很多的大流量的站点，超
python安装jupter在线ide 晚风拂柳颜生活小经验 python3 ide jupter
我在虚拟3.6.8的环境里面安装的，具体用了以下命令；pipinstallipython-ihttps://mirrors.aliyun.com/pypi/simple/pipinstalljupyter-ihttps://mirrors.aliyun.com/pypi/simple/jupyternotebook当然，jupter可以直接通过python环境里script目录下的jupyter-
opencv 十八 python下实现0缓存掉线重连的rtsp直播流播放器摸鱼的机器猫 opencv实战 opencv python 缓存
使用opencv打开rtsp视频流时，会因为网络问题导致VideoCapture掉线；也会因为图像的后处理阶段耗时过长导致opencv缓冲区数据堆积，从而使程序无法及时处理最新的数据。为此对cv2.VideoCapture进行封装，实现0缓存掉线重连的rtsp直播流播放器，让程序能一直处理最新的数据。代码实现fromcollectionsimportdequeimportthreadingimpo
Windows如何安装poppler库，python的PDF转PPTX项目跨不过 pdf
资源库在这里下载https://github.com/oschwartz10612/poppler-windows/releases/tag/v21.03.0其他的参考这篇博客，里面提到的资源链接失效了https://blog.csdn.net/wy01415/article/details/110257130
用Python批量更改图片大小马达马达达 AI python
#提取目录下所有图片,更改尺寸后保存到另一目录fromPILimportImageimportos.pathimportglobdefconvertjpg(jpgfile,outdir,width=128,height=128):img=Image.open(jpgfile)try:new_img=img.resize((width,height),Image.BILINEAR)new_img.s
java selenium 元素点击不了马达马达达 selenium 测试工具
最近做了一个页面爬取，很有意思被机缘巧合下解决了。这个元素很奇怪，用xpath可以定位元素，但是就是click()不了。试过了网上搜的一些办法：//尝试一WebElementa_tag=driver.findElement(By.xpath("xxx"));a_tag.click();//点击不了，卡住//尝试二WebDriverWaitwait=newWebDriverWait(driver,1
3.Python数据分析—数据分析入门知识图谱&索引(知识体系中篇) 以山河作礼。 Python数据分析项目数据分析知识图谱数据挖掘 python 开发语言
3.Python数据分析—数据分析入门知识图谱&索引-知识体系中篇一·个人简介二·数据获取和处理2.1数据来源：2.2数据清洗：2.2.1缺失值处理：2.2.2异常值处理：2.3数据转换：2.3.1数据类型转换：2.3.2数据编码：2.4数据合并与重塑：2.4.1数据合并：2.4.2数据拼接：2.4.3数据重塑：三·数据探索与分析3.1描述性统计分析3.2数据可视化原则和技巧3.3探索性数据分析（
SWIFT环境配置及大模型微调实践 weixin_43870390 swift 开发语言 ios
SWIFT环境配置及大模型微调实践SWIFT环境配置基础配置增量配置SWIFTQwen_audio_chat大模型微调实践问题1:问题2:问题定位解决方法手动安装pytorchSWIFT介绍参考：这里SWIFT环境配置基础配置condacreate-nswiftpython=3.8pipinstallms-swift[all]-U#下载项目gitclonehttps://github.com/mo
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓