pythonjavaphp

Python带你看文献—xpath抓取知网文献!

在做学术的道路上，陪伴我们的不是对象（可能没有），不是家人（可能不在身边），甚至不是头发（日减稀疏），始终不离不弃的肯定是浩如烟海的论文。查阅文献常用的网站当属知网，为了实现快速翻阅、应用有类似纸质书体验的效果，我们今天就用Python来翻一翻知网上顶级期刊的文献目录。

一、案例简介

我们进入中国知网网站，点击出版物检索，选择期刊导航，输入《会计研究》。

就进入了目标网址：https://navi.cnki.net/knavi/JournalDetail?pcode=CJFD&pykm=KJYJ。我们的目标是爬取2018年全年的文章题目和作者，对于没有作者的文章题目，如征文启事，则予以删除。我们先对单期期刊进行处理，再将其扩展到12期期刊。

一、案例简介

我们进入中国知网网站，点击出版物检索，选择期刊导航，输入《会计研究》。

二、案例实操

（一）单个期刊

我们打开开发者模式，选择network，在name中寻找到网页信息，发现其网页获取方式是post，接着我们模拟人工浏览网页的行为写入headers对应的信息：url，request headers和querystring parameters。

import requests #引入requests库爬取网页代码import json #引入json库处理data列表中的内容 url='https://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=01&pykm=KJYJ&pageIdx=0&pcode=CJFD' headers={ 'Accept': '*/*', 'Accept-Encoding':'gzip, deflate, br', 'Accept-Language':'zh-CN,zh;q=0.9', 'Connection':'keep-alive', 'Content-Length':'0', 'Cookie':'Ecp_notFirstLogin=lGQkVH; Ecp_ClientId=7190918101000734970;cnkiUserKey=bb2d2b7c-5a96-65a9-7fa0-e25390f23ca9;LID=WEEvREcwSlJHSldRa1FhdXNXaEhobnVrZ0FnZVZzejRNWVFKcmlhZlNXRT0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!;ASP.NET_SessionId=jnov5mpsxebarzz3enczg3gj; SID_navi=120161;c_m_LinID=LinID=WEEvREcwSlJHSldRa1FhdXNXaEhobnVrZ0FnZVZzejRNWVFKcmlhZlNXRT0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!&ot=10/22/201919:34:18; c_m_expire=2019-10-22 19:34:18; Ecp_session=1; Ecp_LoginStuts=%7B%22IsAutoLogin%22%3Afalse%2C%22UserName%22%3A%22WH0023%22%2C%22ShowName%22%3A%22%25E4%25B8%25AD%25E5%258D%2597%25E8%25B4%25A2%25E7%25BB%258F%25E6%2594%25BF%25E6%25B3%2595%25E5%25A4%25A7%25E5%25AD%25A6%22%2C%22UserType%22%3A%22bk%22%2C%22r%22%3A%22lGQkVH%22%7D;Ecp_notFirstLogin=lGQkVH;LID=WEEvREcwSlJHSldRa1FhdXNXaEhobnVrZ0FnZVZzejRNWVFKcmlhZlNXRT0%3D%249A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!;NaviIsLogin=1; _pk_ses=*', 'Host':'navi.cnki.net', 'Origin':'https://navi.cnki.net', 'Referer':'https://navi.cnki.net/knavi/JournalDetail?pcode=CJFD&pykm=KJYJ', 'Sec-Fetch-Mode':'cors', 'Sec-Fetch-Site':'same-origin', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, likeGecko) Chrome/75.0.3770.100 Safari/537.36', 'X-Requested-With':'XMLHttpRequest' }data={ 'year': '2018', 'issue': '01', 'pykm': 'KJYJ', 'pageIdx': '0', 'pcode': 'CJFD' }html=requests.post(url,headers=headers,data=json.dumps(data))

结果为：

说明网页爬取成功。至此我们就把2018年第一期期刊的网页源代码拿到了，接下来，使用xpath解析，得到目标信息。

from lxml import etree #引入lxml库totitlename=[] #首先定义空列表以盛放结果信息toauthor=[] tree=etree.HTML(html.text) #使用xpath进行解析titlename=tree.xpath("/html/body//span[@class='name']/a/text()")#得到这一节点对应的文本内容即为文章题目author=tree.xpath("/html/body//span[@class='author']/text()")#得到这一节点对应的文本内容即为作者totitlename.extend(titlename[0:len(author)]) #没有作者的文章题目，如征文启事，不保留toauthor.extend(author)print(totitlename)print(toauthor)

结果为：

至此我们成功得到了2018年第一期期刊所有的文章题目和作者。

（二）12期期刊

接下来，对于12期期刊，我们将用于单个期刊的程序封装进一个循环。其中关于f-string的用法参见往期推文《格式化字符串方法的比较》。

import requestsfrom lxml import etreeimport jsonimport re totitlename=[]toauthor=[]for issue in range(1,13): url=f'https://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue={issue:0>2d}&pykm=KJYJ&pageIdx=0&pcode=CJFD' #使用f-string实现{}内依次为两位数字01-12 headers={ 'Accept':'*/*', 'Accept-Encoding':'gzip, deflate, br', 'Accept-Language':'zh-CN,zh;q=0.9', 'Connection':'keep-alive', 'Content-Length':'0', 'Cookie':'Ecp_notFirstLogin=lGQkVH; Ecp_ClientId=7190918101000734970;cnkiUserKey=bb2d2b7c-5a96-65a9-7fa0-e25390f23ca9;LID=WEEvREcwSlJHSldRa1FhdXNXaEhobnVrZ0FnZVZzejRNWVFKcmlhZlNXRT0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!;ASP.NET_SessionId=jnov5mpsxebarzz3enczg3gj; SID_navi=120161;c_m_LinID=LinID=WEEvREcwSlJHSldRa1FhdXNXaEhobnVrZ0FnZVZzejRNWVFKcmlhZlNXRT0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!&ot=10/22/201919:34:18; c_m_expire=2019-10-22 19:34:18; Ecp_session=1;Ecp_LoginStuts=%7B%22IsAutoLogin%22%3Afalse%2C%22UserName%22%3A%22WH0023%22%2C%22ShowName%22%3A%22%25E4%25B8%25AD%25E5%258D%2597%25E8%25B4%25A2%25E7%25BB%258F%25E6%2594%25BF%25E6%25B3%2595%25E5%25A4%25A7%25E5%25AD%25A6%22%2C%22UserType%22%3A%22bk%22%2C%22r%22%3A%22lGQkVH%22%7D;Ecp_notFirstLogin=lGQkVH;LID=WEEvREcwSlJHSldRa1FhdXNXaEhobnVrZ0FnZVZzejRNWVFKcmlhZlNXRT0%3D%249A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!;NaviIsLogin=1; _pk_ses=*', 'Host':'navi.cnki.net', 'Origin':'https://navi.cnki.net', 'Referer': 'https://navi.cnki.net/knavi/JournalDetail?pcode=CJFD&pykm=KJYJ', 'Sec-Fetch-Mode':'cors', 'Sec-Fetch-Site':'same-origin', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, likeGecko) Chrome/75.0.3770.100 Safari/537.36', 'X-Requested-With':'XMLHttpRequest' } data={ 'year':'2018', 'issue':f'{issue:0>2d}', 'pykm':'KJYJ', 'pageIdx':'0', 'pcode':'CJFD' } html=requests.post(url,headers=headers,data=json.dumps(data)) tree=etree.HTML(html.text) titlename=tree.xpath("/html/body//span[@class='name']/a/text()") author=tree.xpath("/html/body//span[@class='author']/text()") totitlename.extend(titlename[0:len(author)])#没有作者的文章题目，如征文启事，不保留 toauthor.extend(author)print(len(totitlename))print(len(toauthor))

结果为：

说明我们一共抓取到了157条信息。接下来我们将结果写入文件，保存下来。其中关于re.sub的使用参见往期推文《妙用正则表达式--Python中的re模块》。

with open('g:\\会计研究.csv','w',encoding='gb18030') as f: for i in range(0,len(toauthor)): f.write(totitlename[i].strip()+','+re.sub(";",",",toauthor[i])+'\n') #strip函数把文章题目中的空白字符删掉，re.sub把作者中的分号替换为逗号。写入文章题目+作者姓名

结果如下：

现在我们就成功使用Python得到了《会计研究》2018年12期期刊的文章题目和对应作者，达到了迅速浏览目录的效果。

三、小结

学术的路上，道阻且长，希望小编的这段程序可以帮助大家在学术道路上走得稍微容易一点，望大家多读文献、多发文献，把学术做得更好！

二、案例实操

（一）单个期刊

import requests  #引入requests库爬取网页代码import json  #引入json库处理data列表中的内容
url='https://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=01&pykm=KJYJ&pageIdx=0&pcode=CJFD'    headers={         'Accept': '*/*',         'Accept-Encoding':'gzip, deflate, br',         'Accept-Language':'zh-CN,zh;q=0.9',         'Connection':'keep-alive',         'Content-Length':'0',         'Cookie':'Ecp_notFirstLogin=lGQkVH; Ecp_ClientId=7190918101000734970;cnkiUserKey=bb2d2b7c-5a96-65a9-7fa0-e25390f23ca9;LID=WEEvREcwSlJHSldRa1FhdXNXaEhobnVrZ0FnZVZzejRNWVFKcmlhZlNXRT0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!;ASP.NET_SessionId=jnov5mpsxebarzz3enczg3gj; SID_navi=120161;c_m_LinID=LinID=WEEvREcwSlJHSldRa1FhdXNXaEhobnVrZ0FnZVZzejRNWVFKcmlhZlNXRT0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!&ot=10/22/201919:34:18; c_m_expire=2019-10-22 19:34:18; Ecp_session=1; Ecp_LoginStuts=%7B%22IsAutoLogin%22%3Afalse%2C%22UserName%22%3A%22WH0023%22%2C%22ShowName%22%3A%22%25E4%25B8%25AD%25E5%258D%2597%25E8%25B4%25A2%25E7%25BB%258F%25E6%2594%25BF%25E6%25B3%2595%25E5%25A4%25A7%25E5%25AD%25A6%22%2C%22UserType%22%3A%22bk%22%2C%22r%22%3A%22lGQkVH%22%7D;Ecp_notFirstLogin=lGQkVH;LID=WEEvREcwSlJHSldRa1FhdXNXaEhobnVrZ0FnZVZzejRNWVFKcmlhZlNXRT0%3D%249A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!;NaviIsLogin=1; _pk_ses=*',         'Host':'navi.cnki.net',         'Origin':'https://navi.cnki.net',         'Referer':'https://navi.cnki.net/knavi/JournalDetail?pcode=CJFD&pykm=KJYJ',         'Sec-Fetch-Mode':'cors',         'Sec-Fetch-Site':'same-origin',         'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, likeGecko) Chrome/75.0.3770.100 Safari/537.36',         'X-Requested-With':'XMLHttpRequest'    }data={         'year': '2018',         'issue': '01',         'pykm': 'KJYJ',         'pageIdx': '0',         'pcode': 'CJFD'    }html=requests.post(url,headers=headers,data=json.dumps(data))

结果为：

说明网页爬取成功。至此我们就把2018年第一期期刊的网页源代码拿到了，接下来，使用xpath解析，得到目标信息。

from lxml import etree  #引入lxml库totitlename=[]  #首先定义空列表以盛放结果信息toauthor=[] tree=etree.HTML(html.text) #使用xpath进行解析titlename=tree.xpath("/html/body//span[@class='name']/a/text()")#得到这一节点对应的文本内容即为文章题目author=tree.xpath("/html/body//span[@class='author']/text()")#得到这一节点对应的文本内容即为作者totitlename.extend(titlename[0:len(author)]) #没有作者的文章题目，如征文启事，不保留toauthor.extend(author)print(totitlename)print(toauthor)

结果为：

至此我们成功得到了2018年第一期期刊所有的文章题目和作者。

（二）12期期刊

接下来，对于12期期刊，我们将用于单个期刊的程序封装进一个循环。其中关于f-string的用法参见往期推文《格式化字符串方法的比较》。

import requestsfrom lxml import etreeimport jsonimport re
totitlename=[]toauthor=[]for issue in range(1,13):    url=f'https://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue={issue:0>2d}&pykm=KJYJ&pageIdx=0&pcode=CJFD'     #使用f-string实现{}内依次为两位数字01-12    headers={              'Accept':'*/*',              'Accept-Encoding':'gzip, deflate, br',              'Accept-Language':'zh-CN,zh;q=0.9',              'Connection':'keep-alive',              'Content-Length':'0',              'Cookie':'Ecp_notFirstLogin=lGQkVH; Ecp_ClientId=7190918101000734970;cnkiUserKey=bb2d2b7c-5a96-65a9-7fa0-e25390f23ca9;LID=WEEvREcwSlJHSldRa1FhdXNXaEhobnVrZ0FnZVZzejRNWVFKcmlhZlNXRT0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!;ASP.NET_SessionId=jnov5mpsxebarzz3enczg3gj; SID_navi=120161;c_m_LinID=LinID=WEEvREcwSlJHSldRa1FhdXNXaEhobnVrZ0FnZVZzejRNWVFKcmlhZlNXRT0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!&ot=10/22/201919:34:18; c_m_expire=2019-10-22 19:34:18; Ecp_session=1;Ecp_LoginStuts=%7B%22IsAutoLogin%22%3Afalse%2C%22UserName%22%3A%22WH0023%22%2C%22ShowName%22%3A%22%25E4%25B8%25AD%25E5%258D%2597%25E8%25B4%25A2%25E7%25BB%258F%25E6%2594%25BF%25E6%25B3%2595%25E5%25A4%25A7%25E5%25AD%25A6%22%2C%22UserType%22%3A%22bk%22%2C%22r%22%3A%22lGQkVH%22%7D;Ecp_notFirstLogin=lGQkVH;LID=WEEvREcwSlJHSldRa1FhdXNXaEhobnVrZ0FnZVZzejRNWVFKcmlhZlNXRT0%3D%249A4hF_YAuvQ5obgVAqNKPCYcEjKensW4IQMovwHtwkF4VYPoHbKxJw!!;NaviIsLogin=1; _pk_ses=*',              'Host':'navi.cnki.net',              'Origin':'https://navi.cnki.net',              'Referer': 'https://navi.cnki.net/knavi/JournalDetail?pcode=CJFD&pykm=KJYJ',              'Sec-Fetch-Mode':'cors',              'Sec-Fetch-Site':'same-origin',              'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, likeGecko) Chrome/75.0.3770.100 Safari/537.36',              'X-Requested-With':'XMLHttpRequest'    }    data={              'year':'2018',              'issue':f'{issue:0>2d}',              'pykm':'KJYJ',              'pageIdx':'0',              'pcode':'CJFD'    }    html=requests.post(url,headers=headers,data=json.dumps(data))    tree=etree.HTML(html.text)    titlename=tree.xpath("/html/body//span[@class='name']/a/text()")    author=tree.xpath("/html/body//span[@class='author']/text()")    totitlename.extend(titlename[0:len(author)])#没有作者的文章题目，如征文启事，不保留    toauthor.extend(author)print(len(totitlename))print(len(toauthor))

结果为：

说明我们一共抓取到了157条信息。接下来我们将结果写入文件，保存下来。其中关于re.sub的使用参见往期推文《妙用正则表达式--Python中的re模块》。

with open('g:\\会计研究.csv','w',encoding='gb18030') as f:    for i in range(0,len(toauthor)):        f.write(totitlename[i].strip()+','+re.sub(";",",",toauthor[i])+'\n')  #strip函数把文章题目中的空白字符删掉，re.sub把作者中的分号替换为逗号。写入文章题目+作者姓名

结果如下：

现在我们就成功使用Python得到了《会计研究》2018年12期期刊的文章题目和对应作者，达到了迅速浏览目录的效果。

三、小结

学术的路上，道阻且长，希望小编的这段程序可以帮助大家在学术道路上走得稍微容易一点，望大家多读文献、多发文献，把学术做得更好！

你可能感兴趣的:(Python,Python)

数字图像处理（三：图像如果当作矩阵，那加减乘除处理了矩阵，那图像咋变）：从LED冬奥会、奥运会及春晚等等大屏，到手机小屏，快来挖一挖里面都有什么
数字图像处理（三）一、（准备工作：咋玩，用什么玩具）图像以矩阵形式存储，那矩阵一变、图像立刻跟着变？1.Python+JupyterNotebook/Lab+库(NumPy,OpenCV,Matplotlib,scikit-image)2.MATLAB+ImageProcessingToolbox3.JavaScript+HTML5Canvas+浏览器4.专业的图像处理软件(带脚本/插件功能)二、
使用Python进行文件属性修改 python自动化工具 python办公自动化 python 服务器 java
哈喽，大家好，我是木头左！在计算机中，文件属性是指与文件相关的元数据，如创建时间、修改时间、访问时间等。这些属性对于管理和组织文件非常重要。Python提供了一些内置的函数和方法，可以方便地修改文件的属性。本文将介绍如何使用Python进行文件属性的修改。1.获取文件属性需要使用os模块中的stat()函数来获取文件的属性。该函数返回一个包含文件属性的命名元组。以下是一个简单的示例：importo
Python 代理模式：控制对象访问的智能中介
在Python编程中，代理模式（ProxyPattern）是一种非常有用的设计模式，它在许多场景下能够为我们提供更加灵活和可控的对象访问方式。代理模式就像是一个中间人，它站在客户端和真实对象之间，代替真实对象处理请求，并且可以在这个过程中添加额外的逻辑，如权限验证、懒加载等。本文将深入探讨Python中的代理模式，详细阐述其概念、关键要点、实现方式、应用场景以及与其他相关模式的比较。一、代理模式的
深度解析股票量化标准，从数据筛选到模型构建全面解读股票程序化交易接口量化交易股票API接口 Python股票量化交易股票量化标准数据筛选模型构建量化分析股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>股票量化标准的定义股票量化标准是一套运用数学和统计学方法，对股票投资进行系统性分析与决策的准则。它将各种影响股票价格的因素，如财务数据、市场交易数据等进行量化处理。通过这些量化后的指标，投资者能更精准地评估股票的价值与潜力，减少主观判
睡岗离岗检测算法 Python 燧机科技SuiJi 人工智能 python 算法深度学习神经网络
睡岗离岗检测算法的核心在于实时监控和智能分析，睡岗离岗检测算法通过安装在关键区域的监控摄像头，系统能够捕捉到员工的活动画面。当系统检测到人体位置长时间未发生变化时，将启动睡姿分类器。该分类器能够识别多种睡姿，如趴在桌子上睡、坐在凳子上后仰睡等。一旦识别为睡姿，系统将立即触发告警机制。这可以通过向管理人员发送警报信号，或通过语音提醒员工的方式实现。睡岗离岗检测算法在多种场景下均有广泛应用。该算法能够
Python桌面版数独（二版）-增加4X4、6X6 香蕉可乐荷包蛋 #数独 python java 前端
增加选择4x4、6x6模式，以下是三种模式的不同解析：4x4模式：数独大小：4x4每个宫格大小：2x2数字范围：1-46x6模式：数独大小：6x6每个宫格大小：2x3数字范围：1-69x9模式：数独大小：9x9每个宫格大小：3x3数字范围：1-9主要优化点：4.添加了模式选择下拉框，可以选择4x4、6x6、9x9模式5.根据选择的模式动态创建不同大小的棋盘6.生成不同大小的数独题目7.验证输入的合
变型桥——桥接模式详解（Python实现）
引言在上一篇文章中，我们详细介绍了适配器模式（AdapterPattern），并展示了如何通过适配器将不兼容的接口转换为兼容的接口，使得原本无法协同工作的类能够在一起工作。这次，我们将探讨另一种结构性设计模式——桥接模式（BridgePattern），或者我们可以亲切地称它为“变型桥”。桥接模式将抽象部分与它的实现部分分离，使它们都可以独立地变化，通过引入一个桥接接口，桥接模式可以让抽象和实现独立
Python适配器模式详解：让不兼容的接口协同工作 detayun Python python 适配器模式开发语言
一、模式定义与核心思想适配器模式（AdapterPattern）是一种结构型设计模式，它通过创建一个中间层（适配器），将不兼容的接口转换为客户端期望的接口。就像现实中的电源适配器，让不同国家的插头都能在同一个插座上工作。二、模式结构解析#目标接口：客户端期望的接口classTarget:defrequest(self):"""标准请求方法"""raiseNotImplementedError#被适
python3.9安装tensorflow-gpu 2.6.0和torch-gpu版本各依赖包的版本对应关系
首先使用的cuDNN（8.1）、CUDA（11.2）、tensorflow-gpu（2.6.0）、python（3.9）之间对应版本Window环境下安装pytorch下载地址tensorflow官网CUDA下载官网cuDNN下载官网注意：cuDNN需要注册absl-py0.15.0astunparse1.6.3cachetools5.3.2certifi2023.7.22charset-norm
打造智能资讯引擎：基于 Python 的新闻数据爬取与个性化推荐系统实战全流程解析程序员威哥最新爬虫实战项目 python 开发语言
前言：数据时代的信息洪流，如何做到“千人千面”？在信息爆炸的时代，每天都有成千上万条新闻资讯涌现。如何从海量内容中挖掘出用户感兴趣的资讯？这不仅仅是爬虫技术的问题，更是数据建模与智能推荐算法的落地挑战。本篇文章将带你从零出发，构建一个具有实际应用价值的“个性化新闻阅读推荐系统”，从数据采集（爬虫）、文本处理（NLP）、兴趣建模（TF-IDF/协同过滤/Embedding）到推荐展示，覆盖整个推荐系
gitlab修改DNS解析配置文件中东大鹅 gitlab linux git
在Linux（CentOS7.9）云服务器上解压gitlab时提示需要Python的环境[root@rainyun-v1vct1josrc]#rpm-ivhgitlab-ce-10.8.4-ce.0.el7.x86_64.rpmwarning:gitlab-ce-10.8.4-ce.0.el7.x86_64.rpm:HeaderV4RSA/SHA1Signature,keyIDf27eab47:N
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1024 一元三次方程求解热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：
Python FastAPI 与传统 Web 框架的性能对比 Python编程之道 python fastapi 前端 ai
PythonFastAPI与传统Web框架的性能对比关键词：FastAPI、性能对比、Web框架、异步编程、Python、Django、Flask摘要：本文深入探讨了FastAPI与传统PythonWeb框架（如Django和Flask）在性能方面的差异。我们将从架构设计、请求处理模型、并发能力等多个维度进行对比分析，并通过基准测试数据展示实际性能差异。文章还将提供代码示例和性能优化建议，帮助开发
Python Django 数据库索引优化 Python编程之道 python django 数据库 ai
PythonDjango数据库索引优化关键词：DjangoORM、数据库索引、查询优化、性能调优、PostgreSQL、MySQL、执行计划摘要：本文深入探讨Django框架中的数据库索引优化策略。我们将从数据库索引的基本原理出发，详细分析DjangoORM如何生成SQL查询，以及如何通过合理的索引设计提升查询性能。文章包含索引类型选择、复合索引优化、Django模型字段索引配置、查询集优化技巧等
Python Scrapy爬取办公用品网站数据的策略 Python编程之道 python scrapy 开发语言 ai
1.引入与连接想象一下，你是一家办公用品公司的市场调研人员，需要了解竞争对手的产品价格、种类等信息。如果手动去各个办公用品网站收集这些数据，那将是一项极其繁琐且耗时的工作。而Python的Scrapy框架就像是一个不知疲倦的超级助手，能帮你快速、高效地从众多网站抓取所需数据。你可能已经对Python有了一定的了解，知道它是一门功能强大且应用广泛的编程语言。Scrapy则是Python中专门用于网络
使用Python Scrapy打造个性化爬虫
使用PythonScrapy打造个性化爬虫——知识金字塔构建1.引入与连接：从“手动复制”到“自动化采集”的跨越你是否遇到过这样的场景？想整理1000条知乎优质回答做数据分析，却要逐条复制；想追踪某电商平台的商品价格波动，却要每天手动刷新页面……这些重复劳动，正是“个性化爬虫”的用武之地！与已有知识的连接：你可能用过requests+BeautifulSoup写过简单爬虫，但面对大规模数据、复杂反
新手向:基于 Python 的简易视频剪辑工具
在数字媒体时代，视频创作已成为大众表达的重要形式，从个人vlog制作到企业宣传视频，视频内容的需求呈现爆发式增长。传统专业软件如AdobePremierePro虽功能强大，提供完整的非线性编辑系统，但存在学习曲线陡峭（新手通常需要数周系统学习）、资源占用高（最低配置要求8GB内存）、授权费用昂贵（订阅价约20美元/月）等痛点。相比之下，Python凭借其丰富的多媒体库生态系统（如OpenCV、Mo
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
Python 数据插值：NumPy 实现多种插值方法
Python数据插值：用NumPy解锁缺失数据的秘密拼图关键词数据插值、NumPy、线性插值、多项式插值、缺失值处理、数据平滑、数值分析摘要在数据分析和科学计算中，我们经常遇到离散或缺失的观测数据——比如气象站每小时记录的温度值有缺失，或者实验中只采集了稀疏的采样点。这时候，数据插值（Interpolation）就像“数据修复师”，能根据已知点推断出未知点的数值，让离散数据变成连续的“故事”。本文
【Python LeetCode 专题】热题 100，重在思路一杯水果茶！人生苦短我用 Python python leetcode
哈希1.两数之和49.字母异位词分组128.最长连续序列双指针283.移动零11.盛最多水的容器15.三数之和42.接雨水滑动窗口3.无重复字符的最长子串438.找到字符串中所有字母异位词子串560.和为K的子数组239.滑动窗口最大值普通数组53.最大子数组和56.合并区间189.轮转数组238.除自身以外数组的乘积矩阵73.矩阵置零链表160.相交链表206.反转链表234.回文链表141.环
自己开发FT4222上位机软件 - USB转SPI EE工程师嵌入式系统 python 单片机模块测试
写作背景最近公司有个项目，让开发一个能够同时进行千兆网接收和SPI配置的上位机软件，开发语言不限，所以作者选择Python+PyQt作开发，做嵌入式固件开发的读者可能知道还需要一块USB转SPI的模块才能进行上下位机正常SPI读写，项目团队成员建议模块从淘宝网购买就好，作者经过调研对比，感觉从芯片质量到开发配套上来讲，FTDI的FT4222模块是最优选择。但令作者感到不快的是淘宝商家不提供模块
自己开发I2C Bootloader -上位机开发篇 EE工程师嵌入式系统 python stm32 单片机
上位机脚本开发在芯片原厂大部分工程师选择的脚本语言依然是Python,Python有哪些开发优势这里就不再讨论了，这里我们只陈述一下上位机的开发环境，作者的开发环境是VSCode+Anaconda。脚本内容也没有什么好说的，一看就懂，比较简单。唯一值得提醒的是本项目的上位机开发需要多注意*Write_DataBytes_To_Serial_Port(self,DataBytes):*函数的实现
Grok网站的后端语言是php和Python2.7 言之。随笔随笔
老马的Grok模型https://grok.com/#subscribephp语法这里还出现了两个bug后端语言能看到是php和python2.7要说卷还是得看中国的程序员啊，天天就是新技术，赶不上别人就35岁毕业退休
【python】图片批量压缩脚本横桥码农 python python
#-*-coding:utf-8-*-'''图片批量压缩脚本将脚本放入待压缩文件夹下，并运行自动生成压缩文件夹compress'''fromPILimportImageimportosimportsysimportiosys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')defcompress_image(input_imag
python 中列表,元组和集合常用方法 [自由之路] python python windows 开发语言
列表列表中可以添加不同类型的元素,如:int类型和str类型deftest_list():"""测试列表的基本操作"""var9=range(10)_var9=list(var9)#将range对象转换为列表copy_var9=_var9.copy()#复制列表_var9.append(1)#添加一个元素到列表中count=_var9.count(1)#计算1出现的次数print(f"counto
浅谈Python+requests+pytest接口自动化测试框架的搭建测试界筱筱软件测试 python pytest 数据库软件测试功能测试自动化测试程序人生
框架的设计思路首先要明确进行接口自动化需要的步骤，如下图所示：然后逐步拆解需要完成的工作：1）了解分析需求：了解接口要实现的功能2）数据准备：根据开发文档确定接口的基本情况，知晓接口的url、请求方式、入参等信息，然后根据业务逻辑以及入参来预期接口的输出需要有一个配置文件来存储接口的一些基本信息；需要有一个方法能读取配置文件；需要有一个excel或者yaml格式文件来存储测试数据；需要有一个方法能
Excel处理控件Aspose.Cells指南：使用 Python 删除 Excel 中的重复行 CodeCraft Studio 文档管理控件 python excel 开发语言
在Excel中删除重复行对于维护干净、准确和一致的数据集至关重要。它可以确保一致性，并有助于防止分析或报告中出现错误。重复数据会导致错误的分析和糟糕的决策。因此，识别和消除重复数据的能力对于软件开发人员、数据分析师和Excel用户来说是一项宝贵的技能。在本篇博文中，我们将向您展示如何使用Python以编程方式删除Excel工作表中的重复行。Python库用于删除Excel中的重复行Aspose.C
Excel处理控件Aspose.Cells教程：使用 Python 在 Excel 中进行数据验 CodeCraft Studio 文档管理控件 excel python 开发语言
Excel中的数据验证功能可确保用户在工作表中输入正确的数据类型。无论您是构建动态模板、收集结构化数据还是准备财务报告，添加验证都有助于避免错误并保持一致性。在本文中，我们将探讨如何使用Python在Excel中实现数据验证。让我们深入研究实际的解决方案，以自动执行Excel验证任务-而无需安装MicrosoftExcel。Aspose.Cells最新版下载Excel中的数据验证是什么？Excel
Python脚本压缩图片大小，不损害图片质量凉风听雪 Python python 开发语言
Python源码：同步绑定有exe文件，可下载直接使用importosfromPILimportImagedefcompress_images(input_folder,quality):#确定输出文件夹路径为输入路径同级的"out"output_folder=os.path.join(os.path.dirname(input_folder),"out")#确保输出文件夹存在ifnotos.pa
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出