yeting067

python + request + lxml的几个例证

From: http://www.educity.cn/wenda/81465.html

python + request + lxml的几个例子
例子没有加入失败后重做的功能，这个也可以考虑增加。
第三个例子加入了访问频率控制
遍历图片的例子加入多线程，明显爬得快很多

解析163新闻列表的例子：

　　#!/usr/bin/python# encoding=gbk# 我只是尝试遍历新闻而已，只有有很多链接博客，主题之类的没有操作# 如果要实现，就自己判断url来分析到底是什么，然后做相应的处理import sysimport requestsimport datetimeimport timeimport MySQLdbimport chardetimport lxml.html.soupparser as soupparserimport lxml.etree as etreestart_datetime = datetime.datetime.now()def parseFromWin1252(str): # 因为新闻有一些是乱码，编码是windows-1252，需要转换成GBK #print len(tt.decode("ISO-8859-1").encode("windows-1252").decode("GBK")) #print len(tt) try: return str.encode("windows-1252").decode("GBK") except UnicodeEncodeError: #print "UnicodeEncodeError" return str except UnicodeDecodeError: #print "UnicodeDecodeError" return strdef resolveAndSaveNewContentFromLink(link, linkTitle, cursor): # 打开一个链接，并得到里面的内容 # 有两种情况无法得到，1.没有标题的，可能是一个主题的页面；2.报异常的，还没处理，所以无法拿到内容 print u"处理:", link request = requests.get(link) try: dom = soupparser.fromstring(request.content) body = dom[0] titles = body.xpath("//h1[@id='h1title']") if len(titles) > 0: #有标题 title = parseFromWin1252(titles[0].text) print u"@TITLE:", request.encoding, title, link newContents = body.xpath("//div[@id='endText']//p") alist = [] for content in newContents: if content.text != None: alist.append(content.text) text = parseFromWin1252("amp;$lt;br$amp;>quot;$.join(alist)) values = [link, title, text, "Success"] cursor.execute("insert into texts(url,title,text,statue) value(%s,%s,%s,%s)", values) else: #无标题 title = parseFromWin1252(linkTitle) print u"#NO_TITLE:", request.encoding, title, link values = [link, title, "", "NO_TITLE"] cursor.execute("insert into texts(url,title,text,statue) value(%s,%s,%s,%s)", values) except TypeError: #报异常 title = parseFromWin1252(linkTitle) print u"$TypeError:", request.encoding, title, link values = [link, title, "", "TypeError"] cursor.execute("insert into texts(url,title,text,statue) value(%s,%s,%s,%s)", values)#定义方法def resolveAndSaveLinks(body, cursor): print u"解析html的Link" links = body.xpath("//ul[@class='mod-list main-list']//a") print u"处理数据" count = 1; for item in links: # 有em标签的无法解析 if item.text != None: values = [item.get("href"), item.text] cursor.execute("insert into links(url,text) value(%s,%s)", values) resolveAndSaveNewContentFromLink(item.get("href"), item.text, cursor) #time.sleep(100) #是否需要暂停，免得被封掉 print u"完成","[%s:%s]" %(len(links), count) count = count + 1 print "----------------------" print u"保存数据完成,记录数[", len(links), "]"def resolveAndSaveEmInLinks(body, cursor): print u"解析html的包含em元素的Link" ems = body.xpath("//ul[@class='mod-list main-list']//em") print u"处理数据" count = 1; for item in ems: values = [item.getparent().get("href"), item.text] cursor.execute("insert into links(url,text) value(%s,%s)", values) resolveAndSaveNewContentFromLink(item.getparent().get("href"), item.text, cursor) #time.sleep(100) #是否需要暂停，免得被封掉 print u"完成","[%s:%s]" %(len(ems), count) count = count + 1 print "----------------------" print u"保存数据完成,记录数[", len(ems), "]"def resolve(): print u"打开链接" req = requests.get("") content = req.content dom = soupparser.fromstring(content) body = dom[1] print u"链接数据库" conn = MySQLdb.connect(host="192.168.0.196", user="root", passwd="", db="python", charset="utf8") cursor = conn.cursor() cursor.execute("delete from links") cursor.execute("delete from texts") #resolveAndSaveNewContentFromLink("", u"测试", cursor) #if True: # return print u"解析并保存到数据库" #遍历不包含em标签的link resolveAndSaveLinks(body, cursor) #遍历包含em标签的link resolveAndSaveEmInLinks(body, cursor) cursor.close() conn.close() print u"遍历完成"#开始调用resolve()end_datetime = datetime.datetime.now()print u"耗时", (end_datetime - start_datetime).seconds, u"秒"

遍历糗事百科的文章，只遍历导航上面的几个分类，热门，最新，等等

　　#!/usr/bin/ScanningQiuShiBaiKe.py# encoding=gbkimport sysimport osimport MySQLdbimport requestsimport datetimeimport timeimport lxml.html.soupparser as soupparserimport lxml.etree as etreecurrentPageId = "currentPageId"def getImageFile(imgUrl): #文件下载，并写入本地硬盘，返回文件名 local_filename = imgUrl.split('/')[-1] local_filename= "/home/pandy/tmp/"+local_filename print u"下载文件成功: ", local_filename r = requests.get(imgUrl, stream=True) # here we need to set stream = True parameter with open(local_filename, 'wb') as f: for chunk in r.iter_content(chunk_size=1024): if chunk: # filter out keep-alive new chunks f.write(chunk) f.flush() f.close() return local_filename return Nonedef scannintArticle(cursor, type, url, article): #处理一个主题的信息 articleStr = etree.tostring(article) articleBody = soupparser.fromstring(articleStr) details = articleBody.xpath("//div[@class='detail']") authors = articleBody.xpath("//div[@class='author']") contents = articleBody.xpath("//div[@class='content']") thumbs = articleBody.xpath("//div[@class='thumb']") values = [type, url] if len(details) > 0: detailStr = etree.tostring(details[0]) detail = soupparser.fromstring(detailStr) values.append(detail.xpath("//a")[0].text) values.append(detail.xpath("//a")[0].get("href")) else: values.append("") values.append("") if len(authors) > 0: authorStr = etree.tostring(authors[0]) author = soupparser.fromstring(authorStr) values.append(author.xpath("//a")[0].text) values.append(author.xpath("//a")[0].get("href")) else: values.append("") values.append("") if len(contents) > 0: contentStr = etree.tostring(contents[0]) values.append(contents[0].text) else: values.append("") values.append("") if len(thumbs) > 0: thumbStr = etree.tostring(thumbs[0]) thumb = soupparser.fromstring(thumbStr) imgUrl = thumb.xpath("//img")[0].get("src") values.append(imgUrl) #下载图片，先临时存放，然后在读取出来保存到数据库，并删除 local_filename = getImageFile(imgUrl) f = open( local_filename , "rb" ) b = f.read() f.close() os.remove(local_filename) values.append(MySQLdb.Binary(b)) else: values.append("") values.append(None) values.append("Success") print values cursor.execute( "INSERT INTO qs_article ( type, url, detial_link, detail, user_link, user, content,img, img_content,status) VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)", values)def scanning4typeArticle(cursor, type, url): #扫描一页 request = requests.get(url) #print request.encoding print url #print len(request.content) #print request.content try: dom = soupparser.fromstring(request.content) body = dom[1] #查找一页下面的主题 articleList = body.xpath("//div[@class='block untagged mb15 bs2']") for article in articleList: scannintArticle(cursor, type, url, article) except: print "Error" values = [type, url, '', '', '', '', '', '',None, "Error"] cursor.execute( "INSERT INTO qs_article ( type, url, detial_link, detail, user_link, user, content,img, img_content, status) VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)", values)def scanning4type(cursor, type, url, subfix): #得到分页数，然后一页一页的打开 print u"开始扫描文章" request = requests.get(url); dom = soupparser.fromstring(request.content) body = dom[0] #得到底部分页的最大值 pagebars = body.xpath("//div[@class='pagebar']/a") if len(pagebars) > 2: maxPageSize = int(pagebars[len(pagebars) - 2].text) + 1 #一页一页的打开 for i in range(1, maxPageSize): scanningUrl = "".join([url, subfix]).replace(currentPageId, str(i)) scanning4typeArticle(cursor, type, scanningUrl) print u"扫描文章完成"def main(): # 主方法 #打开数据库 conn = MySQLdb.connect(host="192.168.0.196", user="root", passwd="", db="python", charset="utf8") cursor = conn.cursor() cursor.execute("delete from qs_article") #扫描几个类型，就是导航的前几个分类 scanning4type(cursor, "8HR", "", "".join(["/page/", "currentPageId", " s=4602020"])) #scanning4type(cursor, "HOT", "", "".join(["/page/", "currentPageId", " s=4602057"])) #scanning4type(cursor, "IMGRANK", "", "".join(["/page/", "currentPageId", " s=4602057"])) #scanning4type(cursor, "LATE", "", "".join(["/page/", "currentPageId", " s=4602057"])) #scanning4typeArticle(cursor, type, "") #关闭数据库 cursor.close() conn.close()#开始运行主程序main()

遍历新浪一些博客的图片,加入了访问频率控制

　　#!/usr/bin/python# encoding=gbk# tag=%E7%BE%8E%E5%A5%B3&page=3&type=2&blogid=67f899b332002zdw&ch=import sysimport osimport requestsimport MySQLdbimport lxml.html.soupparser as soupparserimport lxml.etree as etreeimport jsonimport timemaxPage = 100 # 定义被扫描的最大页数requests.adapters.DEFAULT_RETRIES = 5#加入控制打开频率DEFAULT_OPEN_PAGE_FREQUENCY = 1 #打开页面的间隔事件DEFAULT_OPEN_IMAGE_FREQUENCY = 3 #打开图片页面的间隔事件DEFAULT_IMAGE_COUNT = 0 #图片计数器DEFAULT_IMAGE_SIZE = 20 #打开size张图片后，要sleep DEFAULT_OPEN_IMAGE_FREQUENCY秒钟def saveImage(title, imageSrc): # 保存图片 if title == None: title = u"无题" print u"标题:%s 图片:%s" % (title, imageSrc) dirStr = u"/mnt/E/新浪图集/" + title + "/" if not os.path.exists(dirStr): os.makedirs(dirStr) fileName = imageSrc.split('/')[-1] request = requests.get(imageSrc, stream=True) with open(dirStr + fileName, "wb") as file: for chunk in request.iter_content(chunk_size=1024): if chunk: # filter out keep-alive new chunks 5 file.write(chunk) file.flush() file.close()def listPicPage(pageUrl): #从首页打开链接，然后进行图片的页面 global DEFAULT_IMAGE_COUNT request = requests.get(pageUrl) dom = soupparser.fromstring(request.content) body = dom[1] title = body.xpath("//h3[@class='title']") titleStr = ""; if len(title) > 0: titleStr = title[0].text imageList = body.xpath("//div[@class='imgArea']/img[@class='qImg']") print u"遍历图片页面，标题:%s, 地址: %s " % (titleStr, pageUrl) imageSrc = None for image in imageList: # 这里好像有两个地址，先用real_src，否在用src if image.get("real_src") != None: imageSrc = image.get("real_src") else: imageSrc = image.get("src") #要存在图片地址，才需要继续解析 if imageSrc != None: saveImage(titleStr, imageSrc) #访问频率控制 DEFAULT_IMAGE_COUNT = DEFAULT_IMAGE_COUNT + 1 if DEFAULT_IMAGE_COUNT % DEFAULT_IMAGE_SIZE == 0: print u"图片计数:%s, 休息 %s 秒钟后继续\n" % (DEFAULT_IMAGE_COUNT, DEFAULT_OPEN_IMAGE_FREQUENCY) time.sleep(DEFAULT_OPEN_IMAGE_FREQUENCY)def listPicIndex(): #遍历首页 # 根据页数来打开url for i in range(1, maxPage + 1): url = " tag=%E7%BE%8E%E5%A5%B3&page=" + str( i) + "&type=2&blogid=67f899b332002zdw&ch=" request = requests.get(url) json_obj = json.loads(request.content) for item in json_obj["data"]["list"]: #找到这一页的所有图片链接，然后进行打开这个链接，才是显示图片的页面 dom = soupparser.fromstring(item) link = dom.xpath("//a[@class='pic']") if len(link) > 0: #遍历图片的页面 listPicPage(link[0].get("href")) print u"---------------------------------------------完成一个图片链接, 页数:", i #访问频率控制 # time.sleep(DEFAULT_OPEN_PAGE_FREQUENCY) print u"---------------------------------------------完成页数", maxPage, ":", idef main(): listPicIndex() #listPicPage("")if __name__ == "__main__": main()

上面的例子改成多线程

　　#!/usr/bin/python# encoding=gbk# tag=%E7%BE%8E%E5%A5%B3&page=3&type=2&blogid=67f899b332002zdw&ch=import sysimport osimport requestsimport MySQLdbimport lxml.html.soupparser as soupparserimport lxml.etree as etreeimport jsonimport timeimport threadingMAX_PAGE = 100 # 定义被扫描的最大页数MAX_ERROR = 10 # 定义线程允许出现的最大错误数，当不超过这个数字的时候，会自动继续重试PAGE_SIZE = 5 #段数DEFAULT_OPEN_PAGE_FREQUENCY = 2 #完成一页休眠的时间DEFAULT_OPEN_PAGE_ERROR_WAIT_FREQUENCY = 5 #出现异常之后等待重试的事件requests.adapters.DEFAULT_RETRIES = 5def saveImage(thName, title, imageSrc, currentPath): # 保存图片 if title == None: title = u"无题" print u"线程名称:%s, 页码:%s, 标题:%s 图片:%s" % (thName, currentPath, title, imageSrc) dirStr = u"/mnt/E/新浪图集/" + title + "/" if not os.path.exists(dirStr): os.makedirs(dirStr) fileName = imageSrc.split('/')[-1] request = requests.get(imageSrc, stream=True) with open(dirStr + fileName, "wb") as file: for chunk in request.iter_content(chunk_size=1024): if chunk: # filter out keep-alive new chunks 5 file.write(chunk) file.flush() file.close()def listPicPage(thName, pageUrl, currentPath): #从首页打开链接，然后进行图片的页面 global DEFAULT_IMAGE_COUNT request = requests.get(pageUrl) dom = soupparser.fromstring(request.content) body = dom[1] title = body.xpath("//h3[@class='title']") titleStr = ""; if len(title) > 0: titleStr = title[0].text imageList = body.xpath("//div[@class='imgArea']/img[@class='qImg']") #print u"\n\n页码:%s, 遍历图片页面，标题:%s, 地址: %s " % (currentPath, titleStr, pageUrl) imageSrc = None for image in imageList: # 这里好像有两个地址，先用real_src，否在用src if image.get("real_src") != None: imageSrc = image.get("real_src") else: imageSrc = image.get("src") #要存在图片地址，才需要继续解析 if imageSrc != None: saveImage(thName, titleStr, imageSrc, currentPath)def listPicIndex(thName, startPath, endPath): #遍历首页 # 根据页数来打开url for i in range(startPath, endPath + 1): url = " tag=%E7%BE%8E%E5%A5%B3&page=" + str( i) + "&type=2&blogid=67f899b332002zdw&ch=" print url request = requests.get(url) json_obj = json.loads(request.content) error_count = 0 for item in json_obj["data"]["list"]: #找到这一页的所有图片链接，然后进行打开这个链接，才是显示图片的页面 dom = soupparser.fromstring(item) link = dom.xpath("//a[@class='pic']") if len(link) > 0: #遍历图片的页面 try: listPicPage(thName, link[0].get("href"), i) except: if error_count < MAX_ERROR: error_count = error_count + 1 #错先错误的话，等待一会儿，再重试 print u"---------------------------------------------休眠%s秒钟后重试, 页数:%s" % ( DEFAULT_OPEN_PAGE_ERROR_WAIT_FREQUENCY, i) time.sleep(DEFAULT_OPEN_PAGE_ERROR_WAIT_FREQUENCY) listPicPage(thName, link[0].get("href"), i) else: print u"出错超过预设次数，退出爬虫。" #print u"---------------------------------------------完成一个图片链接, 页数:", i #访问频率控制 time.sleep(DEFAULT_OPEN_PAGE_FREQUENCY) print u"---------------------------------------------完成页数", MAX_PAGE, ":", i return Trueclass MyThread(threading.Thread): def __init__(self, name, startPath, endPage): threading.Thread.__init__(self) self.name = name self.is_stop = False self.startPage = startPath self.endPage = endPage def run(self): while not self.is_stop: #遍历完成后停止线程 self.is_stop = listPicIndex(self.name, self.startPage, self.endPage) def stop(self): #手动设置停止标记 self.is_stop = Trueif __name__ == "__main__": #分段创建线程 count=1; for i in range(1, MAX_PAGE, PAGE_SIZE): startPath = i endPath = i + PAGE_SIZE if endPath > MAX_PAGE: endPath = MAX_PAGE print startPath, ",", endPath t = MyThread("Thread " + str(count), startPath, endPath) count=count+1 t.start() pass

Python 抽象基类 ABC ：从实践到优雅 python
今天我们来聊聊Python中的抽象基类（AbstractBaseClass，简称ABC）。虽然这个概念在Python中已经存在很久了，但在日常开发中，很多人可能用得并不多，或者用得不够优雅。让我们从一个实际场景开始：假设你正在开发一个文件处理系统，需要支持不同格式的文件读写，比如JSON、CSV、XML等。初始版本：简单但不够严谨我们先来看看最简单的实现方式：classFileHandler:de
Python 并发编程实战：优雅地使用 concurrent.futures python
在Python多线程编程中，concurrent.futures模块提供了一个高层的接口来异步执行可调用对象。今天，我们将通过一个循序渐进的案例，深入了解如何使用这个强大的工具。从一个模拟场景开始假设我们需要处理一批网络请求。为了模拟这个场景，我们使用sleep来代表耗时操作：importtimeimportrandomdefslow_operation(task_id):"""模拟一个耗时的网络
shutil 标准库： Python 文件操作的万用刀 python
今天来聊一个被低估的Python标准库-shutil。工作中我们用Python（尤其是写一些短小轻快的脚本）虽然经常和文件打交道，却很少用到shutil。但实际上，shutil提供了比os模块更高级的文件操作接口，能让我们写出更Pythonic的代码。从一个真实场景说起最近在整理项目代码时，需要将散落在各处的配置文件归类到统一目录。按以往的习惯，我会这样写：importos#创建目标目录ifnot
Python 自带的日期日历处理大师：calendar 库 python
在Python开发中，我们经常需要处理日期和时间。虽然datetime库是最常用的选择，但其实Python标准库中的calendar模块也是一个强大的工具，特别适合处理日历相关的计算和展示。从一个真实场景开始假设你正在开发一个会议室预订系统，需要：展示月度视图计算工作日处理节假日逻辑让我们看看如何用calendar来优雅地解决这些问题。基础用法：生成日历importcalendar#创建日历对象c
Python性能优化的幕后功臣： __pycache__与字节码缓存机制 python
在日常Python开发中，我们经常会看到项目目录下神秘的__pycache__文件夹和.pyc文件。作为经验丰富的Python开发者，今天让我们深入理解这个性能优化机制。从一个性能困扰说起最近在优化一个数据处理微服务时，发现每次启动服务都需要2-3秒的预热时间。通过profile可以发现大量时间花在了Python模块的加载上。Python的编译过程与大多数人的认知不同，Python并不是纯解释型语
Python Generator：一个被低估的性能利器 python
调用OpenAI的API时，设置stream=True，接着forchunkincompletion:我们就可以“流式”地获取响应的内容。而非等待远程的模型将所有内容生成完毕，再返回给我们（这通常要等很久）。本文讨论这背后的PythonGenerator。从一个经典问题开始假设我们要处理一个超大的日志文件，需要按行读取并分析。传统的做法是：defread_log_file(filename):re
Python `__slots__` 进阶指南：不止于节省内存，从原理到实践 python
相信不少Python开发者都听说过__slots__，知道它可以帮助节省内存。但你是否思考过它背后的原理，以及在实际开发中的其他妙用？让我们一起深入探讨。从一个性能问题说起假设你的一个系统需要处理大量的订单对象：classOrder:def__init__(self,order_id,symbol,price,quantity):self.order_id=order_idself.symbol=
Python 元类（Meta Class）：解密 Python 面向对象编程的幕后推手后端python
在Python编程中，我们每天都在和类打交道，但是你是否也和我一样想过：类本身是什么？是谁创建了类？元类（MetaClass）就是用来创建类的"类"。今天让我们一起深入理解这个强大而神秘的特性。从一个简单的类说起classPerson:def__init__(self,name):self.name=namedefgreet(self):returnf"Hello,I'm{self.name}"#
langchain系列（二）- 提示词模板以及消息码--到成功大语言模型 langchain
导读环境：OpenEuler、Windows11、WSL2、Python3.12.3langchain0.3背景：前期忙碌的开发阶段结束，需要沉淀自己的应用知识，过一遍LangChain时间：20250212说明：技术梳理提示词模板理论说明提示模板将用户输入和参数转换为语言模型的指令，以此来实现模型的响应，帮助它理解上下文并生成相关且连贯的基于语言的输出。其接受一个字典作为输入，其中每个键代表提示
langchain系列 - FewShotPromptTemplate 少量示例码--到成功大语言模型 langchain
导读环境：OpenEuler、Windows11、WSL2、Python3.12.3langchain0.3背景：前期忙碌的开发阶段结束，需要沉淀自己的应用知识，过一遍LangChain时间：20250220说明：技术梳理，针对FewShotPromptTemplate专门来写一篇博客概念说明few-shot最初来源于机器学习的概念，还有one-shot、zero-shot概念，概念如下：机器学习
nginx ngx_http_module(9) 指令详解 s_fox_ nginx nginx http 运维
nginxngx_http_module(9)指令详解nginx模块目录nginx全指令目录一、目录1.1模块简介ngx_http_uwsgi_module：uWSGI支持模块，允许Nginx与uWSGI服务器进行通信。uWSGI是一种应用服务器协议，广泛用于PythonWeb应用的部署。通过该模块，Nginx可以将动态请求转发给uWSGI服务器处理，并将响应返回给客户端。常用的指令包括uwsgi
sql注入之python脚本进行时间盲注和布尔盲注温柔小胖 sql 数据库网络安全
一、什么是时间盲注和布尔盲注？答：时间盲注是攻击者通过构造恶意sql语句利用sleep()等延迟函数来观察数据库响应时间差异来进行推断信息和条件判断。如果条件为真，数据库会执行延时操作，如果为假则立即返回。响应时间较短。SELECTIF(1=1,SLEEP(5),0);如果条件为真、数据库会暂停5s如果条件为假、数据库会立即返回布尔盲注通过观察数据库返回的不同响应（如真或假）来推断信息。攻击者构造
Python中的生成器表达式（generator expression） Java资深爱好者 python python 开发语言
Python中的生成器表达式（generatorexpression）是一种类似于列表解析（listcomprehension）的语法结构，但它返回的是一个生成器（generator）对象，而不是一个完整的列表。生成器对象是一个迭代器，它可以逐个产生元素，而不是一次性生成所有元素，从而节省内存空间。生成器表达式在形式上与列表解析非常相似，但是它们使用圆括号()而不是方括号[]。当你迭代生成器表达式
Ollama部署大模型，本地调用居7然 android 人工智能 chatgpt 爬虫开发语言 AI编程
Ollama简单介绍Ollama是一个强大的大型语言模型平台，它允许用户轻松地下载、安装和运行各种大型语言模型。在本文中，我将指导你如何在你的本地机器上部署Ollama，并展示如何使用Python进行简单的API调用以访问这些模型最近很多人在学习大模型的时候，也遇到这个问题了，Ollama下载的模型，如果不想在命令行里面直接使用，而是想用Python去调用大模型该如何去使用？这是Ollama的官网
PyInstaller参数大揭秘：一文读懂打包神器的核心密码 Abossss Python python
一、引言在Python开发的广阔领域中，我们常常会面临这样一个问题：如何将自己精心编写的Python脚本，分享给那些没有Python环境的小伙伴，或者部署到生产环境中呢？这时候，PyInstaller库就如同一位救星，闪亮登场。PyInstaller是一个功能强大的跨平台打包工具，它可以将Python脚本及其所有依赖项，打包成一个独立的可执行文件。这意味着，无论目标系统是否安装了Python环境，
量化交易策略都有哪些？怎么运用？股票程序化交易接口 Python股票量化交易股票API接口量化交易量化交易策略均值回归动量策略风险控制股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>均值回归策略：寻找价格的回归点均值回归的原理均值回归策略是基于一种市场现象，即价格不会永远偏离其长期的平均值。从市场的历史数据来看，无论是股票、期货还是其他金融资产，价格总是围绕着一个均值上下波动。这就像一个有弹性的绳子，当价格被拉伸
【全栈】SprintBoot+vue3迷你商城-细节解析（2）：分页杰九 vue.js spring boot java
【全栈】SprintBoot+vue3迷你商城-细节解析（2）：分页往期的文章都在这里啦，大家有兴趣可以看一下后端部分：【全栈】SprintBoot+vue3迷你商城（1）【全栈】SprintBoot+vue3迷你商城（2）【全栈】SprintBoot+vue3迷你商城-扩展：利用python爬虫爬取商品数据【全栈】SprintBoot+vue3迷你商城（3）【全栈】SprintBoot+vue3
有需要2025年参加蓝桥杯比赛的同学往下看！！！岱宗夫up 教程蓝桥杯职场和发展
有需要2025年参加蓝桥杯比赛的同学往下下看！！！以下是关于近两年（2023年和2024年）蓝桥杯Python组考点的详细总结：一、2023年蓝桥杯Python考点分析在2023年的蓝桥杯Python竞赛中，考点主要集中在基础算法、数据结构、动态规划、数学、高精度计算以及二分查找等方面。（一）基础算法基础算法是竞赛的基石，包括枚举、排序（如冒泡排序、选择排序、插入排序等）、搜索（如BFS和DFS）
Ubuntu22 安装多个版本的python 莫忘初心丶 python 数据库开发语言
前言使用pyenv是一个很好的选择，尤其是在需要管理多个Python版本时。它提供了一个简单的方法来安装、切换和管理多个版本的Python，而不必依赖系统的包管理器或update-alternatives。特别是当你需要在同一系统中频繁切换Python版本时，pyenv会显得更加方便。目录前言为什么使用`pyenv`安装`pyenv`1.安装依赖2.安装`pyenv`3.配置shell环境4.安装
python的继承 zhangbeizhen18 L01-基础
记录：备忘录。1.继承classPerson(object):def__init__(self,p_name,p_addr,p_age):self.name=p_nameself.addr=p_addrself.age=p_ageclassGirl(Person):def__init__(self,g_name,g_addr,g_age,g_bra_cup):Person.__init__(sel
【MySQL】表空间丢失处理（Tablespace is missing for table 错误处理） m0_74824823 面试学习路线阿里巴巴 mysql 数据库
问题背景最近，我在运行一个基于Python爬虫的项目时，爬虫需要频繁与MySQL数据库交互。不幸的是，在数据爬取过程中，Windows系统突然强制更新并重启。这次意外中断导致MySQL数据库的三个表格（2022年、2023年和2024年的数据表）出现了“Tablespaceismissing”的错误。起初，我尝试了常规的CHECKTABLE和REPAIRTABLE方法，但这些都没有解决问题。最终，
Python 继承详解江湖一条鱼 python
继承是面向对象编程（OOP）的一个重要特性，允许一个类（子类）从另一个类（父类）继承属性和方法。继承可以提高代码的重用性，增强程序的可扩展性和可维护性。目录一、继承的作用二、继承的语法1.单继承2.多继承三、子类扩展1.添加新功能2.重写父类方法3.调用父类方法四、继承的特殊情况1.子类初始化父类2.方法解析顺序（MRO）五、抽象类与接口1.抽象类2.接口3.ABC类4.使用方法1.定义抽象基类2
【如何学习商城源码】启山智软商城源码微信小程序小程序 java
学习商城源码是一个系统而深入的过程，需要掌握多种方法和技巧。以下是一些建议，帮助你有效地学习商城源码：一、搭建学习环境准备开发工具编程语言相关：根据商城源码使用的编程语言，安装相应的集成开发环境（IDE）。例如，若源码是Java语言编写的，可安装IntelliJIDEA或Eclipse；若是Python语言，可选择PyCharm等。这些IDE能帮助你高效地编辑、调试代码，提供语法高亮、自动补全等功
从零创建一个 Django 项目 m0_74824823 面试学习路线阿里巴巴 django python 后端
1.准备环境在开始之前，确保你的开发环境满足以下要求：安装了Python(推荐3.8或更高版本)。安装pip包管理工具。如果要使用MySQL或PostgreSQL，确保对应的数据库已安装。创建虚拟环境在项目目录中创建并激活虚拟环境，保证项目依赖隔离：#创建虚拟环境python-mvenvenv#激活虚拟环境#WindowsenvScriptsactivate#Linux/Macsourceenv/
anaconda中的python在pycharm中用不了_Pycharm中使用Anaconda 白白前
Pycharm中使用Anaconda问题：安装完Pycharm和Anaconda后，想让Pycharm能调用Anaconda中包含的各种包。这样就不用重复安装各种包了。Anaconda下载安装Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包，Anaconda的下载文件比较大(约515MB)。安装Anacond
agoda获取酒店数据风云路上想改名笔记 python agoda爬取报错重启
最近改了改代码，正好解决了一些报错问题，更新出来。个别处会加蜜数据库以及线程控制fromDBUtils.PooledDBimportPooledDBimportrequestsimportdemjsonimporttimeimportrandomimportjsonimportpymysqlimportdatetimeimportthreadingb={"user":"root","passwd"
python - 永久存储 susie0815 python python 服务器
打开文件使用open()函数打开文件时，openfilemode（文件打开模式）是一个决定了以何种方式打开文件以及对文件可以进行哪些操作的重要参数。基本模式只读模式（‘r’）默认的打开模式，用于读取文件。如果文件不存在，会抛出FileNotFoundError异常。try:file=open('test.txt','r')content=file.read()print(content)file.
自动化测试的学习路线 Ws＿学习
自动化测试是提高软件开发效率和质量的关键手段。学习自动化测试通常涉及多个方面的技能，从基础的编程语言知识到测试工具的使用，再到实际的测试脚本编写和执行。以下是一个学习自动化测试的路线图，帮助你有条不紊地掌握相关技能：1.基础知识在开始自动化测试之前，首先要具备一定的编程和软件测试基础：编程语言：Python、Java、JavaScript或者Ruby（根据你选择的自动化测试工具决定）软件测试基础：
Python自动化测试 Ws＿ python python
Python自动化测试是软件开发中的重要组成部分，可以帮助提高测试效率和准确性。以下是学习Python自动化测试的基本路线，以及相关资料的链接：学习路线1.基础知识Python基础：掌握Python语言的基本语法、数据类型、控制流、函数、面向对象编程等。你可以先确保对Python的基本语法有清晰的理解。参考资料：Python官方文档书籍推荐：《Python编程：从入门到实践》2.了解自动化测试的基
Python实现Excel表格保存到不同文件夹 Leo_Aqu excel python
"""点击“上传”按钮，从本地上传待处理的Excel表格点击“处理”按钮，对Excel表格进行处理点击“保存A”按钮，保存处理后的Excel表格到A文件夹下点击“保存B”按钮，保存处理后的Excel表格到B文件夹下"""#作者:Leo#时间:2024/9/2621:52importtkinterastkfromtkinterimportfiledialog,messageboximportpand
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

python + request + lxml的几个例证

你可能感兴趣的:(Python,python,requests)