折言

一次python爬虫爬取p站的经历

代码有点乱，等有空了再回来改。

先上完整代码：

import requests
import re
import queue
import threading

#登陆账号和密码
pixiv_id='xxxxx'
password='xxxxxx'

#关键字注意空格和斜杠等符号的url编码，比如我要搜索含有Fate/GrandOrder和リッパー标签的图片，则url的word后面应为：Fate%2FGrandOrder%20AND%20(%20リッパー%20%20)
#按旧排序：&order=date，默认无
#标签完全相似：s_tag_full，部分相似：s_tag
#尺寸：横长&ratio=0.5，长度&ratio=-0.5，正方形&ratio=0

#保存在本地的路径
local_path='F:/玛修/'
#这里设置关键字，在‘word=’的后面，注意要进行url编码
url_index='http://www.pixiv.net/search.php?s_mode=s_tag&word=マシュ&p='

#以下三个条件只要满足一个条件就会爬取下来
#爬取图片的获赞数应达到多少
min_score=1500
#爬取图片的获赞率达到的10%的获赞数应达到多少
min_score1=1000
#爬取图片的获赞率达到的30%的获赞数应达到多少
min_score2=500

headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0',
    'Referer': 'https://accounts.pixiv.net/login?lang=zh&source=pc&view_type=page&ref=wwwtop_accounts_index'
    }

login_url='https://accounts.pixiv.net/login?lang=zh&source=pc&view_type=page&ref=wwwtop_accounts_index'
post_url='https://accounts.pixiv.net/api/login?lang=zh'
se=requests.Session()

referer='http://www.pixiv.net'
url_img='http://www.pixiv.net/member_illust.php?mode=medium&illust_id='
url_manga='http://www.pixiv.net/member_illust.php?mode=manga&illust_id='
url_manga_big1='http://www.pixiv.net/member_illust.php?mode=manga_big&illust_id='
url_manga_big2='&page='

class P(threading.Thread):
    def __init__(self,qu1,qu2):
        threading.Thread.__init__(self)
        self._queue1=qu1
        self._queue2=qu2
        
    def run(self):
        while not self._queue1.empty():
            self.get_img_url(self._queue1.get(),self._queue2)
        while not self._queue2.empty():
            self.spider(self._queue2.get())
            
    def spider(self,num):
        url=url_img+num
        count1=0
        headers['Referer']=referer
        while True:
            try:
                count1=count1+1
                #获取图片信息介绍页面
                img_page=se.get(url=url,headers=headers).content.decode('utf-8')
                people=re.findall(re.compile('view-count">(\d+)'), img_page)
                score=re.findall(re.compile('rated-count">(\d+)'), img_page)
                avar=0.1
                if float(str(people[0]))>0:
                    avar=float(str(score[0]))/float(str(people[0]))
                if (float(str(score[0]))>=min_score) or (float(str(score[0]))>=min_score1 and avar>=0.1) or (float(str(score[0]))>=min_score2 and avar==0.3):
                    multiple=re.findall(re.compile('

'),img_page) count2=0 if len(multiple): manga_info_url=url_manga+num headers['Referer']=url while True: try: count2=count2+1 #获取manga类型图片的套图页面 manga_page=se.get(url=manga_info_url,headers=headers).content.decode('utf-8') manga_urls=re.findall(re.compile('data-src="(.*?)"'),manga_page) #不要manga类型的大于5张的图片 if len(manga_urls)>=5: return for i in range(len(manga_urls)): manga_urls[i]=re.sub('_master\d+', '', manga_urls[i]) manga_urls[i]=re.sub('master', 'original', manga_urls[i]) headers['Referer']=manga_info_url for each_manga in manga_urls: with open(local_path+each_manga.split('/')[-1],'bw') as file: img=se.get(each_manga,headers=headers) if str(img.status_code)=='404': each_manga=re.sub('.jpg','.png',each_manga) img=se.get(each_manga,headers=headers) count3=0 while not str(img.status_code)=='200' and not count3==3: count3=count3+1 img=se.get(each_manga,headers=headers) file.write(img.content) print('mangaSuccess!') break except Exception as e: print('mangaError:'+str(e)) if count2==3: break continue else: while True: try: count2=count2+1 img_src=re.findall(re.compile('(https://i.pximg.net/img-original/img.*?)"'),img_page) if not len(img_src): break print('img_src:',img_src[0]) with open(local_path+img_src[0].split('/')[-1],'bw') as file: img=se.get(img_src[0],headers=headers) file.write(img.content) print('mediumSuccess!') break except Exception as e: print('imgError:'+str(e)) if count2==3: break continue else: break break except Exception as e: print(str(e)) if count1==3: break continue def get_img_url(self,url_page,qu2): count=0 while True: try: count=count+1 html_page=se.get(url=url_page,headers=headers) print(html_page.status_code) nums=re.findall(re.compile('data-click-label="(\d+)"'), html_page.content.decode('utf-8'))#data-click-label for i in range(len(nums)): qu2.put(str(nums[i])) print(str(nums[i])) break except Exception as e: print(str(e)) if count==3: break continue def main(): page_login=se.get(url=login_url,headers=headers).content.decode('utf-8') post_key=re.findall(re.compile('post_key" value="(.+?)"'),page_login)[0] print(post_key) data={ 'pixiv_id':pixiv_id, 'password':str(password), 'post_key':post_key, 'source':'pc', 'return_to':'www.pixiv.net' } se.post(post_url,data=data,headers=headers) #例のセーター,胸開きタートルネック qu1=queue.Queue() qu2=queue.Queue() for i in range(1,1001): qu1.put(url_index+str(i)) threads=[] thread_count=100 for i in range(thread_count): threads.append(P(qu1,qu2)) for t in threads: t.start() for t in threads: t.join() if __name__ == '__main__': main()

这个爬虫主要使用了requests、re、queue、threading几个包，运行之前自己设置好各项参数（都在代码最前面）。页数是p站固定的，最多只能爬1000页，所以不用修改。线程数是100个，可以在main函数里修改。接下来简单分析一下就可以，因为代码不长而且并不难。

login_url='https://accounts.pixiv.net/login?lang=zh&source=pc&view_type=page&ref=wwwtop_accounts_index'
post_url='https://accounts.pixiv.net/api/login?lang=zh'
se=requests.Session()

登陆的url以及提交登陆信息的url。这里用到session来模拟登陆。

headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0',
    'Referer': 'https://accounts.pixiv.net/login?lang=zh&source=pc&view_type=page&ref=wwwtop_accounts_index'
    }

反防爬的核心，需要在每个请求中加上该头部。p站的防爬会检测referer，所以我后面的spider（）方法里有动态的改变referer的策略，能有效欺骗该防爬机制。

url_img='http://www.pixiv.net/member_illust.php?mode=medium&illust_id='
url_manga='http://www.pixiv.net/member_illust.php?mode=manga&illust_id='
url_manga_big1='http://www.pixiv.net/member_illust.php?mode=manga_big&illust_id='
url_manga_big2='&page='

上面几个全局变量的作用分别是：

url_img：图片的信息页面的主要url；

url_manga：漫画类型的图片的小图展示页面url；

url_manga_big1：漫画类型的大图的url的前部分，配合下面那个的变量使用；

url_manga_big2：漫画类型的大图的url的后部分，配合上面那个的变量使用；

上面的四个变量都需要配合接下来爬取到的图片id进行使用。

class P：

如代码所示，这个类继承了Threading父类，方便我们接下来的多线程爬取提高效率。顺便说一下，这个多线程是配合队列queue使用的，具体在类方法run()里面，队列qu1用来存放所有页数的url，qu2则是用来存放所有爬取到的图片的p站id，可以配合我们的全局变量

run:

很容易理解，先把每一页的图片id取出来放到qu2，然后再用spider()方法爬取。

spider：

本次爬虫的核心部分。

    def spider(self,num):
        url=url_img+num
        count1=0
        headers['Referer']=referer
        while True:
            try:
                count1=count1+1
                #获取图片信息介绍页面
                img_page=se.get(url=url,headers=headers).content.decode('utf-8')
                people=re.findall(re.compile('view-count">(\d+)'), img_page)
                score=re.findall(re.compile('rated-count">(\d+)'), img_page)
                avar=0.1
                if float(str(people[0]))>0:
                    avar=float(str(score[0]))/float(str(people[0]))
                if (float(str(score[0]))>=min_score) or (float(str(score[0]))>=min_score1 and avar>=0.1) or (float(str(score[0]))>=min_score2 and avar==0.3):
                    multiple=re.findall(re.compile(''),img_page)
                    count2=0
                    if len(multiple):
                        manga_info_url=url_manga+num
                        headers['Referer']=url
                        while True:
                            try:
                                count2=count2+1
                                #获取manga类型图片的套图页面
                                manga_page=se.get(url=manga_info_url,headers=headers).content.decode('utf-8')
                                manga_urls=re.findall(re.compile('data-src="(.*?)"'),manga_page)
                                
                                #不要manga类型的大于5张的图片
                                if len(manga_urls)>=5:
                                    return
                                
                                for i in range(len(manga_urls)):
                                    manga_urls[i]=re.sub('_master\d+', '', manga_urls[i])
                                    manga_urls[i]=re.sub('master', 'original', manga_urls[i])
                                headers['Referer']=manga_info_url
                                for each_manga in manga_urls:
                                    with open(local_path+each_manga.split('/')[-1],'bw') as file:
                                        img=se.get(each_manga,headers=headers)
                                        if str(img.status_code)=='404':
                                            each_manga=re.sub('.jpg','.png',each_manga)
                                            img=se.get(each_manga,headers=headers)
                                        count3=0
                                        while not str(img.status_code)=='200' and not count3==3:
                                            count3=count3+1
                                            img=se.get(each_manga,headers=headers)
                                        file.write(img.content)
                                print('mangaSuccess!')
                                break
                            except Exception as e:
                                print('mangaError:'+str(e))
                                if count2==3:
                                    break
                                continue
                    else:
                        while True:
                            try:
                                count2=count2+1
                                img_src=re.findall(re.compile('(https://i.pximg.net/img-original/img.*?)"'),img_page)
                                if not len(img_src):
                                    break
                                print('img_src:',img_src[0])
                                with open(local_path+img_src[0].split('/')[-1],'bw') as file:
                                    img=se.get(img_src[0],headers=headers)
                                    file.write(img.content)
                                print('mediumSuccess!')
                                break
                            except Exception as e:
                                print('imgError:'+str(e))
                                if count2==3:
                                    break
                                continue
                else:
                    break
                break
            except Exception as e:
                print(str(e))
                if count1==3:
                    break
                continue

里面的count+数字是重试的计数器，因为有时候加载网页会失败，所以我给每一个页面的加载设置了一个重试最大值为3。其实没什么好说的，都是分析了各个网页的源代码之后选取合适的正则表达式来匹配关键字符串，然后使用关键字符串来进行下一步的筛选条件或者继续爬取。比如：

               people=re.findall(re.compile('view-count">(\d+)'), img_page)
               score=re.findall(re.compile('rated-count">(\d+)'), img_page)
               avar=0.1
               if float(str(people[0]))>0:
                   avar=float(str(score[0]))/float(str(people[0]))
               if (float(str(score[0]))>=min_score) or (float(str(score[0]))>=min_score1 and avar>=0.1) or (float(str(score[0]))>=min_score2 and avar==0.3):

这里就是先匹配爬下来的网页源代码里的浏览人数（people）、点赞次数（score），然后计算点赞率（avar），接下来进行判断。这些都是要自己去看过源代码才比较好理解的，这里就不详细说了，可以自己去p站看源代码。注意在找需要的正则匹配的时候，最好挑选不容易和其他无关的数据混淆的。还有一点是要注意的： P站登陆和没登陆的时候的网页源代码有一定的出入！我之前就因为这个坑调试了半天，还以为是编码的锅。

get_img_url:

顾名思义，就是获取图片的url的，——当然这是本来的功能，后来我改成了只获取图片的id，名字懒得改了，知道意思就可以了。这个方法更简单，可以说是上面那个方法的缩小版。

    def get_img_url(self,url_page,qu2):
        count=0
        while True:
            try:
                count=count+1
                html_page=se.get(url=url_page,headers=headers)
                print(html_page.status_code)
                nums=re.findall(re.compile('data-click-label="(\d+)"'), html_page.content.decode('utf-8'))#data-click-label

                for i in range(len(nums)):
                    qu2.put(str(nums[i]))
                    print(str(nums[i]))
                break
            except Exception as e:
                print(str(e))
                if count==3:
                    break
                continue

main：

主要包括了登陆、添加搜索页面的url、配置线程。

登陆：

    page_login=se.get(url=login_url,headers=headers).content.decode('utf-8')
    post_key=re.findall(re.compile('post_key" value="(.+?)"'),page_login)[0]
    print(post_key)

    data={
        'pixiv_id':pixiv_id,
        'password':str(password),
        'post_key':post_key,
        'source':'pc',
        'return_to':'www.pixiv.net'
        }

    se.post(post_url,data=data,headers=headers)

首先获取登录界面的源代码，然后匹配它的post_key，设置好需要post的各项参数，提交。

关于post_key:

这个是p站的防爬措施之一吧，存在于源代码之中，每次刷新页面都是不一样的，所以需要动态获取。

添加搜索页面url：

这个很简单，略过不提。

配置线程：

    threads=[]
    thread_count=100
    for i in range(thread_count):
        threads.append(P(qu1,qu2))
    
    for t in threads:
        t.start()
        
    for t in threads:
        t.join()

首先创建一个存放多线程的数组，将多线程定义好并放进去；然后逐个开始，最后逐个停止清除。ps：这个join()我也不是很理解，大家可以在网上看看大神写的教程。

最后：

第一次写技术文档，文笔简陋，大家海涵。写爬虫重要的是去分析目标网站的那个过程，因为很可能每个人爬取的思路都不一样。

顺便上传一下成果图:

Python实战：开发经典猜拳游戏（石头剪刀布）藍海琴泉游戏
目录引言：为什么选择猜拳游戏作为入门项目？第一部分：基础知识点与代码实现1.游戏逻辑与流程2.代码分步实现2.1导入必要模块2.2定义游戏规则函数2.3生成计算机选择2.4判断胜负逻辑2.5主循环与交互3.代码运行效果示例第二部分：功能扩展与优化1.添加计分系统2.支持多轮游戏与退出选择3.增加图形化界面（可选）第三部分：进一步学习方向1.深化游戏功能2.学习相关知识3.书籍与资源推荐适合人群：编
Python函数完全解读：从零基础到高阶实战藍海琴泉 python 开发语言
目标读者：编程新手|转行者|需系统掌握函数用法的开发者目录一、函数是什么？为什么需要函数？二、函数基础语法详解1.定义与调用2.返回值：函数的输出结果3.参数传递机制4.案例：计算BMI指数三、变量作用域：理解局部与全局1.局部变量2.全局变量四、函数进阶：lambda与高阶函数1.lambda匿名函数2.高阶函数五、函数高级特性1.装饰器：增强函数功能2.递归函数六、实战案例：文件处理工具一、函
本地部署deepseek-r1:14b 批量调用 Python调用本地deepseek-r1:14b实现对本地数据库的AI管理朴拙Python交易猿 python 数据库开发语言
这篇文章主要为大家详细介绍了Python如何基于DeepSeek模型，调用本地deepseek-r1:14b实现对本地数据库的AI管理场景描述基于DeepSeek模型，实现对本地数据库的AI管理。实现思路1、本地python+flask搭建个WEB，配置数据源。2、通过DeepSeek模型根据用户输入的文字需求，自动生成SQL语句。3、通过SQL执行按钮，实现对数据库的增删改查。模型服务方法1启动
Matplotlib 柱形图 lly202406 开发语言
Matplotlib柱形图引言在数据可视化领域，柱形图是一种非常常见且强大的图表类型。它能够帮助我们直观地比较不同类别或组之间的数据大小。Matplotlib，作为Python中最受欢迎的数据可视化库之一，提供了丰富的绘图功能，其中包括创建柱形图。本文将详细介绍Matplotlib中的柱形图，包括其基本用法、高级特性以及如何进行优化。基本用法安装Matplotlib在开始使用Matplotlib之
Matplotlib如何创建交互式图表？ EdgarBertram matplotlib
Matplotlib是一个强大的Python绘图库，它可以用于生成高质量的静态图像。然而，Matplotlib同样支持创建交互式图表，这对于数据分析和可视化非常有用。交互式图表允许用户通过交互方式探索数据，例如缩放、平移或者查询数据点。下面我们将详细介绍如何使用Matplotlib创建交互式图表。一、安装与配置首先，确保你已经安装了Matplotlib库。你可以使用pip来安装：bash复制代码p
如何用PHP开发一个api数据接口幽蓝计划 php
对于一个iOS开发者来说，我一直觉得会写接口是一件很酷的事情，因为它可以实时修改前台数据，而不像App一样需要更新版本和接受审核。更重要的是，它意味着你的技术完成了一个闭环，可以独自完成一整个项目的开发。PHP是我接触的第一个脚本语言，使用之后更是感觉PHP功能强大，开发过程非常友好方便，虽然之后也学习过Python、JavaScript等语言，但现在还是习惯使用PHP，下面就来介绍一下如何用PH
使用E2B数据分析沙盒进行文件分析 qahaj 数据分析数据挖掘 python
使用E2B数据分析沙盒进行文件分析在现代数据分析中，运行环境的安全性与灵活性是确保数据处理高效可靠的关键因素。E2B提供了一个数据分析沙盒，能够在隔离的环境中安全地执行代码，非常适合构建诸如代码解释器或类似于ChatGPT的高级数据分析工具。在这篇文章中，我将演示如何使用E2B的数据分析沙盒来对上传的文件进行分析，为您提供一个强大的Python代码示例。核心原理解析E2B的数据分析沙盒为开发者提供
Python笔记——DeprecationWarning 小橘猫cate Python python 开发语言
定义如下阶跃函数时出现警告，defstep_function(x):returnnp.array(x>0,dtype=np.int)DeprecationWarning:`np.int`isadeprecatedaliasforthebuiltin`int`.Tosilencethiswarning,use`int`byitself.Doingthiswillnotmodifyanybehavio
使用 ArcGIS 和 Python 进行地理信息系统(GIS)分析 scaFHIO arcgis python java
在本篇文章中，我们将探讨如何利用ArcGIS和Python进行地理信息系统(GIS)分析。ArcGIS是由Esri开发和维护的一系列GIS软件，包括客户端、服务器和在线解决方案。本文主要聚焦于如何使用Python和arcgis库来实现GIS功能。技术背景介绍ArcGIS提供了功能强大的工具来进行矢量和栅格分析、地理编码、地图制作以及路线和路径规划。通过arcgisPython库，我们可以访问Esr
DeprecationWarning: 无效的转义序列‘\/‘解决方案数据科学智慧 linux 运维服务器 Python
DeprecationWarning:无效的转义序列’/'解决方案在Python编程中，您可能会遇到"DeprecationWarning:无效的转义序列’/'"的警告消息。这个警告通常在您尝试使用无效的转义序列时出现，例如在正则表达式或字符串中。本文将为您提供解决方案，以解决这个问题。首先，让我们了解一下转义序列的概念。在Python中，某些字符前面带有反斜杠（\），以表示特殊含义，例如换行符（
python做飞机大战让敌机打子弹_python（pygame）滑稽大战(类似飞机大战) 教程青云若水
初始准备工作本项目使用的python3版本(如果你用python2，我不知会怎么样)Ide推荐大家选择pycharm(不同ide应该没影响)需要安装第三方库pygame，pygame安装方法(windows电脑，mac系统本人实测与pygame不兼容，强行运行本项目卡成ppt)电脑打开cmd命令窗口，输入pip3installpygame补充说明:由于众所周知的原因，安装过程中下载可能十分缓慢，甚
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
python之连连看游戏 CrMylive. python 游戏 pygame
实现一个简单的连连看游戏需要用到pygame库和一些基本的数据结构和算法。导入pygame库在程序开始之前，首先需要导入pygame库。在Python中，可以使用以下代码导入pygame库：importpygame初始化Pygame在导入pygame库之后，需要使用以下代码初始化pygame：pygame.init()设置游戏窗口设置游戏窗口的大小、标题等属性。可以使用以下代码设置游戏窗口大小为6
Python, Java, C ++开发全球热能动态监测APP Geeker-2025 python java c++
开发一个“全球热能动态监测APP”是一个非常有意义的想法，尤其是在能源管理和环境保护领域。以下是开发该APP的详细思路和技术实现方案，分别针对Python、Java和C++。---###**功能需求分析**1.**全球热能数据展示**：-各国或地区的热能生产、消费和进出口数据。-实时监测热能动态（如发电厂的热能输出、温度变化等）。2.**地图可视化**：-在地图上标注热能发电厂的位置。-使用颜色或
动物识别系统代码python_动物识别系统__代码 weixin_39812065 动物识别系统代码python
1动物识别专家系统动物识别专家系统是流行的专家系统实验模型，它用产生式规则来表示知识，共15条规则、可以识别七种动物，这些规则既少又简单，可以改造他们，也可以加进新的规则，还可以用来识别其他东西的新规则来取代这些规则。动物识别15条规则的中文表示是：规则1：如果：动物有毛发则：该动物是哺乳动物规则2：如果：动物有奶则：该单位是哺乳动物规则3:如果：该动物有羽毛则：该动物是鸟规则4：如果：动物会飞，
动物识别系统代码python_动物识别系统代码 weixin_39862794 动物识别系统代码python
简易动物识别专家系统源代码（调试无错！）#includevoidbirds(){inta;printf("**************************************\n");printf("1.长腿，长脖子，黑色，不会飞。\n");printf("2.不会飞，会游泳，黑色.\n");printf("3.善飞\n");printf("4.无上述特征\n");printf("****
Python深浅拷贝 Karl_zhujt Python python
文章目录1概述2数据类型2.1可变类型2.2不可变类型3深浅拷贝3.1浅拷贝3.2深拷贝4深浅拷贝对数据类型的影响4.1对于不可变类型的影响4.2对于可变类型的影响4.3总结5实现机制5.1copy5.2id6示例6.1普通赋值6.2浅拷贝可变类型6.3浅拷贝不可变类型6.4深拷贝可变类型6.5深拷贝不可变类型7注意事项1概述在Python中，可变类型和不可变类型的拷贝行为有所不同。理解它们的区别
基于 EMA12 指标结合 iTick 外汇报价 API 、股票报价API、指数报价API的量化策略编写与回测
iTick提供了强大的外汇报价API、股票报价API和指数报价API服务，为量化策略的开发提供了丰富的数据支持。本文将详细介绍如何使用Python结合EMA12指标和iTick的报价API来构建一个简单的量化交易策略，并对该策略进行回测。1.引言在量化交易领域，技术指标是构建交易策略的重要基础。iTick提供了强大的外汇报价API、股票报价API和指数报价API服务，为量化策略的开发提供了丰富的数
python动物识别系统(仅有识别功能) OnlySecondS
''@Time:2022/03/298:39@Author:11863@File:AIS_main.py@software:PyCharm'''rules={}#以字典形式存储#读取文件defreadRules():rulesFile=open("rules.txt","r",encoding='utf-8')forlineinrulesFile:#按行读取line=line.replace('I
深度优先搜索和广度优先搜索详细解析和区别潇杨爱吃粉深度优先宽度优先算法数据结构
一、深度优先搜索（DFS）1.核心思想像探险家走迷宫，遇到岔路就选一条路走到头，无路可走时返回上一个岔路口换另一条路。2.实现方式数据结构：栈（Stack，先进后出）或递归（隐式栈）遍历顺序：纵向深入，优先访问最深层的节点3.图解示例假设有以下树结构：A/\BC/\/DEFDFS遍历顺序（从根节点A出发）：A→B→D→E→C→F4.代码实现（Python）defdfs(graph,start):s
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Python-modbustcp通信-plc读写张凯的工作室 python python
Python-modbustcp通信-plc读写1，功能码说明读取：%m对应READ_COILS线圈寄存器数值0和1%mw存单字节%mf浮点数%md双字节对应READ_HOLDING_REGISTERS保持寄存器写入单个写入线圈寄存器WRITE_SINGLE_COIL%m单个写入保持寄存器WRITE_SINGLE_REGISTER写入多个保持寄存器WRITE_MULTIPLE_REGISTERS写
PyCharm v2024.3.5 强大的Python IDE工具支持M、Intel芯片 2401_89264762 python ide pycharm
PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外，该IDE提供了一些高级功能，以用于支持Django框架下的专业Web开发。应用介绍PyCharm是由JetBrains打造的一款PythonIDE，VS2010的重构插件Resharper就是出自
免费界面库 python_一个非常简单好用的Python图形界面库(PysimpleGUI) 不妧免费界面库 python
前一阵，我在为朋友编写一个源代码监控程序的时候，发现了一个Python领域非常简单好用的图形界面库。说起图形界面库，你可能会想到TkInter、PyQt、PyGUI等流行的图形界面库，我也曾经尝试使用，一个很直观的感受就是，这太难用了。就去网上搜搜，看看有没有一些demo，拿来改改，结果很少有，当时我就放弃了这些图形库的学习，转而使用了vue+flask的形式以浏览器网页作为程序界面，因为我会这个
Python 网络爬虫：从入门到实践一ge科研小菜菜编程语言 Python python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注网络爬虫是一种自动化的程序，用于从互联网上抓取数据。Python以其强大的库和简单的语法，是开发网络爬虫的绝佳选择。本文将详细介绍Python网络爬虫的基本原理、开发工具、常用框架以及实践案例。一、网络爬虫的基本原理网络爬虫的工作流程通常包括以下步骤：发送请求：向目标网站发送HTTP请求，获取网页内容。解析内容：提取需要的数据，可以是HTML标签
PySimpleGUI 4.60.5 孔帆贝
PySimpleGUI4.60.5【下载地址】PySimpleGUI4.60.5**PySimpleGUI**是一款专为简化PythonGUI（图形用户界面）编程而生的库。该库设计宗旨在于通过提供简洁、易懂的API接口，使开发者能够以更快的速度和更少的代码量创建出美观实用的应用程序。对于无论是GUI编程新手还是寻求快速开发工具的老手来说，PySimpleGUI都是一个极具吸引力的选择。其通过封装了
《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
python PySimpleGUI 使用 Seeklike python
#PySimpleGUI库快速简单构建一个gui窗口#PySimpleGUI是一个用于简化GUI编程的Python包，它封装了多种底层GUI框架（如tkinter、Qt、WxPython等），提供了简单易用的API。#PySimpleGUI包含了大量的控件（也称为小部件或组件），这些控件可以帮助你快速构建用户界面#导包importPySimpleGUIassgimportcv2importkeyb
2024年最全Python二级考试试题汇总（史上最全） 2401_84584831 程序员 python 开发语言算法
C‘1,2,3,4,5,’D1,2,3,4,5,正确答案：D以下程序的输出结果是：a=30b=1ifa>=10:a=20elifa>=20:a=30elifa>=30:b=aelse:b=0print(‘a={},b={}’.format(a,b))Aa=30,b=1Ba=30,b=30Ca=20,b=20Da=20,b=1正确答案：D以下程序的输出结果是：s=‘’try:foriinrange(
如何通过Python实现自动化任务：从入门到实践小弟有话说1.0 python 自动化开发语言
在当今快节奏的数字化时代，自动化技术正逐渐成为提高工作效率的利器。无论是处理重复性任务，还是管理复杂的工作流程，自动化都能为我们节省大量时间和精力。本文将以Python为例，带你从零开始学习如何实现自动化任务，并通过一个实际案例展示其强大功能。一、为什么选择Python实现自动化？Python作为一种简单易学、功能强大的编程语言，已经成为自动化领域的首选工具。以下是Python在自动化中的几大优势
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

一次python爬虫爬取p站的经历

你可能感兴趣的:(python)