wang_zuel

爬虫笔记——拉勾网职位信息爬取（selenium方法）

拉勾网爬虫笔记——selenium爬取拉勾网职位信息

初步爬虫框架构造
第一页职位信息爬取
第二页等页面的职位信息爬取
爬取数据的保存
细节处理

爬取过程中出现需要登录的处理
爬取过程中网页崩溃的处理

文中内容为网上找的视频课程的练习，但是不清楚具体课程名称（课程第一句为hello，欢迎学习爬虫课程，知道的可以评论告知），这里首先感谢课程制作者及课程分享者，让小白学会一个新的有用的技能！

在拉勾网的爬虫过程中，由于反爬虫机制，requests方法爬取尝试失败，故尝试采用selenium爬取职位信息，以python职位信息为例（拉勾网搜索python）：

具体职位信息：

切换页面可以发现网站职位信息为ajax动态加载的，且是post请求，如下：

初步爬虫框架构造

下面采用selenium进行爬虫，首先构造一下爬虫的框架，将整个程序构造为一个类，其中主要包括：获取每个详细职位信息的链接（parse_page_url）、请求/关闭详细职位信息页面（request_detail_page）、获取详细职位信息（parse_detail_page），程序中更加细致的部分则在具体过程中依据具体问题再行添加，即为如下形式：

class lagouspider():
    def __init__(self):
        pass
    
    def run(self):
        pass
    
    def parse_page_url(self):
        pass
    
    def request_detail_page(self):
        pass
    
    def parse_detail_page(self):
        pass
    
def main():
    lagou = lagouspider()
    lagou.run()
    
main()

第一页职位信息爬取

首先构造浏览器，然后打开网址（“https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=”），通过parse_page_url获取详细职位信息页面的网址。

要获取每个详情页面的链接，即parse_page_url部分，f12检查可以看到具体的链接网址在href属性中，这里选择使用xpath解析（//a[@class=“position_link”]/@href）：

完成后则打开具体网址进行详细职位信息的爬取（parse_detail_page）：

具体的根据想要爬取的内容添加就行，详细页面爬取完成后则需要关闭详细页面且回到上一个网页窗口，这里让程序暂停一秒，以免爬取过快被识别，同样在切换详情页面网址的时候也让其暂停一秒。

那么截至目前为止，可以得到大概如下的框架：

from selenium import webdriver
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from lxml import etree
import time
import re

class lagouspider():
    def __init__(self):
        self.driver = webdriver.Chrome()
        self.url = "https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput="
        # 定义一个列表存储爬取的职位信息
        self.positions = []
    
    def run(self):
        # 打开网页
        self.driver.get(self.url)
        # 等待网页加载完毕再返回源码(下一页按钮)
        WebDriverWait(self.driver,timeout=10).until(EC.presence_of_element_located((By.XPATH,'//div[@class="pager_container"]/span[last()]')))
        # 获取网页源代码
        source = self.driver.page_source
        # 获取详细职位信息网址
        self.parse_page_url(source)
    
    def parse_page_url(self,source):
        html = etree.HTML(source)
        detail_links = html.xpath('//a[@class="position_link"]/@href')
        for link in detail_links:
            # 打开详细职位信息网址
            self.request_detail_page(link)
            # 暂停一秒，以免爬取过快
            time.sleep(1)
    
    def request_detail_page(self,url):
        # 新建一个窗口，打开详细页面
        self.driver.execute_script("window.open('%s')"%url)
        # 切换到详情页面窗口
        self.driver.switch_to_window(self.driver.window_handles[1])
        # 等待页面加载完毕再返回源码
        WebDriverWait(self.driver,timeout=10).until(EC.presence_of_element_located((By.XPATH,'//span[@class="name"]')))
        page_source = self.driver.page_source
        self.parse_detail_page(page_source)
        # 暂停一秒，防止爬取过快
        time.sleep(1)
        # 关闭挡墙详情页面，并回到上一个页面窗口
        self.driver.close()
        self.driver.switch_to_window(self.driver.window_handles[0])
    
    def parse_detail_page(self,source):
        html = etree.HTML(source)
        # 根据具体需要添加
        company_name = html.xpath("//em[@class='fl-cn']/text()")[0].strip()
        position_name = html.xpath("//div[@class='job-name']/@title")[0]
        job_request = html.xpath("//dd[@class='job_request']//span")
        salary = job_request[0].xpath(".//text()")[0].strip()
        city = job_request[1].xpath(".//text()")[0].strip()
        # 去除特殊符号和空格
        city = re.sub("[\s/]","",city)
        experience = job_request[2].xpath(".//text()")[0].strip()
        experience = re.sub("[\s/]","",experience)
        education = job_request[3].xpath(".//text()")[0].strip()
        education = re.sub("[\s/]","",education)
        full_or_part = job_request[4].xpath(".//text()")[0].strip()
        full_or_part = re.sub("[\s/]","",full_or_part)
        
        job_advantage = html.xpath("//dd[@class='job-advantage']/p/text()")[0].strip()
        job_describe = "".join(html.xpath("//dd[@class='job_bt']//text()"))
        
        position = {
                'company_name':company_name,
                'position_name':position_name,
                'salary':salary,
                'city':city,
                'experience':experience,
                'education':education,
                'full_or_part':full_or_part,
                'job_describe':job_describe,
                'job_advantage':job_advantage
                }
        # print(position)
        self.positions.append(position)
    
def main():
    lagou = lagouspider()
    lagou.run()
    
main()

第二页等页面的职位信息爬取

这样，第一页的职位信息就可以爬取成功了，下面就要考虑后面页面的职位信息爬取问题，这时候就需要模拟翻页操作，这里采取while True循环来处理翻页爬取，爬取完一页后继续循环翻页爬取。

同时可以观察得知，网页中的翻页最多翻页至30页，那么也就是说可以将此作为循环的结束条件，将run更改为如下：

def run(self):
        # 打开网页
        self.driver.get(self.url)
        while True:
            # 等待网页加载完毕再返回源码(下一页按钮)
            WebDriverWait(self.driver,timeout=10).until(EC.presence_of_element_located((By.XPATH,'//div[@class="pager_container"]/span[last()]')))
            # 获取网页源代码
            source = self.driver.page_source
            # 获取详细职位信息网址
            self.parse_page_url(source)
            nextpage_btn = self.driver.find_element_by_xpath('//div[@class="pager_container"]/span[@action="next"]')
            # 若没有下一页则跳出循环，完成爬取
            if 'pager_next pager_next_disabled' in nextpage_btn.get_attribute("class"):
                print("爬取完成！")
                break
            else:
                nextpage_btn.click()
                time.sleep(1)

爬取数据的保存

完成翻页操作后，则考虑数据的保存问题，由于爬取的数据较多，拉勾网在爬取一段时间后容易崩溃，很难一次性爬取完成，故选择每爬取一页内容就保存一次，这里使用xlwings进行保存，单独使用一个save_positions进行保存操作。

import xlwings as xw
import pandas as pd

def save_positions(self):
        save_positions = pd.DataFrame(self.positions)
        # 重新开始保存下一页
        self.positions = []
        row = 1 + 16 * self.save_count
        self.save_count += 1
        print('已保存%d页'%self.save_count)
        print('*'*30)
        self.sheet.range('A'+str(row)).value = save_positions
        self.position_file.save()

细节处理

爬取过程中出现需要登录的处理

在爬取过程中，出现了需要登录，那么这里选择在爬取操作前登录账号，则可避免爬取过程中出现需要登录而中断爬取的情况，添加如下函数，这里需要注意的是在登录过程中会出现验证码，这里设置了15秒的时间输入一般是够了的，快一点输入就行（注意代码中账号密码要修改成自己的）：

from selenium.webdriver.common.action_chains import ActionChains

def login(self):
        loginTag = self.driver.find_element_by_css_selector('.login')
        usernameTag = self.driver.find_element_by_xpath("//input[@type='text']")
        passwordTag = self.driver.find_element_by_xpath("//input[@type='password']")
        login = self.driver.find_element_by_xpath("//div[@class='login-btn login-password sense_login_password btn-green']")
        
        actions = ActionChains(self.driver)
        actions.move_to_element(loginTag)
        actions.click(loginTag)
        actions.send_keys_to_element(usernameTag,'账号')
        actions.send_keys_to_element(passwordTag,'密码')
        actions.move_to_element(login)
        actions.click(login)
        actions.perform()
        # 15秒内输入验证码
        time.sleep(15)

爬取过程中网页崩溃的处理

同时在爬取过程中若网页崩溃，重新爬取不现实，那么这里再添加一个爬取前选择从第几页开始爬取的函数，保存后显示保存了几页的数据，方便在网页崩溃后继续爬取，

def continue_spider(self,num):
        self.count_num = 15*num + 1
        self.save_count = num - 1
        # 当前页面页码
        current_page = 1
        # 循环-翻页操作
        while True:
            if current_page == num:
                break
            else:
                # 下一页按钮
                next_page_Btn = self.driver.find_element_by_xpath("//div[@class='pager_container']/span[last()]")
                actions = ActionChains(self.driver)
                actions.move_to_element(next_page_Btn)
                actions.click(next_page_Btn)
                actions.perform()
                
                current_page += 1
                time.sleep(1)

整理过后，整体代码如下（注意代码中账号密码要修改成自己的）：

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from lxml import etree
import pandas as pd
import xlwings as xw
import re
import time

class lagouspider():
    def __init__(self):
        self.driver = webdriver.Chrome()
        self.url = "https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput="
        # 定义一个列表存储爬取的职位信息
        self.positions = []
        self.count_num = 1
        self.save_count = 0
        self.app = xw.App(visible=True,add_book=False)
        self.position_file = self.app.books.open('./data/lagou_positions.xlsx')
        self.sheet = self.position_file.sheets[0]
    
    def run(self):
        # 打开网页
        self.driver.get(self.url)
        # 登录操作
        self.login()
        # 输入从第几页开始爬取
        spider_page = int(input("输入从第几页开始爬取，输入整数："))
        
        if spider_page > 1:
        # 翻页操作（爬取中断后输入页码继续爬取操作，从第一页开始爬则输入1，从第二页开始爬则输入2）
            self.continue_spider(spider_page)
        # 数据爬取部分
        while True:
            # 等待网页加载完毕再返回源码(下一页按钮)
            WebDriverWait(self.driver,timeout=10).until(EC.presence_of_element_located((By.XPATH,'//div[@class="pager_container"]/span[last()]')))
            # 获取网页源代码
            source = self.driver.page_source
            # 获取详细职位信息网址
            self.parse_page_url(source)
            nextpage_btn = self.driver.find_element_by_xpath('//div[@class="pager_container"]/span[@action="next"]')
            # 若没有下一页则跳出循环，完成爬取
            if 'pager_next pager_next_disabled' in nextpage_btn.get_attribute("class"):
                print("爬取完成！")
                break
            else:
                nextpage_btn.click()
                time.sleep(1)
                
    def login(self):
        loginTag = self.driver.find_element_by_css_selector('.login')
        usernameTag = self.driver.find_element_by_xpath("//input[@type='text']")
        passwordTag = self.driver.find_element_by_xpath("//input[@type='password']")
        login = self.driver.find_element_by_xpath("//div[@class='login-btn login-password sense_login_password btn-green']")
        
        actions = ActionChains(self.driver)
        actions.move_to_element(loginTag)
        actions.click(loginTag)
        actions.send_keys_to_element(usernameTag,'账号')
        actions.send_keys_to_element(passwordTag,'密码')
        actions.move_to_element(login)
        actions.click(login)
        actions.perform()
        # 15秒内输入验证码
        time.sleep(15)
    
    def continue_spider(self,num):
        self.count_num = 15*(num-1) + 1
        self.save_count = num - 1
        # 当前页面页码
        current_page = 1
        # 循环-翻页操作
        while True:
            if current_page == num:
                break
            else:
                # 下一页按钮
                next_page_Btn = self.driver.find_element_by_xpath("//div[@class='pager_container']/span[last()]")
                actions = ActionChains(self.driver)
                actions.move_to_element(next_page_Btn)
                actions.click(next_page_Btn)
                actions.perform()
                
                current_page += 1
                time.sleep(1)    
    
    def parse_page_url(self,source):
        html = etree.HTML(source)
        detail_links = html.xpath('//a[@class="position_link"]/@href')
        for link in detail_links:
            # 打开详细职位信息网址
            self.request_detail_page(link)
            # 暂停一秒，以免爬取过快
            time.sleep(1)
    
    def request_detail_page(self,url):
        # 新建一个窗口，打开详细页面
        self.driver.execute_script("window.open('%s')"%url)
        # 切换到详情页面窗口
        self.driver.switch_to_window(self.driver.window_handles[1])
        # 等待页面加载完毕再返回源码
        WebDriverWait(self.driver,timeout=10).until(EC.presence_of_element_located((By.XPATH,'//span[@class="name"]')))
        page_source = self.driver.page_source
        self.parse_detail_page(page_source)
        # 暂停一秒，防止爬取过快
        time.sleep(1)
        # 关闭挡墙详情页面，并回到上一个页面窗口
        self.driver.close()
        self.driver.switch_to_window(self.driver.window_handles[0])
    
    def parse_detail_page(self,source):
        html = etree.HTML(source)
        
        company_name = html.xpath("//em[@class='fl-cn']/text()")[0].strip()
        
        position_name = html.xpath("//div[@class='job-name']/@title")[0]
        job_request = html.xpath("//dd[@class='job_request']//span")
        salary = job_request[0].xpath(".//text()")[0].strip()
        city = job_request[1].xpath(".//text()")[0].strip()
        city = re.sub("[\s/]","",city)
        experience = job_request[2].xpath(".//text()")[0].strip()
        experience = re.sub("[\s/]","",experience)
        education = job_request[3].xpath(".//text()")[0].strip()
        education = re.sub("[\s/]","",education)
        full_or_part = job_request[4].xpath(".//text()")[0].strip()
        full_or_part = re.sub("[\s/]","",full_or_part)
        
        job_advantage = html.xpath("//dd[@class='job-advantage']/p/text()")[0].strip()
        job_describe = "".join(html.xpath("//dd[@class='job_bt']//text()"))
        
        position = {
                'company_name':company_name,
                'position_name':position_name,
                'salary':salary,
                'city':city,
                'experience':experience,
                'education':education,
                'full_or_part':full_or_part,
                'job_describe':job_describe,
                'job_advantage':job_advantage
                }
#        print(position)
        self.positions.append(position)
        self.count_num += 1
        print("已爬取%d条数据"%(self.count_num-1))
        if self.count_num % 15 == 1:
            self.save_positions()
            
    def save_positions(self):
        save_positions = pd.DataFrame(self.positions)
        # 重新开始保存下一页
        self.positions = []
        row = 1 + 16 * self.save_count
        self.save_count += 1
        print('已保存%d页'%self.save_count)
        print('*'*30)
        self.sheet.range('A'+str(row)).value = save_positions
        self.position_file.save()
        
def main():
    lagou = lagouspider()
    lagou.run()
    
main()

再次感谢课程制作者，如果有帮助，请点个赞吧！

【python web】一文掌握 Flask 的基础用法数据知道 python 前端 flask
文章目录一、Flask介绍1.1安装Flask二、Flask的基本使用2.1创建第一个Flask应用2.2路由与视图函数2.3请求与响应2.4响应对象2.5模板渲染2.6模板继承2.7静态文件管理2.8Blueprint蓝图2.9错误处理三、Flask扩展与插件四、部署Flask应用五、总结Flask是一个轻量级的PythonWeb框架，因其简单易用、灵活性高而受到广泛欢迎。本文将全面介绍Flas
python绘制密度散点图龟速前进 anaconda 可视化 python
头大，外行人做个图咋这么难，趋势线还没有研究出来怎么加上去，哎importmatplotlib.pyplotaspltfromscipy.statsimportgaussian_kdefrommpl_toolkits.axes_grid1importmake_axes_locatableimportnumpyasnpimportpandasaspdfromdbfreadimportDBFdata=
python colorama_Python colorama 模块使用说明 weixin_39682697 python colorama
1Colorama模块说明在上篇博客我们了解了prettytable的使用,如下：https://www.cndba.cn/cndba/dave/article/3564使用prettytable模块之后，输出的内容格式看上去会非常整齐，但如果我们想要对部分内容重点显示，那么可以使用两种方法：1)直接使用Python控制输出颜色2)使用colorama模块Colorama是一个python专门用来
python colorama模块失效怎么办_python – 由于模块colorama,无法使用aws CLI 金牛远望号 python colorama模块失效怎么办
我已经安装了AWSCLI,并尝试在MacOSSierra上使用它.它抱怨没有模块colorama：$awsTraceback(mostrecentcalllast):File"/usr/local/bin/aws",line19,inimportawscli.clidriverFile"/Library/Python/2.7/site-packages/awscli/clidriver.py",l
数据可视化：python画散点图scatter 西红柿爱吃小番茄 python python 数据可视化 matplotlib
数据可视化：python画散点图scatter我想遍历一幅图的所有像素的h分量的值，然后用散点图表示出来。观察这幅图的h分量的值得变化范围。scatter函数的原型matplotlib.pyplot.scatter(x,y,s=20,c='b',marker='o',cmap=None,norm=None,vmin=None,vmax=None,linewidths=None,vert=None,
Python Colorama 库详解：终端输出美化的神器萧鼎 python基础到进阶教程 python
PythonColorama库详解：终端输出美化的神器在开发命令行工具或调试程序时，我们可能会希望通过颜色来区分重要信息，比如警告、错误、提示等。而Colorama是一个简单易用的Python库，可以帮助我们轻松地为终端输出添加颜色，提升用户体验。1.Colorama是什么？Colorama是一个Python库，用于在终端中实现跨平台的彩色文本输出。它主要提供以下功能：为文本添加前景色、背景色。控
Python之colorama PlutoZuo Python python 开发语言
Python之colorama文章目录Python之colorama1.安装Colorama库2.导入Colorama库3.初始化Colorama4.设置文本颜色和样式5.自定义颜色和样式Colorama是一个Python库，用于在控制台（终端）上输出彩色文本。它提供了一些方便的函数和类，用于在命令行界面中添加颜色和样式。以下是一些使用Colorama库的详细示例：1.安装Colorama库首先，
【AI】使用Python实现机器学习小项目教程丶2136 AI 人工智能 python 机器学习
引言在本教程中，我们将带领您使用Python编程语言实现一个经典的机器学习项目——鸢尾花（Iris）分类。通过这个项目，您将掌握机器学习的基本流程，包括数据加载、预处理、模型训练、评估和优化等步骤。论文AIGC检测，降AIGC检测，AI降重，三连私信免费获取：ReduceAIGC9折券！DetectAIGC立减2元券！AI降重9折券！目录引言一、项目背景与目标二、开发环境准备2.1所需工具2.2环
python进阶语法，函数的基本使用胡萝卜糊了 python java 服务器
#函数定义：#格式：def函数标识符（参数列表）：#定义无参函数defsay_hello():print("helloworld!")print("helloeveryone!")#定义有参函数defmymax(a,b):ifa>b:print("最大值是",a)else:print("最大值是",b)#函数调用#格式：函数名（实际参数列表）#函数调用时需要注意实参要和形参数量一致say_hell
请编写一个Python程序，实现WOA-CNN-BiLSTM鲸鱼算法优化卷积双向长短期记忆神经网络多输入单输出回归预测功能。 2301_81121233 算法神经网络 python mongodb storm zookeeper spark
实现一个基于鲸鱼优化算法（WOA）优化的卷积双向长短期记忆神经网络（CNN-BiLSTM）的多输入单输出回归预测功能是一个复杂的任务，涉及到多个步骤和组件。由于完整的实现会非常冗长，我将提供一个简化的框架和关键部分的代码示例，帮助你理解如何实现这个功能。请注意，这个示例不会包含所有细节，比如数据集的准备、鲸鱼优化算法的具体实现（WOA是一个元启发式算法，需要单独实现或引用现有库），以及CNN-Bi
Python软件和搭建运行环境办公小百知软件技术 python 开发语言
目录一、Python安装全流程（Windows/Mac/Linux）1.下载官方安装包2.详细安装步骤（以Windows为例）3.环境变量配置（Mac/Linux）二、虚拟环境管理（关键！）为什么需要虚拟环境？1.使用venv（Python内置）2.使用conda（推荐数据科学方向）三、开发工具推荐与配置1.IDE选择2.VSCode配置指南四、常见问题解决方案1.python命令无效？2.pip
python读取海康RGBD感知相机并解析图像数据我认为可以！ python 开发语言相机
python读取海康RGBD感知相机情景：相机：MV-EB435i海康提供的C++SDK比较完善，但是python的比较粗糙，给的demo只能得到他自己定义的数据帧需求：基于海康提供的pythonSDK，进一步开发读取RGB和Depth图，并转换成后续任务需要的numpy数组形式相机分析：可以使用HiViewer先调试相机，确认相机读取RGBD没问题：下载地址这些参数可以跟着相机的指南挑一挑，调到
使用 Supervisor 管理 Gunicorn 实现高可用 Python Web 应用莫忘初心丶 gunicorn python
前言在生产环境中，部署PythonWeb应用时，我们通常使用Gunicorn（GreenUnicorn）作为WSGI服务器。为了确保应用能够稳定运行，能够在崩溃后自动重启，Supervisor是一个常用的进程管理工具，它可以很好地与Gunicorn配合使用，实现进程监控、自动重启等功能。本文将详细介绍如何使用Supervisor来管理Gunicorn，确保PythonWeb应用在生产环境中的高可用
AI人工智能中的概率论与统计学原理与Python实战：Python实现概率模型 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的不断发展，概率论与统计学在人工智能领域的应用越来越广泛。概率论与统计学是人工智能中的基础知识之一，它们在机器学习、深度学习、自然语言处理等领域都有着重要的作用。本文将介绍概率论与统计学的核心概念、算法原理、具体操作步骤以及Python实现方法，并通过具体代码实例进行详细解释。2.核心概念与联系2.1概率论与统计学的区别概率论是一门数学学科，它研究随机事件发生的可能性。
如何使用 Python 实现生成对抗网络 NoABug python 生成对抗网络 tensorflow
如何使用Python实现生成对抗网络生成对抗网络（GenerativeAdversarialNetwork，GAN）是一种能够生成高质量、逼真图像的深度学习模型。GAN模型由两个神经网络组成：一个生成器和一个判别器。生成器的任务是以噪声为输入，生成看似真实的图像；而判别器则需要根据输入的图像，判断该图像是真实的还是由生成器生成的。下面我们将通过Python代码来实现一个简单的GAN模型。首先，我们
GAN模型的Python应用——生成对抗网络代码编织匠人 python 生成对抗网络开发语言
GAN模型的Python应用——生成对抗网络生成对抗网络（GenerativeAdversarialNetwork，GAN）是深度学习中的一种重要模型，已经被广泛应用于图像、文本生成等领域。GAN模型由两个神经网络组成：生成器（Generator）和判别器（Discriminator）。生成器用于生成假样本，判别器用于评估真实性。两个神经网络相互博弈，通过一次次迭代训练，最终生成器可以生成足以骗过
如何使用Python实现生成对抗网络（GAN）「已注销」互联网前沿技术韩进的创作空间全栈开发知识库 python 生成对抗网络 tensorflow 深度学习数据分析
生成对抗网络（GAN）是一种深度学习模型，由两个部分组成：生成器和判别器。生成器负责生成与训练数据相似的新数据，而判别器负责判断输入数据是真实的还是由生成器生成的。这两个部分不断相互博弈，直到生成器能够生成非常逼真的数据，使判别器难以区分生成数据和真实数据。下面是一个简单的Python实现，使用TensorFlow和Keras库。在开始之前，请确保已经安装了TensorFlow和Keras。imp
Python在股票数据分析中的应用有哪些？如何用Python获取股票数据并进行可视化财云量化 python炒股自动化量化交易程序化交易 python python股票数据分析数据获取可视化股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
蓝桥杯网络安全春秋赛 Crypto RSA 叁Three 蓝桥杯密码学
蓝桥杯网络安全春秋赛CryptoRSA题目某公司为了保护其重要数据，使用了RSA加密算法。该公司以同一个N为模数，为Alice和Bob分别生成了不同的公钥和与之相应的私钥。Alice和Bob都使用自己的公钥对同一条明文m进行加密，分别得到密文c1和c2。假设你是一名密码安全研究者，你已获取了N值、两个密文和公钥，能否使用RSA的相关知识还原出明文m呢？#!python3.9fromCrypto.U
Python 数据分析实战：电商平台用户行为洞察与营销策略优化萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集与导入2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1用户行为随时间的变化2.4.2商品关联分析2.4.3用户购买转化率分析2.4.4用户价值分析（RFM模型）三、主要的代码难点解析3.1数据收集与导入3.2数据清洗-时间戳处理3.3数据分析-商品关联分析3.4数据分析-用户购买转化率分析3.5数据分析-用户价值分析（RFM模型）四、可能改进的代
open-webui使用searXNG插件连接自定义的联网搜索服务程序 chinayeren 教程 python ai llama chatgpt
项目背景因为国内无法访问内置的一些免费搜索插件，安装完searXNG本地服务端后根据教程中连接始终无法连接，docker方案国内也无法使用的情况下，本地使用python写一个Flask服务程序使用爬虫技术提供联网搜索数据。下面是实现代码V1#!/usr/bin/python3#_*_coding:utf-8_*_##Copyright(C)2025-2025#@Title:这是一个模拟searXN
MarkDown常用命令 Leo来编程常用学习
markdown以md文件结尾的文件常用于说明，记录常用说明优先级格式语法示例说明1标题#一级标题##二级标题###三级标题用于定义文档的结构，优先级最高。2代码块pythonprint("Hello")用于显示多行代码，优先级高于普通文本。3行内代码`行内代码`用于在行内显示代码片段。4强调（粗体/斜体）**粗体**或__粗体__*斜体*或_斜体_用于强调文本，优先级高于普通文本。5链接和图片[
厘清把 github 当图床的思路 weixin_34335458 python json git
利用github和python3以及MWeb打造自己的博文图床这两天一直在纠结图床的问题，因为用自己的服务器来做图床这个事情我考虑再三，觉得比较不靠谱-_-|||，因为我的服务器只是一个小小的低配服务器，用来当自己的博客图床本来这个问题不大，但是我的博文基本都是在csdn上，流量还是颇为可观的。把自己的服务器给搞垮了，那可是吃不消的一件事情。虽然之前考虑过用github来做自己的图床，但是考虑两个
Python学习日记-第二十九天-tcp（客户端）差点长成吴彦祖 python pandas tcp/ip 网络
系列文章目录tcp介绍tcp特点tcp客户端一、tcp介绍Tcp协议，传输控制协议是一种面向连接的、可靠的、基于字节流的传输层通信协议，由IETF的RFC793定义TCP通信需要经过创建连接、传输数据、终止连接三个步骤TCP通信模型中，在通信开始之前，一定要先建立相关的链接，才能发送数据，类似于生活中的“打电话”（注：之前学习的udp，在通信前，不需要建立相关的链接，只需要发送数据即可，类似于“写
【step by step】Easyi3C Host I3C/I2C adapter (8) Scott.W 嵌入式硬件 python 功能测试
Easyi3C是一家领先的嵌入式系统工具供应商，可简化各种通信协议的开发和调试。公司提供一系列产品，旨在帮助工程师和开发人员更高效地使用I3C/I2C、USB和MIPI、JEDEC、MCTP等协议。Easyi3C提供PythonAPI。用户可以使用Python脚本对Easyi3C进行编程和控制，通过I2C或I3C协议访问从设备。API的使用，适合用户搭建更加复杂的测试环境，对提高自动化测试程度会有
Python学习第十九天 Leo来编程 Python学习学习 python
Django-分页后端分页Django提供了Paginator类来实现后端分页。Paginator类可以将一个查询集（QuerySet）分成多个页面，每个页面包含指定数量的对象。fromdjango.shortcutsimportrender,redirect,get_object_or_404from.modelsimportUserfrom.formsimportUserFormfromdja
【Repos系列】Bandersnatch同步原理 yunqi1215 Basic 网络
Bandersnatch是PyPI（PythonPackageIndex）的官方镜像工具，旨在高效同步和维护PyPI的完整本地副本。其核心原理围绕元数据抓取、增量同步、文件校验和并发下载，以下为详细工作流程：1.元数据抓取与包列表生成PyPI接口：Bandersnatch通过PyPI的JSONAPI（如https://pypi.org/pypi/{package}/json）获取所有包的元数据。主
Python入门到精通（三）：数据结构第一部分 love9599 Python入门到精通 python 开发语言
python的常用数据结构类型字符型字典列表元组、集合一、序列序列：是python中的一类数据类型，比如字符串、列表序列类型的对象是可以进行循环变例的1.1序列特性索引：指的是在序列中找到指定元素的索引编号切片：指的是从序列中提取一部分内容加法：序列对象可以将多个序列合并成一个乘法：可以将序列通过乘法输出多个相同的1.2序列操作索引操作格式：序列名[索引值]#案例1：str1="hello"#定义
python的数据结构有哪些_Python的数据结构 weixin_39804059 python的数据结构有哪些
一、Python中有哪些数据结构？dict,list,tuple,set,str二、dict,list,tuple,set,str的特点dict：字典，由键值对构成，通过键值对字典中元素进行索引，是可变数据结构list：列表，列表中的元素可以是任意类型，通过下标进行索引，是可变数据结构tuple：元组，元组中的元素可以是任意类型，通过下标进行索引，其中的元素不可变str：字符串，通过下表索引，元素
Python基础语法（一）算法工程师y python 开发语言
一、Python的安装与环境配置在开始编程之前，你需要确保计算机上安装了Python。以下是简单步骤：下载Python：访问Python官网，选择适合你操作系统的版本（推荐Python3.10+）。安装Python：运行安装程序，勾选“AddPythontoPATH”（确保在命令行中可以直接使用Python）。验证安装：打开终端（Windows用户使用CMD/PowerShell，Mac/Linu
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s