薛定谔的DBA

Python scrapy 爬取拉勾网招聘信息

周末折腾了好久，终于成功把拉钩网的招聘信息爬取下来了。现在总结一下！

环境： windows 8.1 + python 3.5.0

首先使用 scrapy 创建一个项目：

E:\mypy> scrapy startproject lgjob

创建后目录结构：

网络上有一中方法是读取 json 格式的，如下图：

这种方法是比较完整的，每个公司的招聘信息都很完整。拉钩网默认每页显示15个公司，最大30页。json格式比较规范，但是测试过程中一直读取不到网页记录，提示 “ 操作频繁 ” 。所以打算用传统的方法，即找出每页的规律，确认页码的位置。而内容则是直接读取 html 格式的节点取记录。

我们从拉钩首页点击某一个分类，比如我点击了 “java” ，接下来就跳转到各个公司的招聘信息列表，拉钩每页显示15个公司。看看网址为： https://www.lagou.com/zhaopin/Java/?labelWords=label，网址中看到关键字 “java” 了吗？替换成 “DBA” 回车查询也是可以的。再点击分页，也发现分页页码显示规律了！

如下为搜索 DBA 的第二页和第五页：

https://www.lagou.com/zhaopin/DBA/2/?filterOption=3

https://www.lagou.com/zhaopin/DBA/5/?filterOption=3

按 F12 再右键某个职位名称：

每页15个公司的招聘信息都显示出来了，这里不需要要查看职位的详细信息，所以在查找职位页面就可以把基础的信息爬取下来。职位在列表标签 “li” 显示是有规律和固定格式的，所以等下爬取也是每页去爬取，每页循环读取网页标签 “

” 的各个元素记录。

主要的项目文件，默认都已经创建了：(E:\mypy\lgjob\lgjob\)

items.py : 爬取的主要目标就是从非结构性的数据源提取结构性数据，例如网页。 Scrapy提供 Item 类来满足这样的需求。

pipelines.py : 当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理(如保持到数据库)。

settings.py : 设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。设定可以通过下面介绍的多种机制进行设置。

还有一个主要的解析主文件，需要手动创建，放到项目的 spiders （E:\mypy\lgjob\lgjob\spiders）目录中，本次测试创建的文件名为： main.py

现在数据库创建一个表，本次测试使用的是 sql server 数据库保存爬取数据：

CREATE TABLE [dbo].[lgjob](
	[companyfullname] [varchar](50) NULL,
	[positionname] [varchar](30) NULL,
	[salary] [varchar](20) NULL,
	[workyear] [varchar](20) NULL,
	[education] [varchar](20) NULL,
	[city] [varchar](20) NULL,
	[district] [varchar](20) NULL,
	[financestage] [varchar](50) NULL,
	[industryfield] [varchar](100) NULL,
	[firsttype] [varchar](50) NULL,
	[positionlables] [varchar](100) NULL
) ON [PRIMARY]
GO

【items.py】

# -*- coding: utf-8 -*-
# python 3.5

import scrapy

class LgjobItem(scrapy.Item):
	companyfullname = scrapy.Field()
	positionname = scrapy.Field()
	salary = scrapy.Field()
	workyear = scrapy.Field()
	education = scrapy.Field()
	city = scrapy.Field()
	district = scrapy.Field()
	financestage = scrapy.Field()
	industryfield = scrapy.Field()
	firsttype = scrapy.Field()
	positionlables = scrapy.Field()

【pipelines.py】结果保持到数据库

# -*- coding: utf-8 -*-
# python 3.5

import pymssql
from scrapy.conf import settings

class LgjobPipeline(object):

	def __init__(self):
		self.conn = pymssql.connect(
			host = settings['MSSQL_HOST'],  
			user = settings['MSSQL_USER'],  
			password = settings['MSSQL_PASSWD'],  
			database = settings['MSSQL_DBNAME'] 
		)
		self.cursor = self.conn.cursor()
		self.cursor.execute('truncate table lgjob;')
		self.conn.commit()
		
	def process_item(self, item, spider):
		try:
			self.cursor.execute(
                """INSERT INTO lgjob( companyfullname , positionname, salary, workyear, education
				, city,district, financestage, industryfield, firsttype, positionlables)
                VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)""",
                (
                    item['companyfullname'],
					item['positionname'],
					item['salary'],
                    item['workyear'],
					item['education'],
					item['city'],
                    item['district'],
					item['financestage'],
                    item['industryfield'],
                    item['firsttype'],
                    item['positionlables']
                )
            )
			self.conn.commit()
		except pymssql.Error as e:
			print(e)
		return item

【settings.py】配置参数（如数据库连接信息）

# -*- coding: utf-8 -*-

# Scrapy settings for lgjob project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     http://doc.scrapy.org/en/latest/topics/settings.html
#     http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
#     http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'lgjob'

SPIDER_MODULES = ['lgjob.spiders']
NEWSPIDER_MODULE = 'lgjob.spiders'

MSSQL_HOST = 'HZC'
MSSQL_USER = 'kk'
MSSQL_PASSWD = 'kk'
MSSQL_DBNAME = 'Myspider'

ITEM_PIPELINES = {
    'lgjob.pipelines.LgjobPipeline': 300,
}

【main.py】（自建的）

# -*- coding: utf-8 -*-
# python 3.5
# file path ../lgjob/lgjob/spiders/main.py
# perform:  scrapy crawl lgjob

import json
import scrapy
from lgjob.items import LgjobItem
from bs4 import BeautifulSoup

class MainLgjob(scrapy.Spider):
	name = 'lgjob'
	domain = ['lagou.com']
	start_url = ['https://www.lagou.com/zhaopin/']
	
	curpage = 1
	totalPageCount = 6
	keyword = "DBA"
	cururl = "https://www.lagou.com/zhaopin/%s/%s/?filterOption=3"%(keyword,curpage)
	
	def start_requests(self):
		return [scrapy.http.FormRequest(self.cururl,callback=self.parse)]
	
	def parse(self, response):
		soup = BeautifulSoup(response.body,'html.parser',from_encoding='utf-8')
		body_ul = soup.find_all("li" ,class_="con_list_item default_list")	
		for li in body_ul:
			item = LgjobItem()
			arg1 = li.find("div",class_="position").find("div",class_="p_top").find("em").get_text(strip=True)
			arg2 = li.find("div",class_="position").find("div",class_="li_b_l").get_text(" / ",strip=True)
			arg3 = li.find("div",class_="company").find("div",class_="industry").get_text(strip=True)
			arg4 = li.find("div",class_="list_item_bot").find("div",class_="li_b_r").get_text(strip=True)
			item['companyfullname'] = li.find("div",class_="company").find("div",class_="company_name").find("a").get_text(strip=True)
			item['positionname'] = li.find("div",class_="position").find("div",class_="p_top").find("h3").get_text(strip=True)
			item['salary'] = ((arg2 + "/").split('/')[0]).strip()
			item['workyear'] = ((arg2 + "/").split('/')[1]).strip()
			item['education'] = ((arg2 + "/").split('/')[2]).strip()
			item['city'] = (arg1+'·'+arg1).split('·')[0]
			item['district'] = (arg1+'·'+arg1).split('·')[1]
			item['industryfield'] = ((arg3 + "/").split('/')[0]).strip()
			item['financestage'] = ((arg3 + "/").split('/')[1]).strip()
			item['positionlables'] = arg4.strip('“').strip('”')
			item['firsttype'] = li.find("div",class_="list_item_bot").find("div",class_="li_b_l").get_text(",",strip=True)
			yield item
		
		if self.curpage < self.totalPageCount:
			self.curpage += 1
			self.cururl = "https://www.lagou.com/zhaopin/%s/%s/?filterOption=3"%(self.keyword,self.curpage)
			yield scrapy.http.FormRequest(self.cururl,callback=self.parse)

main.py 这个脚本有几个缺点，还没完善：

1. 总的页码需要手动定义（可以参考第一张图中的总记录计算总页码）

2. 其他筛选条件没有（只有搜索的岗位名称，城市则是在拉钩上设置的默认地方）

3. 访问到第6页时，则出现 302 重定向，爬虫终止结束了！

现在解决 1和3 的问题。

1. 总页数可以从web显示的页码那里获取（或者底部），如下图

定位到标签中，获取总页码：

page_num= soup.find("div" ,class_="page-number").find("span" ,class_="span totalNum").get_text(strip=True)

self.totalPageCount = int(page_num)

302 的问题，请求时添加 cookie，使其可以访问更多页。

登录之后找到cookie，cookie内有很多 “属性=值，属性=值…”，稍后都改为“键: 值,键: 值…” 。同样也可以看到其他 headers 信息。

【settings.py】此时的配置文件内容改为如下（cookie都改为“key-value”格式，顺便也添加了header）

# -*- coding: utf-8 -*-

# Scrapy settings for lgjob project

BOT_NAME = 'lgjob'

SPIDER_MODULES = ['lgjob.spiders']
NEWSPIDER_MODULE = 'lgjob.spiders'

MSSQL_HOST = 'HZC'
MSSQL_USER = 'kk'
MSSQL_PASSWD = 'kk'
MSSQL_DBNAME = 'Myspider'

ITEM_PIPELINES = {
    'lgjob.pipelines.LgjobPipeline': 300,
}

USER_AGENT = "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36"


#以下为使用 cookie 时添加. 不使用的话在文件 MainLgjob 注释
ROBOTSTXT_OBEY = False #不遵守Robot协议
DOWNLOAD_DELAY = 3 #延迟
COOKIES_ENABLED = True #启用 cookie

HEADERS = {
	'Connection': 'keep-alive',
	'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.78 Safari/537.36'
}
META = {
	'dont_redirect': True,
	'handle_httpstatus_list': [301, 302]
}
COOKIES = {
	'user_trace_token': 'xxxxxxxxxxxxxxxxxxxxxxxxxx',
	'LGUID': 'xxxxxxxxxxxxxxxxxxxxxxxxxx', 
	'sensorsdata2015jssdkcross': 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx',
	'_qddaz': 'QD.vr42sh.xxxxxxxxxxxxx.xxxxxxxxxxxxx',
	'JSESSIONID': 'xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx',
	'_putrc': 'xxxxxxxxxxxxxxxxxxxxxxxxxx',
	'login': 'true',
	'unick': 'xxxxxxxxxxxxxxxxxxxxxxxxxx',
	'showExpriedIndex': '1',
	'showExpriedCompanyHome': '1',
	'showExpriedMyPublish': '1',
	'hasDeliver': '49',
	'SEARCH_ID': 'xxxxxxxxxxxxxxxxxxxxxxxxxx',
	'index_location_city': 'xxxxxxxxxxxxx',
	'Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6': 'xxxxxxxxxxxxx',
	'Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6': 'xxxxxxxxxxxxx',
	'_ga': 'GA1.2.437277179',
	'LGRID': 'xxxxxxxxxxxxx'
}

【main.py】请求信息 scrapy.http.FormRequest 把 cookie 和 header 也加上去

# -*- coding: utf-8 -*-
# python 3.5
# file path ../lgjob/lgjob/spiders/main.py
# perform:  scrapy crawl lgjob

import json
import scrapy
from lgjob.items import LgjobItem
from bs4 import BeautifulSoup
from scrapy.conf import settings

class MainLgjob(scrapy.Spider):
	name = 'lgjob'
	domain = ['.lagou.com']
	start_url = ['https://www.lagou.com/zhaopin/']
	
	#不使用cookie，注释 Request的 ,headers=self.headers, cookies=self.cookies, meta=self.meta
	meta = settings['META']
	cookies = settings['COOKIES']
	headers = settings['HEADERS']
	
	curpage = 1
	totalPageCount = 1
	keyword = u"DBA"
	cururl = "https://www.lagou.com/zhaopin/%s/%s/?filterOption=3"%(keyword,curpage)
	
	def start_requests(self):
		return [scrapy.http.FormRequest(self.cururl,callback=self.parse,headers=self.headers, cookies=self.cookies, meta=self.meta)]
	
	def parse(self, response):
		soup = BeautifulSoup(response.body,'html.parser',from_encoding='utf-8')
		body_ul = soup.find_all("li" ,class_="con_list_item default_list")
		
		#每次获取总页码
		page_num= soup.find("div" ,class_="page-number").find("span" ,class_="span totalNum").get_text(strip=True)
		self.totalPageCount = int(page_num)
		for li in body_ul:
			item = LgjobItem()
			arg1 = li.find("div",class_="position").find("div",class_="p_top").find("em").get_text(strip=True)
			arg2 = li.find("div",class_="position").find("div",class_="li_b_l").get_text(" / ",strip=True)
			arg3 = li.find("div",class_="company").find("div",class_="industry").get_text(strip=True)
			arg4 = li.find("div",class_="list_item_bot").find("div",class_="li_b_r").get_text(strip=True)
			item['companyfullname'] = li.find("div",class_="company").find("div",class_="company_name").find("a").get_text(strip=True)
			item['positionname'] = li.find("div",class_="position").find("div",class_="p_top").find("h3").get_text(strip=True)
			item['salary'] = ((arg2 + "/").split('/')[0]).strip()
			item['workyear'] = ((arg2 + "/").split('/')[1]).strip()
			item['education'] = ((arg2 + "/").split('/')[2]).strip()
			item['city'] = (arg1+'·'+arg1).split('·')[0]
			item['district'] = (arg1+'·'+arg1).split('·')[1]
			item['industryfield'] = ((arg3 + "/").split('/')[0]).strip()
			item['financestage'] = ((arg3 + "/").split('/')[1]).strip()
			item['positionlables'] = arg4.strip('“').strip('”')
			item['firsttype'] = li.find("div",class_="list_item_bot").find("div",class_="li_b_l").get_text(",",strip=True)
			yield item
			
		if self.curpage < self.totalPageCount:
			self.curpage += 1
			self.cururl = "https://www.lagou.com/zhaopin/%s/%s/?filterOption=3"%(self.keyword,self.curpage)
			yield scrapy.http.FormRequest(self.cururl,callback=self.parse,headers=self.headers, cookies=self.cookies, meta=self.meta)

执行爬取命令： scrapy startproject lgjob

爬取过程中命令行页面会显示每个属性值，本人电脑执行大约每5秒完成拉钩一页15个公司的数据处理。

最终结果如下：

参考：

Beautiful Soup 4.2.0 文档

Scrapy 0.24 文档

【python爬虫02】使用Scrapy框架爬取拉勾网招聘信息

【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（1）

Python爬虫系列之----Scrapy(八)爬取豆瓣读书某个tag下的所有书籍并保存到Mysql数据库中去

Scrapy中使用cookie免于验证登录和模拟登录

Python 分支语句，分支语句嵌套，三目运算龙技术 Python语法 python
1、分支语句单一条件判断if条件：条件成立时执行的代码#格式:'''if条件:条件成立时执行的代码'''age=int(input('请输入你的年龄:'))#上网ifage>=18:print('小帅哥快来玩啊')print('回家睡觉')对立条件判断if条件：条件成立时执行的代码else：条件不成立时执行的代码#if...else...'''if条件:条件成立时执行的代码else:条件不成立时执
十五天Python系统学习教程第十五天
Day15详细学习计划：Python综合项目实战与学习路径规划学习目标✅综合运用前14天知识完成完整项目开发✅掌握生产级项目架构设计与优化技巧✅制定后续学习计划与技能提升方案✅理解Python工程化开发最佳实践一、实战项目：企业级任务管理系统1.1项目需求核心功能：用户认证（JWT令牌）任务CRUD与状态流转（待办/进行中/已完成）任务分类与优先级管理数据统计可视化（任务完成率/耗时分析）邮件通知
Python分支语句注意事项乔代码嘚 python 开发语言 github
一、单分支语句：if语句1.语法:if：语句块2.注意事项:1）if语句首先判断的结果值，如果结果为True，则执行语句块里的语句序列。如果结果为False，语句块里的语句会被跳过；2）语句块是if条件满足后执行的一个或多个语句序列；3）语句块中语句通过与if所在行形成缩进表达包含关系。4）if判断语句还可以简写：iftag:print("True")当x为0、0.0、0j、None或者空的字符串
python函数
四、函数定义P.1函数定义把一段实现某个功能的完整代码，用一个函数封装，后期可以通过调用函数名，实现依次编写，多次调用的目的函数，可以等价于我们初高中学过的f(x)，f是运算法则，也就是代码函数中对应的代码执行块，每有一个x对应经过f运算之后得到一个值，如f(x)对应的是让x乘3加2，每有一个x进入f中便会得到一个值。高中对应的函数三要素是，定义域、运算法则、值域，而编程中的函数也有三要素，分别为
Python程序员如何制定学习计划？提高编写代码的能力
在工作和生活压力之下，如何提升自己的技能和能力？这是许多人都面临的问题。如果你也有这样的问题，那么首先要明确的是，要想提升自己的能力，必须要有一个清晰的计划和方向。这个计划可以是长期的，也可以是短期的，但必须要有一个大的方向性。接下来，我们来看看如何制定一个有效的计划。如果你不知道如何制定计划，其实很简单。你可以闭上眼睛，想一想自己哪些方面比较薄弱，比如多线程锁、Spring的一些核心技术源码、分
Python: 包
一、Python包基础概念1.1什么是Python包Python包(Package)是一种组织Python模块的方式，它使用目录结构来组织相关的模块。一个包本质上是一个包含__init__.py文件的目录，该文件可以是空的，也可以包含包的初始化代码。my_package/├──__init__.py├──module1.py└──module2.py1.2包与模块的区别模块(Module):单个.
PyTorch 详细安装教程及核心API使用指南慕婉0307 pytorch pytorch 人工智能 python
一、PyTorch简介PyTorch是由FacebookAIResearch(FAIR)于2016年开发的开源深度学习框架，现已成为学术界和工业界最受欢迎的深度学习工具之一。其核心优势在于采用了动态计算图（DynamicComputationGraph，又称"define-by-run"机制），这使得开发者能够像编写普通Python代码一样构建神经网络，并在运行时动态调整计算图结构，大大提高了研究
python爬虫正则表达式使用说明 yuwinter Python python 爬虫正则表达式
Python爬虫和正则表达式是自动化网络数据提取中常用的两种技术。本文将详细介绍如何使用Python编写爬虫，结合正则表达式提取网页中的数据。一、基础知识点1.安装必要库爬虫通常需要使用库来处理HTTP请求和解析网页，常用库有：requests：用于发送HTTP请求，获取网页内容。re：Python自带的正则表达式库，用于模式匹配和提取数据。BeautifulSoup（可选）：如果你需要更高级的网
python：正则表达式符号初于青丝mc终于白发 python相关正则表达式 python pycharm
本次给大家带来的是python中的正则表达式符号的复习呀，还记得清楚嘛^^？匹配零次或一次前面的分组*匹配零次或多次前面的分组+匹配一次或多次前面的分组{n}匹配n次前面的分组{n，}匹配n次或更多次前面的分组{，m}匹配零次或m次前面的分组{n，m}匹配至少n次，至多m次前面的分组{n，m}？、*？、+？对前面的分组进行非贪心匹配^spam意味着字符串必须以spam开始spam$意味着字符串必须
Python：正则表达式慕婉0307 python基础知识点正则表达式
正则表达式是处理文本数据的强大工具，Python通过re模块提供了完整的正则表达式功能。本文将详细介绍Python正则表达式的使用方法，包括基础语法、高级技巧和re模块API的详细解析。一、正则表达式基础1.1什么是正则表达式正则表达式(RegularExpression)是一种用于匹配字符串中字符组合的模式，可以用于搜索、替换和验证文本数据。1.2Python中的re模块Python通过内置的r
PythonOCC-core项目中的Wayland显示支持探索颜如良
PythonOCC-core项目中的Wayland显示支持探索pythonocc-coretpaviot/pythonocc-core:是一个基于Python的OpenCASCADE(OCCT)几何内核库，提供了三维几何形状的创建、分析和渲染等功能。适合对3D建模、CAD、CAE以及Python有兴趣的开发者。项目地址:https://gitcode.com/gh_mirrors/py/pytho
【Python 算法零基础 4.排序 ⑦ 桶排序】 L_cl Python常见算法排序算法数据结构算法
草木不争高，争的是生生不息——25.5.26选择排序回顾①遍历数组：从索引0到n-1（n为数组长度）。②每轮确定最小值：假设当前索引i为最小值索引min_index。从i+1到n-1遍历，若找到更小元素，则更新min_index。③交换元素：若min_index≠i，则交换arr[i]与arr[min_index]。'''①遍历数组：从索引 0 到 n-1（n 为数组长度）。②每轮确定最小值：假设
【Python 算法零基础 4.排序 ⑥ 快速排序】 L_cl Python常见算法排序算法算法
既有锦绣前程可奔赴，亦有往日岁月可回首——25.5.25选择排序回顾①遍历数组：从索引0到n-1（n为数组长度）。②每轮确定最小值：假设当前索引i为最小值索引min_index。从i+1到n-1遍历，若找到更小元素，则更新min_index。③交换元素：若min_index≠i，则交换arr[i]与arr[min_index]。'''①遍历数组：从索引 0 到 n-1（n 为数组长度）。②每轮确定
Python练习--Day1 IT小白成长记 python
1、输入三个整数：判断这三个整数能否组成一个三角形？构成三角形的条件：任意两个数之和大于第三个数首先输入三个数：使用Python内置函数input()从标准输入读入一行文本，默认的标准输入为键盘输入input所读入内容的数据类型为字符串类型，需要使用int、float等转换成我们需要的数据类型使用分支结构判断a=int(input("请输入第一个整数："))b=int(input("请输入第二个整
基于python+flask框架的某图书馆书籍推荐系统的设计与实现（开题+程序+论文）计算机毕设 zhihao502 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景在数字化时代，图书馆作为知识传播与积累的重要场所，面临着如何更有效地服务于广大读者的挑战。随着信息量的爆炸式增长，读者在浩瀚的书海中寻找符合个人兴趣和需求的书籍变得日益困难。传统的图书检索方式已难以满足读者快速、精准获取推荐书籍的需求。因此，开发一套智能化的图书馆
【Python】深入解析 Hydra 库宅男很神经 python 开发语言
第一章:混沌的终结：在配置泥潭中挣扎与Hydra的曙光在任何一个软件项目的生命周期中，无论是小型的个人脚本，还是大型的企业级分布式系统，我们都无法回避一个核心问题：如何管理配置。配置，是连接我们静态的代码逻辑与动态的运行环境之间的桥梁。它决定了我们的程序连接哪个数据库、使用哪个API密钥、以多大的批次处理数据、模型的学习率应该是多少、日志应该输出到哪里、以何种级别输出…可以说，配置定义了程序的行为
“解锁自动化新可能：使用Robocorp构建Python机器人“ sjufgwgfhoia 自动化 python 服务器
在这个快速变化的技术时代，自动化已经成为提高生产力和效率的关键驱动力。Robocorp提供了一种强大且灵活的平台，帮助开发者构建和运行Python机器人，以满足各类业务需求。引言在本文中，我们将深入探讨如何使用Robocorp构建和操作可以运行在任何地方且具备任意规模的Python工作器。本文旨在帮助你快速上手Robocorp平台的安装和设置，并分享如何在实践中应用它。主要内容1.Robocorp
Conda 虚拟环境与 venv、virtualenv、pipenv 的对比 drebander conda virtualenv python
1.引言在Python开发中，虚拟环境是解决不同项目依赖冲突的关键工具。Python提供了多种虚拟环境管理工具，包括Conda、venv、virtualenv和pipenv。每种工具都有其独特的特点和适用场景。本篇博客将简要对比这些工具，帮助你选择最适合的虚拟环境管理工具。2.Conda虚拟环境2.1Conda概述Conda是Anaconda提供的跨平台、跨语言的包和环境管理工具。除了管理Pyth
量化开发（系列第3篇）： C++在高性能量化交易中的核心应用与技术栈深度解析 Natsume1710 c++开发语言性能优化 python
本文为《量化开发》系列第3篇参考GitHub项目：Awesome-QuantDev-Learn前言在量化交易领域，Python以其开发效率高、生态系统丰富等优势，成为策略研究、数据分析及中低频交易的首选语言。在本系列前两篇文章中，我们详细探讨了Python在量化入门与策略回测中的实践。然而，当进入对延迟要求极为严苛的高频交易（High-FrequencyTrading,HFT）领域时，Python
使用Robocorp和LangChain构建可扩展的Python自动化工作流 qq_37836323 langchain python 自动化
使用Robocorp和LangChain构建可扩展的Python自动化工作流引言在当今快速发展的技术世界中，自动化已成为提高效率和生产力的关键。Robocorp是一个强大的平台，它允许开发者构建和运行可在任何地方、任何规模无缝运行的Python工作流。本文将探讨如何结合Robocorp和LangChain来创建灵活、可扩展的自动化解决方案。Robocorp简介Robocorp是一个现代化的自动化平
Robocorp自动化框架使用教程
Robocorp自动化框架使用教程robocorpCreatePythonAIActionsandAutomations,anddeploy&operatethemanywhere项目地址:https://gitcode.com/gh_mirrors/ro/robocorp1.项目介绍Robocorp是一个开源自动化框架，旨在帮助开发者创建PythonAIActions和自动化任务，这些任务可以部
Python量化策略与回测框架实战：从“纸上谈兵”到“真金白银”的第一步（系列第2篇） Natsume1710 python 开发语言 github
作者：GitHub项目地址Awesome-QuantDev-Learn本文为量化开发学习路线系列第2篇，欢迎收藏与关注。引言：为什么选择Python作为量化入门的起点？在上一篇文章中，我们详细讲解了量化开发的基本框架与开发者思维的转变路径。那么，具体要如何开始第一步实践呢？答案是：从Python入门。Python以其快速原型开发能力、丰富的数据分析工具包，以及良好的社区生态，已经成为全球范围内量化
【Python】Python 3.10 新特性月落一寸光 Python新特性 python 开发语言
文章目录前言：一、新特性1.1PEP617；带括号的上下文管理器1.2更清楚的错误消息1.3PEP634：结构化模式匹配（match）1.4PEP604：有关类型提示的新增特性1.5PEP613：类型别名二、改进的模块2.1`asyncio`2.2`argparse`2.3`base64`2.4`collections.abc`2.5`dataclasses``__slots__`2.6`trac
程序代码篇---Python指明函数参数类型
文章目录前言简介一、函数参数的类型指定1.基本类型提示2.默认参数3.可变参数4.联合类型（Union）5.可选类型（Optional）6.复杂类型二、返回值的类型指定1.基本返回类型2.无返回值（None）3.返回多个值（Tuple）4.生成器（Generator）三、高级类型提示用法1.类型别名（TypeAliases）2.泛型（Generics）3.可调用对象（Callable）4.NewT
五、Python新特性指定类型用法 ZingKings Python python
1.什么是类型注解类型注解是Python3.5+引入的特性，用于为变量、函数参数和返回值指定类型。它不会影响代码运行，但有助于代码可读性和IDE支持。2.基本类型注解#变量类型注解name:str="张三"age:int=25height:float=175.5is_student:bool=True#列表类型注解numbers:list[int]=[1,2,3,4,5]names:list[st
python笔记-Selenium谷歌浏览器驱动下载 hero.zhong python 笔记 selenium
Selenium谷歌浏览器驱动下载地址：https://googlechromelabs.github.io/chrome-for-testing/#stable下面是遇到的问题：python网络爬虫技术中使用谷歌浏览器代码，报错：OSError:[WinError193]%1不是有效的Win32应用程序：遇到错误OSError:[WinError193]%1不是有效的Win32应用程序通常意味着
网络编程底层通信（socket） En^_^Joy python应用网络 python
文章目录一、socket函数介绍二、TCP/IP服务端/客户端三、UDP/IP服务端/客户端四、多线程服务器（threading）五、网络编程常见问题（地址复用、粘包、数据长度）网络编程指通过计算机网络实现程序间通信的技术。Python提供了丰富的库支持各种网络协议和编程模式套接字是网络通信的基本操作单元，是应用层与TCP/IP协议族通信的中间软件抽象层。它提供了一组接口，允许不同主机或同一主机的
python unicode汉字转成各种进制，以及进制互相转换丧尽天良的良！ python python
例如，汉字：“五”的unicode编码为：4e94，使用二进制的结果为：100111010010100，转换为十进制是：20116对应转换如下：
Python办公—Excel嵌入图片提取&重命名(包含重复图片) 小庄-Python办公 Python办公自动化 python excel Excel图片获取 Excel批量获取嵌入图片 Excel嵌入图片
目录专栏导读背景解决方案1、背景介绍2、库的介绍①：openpyxl3、库的安装4、核心代码5、完整代码总结专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅此外还有爬虫专栏：请点击——>Python爬虫基础专栏求订阅此外还有python基础专栏：请点击—
Python 是如何执行我的代码的？冰糖心书房 Python python java linux
理解Python如何执行你的代码，可以帮助我们解释很多“为什么”——为什么会有.pyc文件？为什么Python相对较慢？多线程为什么不能利用多核？我们可以用一个“厨师做菜”的比喻来理解整个过程，然后再深入技术细节。一、比喻：厨师（Python）根据菜谱（你的代码）做菜想象一下，你是一位顾客，写了一份非常精确的菜谱（你的.py文件）交给一位名叫CPython的大厨（最常见的Python解释器）。第一
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

Python scrapy 爬取拉勾网招聘信息

你可能感兴趣的:(Python)