TTTALK

Python网络爬虫使用教程

文章目录

- 一、URL资源抓取
- 1.urllib
- 2.requests
- 3.requests-html
- 二、正则表达式
- 三、数据解析
- 1.Beautiful Soup
- 2.lxml
- 3.selectolax
- 四、自动化爬虫selenium
- 五、爬虫框架
- 1.Scrapy
- 2.pyspider框架
- 六、模拟登录与验证码识别
- 七、autoscraper（不需要编程基础）

一、URL资源抓取

1.urllib

(1)介绍：urllib 模块是 Python 标准库，用于抓取网络上的 URL 资源。
注：现在用的更多的是第三方库requests，requests 模块比 urllib 模块更简洁。
(2)模块：
urllib.request：请求模块，用于打开和读取 URL；
urllib.error：异常处理模块，捕获 urllib.error 抛出异常；
urllib.parse：URL 解析，爬虫程序中用于处理 URL 地址；
urllib.robotparser：解析 robots.txt 文件，判断目标站点哪些内容可爬，哪些不可以爬，但是用的很少。
(3)urllib.request使用示例
①urlopen
语法：

urllib.request.urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,
            *, cafile=None, capath=None, cadefault=False, context=None)

url：请求地址，必选参数；
data：请求参数，必须为 bytes 类型数据，可以使用 urlencode() 进行编码；
headers：字典类型，请求头设置；
origin_req_host：请求的主机地址，IP 或域名；
method：请求方法。
示例：

from urllib.request import urlopen

with urlopen('https://www.example.net') as html:
page = html.read()
print(page) #读取整个网页数据
print(html.getcode()) # 返回 200

②urllib.parse（解析数据）
语法：urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)
urlstring：URL 地址；
scheme：协议类型，可用的包括 file、ftp、gopher、hdl、http、https、imap、mailto、 mms、news、nntp、prospero、rsync、rtsp、rtspu、sftp、 sip、sips、snews、svn、svn+ssh、telnet……；
allow_fragments：是否忽略 URL 中的 fragment 部分。
示例：

from urllib.parse import urlparse

result = urlparse('http://www.example.com/index.html;info?id=10086#comment')
print(type(result), result)
print(result.scheme, result[0])
print(result.netloc, result[1])
print(result.path, result[2])
print(result.params, result[3])
print(result.query, result[4])
print(result.fragment, result[5])

其中要注意的是url的格式：info：最后一个路径元素参数，不常用；id=10086：查询字符串；comment：片段标志。

2.requests

(1)介绍：第三方库就是 requests，该库开源地址为：https://github.com/psf/requests
帮助文档：https://requests.readthedocs.io/projects/cn/zh_CN/latest/ （翻译质量不高，大致看看）
(2)安装（记得重新打开cmd界面） pip install requests
(3)使用示例
①get
示例1–直接请求网页：

import requests

x = requests.get('https://www.baidu.com/')
print(x.text) # 返回网页内容
print(x.status_code) # 返回 http 的状态码

示例2–请求json文件：

import requests

x = requests.get('https://www.runoob.com/try/ajax/json_demo.json')
print(x.json())# 返回 json 数据

示例3–带参数和header：

import requests
 
kw = {'s':'python 教程'} #form表单参数
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}# params 接收一个字典或者字符串的查询参数，字典类型自动转换为url编码，不需要urlencode()
response = requests.get("https://www.baidu.com/", params = kw, headers = headers)
print(response.text)  # 查看响应内容，response.text 返回的是Unicode格式的数据

②post
示例：

import requests

myobj = {'fname': 'RUNOOB','lname': 'Boy'}
x = requests.post('https://www.runoob.com/try/ajax/demo_post2.php', data = myobj)
print(x.text)

3.requests-html

(1)介绍:是对requests(同作者),lxml,pyppeteer等的封装,python3.6版本以上才能使用。特点是集资源爬取和数据解析为一体。
官方手册查询地址：requests-html.kennethreitz.org/
特性如下（后面的使用示例会一一体现）：
①支持JavaScript
②支持CSS选择器（又名jQuery风格, 感谢PyQuery）
③支持Xpath选择器
④可自定义模拟User-Agent（模拟得更像真正的web浏览器）
⑤自动追踪重定向
⑥连接池与cookie持久化
⑦支持异步请求
(2)安装：pip install requests-html
(3)使用
示例：

from requests_html import HTMLSession #导入

session = HTMLSession() #开启请求会话
r = session.get('https://blog.csdn.net/tttalk?type=blog') #发送get请求到csdn，获取响应文本信息
print(r) #返回
print(r.html.links) # 得到该网页所有的链接，返回的是一个set集合
print(r.html.xpath('//*[@id="userSkin"]/div[2]/div/div[1]/div/div[1]/ul/li/div[2]/div/span[2]')) #支持xpath
r.html.render() #支持js脚本，但是需要在第一次执行render的时候下载chromeium（执行这段代码后自动下载）
#定义js脚本
geturl="""
  () =>
   {
 return{ url:document.location.href}
   }
"""
#运行js
print(r.html.render(script=geturl))
print(r.html.find('#userSkin')) #支持css选择器，用法是 .find('css选择器'，first = True) # 可以在发送请求的时候更换user-agent,如这里切换为火狐浏览器
ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0'
post_url = 'https://blog.csdn.net/tttalk?type=blog'
res = session.get(post_url, headers={'user-agent': ua})
print(res.html.html)

# 使用异步发送请求
async_session = AsyncHTMLSession()

async def get_baidu():
    url = 'https://www.baidu.com/'
    res = await async_session.get(url)
    print(res.html.absolute_links)

async def get_sougou():
    url = 'https://www.sogou.com/'
    res = await async_session.get(url)
    print(res.html.links)

start_time = time.time()
async_session.run(get_baidu, get_sougou)
print('耗时：', time.time() - start_time)

# 使用同步发送请求，最后结果可以看到异步更快
session2 = HTMLSession()
start_time = time.time()
res = session2.get('https://www.baidu.com/')
print(res.html.links)
res = session2.get('https://www.sogou.com/')
print(res.html.absolute_links)
print('耗时：', time.time() - start_time)

二、正则表达式

1.原生字符串
原生字符串，需要在字符串前面加上 r。这个用法在正则中会经常使用。
如：

my_str='C:\number'
print(my_str) #打印结果为 C:换行  umber
my_str_ori=r'C:\number'
print(my_str_ori) #打印结果正常

2.re库相关函数
re.search(pattern,string,flags=0)：在字符串中搜索正则表达式匹配到的第一个位置的值，返回 match 对象。
re.match(pattern,string,flags=0)：该函数用于在目标字符串开始位置去匹配正则表达式，返回 match 对象，未匹配成功返回 None
re.findall(pattern,string,flags=0)：以列表格式返回全部匹配到的字符串
re.split(pattern, string, maxsplit=0, flags=0)：该函数将一个字符串按照正则表达式匹配结果进行分割，返回一个列表
re.finditer(pattern,string,flags=0)：搜索字符串，并返回一个匹配结果的迭代器，每个迭代元素都是 match 对象
re.sub(pattern,repl,string,count=0,flags=0)：在一个字符串中替换被正则表达式匹配到的字符串，返回替换后的字符串
示例：

import re 

str = r'我的滑板鞋，时尚时尚最时尚，yoyoyo'
pattern1 = r'时尚'
pattern2 = r'，'

print(re.search(pattern1, str))  #
print(re.match(r'我', str))   #
print(re.findall(pattern1, str)) #['时尚', '时尚', '时尚']
print(re.split(pattern2, str,maxsplit=1)) #['我的滑板鞋', '时尚时尚最时尚，yoyoyo']
print(re.finditer(pattern2, str))  #
print(re.sub(pattern2,'nice', str)) #我的滑板鞋nice时尚时尚最时尚niceyoyoyo

三、数据解析

1.Beautiful Soup

(1)介绍：Beautiful Soup 是一款 Python 解析库，主要用于将 HTML 标签转换为 Python 对象树，然后让我们从对象树中提取数据。
它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。

(2)安装：pip install beautifulsoup4

(3)使用介绍
示例：

import requests
from bs4 import BeautifulSoup

html = '''
The Dormouse's story
    
side title:side title oneside title two

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...
'''
#使用BeautifulSoup对网页代码进行解析，这里使用Python标准库——html.parser
soup = BeautifulSoup(html, "html.parser")

print(soup.title) # 获取html代码中的titile标签--The Dormouse's story
print(soup.title.text) # 获取html代码中的titile内容--The Dormouse's story
print(soup.p.contents) #tag的 .contents 属性可以将tag的子节点以列表的方式输出--['side title:', side title one, side title two]

print(soup.title.parent) #通过 .parent 属性来获取某个元素的父节点，通过元素的 .parents 属性可以递归得到元素的所有父辈节点
	
print(soup.b.next_sibling) #通过.next_sibling获取兄弟节点的下一个，注意这里的b为找到的第一个b标签--side title two
print(soup.b.previous_sibling) #通过.privious_sibling获取兄弟节点的上一个--side title:

print(soup.find_all("a")) #找到所有a标签
print(soup.find("a")) #找到第一个a标签
print(soup.find_all(id="link3")) #找到所有id为link3的标签
print(soup.select("p b"))#select选择器找到所有p标签下的b标签
print(soup.select_one("p b"))#select选择器找到所有p标签下的第一个b标签

for i in soup.p.children:  #这里输出所有标签为title的子内容
    print(i)

2.lxml

(1)介绍：lxml 库是一款 Python 数据解析库，其主要功能是解析和提取XML和HTML中的数据。
官方文档地址（英文）：https://lxml.de/。项目开源地址：https://github.com/lxml/lxml
(2)安装：pip install lxml
(3)基本使用
①lxml.etree：通过etree.HTML直接将字符串实例转化为element对象
例：

import requests
from lxml import etree
 
res = requests.get("http://www.jsons.cn/zt/")
html = res.text
root_element = etree.HTML(html) 
print(root_element)
print(root_element.tag)

②解析html网页
例：

from lxml import etree

text = '''
The Dormouse's story
    
side title:side title oneside title two

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...
'''
# 开始初始化
html = etree.HTML(text)  # 这里需要传入一个html形式的字符串
print(html)
print(type) #

#获取xpath的方法：以chrome为例，F12打开Elements界面选择某一元素右键Copy-Copy Xpath:结果大概长这样--//*[@id="1"]
#提取所有a标签内的文本信息
xpath_bds='//a/text()' # 书写xpath表达式,提取文本最终使用text()
list1=html.xpath(xpath_bds) # 提取文本数据，以列表形式输出
print(list1)
#获取所有href的属性值
xpath_bds='//a/@href'
list2=html.xpath(xpath_bds)
print(list2)
#获取所有class为sister的a标签
xpath_bds='//a[@class="sister"]/text()'  #如果不加/text()返回的是三个对象
list3=html.xpath(xpath_bds)
print(list3)


# 将字符串序列化为html字符串
result = etree.tostring(html).decode('utf-8')
print(result)
print(type(result)) #

注意：html可以通过文件进行读取，如html = etree.parse(‘1.html’)，result = etree.tostring(html).decode(‘utf-8’)

3.selectolax

(1)特点：对比lxml和Beautiful Soup解析速度快，解析能力强。缺点是不支持xpath，需要了解一些前端知识。
(2)安装：pip install selectolax
(3)实战教程
例–从示例可以看出selectolax的解析效率为lxml的三倍左右：

import time
import requests
from lxml import etree
from selectolax.parser import HTMLParser

url = 'https://www.baidu.com'
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36 Edg/103.0.1264.71'
}
html = requests.get(url, headers=headers).text

def use_lxml():
    start = time.time()
    for _ in range(1000):
        tree = etree.HTML(html)
        lis = tree.xpath('//ul[@id="hotsearch-content-wrapper"]/li')
    end = time.time()
    print(f'耗时{end - start:.2f}秒  使用lxml')

def use_selectolax():
    start = time.time()
    for _ in range(1000):
        html_parser = HTMLParser(html)
        lis = html_parser.css('ul#hotsearch-content-wrapper > li')
    end = time.time()
    print(f'耗时{end - start:.2f}秒  使用selectolax')


if __name__ == '__main__':
    use_lxml()
    use_selectolax()

四、自动化爬虫selenium

(1)介绍：Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器。
因为Selenium可以控制浏览器发送请求，并获取网页数据，因此可以应用于爬虫领域。

官方文档：Selenium with Python — Selenium Python Bindings 2 documentation

(2)安装
安装selenium:pip install selenium
安装浏览器驱动包WebDriver：
chrome ：http://npm.taobao.org/mirrors/chromedriver/
firefox ：https://github.com/mozilla/geckodriver/releases
Edge:https://developer.microsoft.com/en-us/micrsosft-edage/tools/webdriver
Safari:https://webkit.org/blog/6900/webdriver-support-in-safari-10/

例：
以chrome为例，先查看chrome当前版本如114.0.5735.110（正式版本）（64 位），再找到5735对应的版本包，如114.0.5735.16/114.0.5735.90选其一下载即可(下载chromedriver_win32.zip)。
驱动包不需要安装，只需要解压到项目目录，后续会在代码中调用。记住该地址，需要在环境变量中进行配置。如：D:\tools\chromedriver_win32。
然后测试配置是否正确，若运行代码出现谷歌浏览器，则表示安装完成：

from selenium import webdriver
driver = webdriver.Chrome()

(3)使用
注：在后面验证码识别模块中，有一个实战的示例可以参考
Ⅰ.对浏览器基本操作
例：

from selenium import webdriver

driver = webdriver.Chrome()
driver.set_window_size(800,600) # 设置浏览器大小
driver.maximize_window() # 可以直接最大化
driver.get("http://www.baidu.com")# 打开百度
driver.get("https://www.csdn.net/")  # 打开 CSDN 首页
time.sleep(1)  # 暂停1秒钟
driver.back()  # 回退
time.sleep(1)  # 暂停1秒钟
driver.forward()  # 前进
time.sleep(1)  # 暂停1秒钟
driver.refresh()  # 页面刷新
time.sleep(1)  # 暂停1秒钟
driver.quit()  # 浏览器关闭

Ⅱ.网页元素定位
Selenium3版本的元素定位如:driver.find_element_by_id(“value”) # 利用ID定位
Selenium4已经不再支持上面的写法，我们需要导入By方法，改变我们的元素定位写法，如：
find_element(By.ID,“inputOriginal”)
find_element(By.CSS_SELECTOR,“#inputOriginal”)
find_element(By.TAG_NAME,“div”)
find_element(By.NAME,“username”)
find_element(By.LINK_TEXT,“下一页”)
find_element(by=By.XPTAH,value=‘XXX’),这个非常好用，xpath的值可以浏览器F12后直接右键copy-copy Xpath

例:

from selenium import webdriver
from selenium.webdriver.common.by import By #引入By方法

driver = webdriver.Chrome()
driver.maximize_window() # 可以直接最大化
driver.get("https://blog.csdn.net/tttalk/article/details/130063341?spm=1001.2014.3001.5502")  # 打开 CSDN某个网页
driver.find_element(By.ID,"toolbar-search-input").send_keys("TTTALK")  # 通过ID检索搜索框，并输入文本
driver.find_element(By.ID,"toolbar-search-button").click()  # 通过ID检索搜索按钮，并点击

五、爬虫框架

1.Scrapy

(1)介绍:Scrapy 是适用于 Python 的一个快速、高层次的屏幕抓取和 web 抓取框架，用于抓取 web 站点并从页面中提取结构化的数据。Scrapy 用途广泛，可以用于数据挖掘、监测和自动化测试。
scrapy内容较多较复杂，这里只作入门级别的教学，更多内容参考官方相关文档如下：
scrapy 官网：https://scrapy.org；
scrapy 文档：https://doc.scrapy.org/en/latest/intro/tutorial.html；
scrapy 更新日志：https://docs.scrapy.org/en/latest/news.html。
(2)安装:pip install scrapy
控制台输入scrapy，若出现如下内容则安装成功：

Scrapy 2.9.0 - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  bench         Run quick benchmark test
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory

Use "scrapy  -h" to see more info about a command

注意：Available commands部分是 scrapy 的内置命令列表，标准的格式的 scrapy ，通过 scrapy -h 可以查看指定命令的帮助手册

(3)使用
①新建项目
scrapy startproject my_scrapy D:\tools\scrapy
cd /d D:\tools\scrapy
scrapy genspider -l #查看所有模板，默认是basic
scrapy genspider pm imspm.com #创建第一个 scrapy 爬虫文件,语法是scrapy genspider [-t template]
此时在D:\tools\scrapy\my_scrapy\spiders路径下，生成了pm.py文件
测试爬虫运行：scrapy crawl pm
成功运行后，日志结果如下：

[scrapy.utils.log] INFO: Scrapy 2.9.0 started (bot: my_scrapy)

②项目文件介绍
Ⅰ.项目中的文件的简单说明
scrapy.cfg：配置文件路径与部署配置；
items.py：目标数据的结构；
middlewares.py：中间件文件；
pipelines.py：管道文件；
settings.py：配置信息。
pm.py：爬虫程序文件。

③获取网页源码
将文件中的allowed_domain和start_urls中的imspm.com改为www.imspm.com，将pass改为print(response.text)，此时pm.py内容如下

import scrapy

class PmSpider(scrapy.Spider):
    name = "pm"
    allowed_domains = ["www.imspm.com"]
    start_urls = ["https://www.imspm.com"]

    def parse(self, response):
        print(response.text)

其中的 parse 表示请求 start_urls 中的地址，获取响应之后的回调函数，直接通过参数 response 的 .text 属性进行网页源码的输出。
再次启动：scrapy crawl pm
此时可以看到控制台输出了完整的html页面。

③实战教程
之前网上参考的imspm网站现在网页结构已经修改，网上的那些教程我实践了下全失效了。这里找了另一个实例。
这里选用的爬虫网站为职友集阿里招聘网https://www.jobui.com/company/281097/jobs
可以看到该网站内容比较简单，分页处理也比较简单（直接在url后面拼接页码），如下所示
图片1图片2…
步骤1-新建项目(重新打开cmd)：scrapy startproject ali_scrapy D:\tools\scrapyProjects\ali
步骤2-创建爬虫程序文件：

cd /d  D:\tools\scrapyProjects\ali
scrapy genspider ali https://www.jobui.com/company/281097/jobs #ali为py文件名称

步骤3-定义item文件，作用是对源码进行解析和存储

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

#定义一个item类继承scrapy.Item
class AlibabaItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    job_title = scrapy.Field() #定义职位名称数据属性
    address = scrapy.Field() #定义就职地点数据属性
    detail = scrapy.Field( ) #定义招聘要求数据属性
    pass

步骤4-修改爬虫程序文件，对网站进行爬取和解析
修改ali.py，代码如下：

import scrapy
import bs4 #导入bs4用于解析数据

from ..items import AlibabaItem #导入item类

#定义一个爬虫类，用于继承scrapy.Spider类
class AlibabaSpider(scrapy.Spider):
    name = 'ali_scrapy'  #定义爬虫名字，这是唯一属性
    allowed_domains = ['www.jobui.com'] #定义爬虫网络域名，只允许在该域名内爬取
    start_urls = ['https://www.jobui.com/company/281097/jobs/p1'] #设置爬虫起始爬取的url
    for page in range(1,601): #使用for遍历网址
        url = 'https://www.jobui.com/company/281097/jobs/p{i}'.format(i=page)
        start_urls.append(url) #将网址添加进start_urls内

    #parse是默认处理reponse的方法
    def parse(self, response):
        
        bs = bs4.BeautifulSoup(response.text,'html.parser')  #使用BeautifulSoup解析对象
        all_knowledge = bs.find_all('div',class_="c-job-list") #用find_all提取标签信息，里面包含所有的招聘信息
        for data in all_knowledge:  #使用for循环遍历all_knowledge
            item = AlibabaItem() #实例化AlibabaItem这个类
            item['job_title'] = data.find_all('div',class_="job-segmetation")[0].a.h3.text #提取招聘岗位信息
            item['address'] = data.find_all('div',class_="job-segmetation")[1].find_all('span')[0].text #提取工作地点信息
            item['detail'] = data.find_all('div',class_="job-segmetation")[1].find_all('span')[1].text #提取招要求信息
            yield item #使用yield将item返还给引擎
            pass


步骤5-修改settings.py配置信息:定义导出文件的路径、格式、编码等

# Scrapy settings for ali_scrapy project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://docs.scrapy.org/en/latest/topics/settings.html
#     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://docs.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = "ali_scrapy"

SPIDER_MODULES = ["ali_scrapy.spiders"]
NEWSPIDER_MODULE = "ali_scrapy.spiders"


# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = "ali_scrapy (+http://www.yourdomain.com)"

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

#导出文件的路径
FEED_URI='%(name)s.csv'
#导出的数据格式
FEED_FORMAT='csv'
#导出文件编码
FEED_EXPORT_ENCODING='utf-8'
# Crawl responsibly by identifying yourself (and your website) on the user-agent
#定义请求头
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36'

# Obey robots.txt rules
#设置为不符合robots协议
ROBOTSTXT_OBEY = False

#修改廷迟为2秒
DOWNLOAD_DELAY = 2

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
#    "Accept-Language": "en",
#}

# Enable or disable spider middlewares
# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    "ali_scrapy.middlewares.AliScrapySpiderMiddleware": 543,
#}

# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    "ali_scrapy.middlewares.AliScrapyDownloaderMiddleware": 543,
#}

# Enable or disable extensions
# See https://docs.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    "scrapy.extensions.telnet.TelnetConsole": None,
#}

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
#ITEM_PIPELINES = {
#    "ali_scrapy.pipelines.AliScrapyPipeline": 300,
#}

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://docs.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = "httpcache"
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = "scrapy.extensions.httpcache.FilesystemCacheStorage"

# Set settings whose default value is deprecated to a future-proof value
REQUEST_FINGERPRINTER_IMPLEMENTATION = "2.7"
TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"
FEED_EXPORT_ENCODING = "utf-8"

步骤6-pipelines.py管道文件：定义导出内容

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter
#导入openpyxl
import openpyxl

class AliScrapyPipeline(object):
    #初始化函数，当类实例化时这个方法会启动
    def __init__(self):
        #创建工作薄
        self.wb = openpyxl.Workbook()

        #定位活动表
        self.ws = self.wb.active

        #用append()向表中添加表头
        self.ws.append(['职位','工作地点','招聘要求'])
    #默认处理item的方法
    def process_item(self, item, spider):
        #把岗位、工作地点、招聘要求等信息赋值给line
        line = [item['job_title'],item['address'],item['detail']]

        # 用append函数将公司名称、职位名称、工作地点和招聘信息都添加进表格
        self.ws.append(line)

        # 将item丢回给引擎，如果后面还有这个item需要经过的itempipeline，引擎会自己调度
        return item

步骤7：启动 scrapy crawl ali_scrapy
步骤8：接下来需要等待数个小时，看到Spider closed (finished)提示后，发现excel已生成如下

2.pyspider框架

(1)介绍：PySpider是binux做的一个爬虫架构的开源化实现。
功能需求：抓取、更新调度多站点的特定的页面;需要对页面进行结构化信息提取;灵活可扩展，稳定可监控
源码地址：https://github.com/binux/pyspider
官方文档：http://docs.pyspider.org/en/latest/
(2)安装
PS:这个pyspider安装坑有点多，建议python低版本使用,高版本兼容性较差。
①首先需要安装pycurl,进入https://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl
找到你需要安装的pycurl版本，如python版本3.11,则下载pycurl-7.45.1-cp311-cp311-win_amd64.whl，cp311代表python版本是3.11
然后将文件放到制定目录后，cmd进入该目录，安装pycurl。命令是：pip install pycurl-7.45.1-cp311-cp311-win_amd64.whl
②重新打开一个cmd界面，安装pyspider：pip install pyspider。
安装成功后会生成相应的程序文件夹，如下

③接着需要安装phantomjs，下载路径为https://phantomjs.org/download.html
下载完phantomjs-2.1.1-windows后，解压后找到phantomjs.exe文件，将其复制到与python.exe文件放在同一层文件夹下。如下所示：

④验证是否安装成功：pyspider all
若报错如下，说明你使用的是3.7以上版本：

File "D:\tools\python\install\Scripts\pyspider-script.py", line 33, in <module>
    sys.exit(load_entry_point('pyspider==0.3.10', 'console_scripts', 'pyspider')())
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\tools\python\install\Scripts\pyspider-script.py", line 25, in importlib_load_entry_point
    return next(matches).load()
           ^^^^^^^^^^^^^^^^^^^^
  File "D:\tools\python\install\Lib\importlib\metadata\__init__.py", line 202, in load
    module = import_module(match.group('module'))
             ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "D:\tools\python\install\Lib\importlib\__init__.py", line 126, in import_module
    return _bootstrap._gcd_import(name[level:], package, level)

原因是变量(async)在2.X的版本中不是关键字,或者说是没有作为关键字使用,然而3.7版本中(async)是作为关键词使用的
此时需要将\python\install\Lib\site-packages\pyspider\run.py、\pyspider\fetcher\tornado_fetcher.py和\pyspider\webui\app.py中的async全部替换为shark

若报错 module ‘collections’ has no attribute ‘MutableMapping’，说明你使用的是python3.10以上版本，MutableMapping，MutableSet等放的位置变了：
需要修改\Lib\site-packages\tornado\httputil.py,将collections.MutableMapping替换为collections.abc.MutableMapping

若报错cannot import name ‘Mapping’ from ‘collections’,还需将\Lib\collections_init_.py的from collections import Mapping修改为from collections.abc import Mapping
如果是import _collections_abc，调用处为_collections_abc.Mapping，则新增from collections.abc import Mapping，并把_collections_abc.Mapping修改为Mapping

若报错AttributeError: module ‘fractions’ has no attribute ‘gcd’，说明你是python3.5以上版本，fractions.gcd(a, b)用于计算最大公约数。这个函数在Python3.5之后就废弃了，官方建议使用math.gcd()
用于计算最大公约数。此时需要修改\Lib\site-packages\pyspider\libs\base_handler.py， import math 后将下面fractions.gcd替换为math.gcd就可以了。如下所示

若出现webui running on 0.0.0.0:5000,则运行成功，此时可以访问127.0.0.1:5000

(3)项目创建和代码结构分析
TODO

六、模拟登录与验证码识别

1.无验证码
使用模拟form表单的方式模拟登录
示例：

import requests
import re
from bs4 import BeautifulSoup

s = requests.Session()
url_login = 'https://accounts.douban.com/login'

formdata = {
    'redir': 'https://www.douban.com',
    'form_email': '账号',
    'form_password': '密码',
    'login': u'登陆'
}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                         'Chrome/55.0.2883.87 Safari/537.36'}

r = s.post(url_login, data=formdata, headers=headers)
content = r.text

2.有验证码
(1)自动化爬虫中，很多网站需要登录，会有验证码问题。推荐使用打码平台（如果不使用的话需要定位验证码url后手动输入），这里以selenium+超级鹰作为样例。
(2)超级鹰官网：https://www.chaojiying.com/api-14.html
(3)使用教程
①如图所示，可以下载python的使用示例，文件名是chaojiying.py。然后注册一下，然后生成一下软件ID，会有一个软件ID和软件key，后面会用到。

这里需要绑定微信可以获得免费1000题分（100次），或者花1块钱可以购买使用100使用次数，不然获取那步会报
{‘err_no’: -1005, ‘err_str’: ‘无可用题分’, ‘pic_id’: ‘0’, ‘pic_str’: ‘’, ‘md5’: ‘’}

②修改chaojiying.py:如图所示修改最后几行。

验证码类型1902对应字典查看方式如下：

这个文件哪里用到呢,可以放到你的python项目中，或者直接在该目录下运行python,否则会报找不到Chaojiying_Client这个包
③实战：我这里直接使用超级鹰官网的登录验证码，作为样例
如图找到登录按钮，账号、密码、验证码等，当然还有最重要的验证码图片。

python运行代码如下：

from selenium import webdriver
from selenium.webdriver import ActionChains #这个包对应的是鼠标的操作
from selenium.webdriver.common.by import By #引入By方法
from chaojiying import Chaojiying_Client #导入超级鹰模块

driver = webdriver.Chrome()
driver.set_window_size(800,600) # 设置浏览器大小
driver.maximize_window() # 可以直接最大化
driver.get("https://www.chaojiying.com/price.html")# 打开超级鹰

action = ActionChains(driver) #获取ActionChains 对象 导包
el = driver.find_element(By.ID,"login-register")  # 通过ID属性检索找到登录框
action.move_to_element(el).perform()# 调用悬停方法
driver.find_element(By.ID,"user").send_keys("你的用户名")  # 通过ID检索搜索框，并输入账号
driver.find_element(By.ID,"pass").send_keys("你的密码")  # 通过ID检索搜索框，并输入密码
img = driver.find_element(by=By.XPATH,value='//*[@id="userone"]/section/form/div[3]/div/img').screenshot_as_png #通过xpath获取图片，creenshot_as_png是Selenium的截图方法
chaojiying = Chaojiying_Client('你的用户名', '你的密码', '你的软件id') #获取超级鹰模块，这里直接从chaojiying.py示例那里复制过来
data = chaojiying.PostPic(img, 1902) #获取验证码，这里也是参考chaojiying.py
print(data)
code = data["pic_str"]
print(code)
time.sleep(3)
driver.find_element(By.ID,"auth").send_keys(code)  # 通过ID检索搜索框，并输入验证码
driver.find_element(by=By.XPATH,value='//*[@id="userone"]/section/form/div[6]/button').click()  #通过xpath获取登录按钮并点击

—此时就登陆成功了！！

七、autoscraper（不需要编程基础）

(1)介绍：AutoScraper是一个智能、自动、快速和轻量级的Web爬虫，他的特点是很简单，不需要编程基础。
如果你需要页面中某个字段信息，只需要在把该信息放到wanted_list/wanted_dict中，它会自动帮你爬取该类型的同一数据，省去了定位标签的过程，后面示例中可以更直观的感受到。
github网址:https://github.com/alirezamika/autoscraper
(2)安装：pip install autoscraper
(3)使用教程
示例1–CSDN通过当前页面的一个标题找到当前页面所有标题：

from autoscraper import AutoScraper  #导入

url = 'https://blog.csdn.net/tttalk?spm=1001.2101.3001.5343' # 爬取的网址
wanted_list = ["Python入门技术学习汇总"]  #随便找一个当前页面的标题
scraper = AutoScraper() #创建AutoScraper对象

#建立爬虫，并进行信息爬取
result = scraper.build(url, wanted_list)
print('结果数量:',len(result))  #返回结果数量与当前页面标题数量一致
print('返回结果：',result)

wanted_dict = {'title': ["Python入门技术学习汇总"], 'summary': ['python基本语法、常用工具、web/爬虫/桌面应用开发']}  #除了标题外，再找个能点击的摘要字段，然后命名一下
scraper.build(url=url, wanted_dict=wanted_dict)
result2 = scraper.get_result_similar(url=url, grouped=True) #抓取相似数据，参数grouped设置返回结果是字典形式，默认是False。
print('返回结果：')
print(result2)  #返回结果中rule_m3wz,rule_sgqv是规则名称，有可能同一种信息使用多种规则返回，选择其一即可。

你可能感兴趣的:(python,爬虫,开发语言)

有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
基于HarmonyNext的ArkTS高级实战：构建高性能跨平台应用 harmonyos-next
基于HarmonyNext的ArkTS高级实战：构建高性能跨平台应用引言随着HarmonyOSNext的发布，ArkTS作为其核心开发语言，为开发者提供了更强大的工具和更高效的开发体验。ArkTS基于TypeScript，结合了HarmonyOS的分布式能力，使得开发者能够轻松构建高性能、跨平台的应用。本文将深入探讨如何使用ArkTS在HarmonyNext平台上进行高级开发，通过实战案例讲解如何
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
Python Flask 在网页应用程序中处理错误和异常 dowhileprogramming python flask 开发语言
PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常在我们所有的代码示例中，我们没有注意如何处理用户在浏览器中输入错误的URL或向我们的应用程序发送错误的参数集的情况。这不是设计意图，但目的是首先关注网页应用程序的关键组件。网页框架的美妙之处在于，它们通常默认支持错误处理。如果发生任何错误，将自
农业生产模拟和农业政策分析：WOFOST模型与PCSE模型安装、运行、数据准备；农田农作物生长模拟和产量预测等 WangYan2022 作物模型农业 WOFOST模型 PCSE模型农田生态系统作物模型农业生产模拟
WOFOST（WorldFoodStudies）和PCSE（PythonCropSimulationEnvironment）是两个用于农业生产模拟的模型：WOFOST是一个经过多年开发和验证的模型，被广泛用于全球的农业生产模拟和农业政策分析；采用了模块化的结构，可以对不同的农作物和环境条件进行参数化和适应；WOFOST可用于长期模拟，能够模拟整个作物生长周期，包括播种、生长、收获等各个阶段；WOF
基于Python+Vue开发的电影订票管理系统源码+运行步骤冷琴1996 Python系统设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的电影订票管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理：管理系统可以录入、修改和查询影片的基本信息，如
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
基于llama_cpp 调用本地模型（llama）实现基本推理月光技术杂谈大模型初探 llama llama.cpp python LLM 集成显卡本地模型 AI
零基础实践本地推理模型基本应用：基于llama_cpp的本地模型调用。本文先安装llama_cpppython库，再编写程序，利用其调用llama-2-7b-chat.Q4_K_M.ggu模型。背景llama_cpp是一个基于C++的高性能库（llama.cpp）的Python绑定，支持在CPU或GPU上高效运行LLaMA及其衍生模型（如LLaMA2），并通过量化技术（如GGUF格式）优化内存使用
python实现查找满足条件的数字 qq_恰同学少年 python
问题：一个四位数，知道其前两位和后两位分别相等，并且这个数还是一个平方数，求出这个数。一个四位数，范围只能是1000~9999，前两位和后两位分别相等，也就是说，它的结构应该是aabb。最后，这个数是一个平方数。有的小伙伴可能不知道啥叫平方数，暂且解释下，所谓的平方数就是指该数等于一个整数的平方。比如3的平方是9，那么我们就说9是个平方数。第一步，这是个四位数，前两位和后两位分别相等，我们将满足条
python中常用的内置模块举例（入门级整理） qq_恰同学少年 python
python对于初学者可以说是十分友好的一门编程语言，不仅语法简单，而且它自身还包含了十分丰富的第三方模块，我仅就将我自己常用的一些内置模块（自带的，无需安装）做一下简单的总结和介绍：1.turtleturtle，是python中比较好玩一个模块，它有一个专有名称“海龟作图”，光看名字就应该能够猜到它是用来干嘛的，没错，就是来画图的，它可以通过某些语句来控制一个点在白板上的运动轨迹，它在白板上走过
QPython双核攻略：从零基础到AI开发，你的手机就是全栈训练营程之编 python 开发语言青少年编程人工智能
主题一：《编程小白必看！在手机上种下你的第一行代码》✨北京优趣天下信息技术有限公司重磅出品我们比谁都清楚：✔️86%的初学者因环境配置放弃编程✔️72%的上班族只有碎片化学习时间✔️95%的自学者需要即时答疑支持为什么QPython成为2025现象级学习工具？▸全栈开发环境：解释器+编辑器+控制台三合一▸AI导师常驻：集成DeepSeek代码助手（支持中英双语提问）▸极速学习路径：Q派课程7天完成
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
【Python代码练习（简单应用）】 9... python 汇编前端开发语言 dreamweaver
一、Python列表添加与删除元素：append()。在列表末尾添加新的格式元素添加格式：list.append(元素)删除格式：list.remove(元素)例如：#给出代码listA=['水煮千丝','平板豆腐','白烧饭','香菇青菜','西红柿鸡蛋汤']listA._________("红烧肉")listA._________("水煮千丝")print(listA)将“红烧肉”放入列表中，
统信uos20：利用docker部署python+jupyterlab开发环境阆遤 docker python jupyter github actions workflow 统信uos20
很多统信uos20计算机没有联网安装python开发环境的条件，但是工作中需要对数据进行分析处理，因而产生了离线部署python开发环境的想法。我首先下载了python3.11的源代码包，在uos中编译居然正常通过。但后续的麻烦来了：需要安装的库没法安装。尝试了一天，最终放弃。改用Docker方式部署，理由就不多解释了。一、在uos中安装docker。我的系统是uos20linux4.19.0-a
第五周作业——第十章动手试一试 hongsqi
10-1Python学习笔记学习笔记：在文本编辑器中新建一个文件，写几句话来总结一下你至此学到的Python知识，其中每一行都以“InPythonyoucan”打头。将这个文件命名为learning_python.txt，并将其存储到为完成本章练习而编写的程序所在的目录中。编写一个程序，它读取这个文件，并将你所写的内容打印三次：第一次打印时读取整个文件；第二次打印时遍历文件对象；第三次打印时将各行
统信UOS下达梦数据库启动图形界面应用工具monitor报JAVA相关错：An error has occurred. See the log file LaoYuanPython 老猿Python 国产信创之光 java 达梦数据库统信UOS操作系统 JDK 图形应用报错
☞░前往老猿Python博客░https://blog.csdn.net/LaoYuanPython一、前言在博文《基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库详解https://blog.csdn.net/LaoYuanPython/article/details/143258863》中介绍了基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库的详细过程，并且安装完毕之后通过
整理一下arcGis desktop版本软件，从入门到精通需要学习的知识点 AnalogElectronic arcgis 学习
整理一下arcGisdesktop版本软件，从入门到精通需要学习的知识点以下是一份关于ArcGISDesktop从入门到精通的学习知识点整理：一、软件初认识与基础操作软件初认识：了解ArcGISDesktop的界面布局，包括内容列表、ArcToolbox工具箱、结果窗口、地图窗口、目录窗口、搜索窗口、python编程窗口以及其他常用工具条等。数据添加与管理：掌握通过不同方式添加数据，如图层列表右键
动态规划双剑合璧：C++与Python征服洛谷三大经典DP问题三流搬砖艺术家动态规划 c++python
动态规划核心思想状态定义→转移方程→边界处理→时空优化本文精选洛谷动态规划题单中三大经典问题，通过C++与Python双语言对比实现，彻底掌握DP精髓！题目一：P1048采药（01背包模板）题目描述在限定时间T内采集草药，每株草药有采集时间time[i]和价值value[i]，求最大总价值。解题思路状态定义：dp[j]表示时间j能获得的最大价值转移方程：dp[j]=max(dp[j],dp[j-t
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement