??(lxy)

爬虫基础（三）——python爬虫常用模块

3.1python网络爬虫技术核心

3.1.1　python网络爬虫实现原理

第一步：使用python的网络模块（比如ｕｒｂｌｉｂ２、ｈｔｔｐｌｉｂ、requests等）模拟浏览器向服务器发送正常的HTTP（或ＨＴＴＰＳ）请求。服务器响应后，主机将收到包含所需信息的网页代码。

第二步：主机使用过滤模块（比如ｌｘｍｌ、ｈｔｍｌ．ｐａｒｓｅｒ、ｒｅ等）将所需信息从网页代码中过滤出来。

第一步为了模拟浏览器，可以在请求中添加报头（Header）和Ｃｏｏｋｉｅｓ。为了避开服务器的反爬虫，可以利用代理或间隔一段时间发送一个请求。

3.1.2　身份识别

有些网站需要登陆后才能访问某些页面，在登陆前无法抓取，这时，可以利用ｕｒｌｌｉｂ２库保存登录的ｃｏｏｋｉｅ，再抓取其他页面，负责cookie部分的模块为cookieｌｉｂ。

3.2　python３　标准库之ｕｒｌｌｉｂ．request模块

urllib是Python3的一个内置标准库，主要用来进行http请求。其中主要包含四个常见模块。分别是：request，error，parse，robotparser。request模块功能提供一个基本的请求功能，来模拟http请求。error异常处理模块，主要功能是在出现错误的时候可以捕获异常。parse工具模块，提供了URL处理的方法，比如：拆分，解析，合并等。robotparser模块主要用来识别网站的robots.txt文件。
原文链接：https://blog.csdn.net/a21700790yan/article/details/103589333

3.2.1　urllib.request请求返回网页

urlopen（）是urllib.request模块最简单的应用，urlopen(url,data,timeout) 作用打开一个url方法，返回一个文件对象HttpResponse，然后可以进行类似文件对象的操作。比如geturl()返回HttpResponse的URL信息,info()返回HttpResponse的基本信息,getcode()返回HttpResponse的状态代码。常见的状态代码：200服务器成功返回网页、404请求的网页不存在、503服务器暂时不可用。

python3中urllib库的request模块详解 - lincappu - 博客园 (cnblogs.com)

书上的例程


__author__ = 'hstking [email protected]'

import urllib.request

def clear():
    ''' '''
    print('内容较多')
    time.sleep(3)
    OS = platform.system()
    if (OS == 'Windows'):
        os.system('cls')
    else:
        os.system('clear')

def linkBaidu():
    url = 'http://www.baidu.com'
    try:
        response = urllib.request.urlopen(url,timeout=3)
        result = response.read().decode('utf-8')
    except Exception as e:
        print("网络地址错误")
        exit()
    with open('baidu.txt', 'w',encoding='utf8') as fp:
        fp.write(result)
    print("url: response.geturl() : %s" %response.geturl())
    print("代码信息 : response.getcode() : %s" %response.getcode())
    print("返回信息 : response.info() : %s" %response.info())
    print("获取的网页内容已存入baidu.txt中")


if __name__ == '__main__':
    linkBaidu()

最关键的两行：response = urllib.request.urlopen(url,timeout=3)
result = response.read().decode('utf-8')

将程序保存在C:\Users\xinyue liu\pachong目录下的main.py，

在程序中找到 ‘运行’->点击->输入"cmd"->回车键进入控制台命令窗口（如下图），先输入cd C:\Users\xinyue liu\pachong (作用是将命令路径改到目标目录)，然后Python3 main.py运行。

3.2.2　urllib.request使用代理访问网页

proxy：代理；

原文链接：(14条消息) urllib.request 通过代理访问页面_吕先生的博客-CSDN博客

下面是

#!/usr/bin/env python3
#-*- coding: utf-8 -*-
__author__ = 'hstking [email protected]'

import urllib.request
import sys
import re

def testArgument():
    '''测试输入参数，只需要一个参数'''
    if len(sys.argv) != 2:
        print('需要且只需要一个参数')
        tipUse()
        exit()
    else:
        TP = TestProxy(sys.argv[1])

def tipUse():
    '''显示提示信息'''
    print('该程序只能输入一个参数，这个参数必须是一个可用的proxy')
    print('usage: python testUrllib2WithProxy.py http://1.2.3.4:5')
    print('usage: python testUrllib2WithProxy.py https://1.2.3.4:5')
class TestProxy(object):
    '''测试proxy是否有效 '''
    def __init__(self,proxy):
        self.proxy = proxy
        self.checkProxyFormat(self.proxy)
        self.url = 'https://www.baidu.com'
        self.timeout = 5
        self.flagWord = 'www.baidu.com' #在网页返回的数据中查找这个关键词
        self.useProxy(self.proxy)

    def checkProxyFormat(self,proxy):
        try:
           proxyMatch = re.compile('http[s]?://[\d]{1,3}\.[\d]{1,3}\.[\d]{1,3}\.[\d]{1,3}:[\d]{1,5}$')
           re.search(proxyMatch,proxy).group()
        except AttributeError as e:
            tipUse()
            exit()
        flag = 1
        proxy = proxy.replace('//','')
        try:
            protocol = proxy.split(':')[0]
            ip = proxy.split(':')[1]
            port = proxy.split(':')[2]
        except IndexError as e:
            print('下标出界')
            tipUse()
            exit()
        flag = flag and len(proxy.split(':')) == 3 and len(ip.split('.')) == 4
        flag = ip.split('.')[0] in map(str,range(1,256)) and flag
        flag = ip.split('.')[1] in map(str,range(256)) and flag
        flag = ip.split('.')[2] in map(str,range(256)) and flag
        flag = ip.split('.')[3] in map(str,range(1,255)) and flag
        flag = protocol in ['http', 'https'] and flag
        flag = port in map(str,range(1,65535)) and flag
        '''这是在检查proxy的格式 '''
        if flag:
            print('输入的代理服务器符合标准')
        else:
            tipUse()
            exit()

    def useProxy(self,proxy):
        '''利用代理访问百度，并查找关键词'''
        protocol = proxy.split('://')[0]
        proxy_handler = urllib.request.ProxyHandler({protocol: proxy})
        opener = urllib.request.build_opener(proxy_handler)
        urllib.request.install_opener(opener)
        try:
            response = urllib.request.urlopen(self.url,timeout = self.timeout)
        except Exception as e:
            print('连接错误，退出程序')
            exit()
        result = response.read().decode('utf-8')
        print('%s' %result)
        if re.search(self.flagWord, result):
            print('已经取得特征词，该代理可用')
        else:
            print('该代理不可用')


if __name__ == '__main__':
    testArgument()

运行：

绿色线标出的是自设的代理。一开始直接在pycharm运行没运行成功，因为没用过命令行来执行程序。不懂程序里sys.argv什么意思可以看这里Python中 sys.argv[]的用法简明解释 - 覆手为云p - 博客园 (cnblogs.com)，讲的很简明，而且教会了我用命令行来执行程序。

3.2.3 urllib.request修改header

有些不喜欢被爬虫（非人为访问）的站点，会检查连接者的”身份证“，默认情况下，urllib.request会把自己的版本号作为”身份证号码“，这可能使站点迷惑或者干脆拒绝访问。所以需要让python程序模拟浏览器访问网站。那么如何在网站面前假装自己是个浏览器呢？

原来网站是通过浏览器发送的User-Agent的值来确认浏览器身份的，那么我们就在头信息里发送一个User-Agent就OK啦。具体方法：用urllib.request创建一个请求对象，并给它一个包含报头数据的字典，修改User-Agent欺骗网站。一般把User-Agent修改成Internet Explorer是最安全的。

准备工作：将所有的User-Agent全部放在一个文件中，使用字典结构存放代理，命名为uersAgents.py作为资源文件，方便以后作为模板导入使用。文件代码略长，后续试试能不能上传。

准备完成，开始编写程序用来修改header。

#!/usr/bin/env python3
#-*- coding: utf-8 -*-
__author__ = 'hstking [email protected]'

import urllib.request
import userAgents
'''userAgents.py是个自定义的模块，位置位于当前目录下 '''

class ModifyHeader(object):
        '''使用urllib.request模块修改header '''
        def __init__(self):
                #这是PC + IE 的User-Agent
                PIUA = userAgents.pcUserAgent.get('IE 9.0')
                #这是Mobile + UC的User-Agent
                MUUA = userAgents.mobileUserAgent.get('UC standard')
                #测试网站是有道翻译
                self.url = 'http://fanyi.youdao.com'

                self.useUserAgent(PIUA,1)
                self.useUserAgent(MUUA,2)

        def useUserAgent(self, userAgent ,name):
                request = urllib.request.Request(self.url)
                request.add_header(userAgent.split(':')[0],userAgent.split(':')[1])
                response = urllib.request.urlopen(request)
                fileName = str(name) + '.html'
                with open(fileName,'a') as fp:
                        fp.write("%s\n\n" %userAgent)
                        fp.write(response.read().decode('utf-8'))

if __name__ == '__main__':
        umh = ModifyHeader()

跟我一样对里面urllib.request.Request（）不太理解的，可以看这篇，需要构造请求的时候需要用到Request类

(14条消息) Python爬虫入门：urllib.request.Request详解_菜鸟也要高飞-CSDN博客_urllib.request.request

我用pycharm运行上面的程序，出现这样的报错：

UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 4796: illegal multibyte sequence

在cmd和pycharm里运行报错，看了几篇文章也没找到解决方法。

3.3Python3 标准库之logging模块

logging模块，是针对日志的，可以替代print函数的功能，并且将标准输出保存在日志文件中，而且可以替代部分debug的功能用于调试和排错。

logging模块共有6个级别，我们通过定义自己的日志级别，可以使logging模块选择性地将高于定义级别的信息在屏幕显示出来。默认定义级别是WARNING。

调用logging的方法是logging.basicCinfig，其调用方法的格式可以参考Python之路(第十七篇)logging模块 - Nicholas-- - 博客园 (cnblogs.com)

#!/usr/bin/env python
#-*- coding: utf-8 -*-
__author__ = 'hstking [email protected]'

import logging

class TestLogging(object):
	def __init__(self):
		logFormat = '%(asctime)-12s %(levelname)-8s %(name)-10s %(message)-12s'
		logFileName = './testLog.txt'

		logging.basicConfig(level = logging.INFO,
format = logFormat,
filename = logFileName,
filemode = 'w')

		logging.debug('debug message')
		logging.info('info message')
		logging.warning('warning message')
		logging.error('error message')
		logging.critical('critical message')


if __name__ == '__main__':
	tl = TestLogging()

结果：

3.4 re模块

在爬虫中，这个模块使用频率不高，稍作了解即可。

re模块主要用于查找、定位等。正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

常用正则表达式符号和语法：

'.' 匹配所有字符串，除\n以外

‘-’ 表示范围[0-9]

'*' 匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 \*。

'+' 匹配前面的子表达式一次或多次。要匹配 + 字符，请使用 \+

'^' 匹配字符串开头

‘$’ 匹配字符串结尾 re

'\' 转义字符，使后一个字符改变原来的意思，如果字符串中有字符*需要匹配，可以\*或者字符集[*] re.findall(r'3\*','3*ds')结['3*']

'*' 匹配前面的字符0次或多次 re.findall("ab*","cabc3abcbbac")结果：['ab', 'ab', 'a']

‘?’ 匹配前一个字符串0次或1次 re.findall('ab?','abcabcabcadf')结果['ab', 'ab', 'ab', 'a']

'{m}' 匹配前一个字符m次 re.findall('cb{1}','bchbchcbfbcbb')结果['cb', 'cb']

'{n,m}' 匹配前一个字符n到m次 re.findall('cb{2,3}','bchbchcbfbcbb')结果['cbb']

'\d' 匹配数字，等于[0-9] re.findall('\d','电话:10086')结果['1', '0', '0', '8', '6']

'\D' 匹配非数字，等于[^0-9] re.findall('\D','电话:10086')结果['电', '话', ':']

'\w' 匹配字母和数字，等于[A-Za-z0-9] re.findall('\w','alex123,./;;;')结果['a', 'l', 'e', 'x', '1', '2', '3']

'\W' 匹配非英文字母和数字,等于[^A-Za-z0-9] re.findall('\W','alex123,./;;;')结果[',', '.', '/', ';', ';', ';']

'\s' 匹配空白字符 re.findall('\s','3*ds \t\n')结果[' ', '\t', '\n']

'\S' 匹配非空白字符 re.findall('\s','3*ds \t\n')结果['3', '*', 'd', 's']

'\A' 匹配字符串开头

'\Z' 匹配字符串结尾

'\b' 匹配单词的词首和词尾，单词被定义为一个字母数字序列，因此词尾是用空白符或非字母数字符来表示的

'\B' 与\b相反，只在当前位置不在单词边界时匹配

'(?P...)' 分组，除了原有编号外在指定一个额外的别名 re.search("(?P[0-9]{4})(?P[0-9]{2})(?P[0-9]{8})","371481199306143242").groupdict("city") 结果{'province': '3714', 'city': '81', 'birthday': '19930614'}

[] 是定义匹配的字符范围。比如 [a-zA-Z0-9] 表示相应位置的字符要匹配英文字符和数字。[\s*]表示空格或者*号。

常用的re模块方法参考：Python3 正则表达式 | 菜鸟教程 (runoob.com)

re.compile(pattern,flag=0) 将字符串形式的正则表达式编译为Pattern对象

re.search(string[,pose[,endpos]]) 从string的任意位置开始匹配

re.match(string[,pose[,endpos]]) 从string的开头开始匹配

re.findall(string[,pose[,endpos]]) 从string的任意位置开始匹配，返回一个列表

re.finditer(string[,pose[,endpos]]) 从string的任意位置开始匹配,返回一个迭代器

一般匹配findall即可，大数量用finditer比较好。

re模块+urllib2模块爬虫实例：爬取某影院当日播放的电影

步骤：找一个电影院的网页http://www.wandacinemas.com/；

使用urllib2模块抓取整个网页；使用re模块获取影视信息。

#!/usr/bin/env python
#-*- coding: utf-8 -*-
__author__ = 'hstking [email protected]'

import re
import urllib.request
import codecs
import time

class Todaymovie(object):
        '''获取金逸影院当日影视'''
        def __init__(self):
                self.url = 'http://www.wandacinemas.com/'
                self.timeout = 5
                self.fileName = 'wandaMovie.txt'
                '''内部变量定义完毕 '''
                self.getmovieInfo()

        def getmovieInfo(self):
                response = urllib.request.urlopen(self.url,timeout=self.timeout)
                result = response.read().decode('utf-8')
                with codecs.open('movie.txt','w','utf-8') as fp1:#将请求返回的信息保存到'movie.txt'
                    fp1.write(result)
                pattern = re.compile('')
                movieList = pattern.findall(result)
                print("movielist:",movieList)#输出电影列表
                movieTitleList = map(lambda x:x.split('"')[3], movieList)
                #使用map过滤出电影标题
                with codecs.open(self.fileName, 'w', 'utf-8') as fp:
                       print("Today is %s \r\n" %time.strftime("%Y-%m-%d"))
                       fp.write("Today is %s \r\n" %time.strftime("%Y-%m-%d"))
                       for movie in movieTitleList:
                                print("%s\r\n" %movie)
                                fp.write("%s \r\n" %movie)#将过滤的电影标题保存到'wandaMovie.txt'


if __name__ == '__main__':
        tm = Todaymovie()

程序分析：

1.response = urllib.request.urlopen(self.url,timeout=self.timeout)发出请求，urlopen的参数在初始化中已经给出。
2.result = response.read().decode('utf-8')读取响应

3.pattern = re.compile('')

movieList = pattern.findall(result)构建正则表达式，匹配电影名称信息,返回匹配上的标签列表。

4.movieTitleList = map(lambda x:x.split('"')[3], movieList)

使用map过滤出电影标题。map() 会根据提供的函数对指定序列做映射。语法：map(function, iterable, ...)。第一个参数 function 以参数序列中的每一个元素调用 function 函数，返回包含每次 function 函数返回值的新列表。

5.python codes open()

(14条消息) python中open()与codecs.open()的区别_白清羽的博客-CSDN博客

运行发现没有过滤出电影名称，于是加了

#将请求返回的信息保存到'movie.txt'，#输出电影列表，这两个语句，发现抓取网页正常，电影列表为空，所有怀疑是正则的问题。

pattern = re.compile('')

分析这个正则表达式：

# .* 表示任意匹配除换行符（\n、\r）之外的任何单个或多个字符

# (.*?) 表示"非贪婪"模式，只保存第一个匹配到的子串

应该是网页文件里的一个标签，

(14条消息) 网页结构（

、标签）_拾Miss~博客-CSDN博客

查阅得知，span是一个行标签，而搜索发现网页内容里完全没有行标签，更别说匹配了。自然

movieList是空的列表。暂时不会解决，正则用起来真的好复杂，希望有大佬看到的话指点一下。

3.5 其他有用模块

3.5.1 sys模块

跟系统有关的模块，作用：返回系统信息。常用的方法只有两个sys.a和sys.exit。

sys.argv返回一个包含所有的命令行参数的列表，sys.exit退出程序。

3.5.2 Time模块

python的学习笔记之——time模块常用内置函数 - 爬虫上的雪碧 - 博客园 (cnblogs.com)

你可能感兴趣的:(爬虫基础（三）——python爬虫常用模块)

Kibana 单机与集群部署教程闲人编程大数据集群部署教程大数据集群单机部署 Kibana 日志分析数据可视化
目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
JavaScript面试宝典傻小胖 javascript 面试前端
1.JS由哪三部分组成？JavaScript由以下三部分组成：ECMAScript（ES）：JavaScript的核心语法，如变量、作用域、数据类型、函数、对象等。DOM（文档对象模型）：用于操作HTML和XML文档的API，可以动态修改网页内容、结构和样式。BOM（浏览器对象模型）：用于操作浏览器窗口和页面，例如window、navigator、location、history、screen等对
卷积神经网络（笔记01）天行者@ cnn 人工智能深度学习
视觉处理三大任务：分类、目标检测、图像分割CNN网络主要有三部分构成：卷积层（ConvolutionalLayer）、池化层（PoolingLayer）和激活函数一、解释卷积层中的偏置项是什么，并讨论在神经网络中引入偏置项的好处。在卷积神经网络（CNN）的卷积层里，卷积操作本质上是输入数据与卷积核（滤波器）进行逐元素相乘再求和的过程。偏置项（Bias）是一个额外的可学习参数，对于每个卷积核而言，都
MPU6050 卡尔曼滤波算法四元数欧拉姿态解算 STM32 CubeMX HAL库 MDKkeil5 零基础移植辛尘大海算法 stm32 嵌入式硬件
文章目录一、在cubemx开启IIC并设置好对应的IIC引脚二、generatecode生成代码三、复制以下的全部代码新建分别保存放到IncSrc文件夹中1.MPU6050.h2.MPU6050.C四、如何使用总结一、在cubemx开启IIC并设置好对应的IIC引脚二、generatecode生成代码（记得生成单个c.h.文件）！！！！！！三、复制以下的全部代码新建分别保存放到IncSrc文件夹中
【Spring】_Spring事务与事务传播机制 _周游 Spring JavaEE 数据库 sql
目录1.创建项目、数据库及MyBatis配置1.1创建数据库及java实体类1.2使用yml配置MyBatis1.3对应三层架构开发2.Spring编程式事务2.1编写UserController类2.2接口测试2.23关于事务回滚与事务提交的日志3.Spring声明式事务3.1编写TransController类3.2接口测试3.3关于@Transactional实现事务回滚的情况3.3.1重新
三维声学各向异性材料设计：具体步骤与示例斡旋小羊机器学习算法人工智能
三维声学各向异性材料设计：具体步骤与示例1.理论建模：三维微结构与等效参数映射(1)各向异性密度张量推导假设材料由椭球体散射体周期性嵌入基体材料构成，其等效密度张量可通过三维均匀化理论计算：未旋转椭球的局部密度张量（主轴对齐坐标系）：ρell=[ρbase+f⋅Δρ⋅ab000ρbase+f⋅Δρ⋅ba000ρbase+f⋅Δρ⋅ca]\rho_{\text{ell}}=\begin{bmatri
我与DeepSeek读《大型网站技术架构》（3）诺亚凹凸曼架构
大型网站架构的核心要素《大型网站技术架构：核心原理与案例分析》第三章聚焦于大型网站架构的核心要素，从技术维度剖析了构建高可用、高性能、可扩展系统的关键设计方向。1.五大核心架构要素(1)性能（Performance）目标：快速响应用户请求，优化用户体验。关键策略：前端优化：CDN加速静态资源、合并压缩JS/CSS、浏览器缓存。服务端优化：缓存（Redis/Memcached）、异步处理（消息队列）
八股文-Linux网络部分 im长街八股文专栏 linux 网络
目录TCP和UDP的区别套接字编程一般的流程是什么Cookie,session和token有什么区别HTTP和HTTPS的区别讲一下TCP的三次握手和四次挥手TCP通过什么来保证可靠性TCP通过什么方式来提高性能了解哪些TCP协议的报头数据如何解决TCP的粘包问题什么是IP协议IP协议的字段了解多少什么是网段划分WAN口ip和LAN口ip的作用了解过NAT技术吗谈一谈你对ARP协议的理解有了ip地
手把手教你学Simulink实例：基于Simulink的三相桥式全控整流电路设计与仿真实例小蘑菇二号手把手教你学 MATLAB 专栏手把手教你学 Simulink 单片机嵌入式硬件 matlab simulink
目录手把手教你学Simulink实例：基于Simulink的三相桥式全控整流电路设计与仿真实例一、背景介绍二、所需工具和环境三、步骤详解步骤1：创建Simulink模型步骤1.1：打开Simulink并新建模型步骤2：添加电源模块步骤2.1：添加三相交流电源步骤3：设计三相桥式全控整流电路步骤3.1：添加可控硅模块步骤3.2：连接三相桥式全控整流电路步骤4：添加负载模块步骤4.1：添加电阻性负载步
储能变流器硬件工程师能力提升路径 DOMINICHZL 硬件能源硬件工程
储能变流器（PCS，PowerConversionSystem）作为储能系统的核心部件，其硬件设计涉及电力电子、控制理论、热管理、电磁兼容（EMC）等多领域技术。以下是储能变流器行业硬件工程师需要具备的核心能力，以及技术提升的路径建议：一、储能变流器硬件工程师的核心能力电力电子基础能力拓扑设计与分析：熟悉Boost/Buck、双向DC-DC、三相逆变器、LLC谐振变换器等拓扑结构，并能根据效率、成
【二分算法】-- 三种二分模板总结雨雨雨雨点子算法算法 java 开发语言 leetcode
文章目录1.特点2.学习中的侧重点2.1算法原理2.2模板2.2.1朴素二分模板（easy-->有局限）2.2.2查找左边界的二分模板2.2.3查找右边界的二分模板1.特点二分算法是最恶心，细节最多，最容易写出死循环的算法====但是，一旦掌握了之后，二分算法就是最简单的算法。其实并不是一定要二分，三分，四分也都可以，但是根据概率学中的求期望数学中可知，二分是效率最高的。如果是三分的话，我们就像是
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
卡尔曼滤波算法从理论到实践：在STM32中的嵌入式实现 DOMINICHZL STM32 算法 stm32 嵌入式硬件
摘要：卡尔曼滤波（KalmanFilter）是传感器数据融合领域的经典算法，在姿态解算、导航定位等嵌入式场景中广泛应用。本文将从公式推导、代码实现、参数调试三个维度深入解析卡尔曼滤波，并给出基于STM32硬件的完整工程案例。一、卡尔曼滤波核心思想1.1什么是卡尔曼滤波？卡尔曼滤波是一种最优递归估计算法，通过融合预测值（系统模型）与观测值（传感器数据），在噪声干扰环境下实现对系统状态的动态估计。其核
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
使用css画三角形伊小小小凡 css 前端
使用css画三角形在CSS中，可以通过利用border属性来创建三角形。其原理是通过设置一个元素的宽高为0，然后给其设置不同方向的边框，并将不需要的边框颜色设置为透明，从而形成三角形的形状。以下是使用CSS创建三角形的示例代码：基本三角形.triangle{width:0;height:0;border-left:50pxsolidtransparent;/*左边框*/border-right:5
Zookeeper【概念（集中式到分布式、什么是分布式、CAP定理、什么是Zookeeper、应用场景、为什么选择Zookeeper 、基本概念）】(一)-全面详解（学习总结---从入门到深化）童小纯中间件大全---全面详解 zookeeper 分布式
作者简介：大家好，我是小童，Java开发工程师，CSDN博客博主，Java领域新星创作者系列专栏：前端、Java、Java中间件大全、微信小程序、微信支付、若依框架、Spring全家桶如果文章知识点有错误的地方，请指正！和大家一起学习，一起进步如果感觉博主的文章还不错的话，请三连支持一下博主哦博主正在努力完成2023计划中：以梦为马，扬帆起航，2023追梦人目录Zookeeper概念_集中式到分布
从零打造工业级智能二维码识别系统：基于PyQt5与ZXingCpp的实战指南蜡笔小新星 PyQt5 qt 开发语言 python 图像处理经验分享 pyqt 扫码读码解码
文章目录第一章：系统全景解析1.1实时识别工作流图解1.2界面布局与功能分区说明1.3代码文件结构树形图第二章：环境搭建与依赖管理2.1必需组件清单2.2虚拟环境配置步骤2.3摄像头硬件检测方法第三章：多线程视频采集3.1VideoThread类设计剖析3.2图像采集核心循环3.3线程安全停止机制3.4信号槽通信实例第四章：图像预处理流水线4.1预处理方法开关实现4.2自适应二值化算法4.3图像格
递推和递归（C语言）是小万吖算法算法数据结构 c语言
文章目录前言一、递推原理1.递推概念2.递推关系3.递推特点4.递推详例5.解决递推问题的步骤二、递归原理1.递归的概念2.构成递归的条件3.递归的模板4.递归详例三、递推和递归都可实现的算法1.问题描述2.问题分析3.递归实现4.递推实现四、递推和递归的优缺点1.递推的优缺点2.递归的优缺点五、递推和递归的相互转化1.递推转化为递归2.递归转化为递推前言主要探究递推和递归之间的关系提示：以下是本
ELK Stack 安装教程 - 构建日志存储告警系统运维
介绍“ELK”是三个开源项目的首字母缩写，这三个项目分别是：Elasticsearch、Logstash和Kibana。Elasticsearch是一个搜索和分析引擎。Logstash是服务器端数据处理管道，能够同时从多个来源采集数据，转换数据，然后将数据发送到诸如Elasticsearch等“存储库”中。Kibana则可以让用户在Elasticsearch中使用图形和图表对数据进行可视化。目前最
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
拆解报告：SOAIY索爱GK9开放式耳机 zhangjiaofa 智能硬件拆解与分析报告 SOAIY 索爱GK9 开放式耳机拆解报告
开放式蓝牙耳机中，耳夹式设计凭借更加轻巧的体积，与眼镜不冲突的佩戴方式，赢得了许多用户的喜爱。近期也对目前市场上的11款热门产品进行了横评，从便携性、佩戴体验、音质等角度分享实际的使用体验。接下来将再次通过拆解，为大家分享内部的硬件配置信息。此次将要拆解的SOAIY索爱GK9开放式耳机外观上非常的轻巧便携，功能配置上搭载了12mm动圈喇叭，支持三频数字增强技术，支持DT定向传音技术，提供清晰的音质
.NET 6 WebApi使用JWT wenqi.xu .net .netcore
JWT（JsonWebToken）jwt是一种用于身份验证的开放标准，他可以在网络之间传递信息，jwt由三部分组成：头部，载荷，签名。头部包含了令牌的类型和加密算法，载荷包含了用户的信息，签名则是对头部和载荷的加密结果。jwt鉴权验证是指在用户登录成功后，服务器生成一个jwt令牌并返回给客户端，客户端在后续的请求中携带该令牌，服务通过令牌的签名来确定用户的身份和权限。这种方式可以避免在每个请求中都
程序员如何用DeepSeek让代码效率翻倍？这份实战手册请收好后端
最近公司新来的实习生小张让我眼前一亮，上周他只用三小时就完成了原本需要两天的工作量——优化一个老旧的后端接口。当我翻开他的代码才发现，这个00后小伙子的秘密武器居然是个叫DeepSeek的AI工具。你可能已经注意到，GitHub上越来越多的开源项目开始标注"DeepSeek适配"的字样。这个由中国团队自主研发的大模型，正在悄然改变程序员的工作方式。还记得去年调试分布式系统时的痛苦经历吗？当时我对着
GO语言学习笔记螺旋式上升abc golang 学习笔记
一、viper笔记【七米】https://liwenzhou.com/posts/Go/viper/二、优雅关机和平滑重启https://liwenzhou.com/posts/Go/graceful-shutdown/三、gin使用zaphttps://liwenzhou.com/posts/Go/zap-in-gin/四、flag用于命令行传参https://liwenzhou.com/pos
职场中的压力管理有哪些有效方法？ weixin_42220130 生活职场压力管理方法有效
有制订计划表、坚决不做全优生、不可或缺的一日三餐、放弃无意义的固执、勇于做个挑战者、通过沟通释放压力、尝试打破现状、劳逸结合的生活状态等方法。制订计划表[2]当个人有一个完美的计划表，并且正在逐步实施时，就不会产生无谓的压力。因为，一切尽在掌握之中。计划表是一个很好的监督者，叮嘱你每一个目标的实现，又是一个软性的压力，只有跳起来才能够得着。当你心里有底时，也就没有了压力。坚决不做全优生[2]许多白
浏览器自动复制插件-速记超人记事本V1.0 铁头大蚂蚁 javascript 开发语言 ecmascript
有这么一个需求，就是经常要复制某些网站的资料存到word、txt、或者excel中反复切换浏览器比较麻烦，思索再三，开发了一个浏览器插件取名为“速记超人记事本”功能如下：当我复制网页内容的时候会自动存储到浏览器插件中，如图：记录的内容自动存储到插件中，可以删除，编辑搜索，也可以导出为excel,txt格式这样我们就可以直接愉快的ctrl+c了，待我复制完成后，一键导出就可以了之前做了个1.0版本，
ES6之解构 Hopebearer_ ES6 es6 前端 javascript 开发语言 ecmascript
文章目录ES6之解构一、数组解构1.基本解构2.部分解构3.默认值4.剩余参数5.嵌套解构6.交换变量二、对象解构1.基本解构2.重命名3.默认值4.剩余参数三、函数参数结构1.数组参数解构2.对象参数解构3.默认值四、注意事项1.解构顺序2.undefined情况3.剩余元素4.对象的方法解构ES6之解构解构是JavaScript（ES6及以后版本）中一种非常强大的语法特性，它允许我们按照一定模
基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
如果，你想找 AI大模型相关的工作，这三个建议你一定要看！我爱学大模型人工智能 chatgpt AI大模型 AI 大模型入门转行程序员
01各种大厂小厂创业团队和AI擦边的面试难度，由难到简单，依次是：大模型算法（⭐⭐⭐⭐⭐）模型部署加速（⭐⭐⭐⭐）RAG等相关技术（⭐⭐⭐）纯应用（⭐⭐）Prompt工程师等其他自媒体（⭐）会简单应用就行02这结果方向，B站找几个视频看看，这里推荐用Qwen7B，开源的模型，一个3060都能跑。例如这个，如何微调Qwen开源模型。https://www.bilibili.com/video/BV1
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他