villaaaaaaa

Python爬虫与正则表达式

一.Python中通配符的使用

1.表示方式

表示	意义
`*`	匹配0到任意字符
`?`	匹配单个字符
`.`	当前
`..`	当前的上一级
`[0-9]`	0到9的任意一个数字
`[a-z]`	a到z的任意一个字母
`[A-Z]`	A到Z的任意一个字母
`[a-zA-Z]`	a到z或者A到Z之间的任意一个字母

注意：以下内容在Linux Shell中可以识别，但在Python中不能被识别

表示	意义
`[[:digit:]]`	匹配一个数字
`[[:algha:]]`	匹配一个字母
`[[:upper:]]`	匹配一个大写字母
`[[:lower:]]`	匹配一个小写字母
`[[:space:]]`	匹配一个空格

2.Python中的使用

`glob`模块

glob模块可以使用Unix shell风格的通配符匹配符合特定格式的文件和文件夹，跟windows的文件搜索功能差不多。glob模块并非调用一个子shell实现搜索功能，而是在内部调用了os.listdir()和fnmatch.fnmatch()。

(1).glob.glob: 返回所有匹配正则的路径(返回的是一个列表)

print(glob.glob('/etc/*.conf'))
print(glob.glob('/etc/????.conf', recursive=True))
print(glob.glob('/etc/*[0-9]*.conf'))
print(glob.glob('/etc/*[A-Z]*.conf'))
print(glob.glob('/etc/*[0-9A-Z]*.conf'))

(2).glob.iglob: 返回所有匹配正则的路径(返回的是一个生成器)

print(glob.iglob('/etc/*[0-9A-Z]*.conf'))

二.正则表达式

python标准库中用于正则表达式的为re模块

re = regular expression 正则表达式

作用: 对于字符串进行处理，会检查这个字符串内容是否与你写的正则表达式匹配，如果匹配，拿出匹配的内容；如果不匹配，忽略不匹配内容。

1.编写正则的规则

即将需要匹配的字符串的样式表示出来,一般为pattern = r'str' (str为需要匹配的字符串)
pattern(模式)

2.`findall`方法

在表达了所要搜寻的字符串之后，使用findall()方法在指定范围(字符串或前端代码)中寻找。

import re

s = "kiosk/home/kiosk/westosanaconda2/envs/blog/bin/python3.6/home/kiosk/Desktop/villa"
# 1. 编写正则的规则
pattern1 = r'villa'
pattern2 = r'kiosk'

# 2. 通过正则去查找匹配的内容
print(re.findall(pattern1, s))
print(re.findall(pattern2, s))

3.`match`方法

match()尝试从字符串的起始位置开始匹配

如果起始位置没有匹配成功，返回一个None
如果起始位置匹配成功，返回一个对象

print(re.match(pattern1, s))
matchObj = re.match(pattern2, s)
# 返回match匹配的字符串内容;
print(matchObj.group())

4.`search`方法

search()会扫描整个字符串，只返回第一个匹配成功的内容

如果能找到，返回一个对象，通过group方法获取对应的字符串

match1Obj = re.search(pattern1, s)
print(match1Obj.group())
match2Obj = re.search(pattern2, s)
print(match2Obj.group())

5.`split`方法

split()方法: 指定多个分隔符进行分割

# split()方法: 指定多个分隔符进行分割;
import re
ip = '172.25.254.250'   #与一般的split方法进行比较
print(ip.split('.'))
s = '12+13-15/16'
print(re.split(r'[\+\-\*/]', s))

6.`sub`方法

sub()方法:指定内容进行替换

s = 'villa is a soccer player'
print(s.replace('villa', 'messi'))

# 希望替换的是数字， 但数字的值不固定， 则通过正则来实现;
s = "本次转发数为100"
print(re.sub(r'\d+', '0', s))


# 自动会给addNum传递一个参数， 参数时匹配到的SRE对象
def addNum(sreObj):
    """在原有基础上加1"""
    # 年末任情况字符串中匹配到的内容还是字符串
    num = sreObj.group()  # ‘100’ ‘99’
    new_num = int(num) + 1
    return  str(new_num)

s1 = "本次转发数为100, 分享数量为99"
print(re.sub(r'\d+', addNum, s1))

7.正则表达式特殊字符类

特殊序列符号	意义
\A	只在字符串开始进行匹配
\Z	只在字符串结尾进行匹配
\b	匹配位于开始或结尾的空字符串
\B	匹配不位于开始或结尾的空字符串
\d	相当于[0-9]
\D	相当于[^0-9]
\s	匹配任意空白字符:[\t\n\r\r\v]
\S	匹配任意非空白字符:[^\t\n\r\r\v]
\w	匹配任意数字和字母:[a-zA-Z0-9]
\W	匹配任意非数字和字母

import  re
# 字符类:
print(re.findall(r'[^0-9]', 'villa123villa'))
print(re.findall(r'[0-9]', 'villa123villa'))

# 特殊字符类 .
print(re.findall(r'.', 'villa\n'))


# 特殊字符类\d
print(re.findall(r'\d', '当前文章阅读量为8'))
# 等待学习匹配次数的规则
print(re.findall(r'\d', '当前文章阅读量为8000'))


# 特殊字符类\D
print(re.findall(r'\D', '当前文章阅读量为8'))
# 等待学习匹配次数的规则
print(re.findall(r'\D', '当前文章阅读量为8000'))



# 特殊字符类\s, \S
print(re.findall(r'\s', '\n当前\r文章阅\t读量为8'))
# 等待学习匹配次数的规则
print(re.findall(r'\S', '\n当前\r文章阅\t读量为8'))



# 特殊字符类\w, \W
print(re.findall(r'\w', '12当前villa文章阅_读量为8&'))
# 等待学习匹配次数的规则
print(re.findall(r'\W', '12当前villa文章阅_读量为8&'))

效果如下：

8.指定字符出现指定次数

表示	意义
`:`	代表前一个字符出现0次或者无限次 `d` 、 `.`
`+`	代表前一个字符出现一次或者无限次 `d+`
`?`	代表前一个字符出现1次或者0次；假设某些字符可省略，也可以不省略的时候使用 `d?`
`{m }`	前一个字符出现m次
`{m,}`	前一个字符至少出现m次 `* == {0,}` `+ ==={1,}`
`{m,n}`	前一个字符出现m次到n次`? === {0,1}`

import re

print(re.findall(r'd*', ''))
print(re.findall(r'd*', 'ddd'))
print(re.findall(r'd*', 'dwww'))
print(re.findall(r'.*', 'westos'))



print(re.findall(r'd+', ''))
print(re.findall(r'd+', 'ddd'))
print(re.findall(r'd+', 'dwww'))
print(re.findall(r'd+', 'westos'))


print(re.findall(r'188-?', '188 6543'))
print(re.findall(r'188-?', '188-6543'))
print(re.findall(r'188-?', '148-6543'))


pattern = r'\d{3}[\s-]?\d{4}[\s-]?\d{4}'
print(re.findall(pattern,'188 6754 7645'))
print(re.findall(pattern,'18867547645'))
print(re.findall(pattern,'188-6754-7645'))

三.正则表达式案例

1.匹配邮箱

首先写出所需要邮箱的正则表达式:pattern = r'[A-z]\w{5,11}@qq\.com'

ps:字符串中添加一些字符串干扰

import re

pattern = r'[A-z]\w{5,11}@qq\.com'

s = """

各种格式的邮箱入下所示：

[email protected] 

2. [email protected] 

[email protected] 
[email protected] 

3. [email protected] 


4. [email protected] 
[email protected] 
5. [email protected]

6. [email protected] 

7. [email protected] 

8. [email protected]

9. [email protected]

具体释义入下：

1.163邮箱 




提供以@163.com为后缀的免费邮箱，3G空间，支持超大20兆附件，280兆网盘。精准过滤超过98％的垃圾邮件。 


2.新浪邮箱 




提供以@sina.com为后缀的免费邮箱，容量2G，最大附件15M，支持POP3。 



3.雅虎邮箱 




提供形如@yahoo.com.cn的免费电子邮箱，容量3.5G，最大附件20m，支持21种文字。 


4.搜狐邮箱 

提供以@sohu.com结尾的免费邮箱服务，提供4G超大空间，支持单个超大10M附件。强大的反垃圾邮件系统为您过滤近98%的垃圾邮件。 


5.QQ邮箱 

提供以@qq.com为后缀的免费邮箱，容量无限大，最大附件50M，支持POP3，提供安全模式，内置WebQQ、阅读空间等。 

"""
dataLi = re.findall(pattern, s)
with open('email.txt', 'w') as f:
    for email in dataLi:
        f.write(email + '\n')

结果如下:

2.匹配IP地址

pattern = r'[1-9]\d{0,2}\.[1-9]\d{0,2}\.[1-9]\d{0,2}\.[1-9]\d{0,2}'

import re

pattern = r'[1-9]\d{0,2}\.[1-9]\d{0,2}\.[1-9]\d{0,2}\.[1-9]\d{0,2}'
print(re.findall(pattern, '172.25.0.2'))
print(re.findall(pattern, '172.25.1.2'))
print(re.findall(pattern, '172.25.1.278'))

#  | 代表或者的意思
pattern1 = r'^(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)\.(25[0-5]|2[0-4]\d|[0-1]\d{2}|[1-9]?\d)$'
# print(re.findall(pattern1, '172.25.1.278'))
# print(re.findall(pattern1, '172.25.1.178'))

Obj = re.match(pattern1, '172.25.1.178')
if Obj:
    print("查找到匹配的内容:", Obj.group())
else:
    print('No Found')

Obj = re.match(pattern1, '172.25.1.278')
if Obj:
    print("查找到匹配的内容:", Obj.group())
else:
    print('No Found')

四.初入爬虫

爬虫简述：
网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

1.爬取贴吧中某一帖子的所有邮箱

第一步通过爬虫获取该网址的内容

使用urlopen打开指定页面
再使用.read()读取页面内容
最后decode(‘utf-8’)使用utf-8的解码方式使页面内容解码为unicode

第二步通过网页内容，使用正则表达式获得符合正则的所有邮箱

import re
def getPageContent(url):
    """
        获取网页源代码
    :param url: 指定url内容
    :return: 返回页面的内容(str格式)
    """
    with urlopen(url) as html:
        return  html.read().decode('utf-8')

def parser_page(content):
    """
    根据内容获取所有的贴吧总页数;
    :param content: 网页内容
    :return: 贴吧总页数
    """
    pattern = r'(\d+)'
    data = re.findall(pattern, content)
    return  data[0]


def parser_all_page(pageCount):
    """
    根据贴吧页数， 构造不同的url地址;并找出所有的邮箱
    :param pageCount:
    :return:
    """
    emails = []
    for page in range(int(pageCount)):
        url = 'http://tieba.baidu.com/p/xxxxxxxxxxxxpn=%d' %(page+1)    # 此处网站省略
        print("正在爬取:%s" %(url))
        content = getPageContent(url)
        # pattern = r'\w[-\w.+]*@[A-Za-z0-9][-A-Za-z0-9]+\.+[A-Za-z]{2,14}'
        pattern = r'[a-zA-Z0-9][-\w.+]*@[A-Za-z0-9][-A-Za-z0-9]+\.+[A-Za-z]{2,14}'
        findEmail = re.findall(pattern, content)
        print(findEmail)
        emails.append(findEmail)
    return  emails
def main():
    url = 'http://tieba.baidu.com/p/xxxxx'
    content = getPageContent(url)
    pageCount = parser_page(content)
    emails = parser_all_page(pageCount)
    print(emails)
    with open('tiebaEmail.txt', 'w') as f:
        for tieba in chain(*emails):
            f.write(tieba + '\n')
main()

(此处数据省略)

2.爬取贴吧中某一帖子的所有图片

import re
from urllib.request import urlopen


def get_content(url):
    """
        获取网页内容
    :param url:
    :return:
    """
    with urlopen(url) as html:
        return  html.read()

def parser_get_img_url(content):
    """
    解析贴吧内容， 获取所有风景图片的url
    :param content:
    :return:
    """
    pattern = r''
    imgUrl = re.findall(pattern, content.decode('utf-8').replace('\n', ' '))
    return  imgUrl

def main():
    url = 'http://tieba.baidu.com/p/5437043553'
    content = get_content(url)
    imgLi = parser_get_img_url(content)
    for index,imgurl in enumerate(imgLi):
        # 根据图片的url获取每个图片的内容;
        content = get_content(imgurl)
        with open('img/%s.jpg' %(index+1), 'wb') as f:
            f.write(content)
            print("第%s个图片下载成功...." %(index+1))
main()

3.保存cookie信息

cookie：某些网站为了辨别用户身份，只有登陆之后才能访问某个页面；
进行一个会话跟踪，将用户的相关信息包括用户名等保存到本地终端

# 1. 如何将Cookie保存到变量中， 或者文件中;
# 1). 声明一个CookieJar ---> FileCookieJar --> MozillaCookie
cookie = cookiejar.CookieJar()
# 2). 利用urllib.request的HTTPCookieProcessor创建一个cookie处理器
handler = HTTPCookieProcessor(cookie)
# 3). 通过CookieHandler创建opener
# 默认使用的openr就是urlopen;
opener = request.build_opener(handler)
# 4). 打开url页面
response = opener.open('http://www.baidu.com')
# 5). 打印该页面的cookie信息
print(cookie)
for item in cookie:
    print(item)
# 2. 如何将Cookie以指定格式保存到文件中
# 1). 设置保存cookie的文件名
cookieFilename = 'cookie.txt'
# 2). 声明一个MozillaCookie,用来保存cookie并且可以写入文进阿
cookie = cookiejar.MozillaCookieJar(filename=cookieFilename)
# 3). 利用urllib.request的HTTPCookieProcessor创建一个cookie处理器
handler = HTTPCookieProcessor(cookie)
# 4). 通过CookieHandler创建opener
# 默认使用的openr就是urlopen;
opener = request.build_opener(handler)
# 5). 打开url页面
#response = opener.open('http://www.baidu.com')
# 6). 打印cookie，
print(cookie)
print(type(cookie))
# ignore_discard, 即使cookie信息将要被丢弃。 也要把它保存到文件中;
# ignore_expires, 如果在文件中的cookie已经存在， 就覆盖原文件写入;
cookie.save(ignore_discard=True, ignore_expires=True)

保存到文件中效果如下图时示：

从文件中获取cookie并访问

# 1). 指定cookie文件存在的位置
cookieFilename = 'cookie.txt'
# 2).声明一个MozillaCookie,用来保存cookie并且可以写入文件， 用来读取文件中的cookie信息
cookie = cookiejar.MozillaCookieJar()
# 3). 从文件中读取cookie内容
cookie.load(filename=cookieFilename)
# 4). 利用urllib.request的HTTPCookieProcessor创建一个cookie处理器
handler = HTTPCookieProcessor(cookie)
# 5). 通过CookieHandler创建opener
# 默认使用的openr就是urlopen;
opener = request.build_opener(handler)
# 6). 打开url页面
response = opener.open('http://www.baidu.com')
#7). 打印信息
print(response.read().decode('utf-8'))

ruby和python哪个好学 hakesashou python基础知识 ruby python 开发语言
Ruby和python都挺好学的。建议学习Python，语法的话，Python相对更简洁。而且Python应用场合更广泛，运维、网站开发、数据处理、科学研究都可以。Ruby和Python十分相似，有很多共同点，但也有一些不同之外，以下是Python和Ruby的对比：1、Python和Ruby都是面向对象的语言，都是动态和灵活的。二者的主要区别在于他们解决问题的方式。Ruby提供了不同的方法，而Py
在Python应用程序中使用.env文件管理环境变量手机用户3381415902 学习 python 开发语言
原始地址：https://dev.to/jakewitcher/using-env-files-for-environment-variables-in-python-applications-55a1应用程序被部署后，在开发过程中必须考虑应用程序运行的环境以及应用程序执行任务所需的敏感或环境特定信息。环境变量是软件开发人员向应用程序提供此类信息的关键方式之一，但是如果设置这些变量在本地机器的环境
浅谈Python之Pyinstaller打包 CN.LG Python python 开发语言
一、基本介绍使用PyInstaller打包Python应用程序，可以将Python脚本转换为独立的可执行文件。二、基本步骤安装PyInstaller首先，确保你已经安装了PyInstaller。可以使用pip进行安装：pipinstallpyinstaller打包Python脚本在命令行中，导航到你的Python脚本所在的目录，然后运行以下命令：pyinstalleryour_script.py将
python打包工具下载_Python打包分发工具setuptools weixin_39580042 python打包工具下载
作为Python标准的打包及分发工具，setuptools可以说相当地简单易用。它会随着Python一起安装在你的机器上。你只需写一个简短的setup.py安装文件，就可以将你的Python应用打包首先，如果你需要另外安装setuptools，你可以使用下面的命令：wgethttp://peak.telecommunity.com/dist/ez_setup.pysudopythonez_setu
pyinstaller系列教程（一）-基础介绍风雪夜回 Python python windows linux
1.介绍PyInstaller是一个用于将Python应用程序打包为独立可执行文件的工具，它支持跨平台操作，包括Windows、Linux和MacOS等操作系统。特点如下：跨平台支持：PyInstaller可以在多个操作系统上运行，并生成相应平台的可执行文件。自动依赖项处理：它会自动检测Python脚本的依赖项，并将它们打包到生成的可执行文件中。单文件发布：可以将整个Python应用程序及其所有依
chatgpt赋能python：Python中如何安装和使用pip包管理器 laod112 ChatGpt python chatgpt pip 计算机
Python中如何安装和使用pip包管理器Python是一种非常流行的编程语言，而pip则是Python的包管理器。它使Python应用程序的安装和管理变得更加简单。在此文章中，我们将介绍pip的安装和使用，以及使用pip来安装和卸载Python模块的步骤。安装pip在Python2.7.9及更高版本中，pip已经预先安装，因此您可以直接使用它。对于早于2.7.9的Python版本，您需要手动安装
Python知识点：在Python应用中，如何使用Confluence进行文档管理超哥同学 Python系列 python 前端服务器面试编程
在Python应用中使用Confluence进行文档管理，可以通过以下步骤实现：1.安装必要的库首先，你需要安装用于与Confluence进行交互的Python库。atlassian-python-api是一个流行的库，它可以帮助你与Confluence进行API交互。你可以通过以下命令安装它：pipinstallatlassian-python-api2.配置ConfluenceAPI你需要获取
Python应用与实践脚步的影子 python log4j 开发语言
目录1.Python是什么？1.1.Python语言1.2.Python哲学2.Python在工作中的应用2.1.实例1：文件批量处理2.2.实例2：xml与excel互转2.3.总结3.为什么选择Python？3.1.前途！钱途！3.2.开发效率极高3.3.总而言之4.还有谁在用Python？4.1.国外4.2.国内5.是不是想学习Python了？入门资料工具可能有些标题党，没有针对某些具体的应
lambda表达式简析及应用案例极致人生-010 lambda 数据
文章目录Lambda表达式的基本概念不同语言中的Lambda表达式示例PythonJava8及以上版本JavaScript(ES6+)C++使用场景高级用法注意事项实际应用场景Java应用案例1.数据处理：使用`Stream`APIC++应用案例2.排序算法中的比较操作Python应用案例3.动态创建函数4.字典分组JavaScript应用案例5.事件监听器总结Lambda表达式是一种简洁的、内联
【Azure 应用服务】Python3.7项目在引用pandas 模块后，部署报错云中路灯
问题描述参考“快速入门：在Linux上的Azure应用服务中创建Python应用”文档，在AppServiceForLinux环境中部署Python应用，在添加了pandas，应用本地运行成功，但是部署到AppService后，启动报错：ApplicationError2021051101.png问题分析获取日志：可以通过高级工具（kudu）连接到AppService后台，因为是Linux系统，所
Peewee:是简化Python数据库瑞士军刀 Python_P叔 python 算法开发语言
Peewee:Python开发者的数据库交互神器,你准备好了吗？"什么是PythonPeewee的库Peewee是一个轻量级的Python对象关系映射（ORM）库,用于在Python应用程序中与数据库进行交互.它提供了易于使用的API,使得在Python中执行数据库操作变得更加简单和高效.Peewee支持多种数据库后端,例如SQLite、MySQL、PostgreSQL等,使开发人员能够轻松地切换
Python配置管理工具库之hydra使用详解 Rocky006 python 人工智能开发语言
概要在开发复杂的Python应用程序时，配置管理往往是一个重要但容易被忽视的部分。Hydra是一个强大的配置管理工具，它旨在简化配置文件的管理和使用，尤其是在涉及多个配置文件和参数组合的场景下。Hydra提供了一种优雅的方式来组织和访问配置数据，并支持动态生成和组合配置。这对于机器学习、数据科学和大型Python应用程序开发来说尤其有用。本文将详细介绍Hydra库，包括其安装方法、主要特性、基本和
python篇-windows cmd 输入python弹出应用商城大卫软件测试 python windows 开发语言
当你在Windows的命令提示符（CMD）中输入python命令却弹出了应用商店，这通常是由于Windows系统中的“应用执行别名”设置所导致的。这意味着系统将python命令错误地关联到了应用商店中的Python应用而不是你实际安装的Python解释器。以下是如何解决这个问题的步骤：解决方案：禁用应用执行别名：打开Windows搜索栏，输入“管理应用执行别名”并打开这个设置。在打开的页面中，找到
部署到Heroku时，UnicodeDecodeError：utf-8；#39；编解码器无法解码位置0中的字节0xff 潮易 python 机器人
当您在部署Python应用程序到Heroku时遇到UnicodeDecodeError：utf-8编解码器无法解码位置0中的字节0xff错误，这通常是因为您的应用程序在读取或写入文件时使用了不支持的编码格式。为了解决这个问题，您可以按照以下步骤操作：1.确认您的代码中处理文件时的编码方式。默认情况下，Python可能会使用系统的默认编码（如'ascii'或'utf-8'），但是如果您的数据是以其他
学习Python真的有用吗？打工人经验告诉你答案_python学习那么多语法有用吗 2401_84563438 程序员学习 python 开发语言
Web开发是目前Python应用最多的一个方面，主要从事网站开发工作。其就业岗位有后台开发工程师、全栈开发工程师等。2.爬虫开发工程师爬虫是Python实际应用中非常重要的方向，对于企业收集市场数据有非常重要的作用。需要注意的是，爬虫开发工程师需要在相应的规则与市场要求下完成工作。3.自动化运维开发在运维领域很多人都具备Python开发功能，主要是因为在运维过程中需要使用Python完成部分脚本的
OSError: [WinError 126] 找不到指定的模块。 Error loading “*\torch\lib\fbgemm.dll“ or one of its dependencies. 漫游者Nova Python python
Python应用在运行的时候报错了，提示：OSError:[WinError126]找不到指定的模块。Errorloading"F:\***\python310\lib\site-packages\torch\lib\fbgemm.dll"oroneofitsdependencies.首先检查目录发现这个fbgemm.dll文件是存在的，就是缺少相关依赖文件了。最终发现是缺少libomp140.x
ubuntu22.04@laptop OpenCV Get Started: 009_image_thresholding lida2003 Linux opencv 人工智能计算机视觉
ubuntu22.04@laptopOpenCVGetStarted:009_image_thresholding1.源由2.image_thresholding应用Demo2.1C++应用Demo2.2Python应用Demo3.重点分析3.1BinaryThresholding(THRESH_BINARY)3.2Inverse-BinaryThresholding(THRESH_BINARY_
ubuntu22.04@laptop OpenCV Get Started: 011_edge_detection lida2003 Linux opencv edge 人工智能计算机视觉
ubuntu22.04@laptopOpenCVGetStarted:011_edge_detection1.源由2.edge_detection应用Demo2.1C++应用Demo2.2Python应用Demo3.重点逐步分析3.1GaussianBlur去噪3.2Sobel边缘检测3.2.1`Sobel`X方向边缘检测3.2.2`Sobel`Y方向边缘检测3.2.3`Sobel`XY方向边缘检
10分钟吃透Python Datetime，轻松掌控时间程序媛幂幂 python 开发语言 linux
Python中提供了多个用于对日期和时间进行操作的内置模块：time模块、datetime模块和calendar模块。其中time模块是通过调用C库实现的，所以有些方法在某些平台上可能无法调用，但是其提供的大部分接口与C标准库time.h基本一致。time模块相比，datetime模块提供的接口更直观、易用，功能也更加强大。在你的Python应用程序中，你可能想设置时间，以增加诸如时间戳的功能，检
Python应用程序发布库之mitoinstaller使用详解 Rocky006 python 开发语言
概要在Python开发中，打包和发布应用程序是一个常见的任务，尤其是当你想要与其他人分享你的应用时。MitoInstaller是一个方便易用的Python库，旨在简化Python应用程序的打包和发布过程。它提供了简单的API，使得将Python代码打包成可执行文件和安装程序变得轻松而高效。本文将介绍MitoInstaller库的功能、用法以及一些实际应用案例。什么是MitoInstaller？Mi
mitoinstaller，一个强大的 Python 库！ Sitin涛哥 Python python 开发语言
更多Python学习内容：ipengtao.com大家好，今天为大家分享一个强大的Python库-mito。Github地址：https://github.com/mito-ds/mito在Python开发中，打包和发布应用程序是一个常见的任务，尤其是当你想要与其他人分享你的应用时。MitoInstaller是一个方便易用的Python库，旨在简化Python应用程序的打包和发布过程。它提供了简单
python从小白到大师-第一章Python应用（五）应用领域与常见包-爬虫安城安基本语言教程 python 爬虫开发语言后端服务器网络
目录一.爬虫1.1urllib1.2requests1.3scrapy1.4pySpider总结一.爬虫1.1urlliburllib是Python标准库中的一个模块，它提供了一组用于处理URL（统一资源定位符）的函数和类。通过urllib，我们可以方便地进行URL的解析、访问和处理。该模块主要包括以下几个子模块：urllib.request：用于发送HTTP请求和获取远程数据的模块。urllib
python从小白到大师-第一章Python应用（三）应用领域与常见包-数据可视化安城安基本语言教程 python 开发语言服务器运维 ubuntu 信息可视化
目录一.数据可视化1.1matplotlib1.2Seaborn1.3plotly1.4Pyecharts1.5Turtles二.总结一.数据可视化1.1matplotlibMatplotlib是一个用于绘制数据可视化图表的Python库。它提供了一种类似于Matlab的绘图接口，并且可以与NumPy等其他常用的科学计算库配合使用。Matplotlib能够创建各种类型的图形，包括折线图、散点图、柱
【Docker】dockerfile学习 giao客 Linux docker 学习容器
目录一、Dockerfile文件说明FROMRUNWORKDIRADDCOPYENV二、例子解析三、构建Dockerfile实例（FROMubuntu:20.04）部署一整套的系统和目标软件（FROMpython:3.7）专注于Python应用的快速部署（FROMubuntu:20.04）与（FROMpython:3.7）的区别四、运行Dockerfile构建镜像dockerbuild运行容器do
python从小白到大师-第一章Python应用（六）应用领域与常见包-自动化办公excel 安城安基本语言教程自动化运维 excel python 算法前端开发语言
目录一.excel1.1xlwings1.2xlsxwriter1.3xlrd二.总结一.excel1.1xlwingsxlwings是一个用于在Python和MicrosoftExcel之间进行交互的开源库。它提供了简单且强大的API，使得我们可以使用Python来控制和操作Excel工作簿、单元格、图表等。xlwings具有以下特点：可与Excel完全集成：xlwings允许我们直接在Pyth
ubuntu22.04@laptop OpenCV Get Started: 015_deep_learning_with_opencv_dnn_module lida2003 Linux opencv dnn 人工智能计算机视觉开源
ubuntu22.04@laptopOpenCVGetStarted:015_deep_learning_with_opencv_dnn_module1.源由2.应用Demo2.1C++应用Demo2.2Python应用Demo3.使用OpenCVDNN模块进行图像分类3.1导入模块并加载类名文本文件3.2从磁盘加载预训练DenseNet121模型3.3读取图像并准备为模型输入3.4通过模型进行前
ubuntu22.04@laptop OpenCV Get Started: 014_simple_background_estimation_in_videos lida2003 Linux opencv 人工智能计算机视觉
ubuntu22.04@laptopOpenCVGetStarted:014_simple_background_estimation_in_videos1.源由2.应用Demo2.1C++应用Demo2.2Python应用Demo3.时间中值滤波4.使用中值进行背景估计4.1背景评估4.2帧差法计算4.2.1中值帧转换为灰度4.2.2遍历所有帧，并转换为灰度4.2.3计算当前帧与中值帧差异4.2
ubuntu22.04@laptop OpenCV Get Started: 010_blob_detection lida2003 Linux opencv 人工智能计算机视觉
ubuntu22.04@laptopOpenCVGetStarted:010_blob_detection1.源由2.blob应用Demo2.1C++应用Demo2.2Python应用Demo3.重点分析3.1Threshold3.2Area3.3Circularity3.4Convexity3.5InertiaRatio4.总结5.参考资料6.补充1.源由Blob是图像中的一组连接像素，它们共享
如何在wxPython应用程序中使用Panda3D q56731523 3d jvm java 开发语言软件开发应用程序
我们知道wxPython提供了丰富的工具和部件来构建用户界面，如果当我们整合wxPython和Panda3D可以创建出功能丰富且交互性强的应用程序，可以创建出强大而丰富的用户界面和3D场景。这样做的主要挑战在于将两个库整合到一个应用程序中，同时确保它们能够无缝地协同工作。具体像是解释一起跟着我看下文吧。1、问题背景我正在开发一个wxPython应用程序。我想在该应用程序的GUI中嵌入一个由Pand
c语言现有21根火柴,python应用-21根火柴游戏哎不想起名 c语言现有21根火柴
"""21跟火柴"""fromrandomimportrandintdefmain():total=21whiletotal>0:print('剩余%d跟火柴'%total)whileTrue:num=int(input('你拿几根火柴：'))if10:com=randint(1,min(4,total))print('计算机拿走了%d跟火柴'%com)total-=comiftotal==0:p
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

Python爬虫与正则表达式