无敌开心

【爬虫入门知识讲解：正则表达式】

正则表达式

Regular Expression，译作正则表达式或正规表示法，表示有规则的表达式，意思是说，描述一段文本排列规则的表达式。

正则表达式并不是Python的一部分。而是一套独立于编程语言，用于处理复杂文本信息的强大的高级文本操作工具。正则表达式拥有自己独特的规则语法以及一个独立的正则处理引擎，我们根据正则语法编写好规则（模式）以后，引擎不仅能够根据规则进行模糊文本查找，还可以进行模糊分割，替换等复杂的文本操作，能让开发者随心所欲地处理文本信息。正则引擎一般由编程语言提供操作，像python就提供了re模块或regex模块来调用正则处理引擎。

正则表达式在处理文本的效率上不如系统自带的字符串操作，但功能却比系统自带的要强大许多。

最早的正则表达式来源于Perl语言，后面其他的编程语言在提供正则表达式操作时基本沿用了Perl语言的正则语法，所以我们学习python的正则以后，也可以在java，php，go，javascript，sql等编程语言中使用。

正则对字符串或文本的操作，无非是分割、匹配、查找和替换。

在线测试工具 http://tool.chinaz.com/regex/

【1】元字符(Metacharacters)

元字符是具有特殊含义的字符。

元字符	描述
[]	匹配一个中括号中出现的任意原子
[^原子]	匹配一个没有在中括号出现的任意原子
\	转义字符，可以把原子转换特殊元字符，也可以把特殊元字符转成原子。
^	叫开始边界符或开始锚点符，匹配一行的开头位置
$	叫结束边界符或结束锚点符，匹配一行的结束位置
.	叫通配符、万能通配符或通配元字符，匹配1个除了换行符\n以外任何原子
*****	叫星号贪婪符，指定左边原子出现0次或多次
?	叫非贪婪符，指定左边原子出现0次或1次
+	叫加号贪婪符，指定左边原子出现1次或多次
{n,m}	叫数量范围贪婪符，指定左边原子的数量范围，有{n}，{n, }, {,m}, {n,m}四种写法，其中n与m必须是非负整数。
\|	指定原子或正则模式进行二选一或多选一
()	对原子或正则模式进行捕获提取和分组划分整体操作，

import re
"""re.findall(正则模式, 文本)  基于正则模式查找所有匹配的文本内容"""
# part1: 通配符->.  字符集-> []
ret1 = re.findall("a", "a,b,c,d,e")
ret1 = re.findall(".", "a,b,c,d,e")
ret1 = re.findall("[ace]", "a,b,c,d,e")
ret1 = re.findall("[a-z]", "a,b,c,d,e")
ret1 = re.findall("[0-9]", "1,2,3,4,5")
ret1 = re.findall("\d", "1,2,3,4,5")
ret1 = re.findall("[0-9a-z]", "1,a,2,b,3")
ret1 = re.findall("[^a-z]", "1,a,2,b,3")
ret1 = re.findall("[^0-9,]", "1,a,2,b,3")
print(ret1)

# part2:重复元字符-> + * {} ?
ret2 = re.findall("[0-9a-zA-Z]", "apple,banana,orange,melon")
ret2 = re.findall("\w", "apple,banana,orange,melon")
ret2 = re.findall("\w+", "apple,banana,orange,melon")
ret2 = re.findall("\w+?", "apple,banana,orange,melon")  # 取消贪婪匹配
ret2 = re.findall("\w*", "apple,banana,orange,melon")
ret2 = re.findall("\w{6}", "apple,banana,orange,melon")

# part3: 位置元字符-> ^ $
ret3 = re.findall("^\w{5}", "apple,banana,peach,orange,melon")
ret3 = re.findall("\w{5}$", "apple,banana,peach,orange,melon")
ret3 = re.findall("^\w{5}$", "apple,banana,peach,orange,melon")
print(ret3)

# part4:
# | 指定原子或正则模式进行二选一或多选一
# () 具备模式捕获的能力，也就是优先提取数据的能力，通过(?:) 可以取消模式捕获
ret4 = re.findall(",\w{5},", ",apple,banana,peach,orange,melon,")  # 筛选出5个字符的单词
ret4 = re.findall(",(\w{5}),", ",apple,banana,peach,orange,melon,")  # 筛选出5个字符的单词
ret4 = re.findall("\w+@\w+\.com", "[email protected],[email protected],....")  # 筛选出5个字符的单词
ret4 = re.findall("(\w+)@qq\.com", "[email protected],[email protected],....")  # 筛选出5个字符的单词
ret4 = re.findall("(?:\w+)@(?:qq|163)\.com", "[email protected],[email protected],....")  # 筛选出5个字符的单词
print(ret4)

# part5:  转义符-> \d \D  \w \W      \n    \s \S  \b \B
""" \b 1个单词边界原子 """
txt = "my name is nana. nihao,nana"
ret = re.findall(r"na", txt)
ret = re.findall(r"\bna", txt)
ret = re.findall(r"\bna\w{2}", txt)
print(ret)  # ['na', 'na', 'na']

转义元字符是\开头的元字符，由于某些正则模式会在开发中反复被用到，所以正则语法预定义了一些特殊正则模式以方便我们简写。

元字符	描述	示例
\d	匹配一个数字原子，等价于`[0-9]`。	\d
\D	匹配一个非数字原子。等价于`[^0-9]`或`[^\d]`。	“\D”
\b	匹配一个单词边界原子，也就是指单词和空格间的位置。	er\b
\B	匹配一个非单词边界原子，等价于 `[^\b]`	r"\Bain"r"ain\B"
\n	匹配一个换行符
\t	匹配一个制表符，tab键
\s	匹配一个任何空白字符原子，包括空格、制表符、换页符等等。等价于`[ \f\n\r\t\v]`。	“\s”
\S	匹配一个任何非空白字符原子。等价于`[^ \f\n\r\t\v]`或 `[^\s]`。	“\S”
\w	匹配一个包括下划线的单词原子。等价于`[A-Za-z0-9_]`。	“\w”
\W	匹配任何非单词字符。等价于`[^A-Za-z0-9_]` 或 `[^\w]`。	“\W”

【2】常用正则表达式

工作中，正则一般用于验证数据、校验用户输入的信息、爬虫、运维日志分析等。其中如果是验证用户输入的数据：

场景	正则表达式
用户名	`^[a-z0-9_-]{3,16}$`
密码	`^[a-z0-9_-]{6,18}$`
手机号码	`^(?:\+86)?1[3-9]\d{9}$`
颜色的十六进制值	`^#?([a-f0-9]{6}
电子邮箱	`^[a-z\d]+(\.[a-z\d]+)*@([\da-z](-[\da-z])?)+\.[a-z]+$`
URL	`^(?:https://
IP 地址	`((2[0-4]\d
HTML 标签	`^<([a-z]+)([^<]+)(?:>(.)<\/\1>`
utf-8编码下的汉字范围	`^[\u2E80-\u9FFF]+$`

【3】re模块的方法

Python提供了处理正则表达式的模块有标准库的re模块和第三方模块regex。

导入re模块后，可以开始使用正则表达式了。

import re

查找一个手机号码

import re

txt = "13312345678"
ret = re.search("^1[3-9]\d{9}$", txt)
if ret:
    print(ret.group())

注意：python本身没有内置正则处理的，python中的正则就是一段字符串，我们需要使用python模块中提供的函数把字符串发送给正则引擎，正则引擎会把字符串转换成真正的正则表达式来处理文本内容。

re模块提供了一组正则处理函数，使我们可以在字符串中搜索匹配项：

函数	描述
findall	按指定的正则模式查找文本中所有符合正则模式的匹配项，以列表格式返回结果。
search	在字符串中任何位置查找首个符合正则模式的匹配项，存在则返回re.Match对象，不存在返回None
match	判定字符串开始位置是否匹配正则模式的规则，匹配则返回re.Match对象，不匹配返回None
split	按指定的正则模式来分割字符串，返回一个分割后的列表
sub	把字符串按指定的正则模式来查找符合正则模式的匹配项，并可以替换一个或多个匹配项成其他内容。

findall

findall()函数返回包含所有匹配项的列表，如果找不到匹配项，则返回一个空列表。

search

search()函数搜索匹配的字符串，如果匹配上则返回匹配对象re.Match。如果有多个匹配项，则仅返回匹配项的第一个匹配项，如果找不到匹配项，则返回值为None：

import re

ret = re.search("1[3-9]\d{9}", "我的手机号码是13928835900,我女朋友的手机号是15100363326")
print(ret)
print(ret.start(), ret.end(), ret.span())
print(ret.group())

ret = re.search("(?P1[3-9]\d{9}).*?(?P\[email protected])", "我的手机号码是13928835900,我的邮箱是[email protected]")
print(ret)
print(ret.group("tel"))
print(ret.group("email"))

match

match()函数搜索匹配的字符串开始位置，如果匹配上则返回匹配对象，如果找不到匹配项，则返回值为None

split

split()函数返回一个列表，对字符串进行正则分割。

import re

txt = "my name is moluo"
ret = re.split("\s", txt)
print(ret)  # ['my', 'name', 'is', 'moluo']

可以通过指定maxsplit参数来控制分割的次数，例如，仅在第1次出现时才拆分字符串：

import re

txt = "my  name        is    yuan"
ret = re.split("\s+", txt)
print(ret)

sub

sub()函数用选择的文本替换匹配:

import re

txt = "my  name        is    yuan"
# ret = re.sub("\s+"," " ,txt)
ret = re.sub("\s+", " ", txt, 2)
print(ret)

【4】正则进阶

`.*?`

import re

text = '<12>   <1a!#e2> <>'

ret = re.findall("<\d+>", text)
ret = re.findall("<\w+>", text)
ret = re.findall("<.+>", text)
ret = re.findall("<.+?>", text)
ret = re.findall("<.*?>", text)

print(ret)

`模式修正符`

模式修正符，也叫正则修饰符，模式修正符就是给正则模式增强或增加功能的。

修正符	re模块提供的变量	描述
i	re.I	使模式对大小写不敏感，也就是不区分大小写
m	re.M	使模式在多行文本中可以多个行头和行位，影响 ^ 和 $
s	re.S	让通配符. 可以代码所有的任意原子（包括换行符\n在内）

import re

text = """
<12
>
 
  
 
  
 
 <1a!#
 e2> 
 
 <>
"""

ret = re.findall("<.*?>", text)
ret = re.findall("<.*?>", text, re.S)

print(ret)

【5】练习

1、编写正则，匹配整数或者小数（包括正数和负数）

2、编写正则，匹配年月日日期 格式2018-12-31

3、编写正则，匹配qq号 5-12

4、编写正则，11位的电话号码

5、编写正则，长度为8-10位的用户密码 ： 包含数字字母下划线

6、编写正则，从18位省份证中提取用户生日日期

7、编写正则，从文本"a@com  [email protected] [email protected]  [email protected]   [email protected]"中匹配qq邮箱地址

8、从以下多行文本中提取href=""中的双引号的值，并提取标签内容 <a>内容<a>
"""
hahaha
tmall
tmall
"""

课堂代码

import re

"""
1、编写正则，匹配文本中的整数或者小数（包括正数和负数）
"""
# txt = "10.3 10 20 -20 +20 --20 ++20 -30.5444"
# # ret = re.findall(r"-?\+?\d+", txt)
# ret = re.findall(r"[\+\-]?(?:(?:\d+\.\d+)|(?:\d+))", txt)
# print(ret)
# # ['10', '3', '10', '20', '-20', '+20', '-20', '+20']



"""
2、编写正则，匹配年月日日期 格式: 2018-12-31
"""

# txt = "2018-12-31  2018-12-01 2018-12  2018-31 0000-12-31 2018-1-31 2018-01-31  20-01-31  20-01-1  2020-1-1  2020-01-01"
# ret = re.findall(r"[12]\d{3}-\d+-\d+", txt)
# print(ret)  # ['2018-12-31', '2018-12-01', '2018-1-31', '2018-01-31', '2020-1-1', '2020-01-01']
#

"""
3、编写正则，匹配qq号 5-12数字
"""
# txt = "20181231  40001 2202020133  13311233220222 20202012024222 222050sss2222  33020202222  2001  202011  2020.0101222"
# ret = re.findall(r"[1-9]\d{4,11}", txt)
# print(ret)  # ['20181231', '40001', '2202020133', '133112332202', '202020120242', '222050', '33020202222', '202011', '101222']



"""
4、编写正则，11位的手机号码
"""
# txt = "1331234546 1501233453 15812345678  158-1234-5678  158 1234 5678   20022221111  10012345678  19012345678"
# ret = re.findall(r"1[3-9]\d{9}", txt)
# print(ret)  #
#
# # 如果 158-1234-5678 和 158 1234 5678也算呢？
# txt = "1331234546 1501233453 15812345678  158-1234-5678  158 1234 5678   20022221111  10012345678  19012345678"
# ret = re.findall(r"1[3-9]\d[\- ]?\d{4}[\- ]?\d{4}", txt)
# print(ret)  #


"""
5、编写正则，长度为8-10位的用户密码 ： 包含数字字母下划线
"""
# password = input("请输入长度为8-10位的用户密码（包含数字字母下划线）：")
# ret = re.match(r"^\w{8,10}$", password)
# print(ret)

"""
6、编写正则，从18位省份证中提取用户生日日期
"""
# idCard = "51142119991021155x"
# ret = re.findall(r"^[1-6]\d{5}(\d{8})\d{3}[\dxX]$", idCard)
# # ret = re.findall(r"^(?:1[1-5]|2[1-3]|3[1-7]|4[1-6]|5[0-4]|6[1-5])\d{4}(\d{8})\d{3}[\dxX]$", idCard)
# print(ret)

"""
7、编写正则，从文本"a@com  [email protected] [email protected]  [email protected]   [email protected]"中匹配qq邮箱地址
"""
# txt = "a@com  [email protected] [email protected]  [email protected]   [email protected]"
# ret = re.findall(r"\w+@\w+\.\w+(?:.cn)?", txt)
# print(ret)  # ['[email protected]', '[email protected]', '[email protected]', '[email protected]']

"""
8、从以下多行文本中提取href=""中的双引号的值，并提取标签内容 内容
"""

# txt = """
# hahaha
# tmall
# tmall
# """
# ret = re.findall(r'(?P.*?)', txt, re.M+re.S)
# print(ret)

【爬虫】针对FingerprintJS反爬，selenium破解策略 steamedobun 项目管理爬虫爬虫 selenium 测试工具
目录FingerprintJS原理概述Selenium基础与应对思路代码实现实战（结合Selenium和UndetectedChromedriver绕过FingerprintJS）Canvas指纹随机化FingerprintJS原理概述FingerprintJS主要通过收集浏览器的各种特征信息来生成独一无二的指纹，这些信息包括但不限于：浏览器版本信息：不同浏览器版本在处理网页元素、执行JavaSc
大数据毕业设计hadoop+spark+hive豆瓣图书数据分析可视化大屏豆瓣图书爬虫图书推荐系统 qq_79856539 javaweb java 大数据 hadoop 课程设计
系统总体目标基于Spark的个性化书籍推荐系统是一种基于大数据技术的智能推荐系统，它可以根据用户的历史行为和偏好，为用户提供个性化的书籍推荐。该系统采用Spark技术，可以实现大数据的实时处理，从而提高推荐系统的准确性和可靠性。此外，该系统还可以根据用户的习惯和偏好，提供更加个性化的书籍推荐，从而满足用户的需求。系统的使用者包含普通用户和管理员两类，普通用户是系统的主要服务对象，主流人群是经常查看
Python 爬虫实战：从喜马拉雅爬取有声书播放量，挖掘热门音频内容西攻城狮北 python 爬虫音视频实战案例
目录引言一、项目背景与需求分析1.1喜马拉雅平台的特点1.2数据爬取目标二、技术选型与工具准备2.1技术选型2.2工具准备三、爬取有声书播放量数据3.1获取音频列表3.2获取音频详情四、数据存储五、数据处理与分析5.1数据清洗5.2数据分析六、可视化展示七、总结与展望引言喜马拉雅作为国内知名的音频分享平台，拥有海量的有声书、广播剧、音乐等内容。通过爬取喜马拉雅上的有声书播放量数据，我们可以分析哪些
通过爬虫方式实现视频号助手发布视频 sh_moranliunian 蜘蛛侠 python 网络协议爬虫网络爬虫后端
1、将真实的cookie贴到解压后目录中cookie.txt文件里，修改python代码里的user_agent和video_path,cover_path等变量的值，最后运行python脚本即可；2、运行之前根据import提示安装一些常见依赖，比如requests等；3、2025年1月份最新版；代码如下：importjsonimporttimeimportrequestsimportosimp
Python 库的记录 weixin_40895135 python
GitHub-jobbole/awesome-python-cn:Python资源大全中文版，内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等环境管理管理Python版本和环境的工具p–非常简单的交互式python版本管理工具。pyenv–简单的Python版本管理工具。Vex–可以在虚拟环境中执行命令。vir
JavaScript学习记录22 济南小草根 JavaScript javascript 学习开发语言
第十节RegExp对象1.概述正则表达式（regularexpression）是一种表达文本模式（即字符串结构）的方法，有点像字符串的模板，常常用来按照“给定模式”匹配文本。比如，正则表达式给出一个Email地址的模式，然后用它来确定一个字符串是否为Email地址。JavaScript的正则表达式体系是参照Perl5建立的。新建正则表达式有两种方法。一种是使用字面量，以斜杠表示开始和结束。varr
Python抖音爬虫 yzx991013 python基础学习 python 爬虫开发语言
代码：#导入自动化模块的安装：需要安装pipinstallDrissionPagefromDrissionPageimportChromiumPage#导入时间转换模块fromdatetimeimportdatetime#导入csv模块，用于操作CSV文件importcsv#导入格式化输出模块frompprintimportpprint#使用with语句管理文件资源，自动关闭文件withopen(
正则表达式（Regex）-- 捕获组（capture group） xdsemo 编程语言正则表达式 python
RegularExpressionHOWTO—Python3.10.4documentation捕获组就是把正则表达式中子表达式匹配的内容，保存到内存中以数字编号或显式命名的组里，方便后面引用。分为普通捕获组(Expression)和命名捕获组(?Expression)。普通捕获组：如果没有显式为捕获组命名，即没有使用命名捕获组，那么需要按数字顺序来访问所有捕获组。在只有普通捕获组的情况下，捕获组
正则表达式超全笔记！！这一篇就够了！！灿灿不会秃头 js 正则表达式
欢迎各位大神批评指点！！！！正则表达式1.什么是正则表达式（规则表达式）1.1正则是一种规则1.2正则是一种字符串1.3校验、检索、替换等那些符合某个模式（规则）的文本设想:想要匹配输入是数据是否是一串手机号1.长度2.校验是否是数字3.前三位必须是手机137138152172//----------------传统方法校验----------------------//length===11电话
正则表达式命名捕获组 weixin_34326558 php
示例字符串：release-11-2-10传统的正则表达式只能进行字符串匹配，比如我们可以用这个正则表达式来匹配上面的字符串。release-\d*-\d*-\d*release-11-2-10但是当我们做一个转换的时候，比如release-11-2-10转换成11.2.10的时候，匹配就不够用了，这个时候我们可以使用命名捕获组和模板来解决这个问题。release-\d*-\d*-\d*普通正则表
JDK7 正则表达式捕获组命名 u010466329 正则表达式正则表达式
jdk6之前的正则表达式不支持命名捕获组功能，只能通过捕获组的索引来访问捕获组。当正则表达式比较复杂的时候，里面含有大量的捕获组和非捕获组,通过从左至右数括号来得知捕获组的计数也是一件很烦人的事情；而且这样做代码的可读性也不好，当正则表达式需要修改的时候也会改变里面捕获组的计数。解决这个问题的方法是通过给捕获组命名来解决,就像Python,PHP,.Net以及Perl这些语言里的正则表达式一样.新
[疯狂Java]正则表达式：捕获组、反向引用、捕获组命名 Lirx_Tech 疯狂Java笔记疯狂Java 正则表达式捕获组反向引用捕获组命名
1.捕获组及其编号：1)捕获组之前讲过，就是匹配到的内容，按照()子表达式划分成若干组；2)例如正则表达式：(ab)(cd(ef))就有三个捕获组，没出现一对()就是一个捕获组3)捕获组编号规则：i.引擎会对捕获组进行编号，编号规则是左括号(从左到右出现的顺序，从1开始编号；ii.例如：2.反向引用：1)捕获组的作用就是为了可以在正则表达式内部或者外部（Java方法）引用它；2)如何引用？当然是通
为AI聊天工具添加一个知识系统之75 详细设计之16 正则表达式之3 正则表达式模板一水鉴天人工智能正则表达式
本文要点概念图式schema：。处理“我”立“每一个新提概念的提出都首先是语言的-含糊概念Notion{Yes，Unkown,No}，然后才是程序的-模糊符号Notation{True，False}，最后会是数据的-近似值Approximation{Good,Fair,Poor}。”。每一次旧概念的废除（破）则正好相反。一个概念的每一个区域的形成都需要三化方的通力合作。1启动破、立过程互翻；2集成
为AI聊天工具添加一个知识系统之77 详细设计之18 正则表达式之5 一水鉴天人工语言软件智能智能制造人工智能正则表达式
本文要点昨天讨论了本项目（AI聊天工具添加一个知识系统）中正则表达式模板的设计中可能要考虑到的一些问题（讨论到的内容比较随意，暂时无法确定那些考虑是否应该是正则表达式模板设计要考虑的以及是否完整）。今天我们在正则表达式更高设计层次上看看本项目的整个正则表达式应该是怎样的。先给出综述：开发时/运行时/生产时（三世归一化时间投影X-piece-scale，三代连坐时间并行升级换代）的三界标准化空间(位
APL语言的正则表达式慕璃嫣包罗万象 golang 开发语言后端
APL语言中的正则表达式引言APL（AProgrammingLanguage）是一种高层次的编程语言，以其简洁的符号和强大的数组处理能力著称。虽然其主要用途通常集中在数值计算和数据处理，但APL也提供了对字符串操作的支持。在这方面，正则表达式作为一种强大的字符串处理工具，能够帮助程序员更高效地进行模式匹配和文本处理。因此，了解APL语言中的正则表达式的使用方法，对于从事数据分析、文本处理等工作的程
Python----Python高级（正则表达式：语法规则，re库）蹦蹦跳跳真可爱589 Python 正则表达式 python
一、正则表达式1.1、概念正则表达式，又称规则表达式,（RegularExpression，在代码中常简写为regex、regexp或RE），是一种文本模式，包括普通字符（例如，a到z之间的字母）和特殊字符（称为"元字符"）。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，通常被用来检索、替换那些符合某个模式（规则）的文本。通俗的说，正则表达式就是一种语法规则，用来匹配文本中的
正则表达式入门兮动人正则表达式正则表达式正则表达式入门
入门1、提取文章中所有的英文单词//1．先创建一个Pattern对象，模式对象，可以理解成就是一个正则表达式对象Patternpattern=Pattern.compile("[a-zA-Z]+");//2．创建一个匹配器对象//理解:就是matcher匹配器按照pattern(模式/样式)，到content文本中去匹配//找到就返回true，否则就返回falseMatchermatcher=pa
SASE+：一种使用克林闭包应用于事件流的敏捷语言马客斯复杂事件处理(CEP)流式数据处理 SASE+敏捷 query 测试语言正则表达式 stream
翻译自论文：《SASE+:AnAgileLanguageforKleeneClosureoverEventStreams》本文并不是原文的逐句翻译，而是提取了原文中的精华，并加入了本人的理解。【】里的内容是我作的注释。不当之处，欢迎指正。SASE+是一种复杂事件处理语言，它支持克林闭包来处理事件流。克林闭包已经被很好地研究正则表达式匹配，应用于流处理的克林闭包模式具有如下特征：事件定义，事件选择，
03、爬虫数据解析-bs4解析/xpath解析奔向sj 爬虫学习爬虫
一、bs4解析使用bs4解析，需要了解一些html的知识，了解其中一些标签。安装：pipinstallbs4导入：frombs4importBeautifulSoup1、使用方式1、把页面源代码交给BeautifulSoup进行处理，生成bs对象2、从bs对象中查找数据（1）find(标签，属性=值)：找第一个（2）findall(标签，属性=值)：找全部的2、实战：拿到上海菜价网蔬菜价格1、思路
python websocket爬虫_python爬虫----爬取阿里数据银行websocket接口 weixin_39722917 python websocket爬虫
业务需求：爬取阿里品牌数据银行的自定义模块==>>>人群透视==>>>查看报告==>>数据最终获取页面：页面获取情况如下：绿色的就是我们需要模拟的请求，红色朝下的就是请求对应的数据，通过rid参数来找寻对应请求和数据，这个rid和时间戳很类似，没错这就是一个13位的时间戳，和随机数组合而成的：randomID=str(int(time.time()*1000))+str(self.count).z
python3简单爬虫 (爬取各个网站上的图片)_Python简单爬取图片实例神楽坂有木 python3简单爬虫 (爬取各个网站上的图片)
都知道Python的语法很简单易上手，也很适合拿来做爬虫等等，这里就简单讲解一下爬虫入门——简单地爬取下载网站图片。效果就像这样自动爬取下载图片到本地：代码：其实很简单，我们直接看下整体的代码：#coding=utf-8importurllibimportredefgetHtml(url):page=urllib.urlopen(url)html=page.read()returnhtmldefg
使用Python爬虫获取1688店铺所有商品信息的完整指南不会玩技术的技术girl Python API python 爬虫开发语言
在当今的电商时代，获取电商平台的商品信息对于市场分析、竞争对手研究以及数据挖掘等任务至关重要。1688作为中国领先的B2B电商平台，拥有海量的商品和商家数据。通过Python爬虫技术结合1688的API接口，我们可以高效地获取店铺的所有商品信息。本文将详细介绍如何实现这一目标。一、1688API接口简介1688开放平台提供了丰富的API接口，允许开发者通过合法的方式获取商品信息、店铺信息等数据。其
Python爬虫系列：爬取小说并写入txt文件_python爬虫爬取小说保存txt 2301_82244158 程序员 python 爬虫开发语言
哈喽，哈喽~都说手机自带的浏览器是看小说最好的一个APP，不须要下载任何软件，直接百度就ok了。但是小编还是想说，如果没有网，度娘还是度娘吗？能把小说下载成一个**.txt文件看**不是更香吗？这能难倒小编吗？坚决不能滴。于是乎，自己动手丰衣足食，Python就是万能的好吧。概要：程序语言：python第三方库：requests，parsel最后Python崛起并且风靡，因为优点多、应用领域广、被
Python爬虫获取custom-1688自定义API操作接口不会玩技术的技术girl Python API 1688API python 爬虫开发语言
一、引言在电子商务领域，1688作为国内领先的B2B平台，提供了丰富的API接口，允许开发者获取商品信息、店铺信息等。其中，custom接口允许开发者进行自定义操作，获取特定的数据。本文将详细介绍如何使用Python调用1688的custom接口，并对获取到的数据进行分析和应用。二、准备工作注册1688开放平台账号访问1688开放平台官网，注册一个账号并完成相关认证。这是获取API接口权限的前提。
【Python百日进阶-Web开发-FastAPI】Day806 - FastAPI的查询参数和字符串校验岳涛@泰山医院 Dash 前端 python fastapi
文章目录一、额外的校验1.1导入Query二、使用Query作为默认值三、添加更多校验四、添加正则表达式五、默认值六、声明为必需参数七、查询参数列表/多个值7.1具有默认值的查询参数列表/多个值7.2使用list八、声明更多元数据九、别名参数假设十、弃用参数十一、总结https://fastapi.tiangolo.com/zh/tutorial/query-params-str-validati
python 自动填表单不用webdriver_用python-webdriver实现自动填表 weixin_39747293 python 自动填表单不用webdriver
在日常工作中常常需要重复填写某些表单，如果人工完成，费时费力，而且网络延迟令人十分崩溃。如果能够用程序实现自动填表，效率可以提高一倍以上，并且能够移植到多台计算机，进一步提高工作效率。webdriver是python的selenium库中的一个自动化测试工具，它能完全模拟浏览器的操作，无需处理复杂的request、post，对爬虫初学者十分友好。一、环境配置python3.6+selenium库+
网络协议&爬虫简介 SSSCAESAR
文章目录端口通讯协议http网络模型http的请求和响应爬虫介绍爬虫的用处企业获取数据的方式端口指TCP/IP协议中的端口，端口号的范围从0到65535，比如用于浏览网页服务的80端口，用于FTP服务的21端口。面向连接服务TCP协议和无连接服务UDP协议使用16bits端口号来表示和区别网络中的不同应用程序，网络层协议IP使用特定的协议号（TCP6，UDP17）来表示和区别传输层协议。分为3大类
进阶之路：从传统编程到AI大模型与Prompt驱动的爬虫技术大模型老炮人工智能 prompt 爬虫语言模型大模型学习 AI大模型
前言爬虫相信很多人都对此有所了解，它主要依靠编写代码实现对网页结构的解析，通过模拟浏览器行为获取目标数据！随着人工智能技术的发展，LLM大模型的出现为爬虫技术带来了新的思路。与传统的编程模式不同，使用AI大模型+prompt可以显著提高程序员的编程效率。通过结合人工智能和自然语言处理技术，开发者可以更加高效地编写爬虫代码，并实现对网页内容的智能解析和提取。前置内容下面我将通过爬取豆瓣电影top25
正在更新丨豆瓣电影详细数据的采集与可视化分析（scrapy+mysql+matplotlib+flask） Want595 Python数据分析 scrapy mysql matplotlib
文章目录豆瓣电影详细数据的采集与可视化分析（scrapy+mysql+matplotlib+flask）写在前面数据采集0.注意事项1.创建Scrapy项目`douban2025`2.用`PyCharm`打开项目3.创建爬虫脚本`douban.py`4.修改`items.py`的代码5.修改`pipelines.py`代码6.修改`settings.py`代码7.启动`douban2025`项目8
11. Scrapy爬虫的监控与日志管理：确保稳定运行杨胜增 scrapy 爬虫
11.Scrapy爬虫的监控与日志管理：确保稳定运行在进行大规模的爬虫部署时，如何高效地监控爬虫的运行状态，及时发现并解决潜在问题，变得至关重要。Scrapy提供了灵活的日志管理功能，同时也可以与外部工具集成，实现爬虫的实时监控与告警。本篇文章将探讨如何使用Scrapy内置的日志功能来追踪爬虫的状态、调试问题，并通过集成外部监控工具来提高爬虫的稳定性和可维护性。11.1Scrapy内置日志功能Sc
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s