alex100

Python网络爬虫学习笔记 -第三章：爬虫数据提取

课程地址 https://edu.csdn.net/course/detail/24756/280664

文章目录

XPath语法和lxml模块
- 什么是XPath?
- XPath节点
- XPath语法
- lxml库
- 在lxml中使用xpath
BeautifulSoup4库
- 安装和文档
- 几大解析工具对比
- 简单使用
- 常见的四种对象
- contents和children：
- string和strings、stripped_strings属性以及get_text方法
- find_all的使用：
- find与find_all的区别：
- 使用find和find_all的过滤条件：
- 获取标签的属性：
- CSS选择器：
- - select方法：
  - - （1）通过标签名查找：
    - （2）通过类名查找：
    - （3）通过id查找：
    - （4）组合查找：
    - （5）通过属性查找：
    - （6）获取内容
正则表达式：
- 单字符匹配：
- 多字符匹配：
- 正则表达式案例：
- 开始/结束/贪婪和非贪婪：
- 转义字符和原生字符串：
- 分组：
- re中常用的函数：

XPath语法和lxml模块

什么是XPath?

xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。

XPath节点

在 XPath 中，有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

XPath语法

使用方式：
使用//获取整个页面当中的元素，然后写标签名，然后再写谓词进行提取，比如：

//title[@lang='en']

需要注意的知识点：

/和//的区别：/代表只获取子节点，//获取子孙节点，当然也要视情况而定。
contains：有时候某个属性中包含了多个值，那么可以使用contains函数，示例如下：

//title[contains(@lang,'en')]

谓词中下标是从1开始，而不是从0开始的

lxml库

lxml是一个HTML/XML的解析器，主要的功能是如何解析和提取HTML/XML数据。
基本使用：

from lxml import etree

text = '''

    
         first item
         second item
         third item
         fourth item
         fifth item
     
 
'''
# 将字符串解析为html文档
html = etree.HTML(text)
print(html)
# 按字符串序列化html
result = etree.tostring(html).decode('utf-8')
print(result)

从文件中读取html代码：

#读取
html = etree.parse('hello.html')
result = etree.tostring(html).decode('utf-8')
print(result)

在lxml中使用xpath

<!-- hello.html -->
>>
>
    >
         -0">>first item>>
         
-1">>second item>>
         
-inactive">>>third item>>>
         
-1">>fourth item>>
         -0">>fifth item>>
>
 >
>>

语法练习

from lxml import etree
html = etree.parse('hello.html')
# 获取所有li标签：
result = html.xpath('//li')
print(result)
# for i in result:
#     print(etree.tostring(i))
# 获取所有li元素下的所有class属性的值：
# result = html.xpath('//li/@class')
# print(result)
# 获取li标签下href为www.baidu.com的a标签：
# result = html.xpath('//li/a[@href="www.baidu.com"]')
# print(result)
# 获取li标签下所有span标签：
# result = html.xpath('//li//span')
# print(result)
# 获取li标签下的a标签里的所有class：
# result = html.xpath('//li/a//@class')
# print(result)
# 获取最后一个li的a的href属性对应的值：
# result = html.xpath('//li[last()]/a/@href')
# print(result)
# 获取倒数第二个li元素的内容：
# result = html.xpath('//li[last()-1]/a')
# print(result)
# print(result[0].text)
# 获取倒数第二个li元素的内容的第二种方式：
result = html.xpath('//li[last()-1]/a/text()')
print(result)

BeautifulSoup4库

安装和文档

安装：pip install bs4
中文文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

几大解析工具对比

简单使用

from bs4 import BeautifulSoup

html = "<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>"
soup = BeautifulSoup(html,'lxml')
print(soup.prettify())

常见的四种对象

Tag:
Tag 通俗点讲就是 HTML 中的一个个标签。我们可以利用 soup 加标签名轻松地获取这些标签的内容，这些对象的类型是bs4.element.Tag。但是注意，它查找的是在所有内容中的第一个符合要求的标签。
NavigableString:
如果拿到标签后，还想获取标签中的内容。那么可以通过tag.string获取标签中的文字。
BeautifulSoup:
BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象, 它支持遍历文档树和搜索文档树中描述的大部分的方法.
Comment:
Tag , NavigableString , BeautifulSoup 几乎覆盖了html和xml中的所有内容,但是还有一些特殊对象.容易让人担心的内容是文档的注释部分
Comment 对象是一个特殊类型的 NavigableString 对象

contents和children：

返回某个标签下的直接子元素，其中也包括字符串。他们两的区别是：contents返回来的是一个列表，children返回的是一个迭代器。

string和strings、stripped_strings属性以及get_text方法

string：获取某个标签下的非标签字符串。返回来的是个字符串。如果这个标签下有多行字符，那么就不能获取到了。
strings：获取某个标签下的子孙非标签字符串。返回来的是个生成器。
stripped_strings：获取某个标签下的子孙非标签字符串，会去掉空白字符。返回来的是个生成器。
get_text：获取某个标签下的子孙非标签字符串，以普通字符串形式返回

find_all的使用：

在提取标签的时候，第一个参数是标签的名字。然后如果在提取标签的时候想要使用标签属性进行过滤，那么可以在这个方法中通过关键字参数的形式，将属性的名字以及对应的值传进去。或者是使用attrs属性，将所有的属性以及对应的值放在一个字典中传给attrs属性。
有些时候，在提取标签的时候，不想提取那么多，那么可以使用limit参数。限制提取多少个。

find与find_all的区别：

find：找到第一个满足条件的标签就返回。说白了，就是只会返回一个元素。
find_all:将所有满足条件的标签都返回。说白了，会返回很多标签（以列表的形式）。

使用find和find_all的过滤条件：

关键字参数：将属性的名字作为关键字参数的名字，以及属性的值作为关键字参数的值进行过滤。
attrs参数：将属性条件放到一个字典中，传给attrs参数。

获取标签的属性：

通过下标获取：通过标签的下标的方式。

   href = a['href']

通过attrs属性获取：示例代码：

   href = a.attrs['href']

CSS选择器：

select方法：

使用以上方法可以方便的找出元素。但有时候使用css选择器的方式可以更加的方便。使用css选择器的语法，应该使用select方法。以下列出几种常用的css选择器方法：

（1）通过标签名查找：

print(soup.select('a'))

（2）通过类名查找：

通过类名，则应该在类的前面加一个.。比如要查找class=sister的标签。示例代码如下：

print(soup.select('.sister'))

（3）通过id查找：

通过id查找，应该在id的名字前面加一个＃号。示例代码如下：

print(soup.select("#link1"))

（4）组合查找：

组合查找即和写 class 文件时，标签名与类名、id名进行的组合原理是一样的，例如查找 p 标签中，id 等于 link1的内容，二者需要用空格分开：

print(soup.select("p #link1"))

直接子标签查找，则使用 > 分隔：

print(soup.select("head > title"))

（5）通过属性查找：

查找时还可以加入属性元素，属性需要用中括号括起来，注意属性和标签属于同一节点，所以中间不能加空格，否则会无法匹配到。示例代码如下：

print(soup.select('a[href="http://example.com/elsie"]'))

（6）获取内容

以上的 select 方法返回的结果都是列表形式，可以遍历形式输出，然后用 get_text() 方法来获取它的内容。

soup = BeautifulSoup(html, 'lxml')
print(type(soup.select('title')))
print(soup.select('title')[0].get_text())
for title in soup.select('title'):
    print(title.get_text())

正则表达式：

单字符匹配：

# 匹配某个字符串：
# text = "abc"
# ret = re.match('b',text)
# print(ret.group())


# 点（.）：匹配任意的字符(除了'\n')：
# text = "\nabc"
# ret = re.match('.',text)
# print(ret.group())


# \d：匹配任意的数字：
# text = "aab"
# ret = re.match('\d',text)
# print(ret.group())


# \D：匹配任意的非数字：
# text = "cab"
# ret = re.match('\D',text)
# print(ret.group())


# \s：匹配的是空白字符（包括：\n，\t，\r和空格）：
# text = " ab"
# ret = re.match('\s',text)
# print("="*30)
# print(ret.group())
# print("="*30)


# \S：非空白字符：
# text = "\nab"
# ret = re.match('\S',text)
# print("="*30)
# print(ret.group())
# print("="*30)


# \w：匹配的是a-z和A-Z以及数字和下划线：
# text = "+bc"
# ret = re.match('\w',text)
# print("="*30)
# print(ret.group())
# print("="*30)


# \W：匹配的是和\w相反的：
# text = "1bc"
# ret = re.match('\W',text)
# print("="*30)
# print(ret.group())
# print("="*30)


# []组合的方式，只要满足中括号中的某一项都算匹配成功：
# text = "bc"
# ret = re.match('[1b]',text)
# print("="*30)
# print(ret.group())
# print("="*30)

# 使用组合的方式[0-9]\d：
# text = "abc"
# ret = re.match('[^0-9]',text)
# print("="*30)
# print(ret.group())
# print("="*30)

# 使用组合的方式实现\w：
text = "+bc"
ret = re.match('[^a-zA-Z0-9_]',text)
print("="*30)
print(ret.group())
print("="*30)

多字符匹配：

# *：匹配0个或者多个字符：
# text = "+abc"
# result = re.match('\D*',text)
# print(result.group())


# +：匹配1个或者多个字符：
# text = "1abc"
# result = re.match('\w+',text)
# print(result.group())


# ?：匹配前一个字符0个或者1个：
# text = "+abc"
# result = re.match('\w?',text)
# print(result.group())


# {m}：匹配m个字符:
# text = "+1abc"
# result = re.match('\w{2}',text)
# print(result.group())


# {m,n}：匹配m-n之间的个数的字符：
text = "1abc+"
result = re.match('\w{1,3}',text)
print(result.group())

正则表达式案例：

# 1. 验证手机号码：手机号码的规则是以1开头，第二位可以是34587，后面那9位就可以随意了。
# text = "18677889900"
# result = re.match("1[34587]\d{9}",text)
# print(result.group())


# 2. 验证邮箱：邮箱的规则是邮箱名称是用数字、英文字符、下划线组成的，然后是@符号，后面就是域名了。
# text = "[email protected]"
# result = re.match("\w+@[a-z0-9]+\.[a-z]+",text)
# print(result.group())


# 3. 验证URL：URL的规则是前面是http或者https或者是ftp然后再加上一个冒号，再加上一个斜杠，再后面就是可以出现任意非空白字符了。
# text = "https://baike.baidu.com/item/Python/407313?fr=aladdin"
# result = re.match("(http|https|ftp)://\S+",text)
# print(result.group())


# 4. 验证身份证：身份证的规则是，总共有18位，前面17位都是数字，后面一位可以是数字，也可以是小写的x，也可以是大写的X。
text = "36530019870716234x"
result = re.match("\d{17}[\dxX]",text)
print(result.group())

开始/结束/贪婪和非贪婪：

# ^：以...开头：
# text = "hello world"
# result = re.search("world",text)
# print(result.group())


# $：以...结尾：
# text = "hello world"
# result = re.search("hello$",text)
# print(result.group())
# text = ""
# result = re.search("^$",text)
# print(result.group())


# |：匹配多个字符串或者表达式：



# 贪婪和非贪婪：
# text = "12345"
# result = re.search("\d+?",text)
# print(result.group())


# 案例1：提取html标签名称：
# text = "这是标题
"
# result = re.search("<.+?>",text)
# print(result.group())


# 案例2：验证一个字符是不是0-100之间的数字：
# 0,1,99,100
# 01
text = "101"
result = re.match("0$|[1-9]\d?$|100$",text)
print(result.group())

转义字符和原生字符串：

# Python中的转义字符：
# raw
# text = r"hello\nworld"
# print(text)


# 正则表达式中的转义字符：
# text = "apple price is $99,range price is $88"
# result = re.findall("\$\d+",text)
# print(result)


# 原生字符串和正则表达式：
# 正则表达式的字符串解析规则：
# 1. 先把这个字符串放在Python语言层面进行解析。
# 2. 把Python语言层面解析的结果再放到正则表达式层间进行解析。
text = "\cba c"
# result = re.match("\\\\c",text) # \\\\c =(Python语言层面)> \\c =(正则表达式层面)> \c
result = re.match(r"\\c",text) # \\c =(正则表达式层面)> \c
print(result.group())

分组：

text = "apple price is $99,orange price is $88"
result = re.search('.+(\$\d+).+(\$\d+)',text)
print(result.groups())

# group()/group(0)：匹配整个分组
# group(1)：匹配第一个分组
# group(2)：匹配第二个分组
# groups()：获取所有的分组

re中常用的函数：

# findall：查找所有满足条件的
# text = "apple price is $99,orange price is $88"
# result = re.findall(r'\$\d+',text)
# print(result)

# sub：根据规则替换其他字符串
# text = "nihao zhongguo,hello world"
# new_text = text.replace(" ","\n")
# new_text = re.sub(r' |,','\n',text)
# print(new_text)
# html = """
# 
#     1. 3年以上相关开发经验 ，全日制统招本科以上学历
#     2. 精通一门或多门开发语言(Python,C,Java等)，其中至少有一门有3年以上使用经验
#     3. 熟练使用ES/mysql/mongodb/redis等数据库；
#     4. 熟练使用django、tornado等web框架，具备独立开发 Python/Java 后端开发经验；
#     5. 熟悉 Linux / Unix 操作系统 
#     6. 熟悉 TCP/IP，http等网络协议
#     福利：
#     1、入职购买六险一金（一档医疗+公司全额购买商业险）+开门红+全额年终奖（1年13薪，一般会比一个月高）
#     2、入职满一年有2次调薪调级机会
#     3、项目稳定、团队稳定性高，团队氛围非常好（汇合员工占招行总员工比例接近50%）；
#     4、有机会转为招商银行内部员工；
#     5、团队每月有自己的活动经费，法定节假日放假安排；
#     6、办公环境优良，加班有加班费（全额工资为计算基数，加班不超过晚上10点，平日加班为时薪1.5倍，周末加班为日薪2倍，周末加班也可优先选择调休，管理人性化）。
# 
# """
# new_html = re.sub(r'<.+?>',"",html)
# print(new_html)


# split：根据规则分割字符串
# text = "nihao zhongguo,hello world"
# result = re.split(r' |,',text)
# print(result)


# compile：编译正则表达式
text = "apple price is 34.56"
# r = re.compile(r"""
# \d+ # 整数部分
# \.? # 小数点
# \d* # 小数部分
# """,re.VERBOSE)
# result = re.search(r,text)
result = re.search(r"""
\d+ # 整数部分
\.? # 小数点
\d* # 小数部分
""",text,re.VERBOSE)
print(result.group())

如果想要在正则表达式中加注释，那么需要在正则表达式的函数最后加一个re.VERBOSE。

【新生必会】30个较难Python脚本，建议收藏。 .Boss. 信息可视化 python 人工智能算法开发语言机器学习
本篇较难，建议优先学习上篇；20个硬核Python脚本-CSDN博客接上篇文章，对于Pyhon的学习，上篇学习的结束相信大家对于Pyhon有了一定的理解和经验，学习完上篇文章之后再研究研究剩下的30个脚本你将会有所成就！加油！目录21、数据库连接-SQLite22、图像处理-Pillow23、图形界面-Tkinter24、文本生成-Faker25、加密和解密-cryptography26、Sock
python import 另一个文件夹下的类 zhousenshan python新赛道 python django
在Python开发中，有时我们需要将不同文件夹中的模块或类相互导入，以实现代码的复用和组织。对于刚入行的小白来说，这可能会让人感到有些困惑。本文将帮助你了解如何在Python中导入另一个文件夹下的类，并为你提供详细的步骤与代码示例。python类与对象的详细用法_python撖寡情-CSDN博客导入类的流程为了解决这个问题，我们可以将导入的过程分为以下几个步骤：步骤描述1确认项目结构，了解不同文件
用于AI-CV项目标注的星标模型深蓝海拓 pyside6系统学习机器视觉和人工智能学习 pyside6学习笔记 python 开发语言 pyqt
功能：生成星标图形项，并在目标点上将底图颜色反色显示，当定位和拖动后输出底图在标记点的像素值。输入和输出使用信号槽机制。代码：importmathimportsysfromPySide6.QtCoreimportQPointF,QObject,QRectF,SignalfromPySide6.QtGuiimportQBrush,QPixmap,QColor,QPenfromPySide6.QtWi
PyTorch 生态概览：为什么选择动态计算图框架？小诸葛IT课堂 pytorch 人工智能 python
一、PyTorch的核心价值PyTorch作为深度学习框架的后起之秀，通过动态计算图技术革新了传统的静态图模式。其核心优势体现在：动态灵活性：代码即模型，支持即时调试Python原生支持：无缝衔接Python生态高效的GPU加速：通过CUDA实现透明的硬件加速活跃的社区生态：GitHub贡献者超1.8万人，日均更新100+次二、动态计算图VS静态计算图对比#动态计算图示例（PyTorch）impo
Python文件中动态导入多个.py文件 _长风_ Python脚本方法大合集 python
Python文件中动态导入多个.py文件一、背景在一些自动化脚本中，我们需要一些中间文件作为引用文件来处理一些自动化的工作，但是中间文件数量可能根据需求的变更发生不规律的变化，所以就需要一些读文件夹来自动获取这些需要引用的中间文件，下面就是我整理的一个能够实现动态导入的方法。二、实现思路及步骤生成文件：a.py脚本会生成b.py和c.py文件，并在其中定义一个简单的函数。执行生成文件脚本：在m
基于python+django+vue.js开发的社区养老管理系统源码+运行步骤冷琴1996 Python系统设计 python django vue.js
业余时间开发的社区养老系统，基于python/vue技术开发。学习过程问题可以留言。功能介绍平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。功能包括：老人管理、护工管理、亲属管理、病史管理、房间管理、活动管理、用户管理、日志管理、系统信息模块。源码地址https://github.com/geeeeeeeek/python_yanglao演示地址ht
Python从一个文件导入另一个文件的方法 _苏歌 Python python
从一个文件中导入另一个文件需要的函数#导入所需要的文件importChrome_HandLessimporttimebrowser=Chrome_HandLess.share_browser()url='https://www.baidu.com/'browser.get(url)#获取输入框对象input_button=browser.find_element(by='id',value='kw
LeetCode 第6题：Z字形变换（Python3解法） little student LeetCode leetcode 算法职场和发展
文章目录1：问题描述2：问题分析2.1时间复杂度和空间复杂度2.2二维矩阵2.2.1构建矩阵2.2.2判断位置2.2.3边界2.2.4代码2.3改进的二维矩阵2.3.1代码2.4构造法2.4.1代码1：问题描述来源：LeetCode难度：中等问题详情：将一个给定字符串s根据给定的行数numRows，以从上往下、从左到右进行Z字形排列。比如输入字符串为“PAYPALISHIRING”行数为3时，排列
python requests库详解_Python Requests库详解 momo呀耶 python requests库详解
Requests是用Python语言编写，基于urllib，采用Apache2Licensed开源协议的HTTP库。它比urllib更加方便，可以节约我们大量的工作，完全满足HTTP测试需求。一句话--Python实现的简单易用的HTTP库安装Requestspip3isntallrequestsrequest实例引入importrequestsresponse=requests.get('htt
python文件导入另外个文件 LedMetallica python 开发语言
我整理的一些关于【Python】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/Hpqqk2如何在Python中导入文件在Python编程中，文件的导入是一个常见而重要的操作。通过导入其他Python文件的功能，我们可以重用代码、组织项目结构、提升代码的可读性和可维护性。本文将带你逐步了解如何实现Python文件的导入，并提供必要的代码示例和详细解释。
Py---引入其他文件夹里的.py文件的操作 VS，路在脚下 Python
目录1、同目录下的引用：直接import2、不同目录下：最好在文件夹里新建一个__init__.py文件。3、关于导入的说明1、同目录下的引用：直接importimportinclude_2;include_2.test2()2、不同目录下：最好在文件夹里新建一个__init__.py文件。说明：当一个文件夹下有__init__.py时，意为该文件夹是一个包（package），其下的多个模块（mo
第七节：AVL树基本操作实现熊峰峰 #3.数据结构数据结构算法 AVL树红黑树
一、AVL树基本原理AVL树是一种自平衡二叉搜索树，通过平衡因子（bf）机制维护树的平衡性。其核心特性：每个节点的平衡因子定义为：右子树高度-左子树高度平衡因子绝对值不超过1（|bf|≤1）当插入/删除导致失衡（|bf|≥2）时，通过旋转操作恢复平衡通过四种旋转操作修正失衡：旋转类型触发条件操作流程LL左子树的左子树过高(BF=-2→-1)单次右旋RR右子树的右子树过高(BF=+2→+1)单次左旋
python之requests库 qq_44659804 python python 开发语言
python之requests库requests库请求方法示例get方法get方法访问百度的输出指定方法发送请求简单的requests请求例子response响应对象的text和content之间的区别发送带header的请求发送带参数的请求在headers参数中携带Cookie两种使用cookie的形式：1.2.超时参数（timeout）使用代理IP（proxies）使用verify参数忽略CA
python导入不同目录下的py文件孙二羔 python python
文章已迁移至https://www.yuque.com/sunergao-koyun/pamxml/wx38h5
python使用importlib进行动态导入py文件 *Major* python 开发语言 opencv
python动态导入py文件importimportlibdefdynamic_import(module):returnimportlib.import_module(module)实例importimportlibimportcv2defdynamic_import(module):returnimportlib.import_module(module)classOpenCVAlgo:def
学习pytorch 阿什么名字不会重复呢学习 pytorch 人工智能
学习PyTorch是一个很好的选择，尤其是如果你对深度学习和机器学习感兴趣。以下是一个详细的学习计划，可以帮助你系统地掌握PyTorch的基本概念和应用。学习计划概览学习周期：8周（每周约4-5小时）目标：掌握PyTorch基础，能够实现简单的深度学习模型。第1周：基础知识目标：了解深度学习的基础知识，掌握Python和NumPy基础。任务：学习Python基础（数据类型、控制流、函数、类）。资源
python 如何引入同一个文件夹下py方法 m0_68335176 eclipse
前言毕业快三年了，前后也待过几家公司，碰到各种各样的同事。见识过各种各样的代码，优秀的、垃圾的、不堪入目的、看了想跑路的等等，所以这篇文章记录一下一个优秀的后端Java开发应该有哪些好的开发习惯。拆分合理的目录结构受传统的MVC模式影响，传统做法大多是几个固定的文件夹controller、service、mapper、entity，然后无限制添加，到最后你就会发现一个service文件夹下面有几十
【Python】如何在Python中导入其他Python文件？ civilpy python 开发语言
基本原理在Python编程中，我们经常需要将代码组织成模块，以便于重用和维护。模块是包含Python定义和语句的文件。导入模块可以让你访问其他文件中定义的函数、类和变量等。Python提供了几种不同的方法来导入模块。代码示例示例1：导入整个模块假设我们有一个名为math_functions.py的文件，它定义了一些数学函数。我们可以在另一个Python文件中导入这个模块，如下所示：#math_fu
QT：文件读取 Yanjun2i qt 开发语言
问题：在文件读取，判断md5值时，遇到py文件读取转String后，再转byte，md5前后不一致问题。解决方法：python文件读取要使用QTextStream，避免\t、\r、\n的换行符跨平台问题（window系统换行符和linux换行符不一致）。QTextStream默认帮你处理了换行符跨平台问题。\r：回到开头\n：换行一般读取文件的方式是：boolxxxxClass::readFile
Python中Requests库的用法 R3eE9y2OeFcU40
前面讲了Python的urllib库的使用和方法，Python网络数据采集Urllib库的基本使用，Python的urllib高级用法。今天我们来学习下Python中Requests库的用法。Requests库的安装利用pip安装，如果你安装了pip包（一款Python包管理工具，不知道可以百度哟），或者集成环境，比如Python（x,y）或者anaconda的话，就可以直接使用pip安装Pyth
LeetCode-490 迷宫问题（DFS） IC 见路不走深度优先 leetcode 算法
题目描述由空地和墙组成的迷宫中有一个球，球可以向上下左右四个方向滚动，但在遇到墙壁前不会停止滚动。当球停下时，可以选择下一个方向。给定球的起始位置、目的地和迷宫。判断球能否在目的地停下。思路分析：迷宫由一个0和1的二维数组组成，1表示墙壁，0代表空地。你可以假设迷宫的边缘都是墙壁，防止小球出界，起始位置和目的地的坐标通过行号和列好给出。该题特别注意，小球是向一个方向运动，直到停下为止，并不是一次只
C 语言分支与循环：构建程序逻辑的基石无爱如何释怀 C语言 c语言开发语言
在C语言的世界里，分支和循环结构是编程的核心内容，它们赋予了程序根据不同条件执行不同操作以及重复执行特定代码段的能力，让程序变得更加智能和高效。今天，我们就深入探讨C语言分支和循环的相关知识，助力大家夯实编程基础。一.分支结构：if语句与switch语句1.if语句1.1基本形式与原理：if语句是C语言中最常用的分支结构之一。其基本语法为if(表达式)语句，当表达式的值为非0（在C语言中，非0表示
使用 React 和 Vite 使用 Tauri 构建番茄钟 pxr007 react.js rust 前端
Tauri是一组工具，可让您使用前端框架构建跨平台桌面应用程序。当与React和Vite结合使用时，它可以用于为所有桌面平台构建极其快速的二进制文件。开发人员可以使用Tauri通过Web技术编写安全、精简和快速的跨平台桌面应用程序。对于许多开发人员来说，Electron通常是这些应用程序的首选框架，但Tauri现在已经做好了竞争的准备。在这篇文章中，我们将构建一个简单的番茄钟计时器，我邀请您按照自
ruby分割字符串_Ruby字符串的一些方法狄息桐 ruby分割字符串
最近因为公司需求开始看ruby，先从ruby的基本数据类型开始看看到ruby的字符串类型string，发现ruby中的字符串单双引号是不一样的，这点和Python有那么点不一样主要是我们对字符串进行变量引用的时候要使用双引号如下：可支持全部的转义字符及用#{exp}将Ruby中的值插入字符串中例：i=5str=“abab#{i}cjd”#->abab5cjd“#{‘ho‘*3}happynewye
正式开启Django之旅 __淡墨青衫__ Django django python 后端
1、回顾创建django项目（1）、使用创建django指令：django-adminstartproject项目名称（2）、在settings.py文件，修改配置文件LANGUAGE_CODE='zh-hans'#需要设置为中文TIME_ZONE='Asia/Shanghai'#时区设置为亚洲/上海（3）、启动django项目指令为pythonmanage.py端口***如需外部访问需要在修改s
《Python程序设计基础》课堂笔记整理金土火 Python python
1数据1.1基本数据类型1.1.2数字类型x//yx与y整数商，即不大于x与y之商的最大整数x的y次幂，即(x+yj).real复数的实部;(x+yj).imag复数的虚部1.1.3优先级等于,顺序从右向左1.2组合数据类型1.2.1序列类型列表类型字符串使用双引号或单引号括起来的零个或多个字符，字符串是字符的序。1.正向递增序号：正向递增以最左侧字符序号为0，向右依次递增，最右侧字符序号为L-1
一文让你详细理解Qualcomm WLAN Roaming机制：连载2 思考的下一页 #Wi-Fi Roaming Roaming Wi-Fi Qualcomm
1.基于PER的漫游及BSS负载元素的使用通过监控Rx/Tx的MCS速率触发漫游扫描基于数据包错误率（PER）的漫游扫描机制用于将STA（站点）从拥塞信道迁移至更优候选信道。漫游扫描的触发条件基于当前使用的接收（Rx）和发送（Tx）数据速率。发送速率间接反映STA观测到的PER值，而接收速率则用于估算AP（接入点）观测到的PER值。当接收和发送数据速率低于20Mbps（可配置）时，固件开始监控Rx
python中collections_python中的collections weixin_39892481
python中有大量的内置模块，很多是属于特定开发的功能性模块，但collections是属于对基础数据的类型的补充模块，因此，在日常代码中使用频率更高一些，值得做个笔记，本文只做主要关键字介绍，详细的功能仍然要翻阅官方文档，地址如下：英文站：https://docs.python.org/3.5/library/collections.html中文站：http://python.usyiyi.c
python中的 collections 模块(用法、详解、底层原理，示例等) 还是那个同伟伟 Python进阶 python collections 字典集合
1、collections模块中的defaultdict1.1defaultdict功能可以设置一个默认值作为字典中新key的默认值。该默认值可以是任何对象，包括函数、列表、元组、集合等。默认值不需要像dict那样事先定义，因为它在需要的时候会自动创建使用defaultdict，可以简化代码并提高代码的可读性，而且可以防止KeyError异常的出现。同时，defaultdict的性能与普通字典相当
Python中的collections模块木心 #Python python 开发语言
Python中的collections模块文章目录Python中的collections模块1.Counter对象2.deque对象3.defaultdict对象4.namedtuple5.OrderedDictReferencePython中的collections提供许多容器数据类型，这个模块实现了一些专门化的容器，提供了对Python的通用内建容器dict、list、set和tuple的补充
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring