袁袁袁袁满

Python爬虫学习

通用爬虫模块学习

1、爬虫的概念

爬虫是模拟浏览器发送请求，获取相应
爬虫的流程
- URL—>发送请求，获取相应—>提取数据—>保存本地
- 发送请求，获取相应—提取URL

发送请求

url list

相应内容

提取url

提取数据

模块D

爬虫要根据当前url地址对应的响应为准，当前url地址的elements的内容和url的响应network不一样
页面上的数据在哪里
- 当前url地址对应的响应中
- 其他的url地址对应响应中
  - 比如ajax请求中
- js生成
  - 部分数据在响应中
  - 全部通过js生成

2、requests库学习

为什么学习requests,而不是urllib
1.requests的底层就是urllib
2.requests在Python2和Python3中通用，方法完全一样
3.requests简单易用
4.requests能够自动帮助我们解压（gzip压缩的等）网页内容
url编码
- http://www.baidu.com/s?wd=%E4%BC%A0%E6%99%BA%E6%92%AD%E5%AE%A2
字符串格式化的另一种方式
```
"传{}智播客".format(1)
```

保存页面

with open('renren1.html','w',encoding='utf-8') as f:    
      f.write(response.content.decode())

保存图片

with open('1.png/jpg','wb') as png:    
      png.write(response.content)

字典推导式和列表推导式

字典推导式

 cookies = '......network中的cookie'
#字典推导式
cookies = {i.split("=")[0]:i.split("=")[1] for i in cookies.split("; ")}

列表推导式

return [self.url_temp.format(i*50) for i in range(1000)]#主流写法

requests小技巧
- requests.utils.dict_from_cookiejar （把cookie对象转化为字典）
```
print(requests.utils.dict_from_cookiejar(response.cookies))
```
- url解码：requests.utils.unquote(‘url带%的地址’)
- 请求SSL证书验证：
```
response = requests.get('https://www.12306.cn/mormhweb',verify=False)
```
- 设置超时参数：
```
response = requests.get(url,timeout=10)
```
- 配合状态码判断请求是非成功
```
assert response.status_code==200
```
发送简单的请求
- 用法
```
response = request.get(url)
```
- response的常用方法：
  1.response.text：打印网页源码（会乱码）
  2.response.content：打印二进制数据
  3.response.content.decode()：打印网页（必须带有cookie值）
  4.response.status_code：打印响应码
  5.response.headers：获取响应头
  6.response.request.headers/url/cookies… ：获取请求头/请求url/cookies对象。。。
发送post请求
- 哪些地方会用到发送post请求：
  1. 登录注册
  2. 需要传输大文本内容的时候
  3. 用法
  response = requests.post(url,data=data,headers=headers) （data形式：字典）
使用代理
- 准备一堆ip地址，组成ip池，随机选择一个ip来访问
- 如何选择代理ip，让使用次数较少的ip地址有更大可能性被使用
  - {“ip”:ip,“times”:0}
  - [{},{},{},{},{}],对这个ip列表进行排序，按照使用次数times进行排序
  - 选择使用次数较少的从中随机选择一个
- 为什么要使用代理？
  1.让服务器以为不是同一个客户端请求
  2.防止我们的真实地址被泄露，防止被追究！
- 用法
```
proxies = {
             "http":"http://12.34.56.79:9527:80",或者
             "https":"https://12.34.56.79:9527:80",
             }
response = requests.get(url,proxies=proxies) （proxie的形式：字典）
      
```
- 检查ip的可用性
  1.可以使用requests添加超市参数，判断IP质量
  2.在线代理ip质量检测的网站
携带cookie请求
- cookie和session的区别
  1.cookie数据存放在客户的浏览器上，session数据放在服务器上
  2.cookie不是很安全，别人可以分析放在本地的cookie进行cookie欺骗
  3.session会在一定时间内保存在服务器上，当访问增多，会比较占用服务器性能
  4.单个cookie数据不能超过4k，很多浏览器限制一个站点最多保存20个cookie
- 携带一堆cook进行请求，组成cookie池。。。如上
- 携带cookie、session的好处：能够请求到登录之后的界面
- 携带cookie、session的弊端：一套cookie和session往往和一定用户对应，请求太快，次数太多，容易被识别为爬虫
- 为了获取登录后的页面，必须发送带有cookie的请求
- 使用request提供的session类来请求登录之后的网站思路
  1.实例化session
  2.先试用session发送请求，登录网站，把cookie保存在session中
  3.再使用session请求登陆之后才能访问的网站，session能够自动的携带登陆成功时保存在其中的 cookie，进行访问
- 模拟登录获取登录后的页面三种方法
  - 第一种：实例化session发送post登录，再使用session获取登录后的页面
```
#使用session发送post请求，cookie保存在其中
session.post(post_url,data=post_data,headers=headers)
#再使用session进行请求登录后才能访问的地址
r = session.get('http://www.renren.com/976812720/newsfeed/photo',headers=headers)
```
  - 第二种：在headers添加cookie键，值为cookie字符串
```
 headers = {
            'User-Agent':'...',
            'Cookie':'...network中的cookie值'
            }
```
    - 哪些情况可以这样？
      1.cookie过期时间很长的网站
      2.在cookie过期之前能够拿到所有数据，比较麻烦
      3.配合其他程序一起使用，其他程序专门获取cookie，当前程序专门请求页面
  - 第三种：在请求方法中添加cookies参数，接受字典型cookie。
```
cookies = '......network中的cookie'
#字典推导式
cookies = {i.split("=")[0]:i.split("=")[1] for i in cookies.split("; ")}
r=session.get('http://www.renren.com/976812720/newsfeed/photo',headers=headers,cookies=cookies)
```

3、Chrome分析post和json

寻找登录post的地址
- 第一种：在from表单中寻找action对应的url地址
  - post的数据是input标签中的name的值作为键，真正的用户密码作为值的字典，post的url地址就是action对应的地址
- 第二种：抓包，寻找登录的url地址
  1.勾选network中的perserver log按钮，防止页面跳转找不到url地址
  2.寻找post数据，确定参数（多登录几次）
  - 参数不会变，直接用，比如密码不是动态加密的时候
  - 参数会变
    - 在当前响应中
    - 通过js生成
- 定位想要的js
  - 选择会触发的js时间的按钮，点击ELememns中的event listener，找到js位置
  - 通过Chrome中的search 来搜索url中关键字
  - 添加断点的方式来查看js操作，通过Python来进行同样操作

4、数据分类

非结构化的数据：html等
- 处理方法：正则表达式、xpath
结构化数据：json，xml等
- 处理方法：转化为python数据类型

5、json数据处理

json注意点
- json是一种轻量级的数据交换式，适用于数据交互情景
- 哪里能找到json的url
  1.使用Chrome切换到手机页面
  2.抓包手机app的软件
- json中字符串都是用双引号引起来的
- 如果不是双引号
  - eval：能实现简单的字符串和简单的Python类型的转化
  - replace：把单引号替换为双引号
- 往一个文件中写入多个json串，不再是一个json串，不能直接读取（写保存在本地找对应行的问题）
  - 一行写一个json串，按行来读取

json字符串<—>Python数据类型

json.loads把json转换为Python类型

ret1 = json.loads(html_str)
或者
with open('douban.json','r',encoding='utf-8') as f:
   ret2 = f.read() （需要先读一下）
   ret3 = json.loads(ret2)
   print(ret3)

json.dumps能够把就Python类型转化为json

with open('douban.json','w',encoding='utf-8') as f:
    f.write(json.dumps(ret1,ensure_ascii=False,indent=2))  
（ensure_ascii=False在json中文显示中文，indent=2缩进两格，显示好看）

包含json的类文件对象<—>python
- 类文件对象：具有read()或者write()方法的对象（f = open(‘a.txt’,‘r’))f就是类文件对象
- json.load提取类文件对象中的数据
```
with open('douban.json','r',encoding='utf-8') as f:
  ret4 = json.load(f) （直接转换）
  print(ret4)
```
- json.dump能够把Python类型放入类文件对象中
```
with open('douban.json','w',encoding='utf-8') as f:
  json.dump(ret,f)
```

6、正则表达式（匹配列表）

定义：用事先定义好特殊字符，组成“规则字符串”，表达对字符串的一种过滤逻辑
用途：较少的数据时使用正则，如一个价格
常用正则表达式的方法：
re.complie（编译）
re.match（从头找一个）
re.search（找一个）
re.findall（找所有）
re.sub（替换）

贪婪（.*）:尽可能匹配多的字符

r = re.findall('<.+>',a,re.S)  （从第一个<匹配到最后一个）
print(r)

非贪婪（.*?）：尽可能少的数据，匹配完一个接着匹配下一个

r = re.findall('<.+？>',a,re.S)  （从第一个<匹配到第二个，接着匹配下个）
print(r)

re .sub（替换）方法

a = 'chuan1zhi2 '
print(re.sub('\d','_',a))

re.complie（编译）方法

a = 'chuan1zhi2 '
p = re.compile('.',re.S) （编译后p可以调用re其他方法节省运行时间，如果有re.S,re.DOALL放这）
print(p.findall('\n'))

原始字符串r的用法：待匹配的字符串中看到什么就在正则表达式中写什么，能忽略\带有转译的影响
```
a = re.findall(r'a\\nb','a\\nb')
print(a)
r'a\nb' == 'a\\nb' （True）
```
- 在window下操作文件路径
```
f = open(r"C:\Users\1.txt","r") （如果没有r需要写\\）
```
()的使用：只匹配括号中的,括号前后定位和起过滤作用
```
re.findall(r'a(.*)bc','a\nbc',re.DOTALL)
输出：['\n']  
```

双引号里有双引号加\

r".*?(.*?)
" （提取h1=title里面p标签的所有数据）

7、Xpath

lxml是一款高性能的Python HTML/XML解析器，我们可以利用Xpath来快速定位特定元素以及获取节点信息。XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。
工具：
1.Chrome插件 Xpath Helper
2.开源的Xpath表达式编辑工具：XML Quire（xml格式文件可用）
3.Firefox插件 Xpath Checker
节点选择语法
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20210604191327579.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3l1YW4yMDE5MDM1MDU1,size_16,color_FFFFFF,t_70#pic_center
Xpath学习重点
- 使用Xpath helper或者是Chrome中的copy Xpath都是从element中提取的数据，但是爬虫获取的是url对应的响应，往往和element不一样
- 获取文本
  - a/text() 获取a下的文本
  - a//text() 获取a下的所有标签的文本
  - //a[text()=‘下一页 >’] 选择文本为下一页三个字的a标签
- @符号
  - a@href
  - //ul[@id=‘tetail_list’] （帮助定位）
  - //a/@href 获取a标签中href的url
- //符号
  - 在Xpath开始的时候表示从当前html中任意位置开始选择
  - li//a ：表示li下任何一个a标签
- xpath的包含关系
  - //div[contains(@class,‘i’)] class包含i的div

8、lxml

lxml 可以接收bytes和str的字符串
利用etree.HTML，将字符串转化为Element对象
html = etree.HTML(text)
Element对象具有xpath的方法
html.xpath(’’)
lxml可以自动修正和补全html代码，可能会改错需要查看下
- etree.tostring(html) 可以查看element对象中所包含的字符串，根据修正后的HTML写Xpath

提取页面数据的思路

先分组，取到一个包含分组标签的列表
```
ret3 = html.xpath("//li[@class='item-1']")
```

遍历，取其中每一组数据进行提取，不会造成数据的对应错乱

for i in ret3:    
   item = {}
   item['title'] = i.xpath("./a/text()")[0] if len(i.xpath("./a/text()")) > 0 else None
   item['href'] = i.xpath("./a/@href")[0] if len(i.xpath("./a/@href")) > 0 else None
   print(item)

scrapy框架学习

1、scrapy框架环境搭建

第一步：安装Twisted模块
（1）打开（https://www.lfd.uci.edu/~gohlke/pythonlibs/），按下快捷键搜索"twisted"模块下载对应版本
（2）python3.9就下载“Twisted-20.3.0-cp39-cp39-win_amd64.whl”
（3）以管理身份运行命令提示符窗口，cd进入“Twisted-20.3.0-cp39-cp39-win_amd64.whl”文件所在位置，然后输入“pip install Twisted-20.3.0-cp39-cp39-win_amd64.whl”
第二步cmd窗口：安装scrapy框架:pip install Scrapy -i https://pypi.douban.com/simple/
第三步cmd窗口：安装pywin32：pip install pywin32 -i https://pypi.douban.com/simple/

2、scrapy框架创建项目

第一步：创建一个文件命名为Scrapy
第二步：创建scrapy框架之前,首先要确保把框架创建在我们刚刚新建的文件夹Scrapy中：
（1）打开管理员命令行窗口:输入cd 后面跟一个空格然后把你新建的Scrapy文件路径位置复制进终端里
（2）输入“scrapy startproject scrapyDemo” 可创建名称“scrapyDemo”的项目
（3）cd scrpayDemo
（4）生成一个爬虫scrapy genspider itcast “itcast.cn” ，其中“itcast”是定义的爬虫名称，“itcast.cn”是限制只能在这个网段中爬取不会跑到其他网址
第三步：修改配置：这里我们要改一下settings.py里的内容:
（1）打开文件,找到代码的第22行,把 ROBOTSTXT_OBEY=True 改为 False,这行代码表示是否遵循爬虫协议,如果是Ture的可能有些内容无法爬取
（2）将第67到69行代码解注释,并把300改为1,这是优先级设置
第四步：运行爬虫
使用pycharm时，在底部Terminal窗口中输入“scrapy crawl quotes”,“quotes”为自己定义的爬虫名

3、scrapy框架使用介绍

框架中个文件的作用
- items.py:定义爬虫程序的数据模型
- middlewares.py:定义数据模型中的中间件
- pipelines.py:管道文件,负责对爬虫返回数据的处理
- settings.py:爬虫程序设置,主要是一些优先级设置,优先级越高,值越小
- scrapy.cfg:内容为scrapy的基础配置

未更完…

正则表达式（1）林深的林正则表达式
正则表达式概述正则表达式，又称正规表示法、常规表示法（英语：RegularExpression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。正则表达式类似于JSON,是一种通用的标准,被各种开发语言所支持,包括但不限于:Java,JavaScript,C,C++,C#,Python,SQL等等;因为在J
27.2:Python的Django框架优点和缺点是什么？小兔子平安 Python完整学习全解答 python django 后端
课程概述①易于学习和使用②高度可定制③强大的安全性④性能问题——举例分析（博客应用程序，包括博客文章、评论和标签等功能）——举例分析（电子商务网站，包括商品、购物车和订单等功能）课程总结课程概述Python作为一种强大而又易于学习的编程语言，已经被广泛应用于各种领域，尤其是Web开发领域。而Django框架作为PythonWeb开发的一个重要组成部分，具有一些独特的优点和缺点，需要开发人员在使用时
批量图片水印添加工具木木黄木木 python
批量图片水印添加工具这是一个可以批量给图片添加水印的Python程序。程序会根据原始图片的分辨率自动调整水印大小，确保水印效果美观。这里写目录标题批量图片水印添加工具功能特点运行说明注意事项下载地址功能特点支持批量处理多个图片自动根据原图尺寸调整水印大小支持PNG格式的透明水印水印位置固定在右下角支持JPG、JPEG、PNG、BMP等格式的图片运行说明准备文件：将需要添加水印的图片放入input文
PythonWeb——Django框架 Error_exception_worn Python基础数据库 Python django
框架介绍1.什么是框架?框架就是程序的骨架，主体结构，也是个半成品。2.框架的优缺点可重用、成熟,稳健、易扩展、易维护3.Python中常见的框架大包大揽Django被官方称之为完美主义者的Web框架。力求精简web.py和Tornado新生代微框架Flask和Bottle4.Web框架中的一些概念MVC（模型-视图-控制器）和MVT（模型-视图-模板）Django框架介绍Django是一个高级的
【报错】zipfile.BadZipFile: File is not a zip file Jude_lennon 报错 python
pythonpd.read_excel(excel_path,sheet_name='Sheet1',engine='openpyxl',header=None)出现报错zipfile.BadZipFile:Fileisnotazipfile原代码：data_list=[load_graph_data(file)forfileindata_directory.glob("*.xlsx")]经过de
Python实现链表反转：迭代与递归双解法详解达不溜先生 ୧⍢⃝୨ python 数据结构链表算法 leetcode
目录一、问题描述二、核心代码实现2.1迭代法实现迭代法中的prev初始值是None的原因：关键步骤图解2.2递归法实现递归法中要设置head.next=None的原因递归过程拆解三、方法对比与选择建议一、问题描述链表反转是数据结构中的基础算法问题，常见于面试和算法题库（如LeetCode#206）。要求将单向链表的节点顺序完全倒置二、核心代码实现2.1迭代法实现时间复杂度：O(n)空间复杂度：O(
Python机器学习实战：使用Flask构建机器学习API AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：使用Flask构建机器学习API作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在数据科学和机器学习领域，模型训练和部署一直是重要的挑战。传统的机器学习项目往往采用独立的脚本或复杂的流程，难以实现模型的自动化、可视化和复现。为了解决这一问题，将机器学习模型封装成可访问的API变得越来越流行。Fla
Django框架的全面指南：从入门到高级步入烟尘 Python超入门指南全册 django sqlite 数据库
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
Sijia_y的个人经历以及计算机行业发展 Sijia_y python
如今互联网发展的速度甚是快，以至于技术都在更新迭代。稍有不注意可能就会被淘汰甚至是替代。作为一名中专生，我的成绩也是很差。因为高中考不上的缘故，来到了江苏上学。计算机行业我了解的并不是很多，当时只是听说工资高，铁饭碗。我是一个很懒的人，也是很贪玩。并没有学习很高的兴趣。我接触编程语言，完全是因为我的朋友。因为他是自学C语言的，后面他参加比赛得奖了。我就觉得非常厉害。我就开始学习Python，学会一
为什么Python使用者远远大于perl perlpython
不认为两者的语法差异是造成如此局面的主要原因.perl的语法虽然比较特立独行,但也不是很难.总结如下原因:library(或者叫package)的使用如果是本语言原生的library,那没有问题.如果是需要调用外部函数/过程的package的话,那么就会有巨大的差异.python是预编译然后从pypi上下载python(pip)将package下载到本地然后解压后将package内容安装到不同的指
AI 问答系统实战：用 Python + Flask + LLM 打造你的智能对话机器人！ Leaton Lee 人工智能 python flask
开篇互动：你是否想拥属于自己的AI问答机器人？“你是否想过拥有一个可以随时为你解答问题、提供建议的AI助手？”随着大语言模型（LLM）的快速发展，打造一个智能问答系统已经成为可能！本文将手把手教你如何利用Python和Flask快速搭建一个属于自己的AI问答系统，并集成强大的语言模型（如OpenAI的GPT-3.5或HuggingFace的LLaMA）。无论是技术小白还是有一定经验的开发者，都能轻
入坑 Python 全能实战小白训练营，470 集干货 12.9G 大揭秘！七七知享 Python python 开发语言 pandas numpy matplotlib java php
家人们，我最近挖到了一个Python学习的宝藏——Python全能实战小白训练营。整整470集，内容超丰富，资源包有12.9G，完全就是为咱们这些想系统学习Python的小白量身定制的。接下来就给大家好好唠唠。随着课程深入，会涉及到Python的各种高级特性，比如面向对象编程、模块与包的使用。在讲面向对象编程时，老师通过打造一个小型游戏角色系统，把类、对象、继承、多态这些抽象概念诠释得生动形象，让
PyCharm 对接 DeepSeek 大模型的详细操作流程程之编 pycharm ide python
以下是使用PyCharm对接DeepSeek大模型的详细操作流程，基于Python开发环境。假设你已具备DeepSeekAPI的访问权限（需提前申请APIKey）：步骤1：PyCharm环境准备创建新项目打开PyCharm→NewProject→选择纯Python项目→指定项目路径→创建虚拟环境（建议选Virtualenv）。安装依赖库打开终端（Terminal）执行以下命令：pipinstall
量子计算如何颠覆能源优化领域：从理论到实践 Echo_Wish 人工智能前沿技术量子计算能源
量子计算如何颠覆能源优化领域：从理论到实践大家好，我是Echo_Wish，一个热爱探索前沿技术的人工智能与Python领域的技术分享者。今天，我们将深入探讨一个激动人心的话题——量子计算在能源优化中的应用。这不仅是科技领域的全新趋势，也可能为全人类的能源利用效率带来革命性突破。从理论模型到实际应用，量子计算已经在一些能源相关领域崭露头角，例如电网优化、可再生能源分配和物流节能规划。以下，让我们一步
Kibana 单机与集群部署教程闲人编程大数据集群部署教程大数据集群单机部署 Kibana 日志分析数据可视化
目录Kibana单机与集群部署教程第一部分：Kibana概述第二部分：Kibana单机部署教程1.安装Kibana1.1安装依赖项1.2下载和安装Kibana1.3启动Kibana2.单机案例代码实现（Python）3.常见问题及解决方法3.1无法启动Kibana服务3.2Kibana无法连接到Elasticsearch第三部分：Kibana集群部署教程1.配置集群节点1.1配置Elasticse
INCA二次开发GUI实例化智海行舟 python 个人开发
【摘要】本文基于ETASINCA二次开发实践，深入探讨如何构建完整的自动化测试GUI系统。通过Python语言结合COM接口技术，实现从软件架构设计到功能模块开发的完整闭环，为汽车电子领域工程师提供可复用的开发范式。一、INCA二次开发技术背景1.1行业应用需求在汽车电子开发领域，ETASINCA作为行业标准标定工具，其自动化测试需求日益增长。传统的手动操作模式存在以下痛点：重复性操作耗时严重（单
如何通过API用Python获取北向资金流向数据？量化问财量化软件 QMT 量化交易 Python 量化炒股 PTrade QMT 量化交易量化软件 deepseek
推荐阅读：《【最全攻略】免费的量化软件有哪些？券商的交易接口怎么获取？》如何通过API用Python获取北向资金流向数据？北向资金指的是通过沪港通和深港通渠道，从香港市场流入A股市场的资金。对于投资者来说，了解北向资金流向对于把握市场趋势和投资决策具有重要意义。本文将介绍如何通过API用Python获取北向资金流向数据。理解北向资金流向数据北向资金流向数据主要包括以下几个方面：资金流入量：指通过沪
go执行java -jar 完成DSA私钥解析并签名 DavidSoCool java jar golang
起因，最近使用go对接百度联盟api需要使用到DSA私钥完成签名过程，在百度提供的代码示例里面没有go代码的支持，示例中仅有php、python2和3、java的代码，网上找了半天发现go中对DSA私钥解析支持不友好，然后决定使用在java中完成签名计算过程，生成可执行jar后由外部传入参数获取签名数据。百度联盟api文档说明：1）权限开通后，登录百度联盟媒体平台（union.baidu.com）
【30天玩转python】项目实战：从零开始开发一个Python项目爱技术的小伙子 30天玩转python linux 运维服务器
项目实战：从零开始开发一个Python项目在学习Python的过程中，开发一个完整的项目是非常重要的实战练习。它不仅能够帮助你巩固所学的知识，还能提高实际编程能力。本文将带领你从零开始开发一个Python项目，介绍从项目规划、环境搭建、代码实现到项目发布的完整过程。我们将以一个简单的“任务管理系统”为例，逐步讲解如何构建、测试和优化这个项目。1.项目规划1.1项目简介我们将开发一个基于命令行的任务
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
Python __init__.py 模块详解鱼丸丶粗面 Python __init__.py
文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
Python __init__.py 愚昧之山绝望之谷开悟之坡 python init
Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854.html__init__.py该文件的作用就是相当于把自身整个文件夹当作一个包来管理，每当有外部import的时候，就会自动执行里面的函数。1.标识该目录是一个python的模块包（modul
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

Python爬虫学习

通用爬虫模块学习

1、爬虫的概念

2、requests库学习

3、Chrome分析post和json

4、数据分类

5、json数据处理

6、正则表达式（匹配列表）

`.?(.?) " （提取h1=title里面p标签的所有数据）`

7、Xpath

8、lxml

scrapy框架学习

1、scrapy框架环境搭建

2、scrapy框架创建项目

3、scrapy框架使用介绍

未更完…

你可能感兴趣的:(python,爬虫)

Python爬虫学习

通用爬虫模块学习

1、爬虫的概念

2、requests库学习

3、Chrome分析post和json

4、数据分类

5、json数据处理

6、正则表达式（匹配列表）

.*?(.*?)" （提取h1=title里面p标签的所有数据）

7、Xpath

8、lxml

scrapy框架学习

1、scrapy框架环境搭建

2、scrapy框架创建项目

3、scrapy框架使用介绍

未更完…

你可能感兴趣的:(python,爬虫)

`.?(.?) " （提取h1=title里面p标签的所有数据）`