稳稳C9

【Python爬虫】-从入门到入门-个人技术经验汇总-【爬虫和数据】

文章目录

一、为什么要做爬虫，Python的优势在何处？
- （一）首先请问：都说现在都是“大数据时代”，那么数据从何而来？
二、爬虫是什么？
- （一）爬虫定义（面试点）
- （二）爬虫分类
- - 1、通用爬虫
  - - 1.1 什么是搜索引擎？
    - 1.2 通用搜索引擎(Search Engine)工作原理：
    - 1.3 通用性搜索引擎存在着一定的局限性（面试）：
  - 2、聚焦爬虫
- （三）爬虫工程师的进阶之路
三、Request简介-让HTTP服务人类
- （一）requests库简介
- （二）安装方式
四、Requests模块 get请求
- （一）网络请求
- （二）使用 requests 发送 get 请求
- - 1、浏览器请求http过程（面试）
  - 2、请求失败分析
- （三）response 对象的属性
- - 1、字符串响应内容
  - 2、二进制响应内容
  - 3、json 响应内容
  - 4、响应状态码
  - 5、响应头
  - 6、页面内容乱码问题（面试）
- （四）案例 1：爬取百度产品网页.py
- （五）案例 2：爬取新浪新闻.py
- （六）案例 3：批量爬取百度贴吧.py
- （七）案例 4：爬取百度
五、Request模块 post请求
- （一）最基本的Post请求使用方法
- （二）案例 5：重写百度翻译.py
六、项目总结

一、为什么要做爬虫，Python的优势在何处？

1）网站后端程序员：使用它单间网站，后台服务比较容易维护。如：Gmail、Youtube、知乎、豆瓣

2）自动化运维：自动化处理大量的运维任务

3）数据分析师：快速开发快速验证，分析数据得到结果

4）游戏开发者：一般是作为游戏脚本内嵌在游戏中

5）自动化测试：编写为简单的实现脚本，运用在Selenium/lr中，实现自动化。

6）网站开发：借助django,flask框架自己搭建网站

7）爬虫获取或处理大量信息：批量下载美剧、运行投资策略、爬合适房源、系统管理员的脚本任务等

8）在包装其他语言程序：Python又叫胶水语言，它可以用混合编译的方式使用c/c++/java等语言的库。“树莓派”作为微型电脑，使用python为主要开发语言。

作者：梦捷者
链接：https://www.jianshu.com/p/93f2840c2449

（一）首先请问：都说现在都是“大数据时代”，那么数据从何而来？

（1）企业生产的用户数据

百度指数：http://index.baidu.com/
阿里指数：http://alizs.taobao.com/
新浪微博指数：http://data.weibo.com/index

（2)数据平台购买数据：

数据堂：https://www.datatang.com/
国云数据市场：http://www.moojnn.com/data-market/
贵阳大数据交易所：http://trade.gbdex.com/trade.web/index.jsp

(3)政府/机构公开的数据：

中华人民共和国国家统计局数据：http://data.stats.gov.cn/index.html
世界银行公开数据：http://data.worldbank.org.cn/
联合国数据：http://data.un.org/
纳斯达克：http://www.nasdaq.com/zh

(4)数据管理咨询公司：

麦肯锡：http://www.mckinsey.com.cn/
埃森哲：http://www.accenture.com/cn-zh/
艾瑞咨询：http://www.iresearch.com.cn/

以上为数据来源，皆为商业化，或者一种实时数据，公开数据

一个简单的例子：
比如，小王新建一个公司，关于火锅餐饮，如果需要此数据，上述四种方式，未必有
那么？小王想要在该A地，发展自己的店，不知道当地的人喜欢什么菜品，什么口味？
那该如何办呢？数据公司无法提供参考？

如果需要的数据市场上没有，或者不愿意购买，那么可以选择招/做一名爬虫工程师，自己动手丰衣足食。

因此爬虫工程师因此而生

二、爬虫是什么？

（一）爬虫定义（面试点）

网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

简单地说：就是用事先写好的程序去抓取网络上所需的数据，这样的程序就叫网络爬虫。
编写网络爬虫的程序员叫做爬虫工程师。

通俗点：模拟浏览器获取数据

在这里插入代码片

（二）爬虫分类

根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种。

1、通用爬虫

通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo 等)的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引从而提供支持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。

通用网络爬虫工作流程图：

1.1 什么是搜索引擎？

搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。

1.2 通用搜索引擎(Search Engine)工作原理：

第一步：抓取网页 ，

搜索引擎网络爬虫的基本工作流程如下：

首先选取一部分的种子 URL，将这些 URL 放入待抓取 URL 队列；取出待抓取 URL，解析 DNS 得到主机的 IP，并将 URL 对应的网页下载下来，存储进已下载网页库中，并且将这些 URL 放进已抓取 URL 队列。

分析已抓取 URL 队列中的 URL，分析其中的其他 URL，并且将 URL 放入待抓取 URL 队列，从而进入下一个循环…

搜索引擎如何获取一个新网站的 URL：

1.新网站向搜索引擎主动提交网址：(如 http://zhanzhang.baidu.com/linksubmit/url)

2.在其他网站上设置新网站外链(尽可能处于搜索引擎爬虫爬取范围)

3.搜索引擎和 DNS 解析服务商(如 DNSPod 等)合作，新网站域名将被迅速抓取。但是搜索引擎系统的爬行是被输入了一定的规则的，它需要遵从一些命令或文件的内容，如标注为 nofollow 的链接，或者是 Robots 协议。

第二步：数据存储

搜索引擎通过爬虫爬取到的网页，将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的 HTML 是完全一样的。（其实就是静态页面.html）

搜索引擎爬虫在抓取页面时，也做一定的重复内容检测，一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容，很可能就不再爬行。

第三步：预处理

搜索引擎将爬虫抓取回来的页面，进行各种步骤的预处理。
提取文字
中文分词
消除噪音(比如版权声明文字、导航条、广告等……)
索引处理
链接关系计算
特殊文件处理
等等。。。。一些处理方法

除了 HTML 文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。

但搜索引擎还不能处理图片、视频、Flash 这类非文字内容，也不能执行脚本和程序。

第四步：提供检索服务，网站排名

搜索引擎在对信息进行组织和处理后，为用户提供关键字检索服务，将用户检索相关的信息展示给用户。

同时会根据页面的 PageRank 值(链接的访问量排名)来进行网站排名，这样 Rank 值高的网站在搜索结果中会排名较前，当然也可以直接使用 Money 购买搜索引擎网站排名，简单粗暴。

1.3 通用性搜索引擎存在着一定的局限性（面试）：

通用搜索引擎所返回的结果都是网页，而大多情况下，网页里 90%的内容对用户来说都是无用的。
不同领域、不同背景的用户往往具有不同的检索目的和需求，搜索引擎无法提供针对具体某个用户的搜索结果。
万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎对这些文件无能为力，不能很好地发现和获取。
通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询，无法准确理解用户的具体需求。
针对这些情况，聚焦爬虫技术得以广泛使用。

2、聚焦爬虫

聚焦爬虫，是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：

聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

（三）爬虫工程师的进阶之路

初级爬虫工程师：

1、web 前端的知识：HTML、CSS、JavaScript、 DOM、 DHTML 、Ajax、jQuery、 json 等；
2、正则表达式，能提取正常一般网页中想要的信息，比如某些特殊的文字、链接信息、知道什么是懒惰，什么是贪婪型的正则；
3、会使用 XPath 等获取一些 DOM 结构中的节点信息；
4、知道什么是深度优先和广度优先的抓取算法及实践中的使用规则；
5、能分析简单网站的结构，会使用 urllib 或 requests 库进行简单的数据抓取。

中级爬虫工程师：

1、了解什么是 HASH，会简单地使用 MD5，SHA1 等算法对数据进行 HASH 一遍存储
2、熟悉 HTTP 和 HTTPS 协议的基础知识，了解 GET 和 POST 方法，了解 HTTP 头中的信息，包括返回状态码、编码、user-agent、cookie 和 session 等。
3、能设置 user-agent 进行数据爬取，设置代理等。
4、知道什么是 Request，什么是 response，会使用 Fiddler 等工具抓取及分析简单地网络数据包；对于动态爬虫，要学会分析 ajax 请求，模拟制造 post 数据包请求，抓取客户端 session 等信息，对于一些简单的网站，能够通过模拟数据包进行自动登录。
5、对于一些难搞定的网站学会使用 phantomjs+selenium 抓取一些动态网页信息
6、并发下载，通过并行下载加速数据爬取；多线程的使用。

高级爬虫工程师：

1、能进行网页的验证码破解
2、能破解网站的数据加密。
3、会使用常用的数据库进行数据存储、查询。比如 MongoDB 和 Redis。学习如何通过缓存避免重复下载的问题。
4、能使用一些开源框架 Scrapy ，Scrapy -Redis 等分布式爬虫，能部署掌控分布式爬虫进行大规模数据爬取。

三、Request简介-让HTTP服务人类

（一）requests库简介

Urllib 和 Requests 模块是发起 http 请求最常见的模块。
（但是Urllib 库是较早出的，一些功能并没有requests强大，使用）

虽然 Python 的标准库中 urllib 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，
而 Requests 自称 “http for Humans”，说明使用更简洁方便。

Requests 继承了 urllib 的所有特性。Requests 支持 http 连接保持和连接池，支持使用 cookie 保持会话，支持文件上传，支持自动确定响应内容的编码，支持国际化的 URL 和 POST 数据自动编码。

requests 的底层实现其实就是 urllib3(urllib2 的升级版---python2 支持)

Requests 的文档非常完备，中文文档也相当不错。Requests 能完全满足当前网络的需求，支持 Python 2.6—3.6.

开源地址：http://github.com/kennethreitz/requests

中文文档 API：http://2.python-requests.org/zh_CN/latest/

（二）安装方式

利用 pip 安装或者利用 easy_install 都可以完成安装：$ pip install requests

四、Requests模块 get请求

（一）网络请求

当我们在客户端输入一个 url，获取 url 所对应的页面内容时，其过程如下图所示。
客户端发送一个请求，服务器收到这个请求后就会将请求所对应的响应返回给客户端，客户端收到这个响应将其显示出来。
我们使用 requests 模块其实就是在模仿客户端和服务器的这个过程。

客户端发送请求主要有两种请求方法—get和post。get请求主要是从服务器去获取内容，大多数的请求都是 get 请求，post 请求是向服务器提交一些内容，比如表单等。

请求和响应模型：

（二）使用 requests 发送 get 请求

基本使用语法格式：

import requests #导入模块

response = requests.get(
     url = 请求 url 地址， 
    headers = 请求头字典， 
    params=请求参数字典，
)

get参数：url、headers、params

爬虫其实和web是相反思路

爬虫的基本思想：自动抓取万维网数据的脚本或程序

1、浏览器请求http过程（面试）

当用户在浏览器的地址栏中输入一个URL并按回车键之后，浏览器会向http请求。http请求主要分为‘Get’和‘Post’两种方法。
当我们在浏览器输入URL：http：//www.baidu.com的时候，浏览器发送一个Request请求去获取http：//www.baidu.com的html文件服务器把Response文件对象发送回给浏览器
浏览器分析Response 中的HTML，发现其中应用了很多其他文件，比如images文件，CSS文件，JS文件。浏览器会自动再次发送Request去获取图片，CSS文件，或者JS文件。
当所有的文件都下载成功后，网页会根据HTML语法结构，完整的显示出来了。

2、请求失败分析

爬虫是模仿浏览器进行数据的获取。
如果响应数据有误，就是模仿的不到位。主要的错误位置就是请求头有问题。、
请求：user-agent：最重要，是反爬的第一步。

（三）response 对象的属性

1、字符串响应内容

response.text 响应为字符串

当我们使用 response.text 来获取页面内容的时候，Requests 会自动解码来自服务器的内容，response.text 获取的是页面字符串内容。Requests 模块其实是根据 response.encoding 编码格式，将内容服务器返回的数据编码成字符串的。

打印的是整个url指定的页面html （没有定位解析情况下）字符串格式

2、二进制响应内容

response.content 二进制格式

Requests 会自动为你解码 gzip 和 deflate 传输编码的响应数据。

打印的是整个url指定的页面html 二进制格式

3、json 响应内容

response.json()

Requests 中也有一个内置的 JSON 解码器，助你处理 JSON 数据。

如果 JSON 解码失败， response.json() 就会抛出一个异常。

例如，响应内容是 401 (Unauthorized)，尝试访问 response.json() 将会抛出 ValueError: No JSON object could be decoded 异常。

4、响应状态码

response.status_code

通过 response.status_code 我们可以获取响应的状态码

如果发送了一个错误请求(一个 4XX 客户端错误，或者 5XX 服务器错误响应)，我们可以通过 Response.raise_for_status() 来抛出 HTTPError 异常。

5、响应头

response.headers

6、页面内容乱码问题（面试）

乱码问题主要原因就是编解码不一致，通常我们在使用 requests 模块发送请求后获取到响应 response，我们想要打印响应内容，可以使用 response.text 方法。但是有时候通过这种方法打印出来的页面内容时乱码，这时候我们可以通过以下两种方法来解决乱码问题。

方法一：
设置方法是给 response.encoding 设置一个正确的编码，requests 模块会自动根据设置的编码来将服务器相应的内容按照这个编码成字符串，这时候我们通过 response.text 字段就可以获取正确的页面内容了。

response_str = response.content.decode(encoding='utf-8')

放方二：

方法来将二进制内容按照提供的编码方式编码成 unicode 字符串，进而正确显示

response.encoding = 'utf-8'
response.text是通过response.ecoding这个属性设置的值来进行编程字符串。
response.ecoding是通过resquests模块自动识别的。（基本识别都对的。）

（四）案例 1：爬取百度产品网页.py

版本一：（包含解析详细步骤）

点击下面链接
https://blog.csdn.net/weixin_44238683/article/details/107425790

版本二：

（五）案例 2：爬取新浪新闻.py

版本一：
（内容详细步骤）

点击下面链接
https://blog.csdn.net/weixin_44238683/article/details/107426530

版本二：

新浪新闻路由分析

输入 A 股，分析检查返回的页面，如图所示(新浪页面开发者工具截图)：

请求的是：http://search.sina.com.cn/?q=A%E8%82%A1&c=news&from=channel&ie=utf-8
请求方式是：get 请求。
携带的参数是：有四个，其中一个参数是中文，请求的时候需要编码。

（六）案例 3：批量爬取百度贴吧.py

项目需求：用户输入要搜索的贴吧名，进入贴吧，然后分页获取每一个贴吧的html保存

从需求可以知道一个问题，如果需要分页获取，那么一定要观察params，传入如第一页，第二页参数信息。

版本一：
（内含详细步骤）

点击下面链接
https://blog.csdn.net/weixin_44238683/article/details/107427995

版本二：

代码：

（七）案例 4：爬取百度

需求：之前爬取网页，都不需要headers参数，现在爬取，get，不带headers发现爬取的网页，不完整，使用headers伪装浏览器

这个案例开始往后，逐渐体会到了 user-agent的重要性

版本一：
（内含详细步骤）

点击下面链接
https://blog.csdn.net/weixin_44238683/article/details/107428312

版本二：

代码

五、Request模块 post请求

在前面的案例中，使用的非传传参式请求，get

并且知道了两种爬取方法

方法一：拼接url参数
方法二：使用params

另外就是，如果页面数据爬取不到，需要伪装浏览器headers user-agent 客户端标识

从后面开始默认都要加上这个浏览器客户标识

（一）最基本的Post请求使用方法

（1）导入request 模块

import requests

（2）发送请求，获取响应

response = requests.post(
       url=请求 url 地址， 
       headers = 请求头字典，               
       data=请求数据字典，
 )

（二）案例 5：重写百度翻译.py

基本分析：

版本一：
（内容详细）

点击下面链接
https://blog.csdn.net/weixin_44238683/article/details/107428530

版本二：

1、浏览器打开：fanyi.baidu.com
2、F12—Network
3、输入 job(在输入过程中会不断请求服务器)，例如输入“j”时请求，“jo”时请求， “job”时也在请求，如下图所示：

4、同时获取请求:

Url：http://fanyi.baidu.com/sug
请求方式：POST
请求数据：job

方式一：

方式二：

（三）补充案例，金山词霸翻译

import requests
import json


def translate_word(word):
    #  确定路由
    base_url = 'http://fy.iciba.com/ajax.php?a=fy'
    # 准备参数
    headers = {
     
        'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36',
        'X-Requested-With': 'XMLHttpRequest',
    }
    data = {
     
        'f': 'auto',
        't': 'auto',
        'w': word,
    }

    # 获取响应参数
    response = requests.post(base_url, headers=headers, data=data)
    print(response.json())

    result = ''
    for data in response.json()['content']['word_mean']:
        result += data
    return result

def main():
    # 1、确定翻译内容
    word = input('请求输入单词：')
    # 2、翻译
    result = translate_word(word)
    # 3、显示
    print(result)


if __name__ == '__main__':
    main()

六、项目总结

你可能感兴趣的:(Python爬虫,搜索引擎,编程语言,python,大数据)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方