程序汪小陈

什么是python爬虫？该如何学？微软架构师熬夜整理的这份python爬虫入门教程(非常详细）都讲到了......

什么是python爬虫？

很多人学习python编程语言之后，不知道爬虫是什么，相信大家对“爬虫”这个词并不陌生，在不了解爬虫的人群中，就会觉得这是个很高端神秘的技术。

如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，

沿着网络抓取自己的猎物（数据）爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序；

从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用。

python爬虫原理

模拟用户在浏览器或者App应用上的操作，把操作的过程、实现自动化的程序，大致分为以下4个基本流程:

（1）发起请求

通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应。

（2）获取响应内容

如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型。

（3）解析内容

得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理。

（4）保存数据

保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件。

python爬虫能干什么？

现在爬虫可以做的事情非常多，数据、信息、电影、资料等，你技术过关了，爱咋爬咋爬，仔细观察，加上你如果认真观察，就会发现学习爬虫的人越来越多，一点是互联网对于信息数据的需求越来越多，第二点是Python这种强大又简单的编程语言容易学习，而且世界上80%的爬虫都是由它来完成的，简单、易上手是它的优势。

爬虫的入门选择Python最好的方法，因为Python有很多应用的方向，如后台开发、web开发、科学计算等等，但爬虫对于初学者而言更友好，原理简单，几行代码就能实现基本的爬虫，学习的过程更加平滑，你能体会更大的成就感。

掌握基本的爬虫后，你再去学习Python数据分析、web开发甚至机器学习，都会更得心应手。因为这个过程中，Python基本语法、库的使用，以及如何查找文档你都非常熟悉了。

如何学习python爬虫？

对于新手来说，爬虫也许是非常复杂、技术门槛很高的事情。比如有人认为学爬虫必须精通 Python，然后埋头苦干学习 Python 的每个知识点、狂敲各种代码，直到很久之后，发现仍然爬不了数据，又懊恼实在太难了；有的人则认为先要掌握网页的知识，遂开始学习HTMLCSS，结果走了歪路，并在这条路上越走越远直到头发掉光......

其实掌握正确的方法，在短时间内做到能够爬取主流网站的数据，其实非常容易实现，但建议你从一开始就要有一个具体的目标。

在这里给大家推荐的这本《python3网络爬虫开发实战》的作者是崔庆才，静觅博客的博主(https://cuiqingcai.com/)。

这本书涵盖的知识范围很广，比如基础的：

HTTP基本原理和网页的基本原理。建议大家如果以代码为生，至少多多少少都提前了解一点html。说不定实习的第一个任务就是制作某一个debug工具展示在网页上。

会话和Cookies。实际上是网页端认证。如果需要爬取需要登录的页面(比如微博)，这个知识是必须要掌握的。

正则表达式。正则表达式是各种编程语言之间通用的一套进行字符串匹配和处理的一套定式。当你需要在一个奇奇怪怪但又有点规律的字符串里提取出你想要的信息的时候，正则表达式是最有用的武器。

Python中的urllib和requests库。常见的与网页交互的方法都在这两个库中维护。

Python中的一些常见的解析库。因为HTML是一种特殊的字符串，所以我们可能不需要那么累构造正则表达式去匹配，用一些通用的解析库就可以把HTML解析出来更方便的拿到元素信息。其中名气比较大的库应该是BeautifulSoup

Python中的数据存储方式。比如你想把爬取下来的数据存储在哪里？txt, csv这样的文件里，当时MySQL数据库里，或者一些KV存储的架构比如MongoDB或者Redis？

本书都对上述这些基础的概念做了简单的介绍。还有各种爬虫场景和可能遇到的问题：

不需要登陆的页面爬取。(这个应该是最简单的爬虫项目了)

Ajax数据爬取。现在越来越多的网页出于效率的考虑，都是Ajax异步加载数据，这样可以提高用户体验，但对爬虫来说需要额外处理一下。

动态渲染页面爬取。有时候不能直接在网页源代码上看到真正的HTML，这些HTML可能是访问的时刻通过JavaScript渲染的。不过这个时候就可以通过模拟浏览器登录来进行操作。最近帮理波特写的一个爬虫就是通过这种方式实现的。

如何识别验证码。虽说验证码的出现就是为了防止爬虫抓取的，但当然也是有办法破解的。

代理的使用。当我们需要大批量的高频率的爬取信息的时候，有时候会被一些有反爬虫机制的网站封掉IP，这时候我们就需要把我们伪装成一个新的IP来进行继续爬虫操作，这时候就需要代理来维护和管理自己的可用IP。

模拟登录。当我们爬取一些需要登录才能看到的信息的时候，就必须先模拟登录，才能进行进一步的爬虫操作。

App的爬取。上述的都是网页端的爬虫任务，但是现在越来越多的信息都只能在手机上看到，这种信息可不可以爬虫获取呢？本书对于这一部分也是有比较详细的介绍和案例，甚至还有朋友圈的爬取。事实上这块我目前也不是很熟悉，这也是我下一步要学习的地方。

难能可贵的时候，每次介绍新的概念和场景的时候，除了介绍概念，作者都是附上实际操作的源码。照着做可以很快的上手。

最后还有两个经典的爬虫框架，pyspider和scrapy，这两个框架在进行大批量的爬取可能会比较有帮助。现在我对这两个框架也没有研究过，还需要进一步的学习。比如scrapy在分布式场景下的部署和应用，本书都是有所涉及的。

如果有需要python学习资料的，可以扫描这里！

话不多说，直接来展示：

第1章开发环境配置

1.1 Python 3的安装
1.1.1 Windows下的安装
1.1.2 Linux下的安装
1.1.3 Mac下的安装
1.2 请求库的安装
1.2.1 requests的安装
1.2.2 Selenium的安装
1.2.3 ChromeDriver的安装
1.2.4 GeckoDriver的安装
1.2.5 PhantomJS的安装
1.2.6 aiohttp的安装
1.3 解析库的安装
1.3.1 lxml的安装
1.3.2 Beautiful Soup的安装
1.3.3 pyquery的安装
1.3.4 tesserocr的安装
1.4 数据库的安装
1.4.1 MySQL的安装
1.4.2 MongoDB的安装
1.4.3 Redis的安装
1.5 存储库的安装
1.5.1 PyMySQL的安装
1.5.2 PyMongo的安装
1.5.3 redis-py的安装
1.5.4 RedisDump的安装
1.6 Web库的安装
1.6.1 Flask的安装
1.6.2 Tornado的安装
......

第2章爬虫基础

2.1 HTTP基本原理
2.1.1 URI和URL
2.1.2 超文本
2.1.3 HTTP和HTTPS
2.1.4 HTTP请求过程
2.1.5 请求
2.1.6 响应
2.2 网页基础
2.2.1 网页的组成
2.2.2 网页的结构
2.2.3 节点树及节点间的关系
2.2.4 选择器
2.3 爬虫的基本原理
2.3.1 爬虫概述
2.3.2 能抓怎样的数据
2.3.3 JavaScript渲染页面
2.4 会话和Cookies
2.4.1 静态网页和动态网页
2.4.2 无状态HTTP
2.4.3 常见误区
2.5 代理的基本原理
2.5.1 基本原理
2.5.2 代理的作用
2.5.3 爬虫代理
2.5.4 代理分类
2.5.5 常见代理设置

第3章基本库的使用

3.1 使用urllib
3.1.1 发送请求
3.1.2 处理异常
3.1.3 解析链接
3.1.4 分析Robots协议
3.2 使用requests
3.2.1 基本用法
3.2.2 高级用法
3.3 正则表达式
3.4 抓取猫眼电影排行

第4章解析库的使用

4.1 使用XPath
4.2 使用Beautiful Soup
4.3 使用pyquery

第5章数据存储

5.1 文件存储
5.1.1 TXT文本存储
5.1.2 JSON文件存储
5.1.3 CSV文件存储
5.2 关系型数据库存储
5.2.1 MySQL的存储
5.3 非关系型数据库存储
5.3.1 MongoDB存储
5.3.2 Redis存储

第6章 Ajax数据爬取

6.1 什么是Ajax
6.2 Ajax分析方法
6.3 Ajax结果提取
6.4 分析Ajax爬取今日头条街拍美图

第7章动态渲染页面爬取

7.1 Selenium的使用
7.2 Splash的使用
7.3 Splash负载均衡配置
7.4 使用Selenium爬取淘宝商品

第8章验证码的识别

8.1 图形验证码的识别
8.2 极验滑动验证码的识别
8.3 点触验证码的识别
8.4 微博宫格验证码的识别

第9章代理的使用

9.1 代理的设置
9.2 代理池的维护
9.3 付费代理的使用
9.4 ADSL拨号代理
9.5 使用代理爬取微信公众号文章

第10章模拟登录

10.1 模拟登录并爬取GitHub
10.2 Cookies池的搭建

第11章 App的爬取

11.1 Charles的使用
11.2 mitmproxy的使用
11.3 mitmdump爬取“得到”App电子书
信息
11.4 Appium的基本使用
11.5 Appium爬取微信朋友圈
11.6 Appium+mitmdump爬取京东商品

第12章 pyspider框架的使用

12.1 pyspider框架介绍
12.2 pyspider的基本使用
12.3 pyspider用法详解

第13章 Scrapy框架的使用

13.1 Scrapy框架介绍
13.2 Scrapy入门
13.3 Selector的用法
13.4 Spider的用法
13.5 Downloader Middleware的用法
13.6 Spider Middleware的用法
13.7 Item Pipeline的用法
13.8 Scrapy对接Selenium
13.9 Scrapy对接Splash
13.10 Scrapy通用爬虫
13.11 Scrapyrt的使用
13.12 Scrapy对接Docker
13.13 Scrapy爬取新浪微博

第14章分布式爬虫

14.1 分布式爬虫原理
14.2 Scrapy-Redis源码解析
14.3 Scrapy分布式实现
14.4 Bloom Filter的对接

第15章分布式爬虫的部署

15.1 Scrapyd分布式部署
15.2 Scrapyd-Client的使用
15.3 Scrapyd对接Docker
15.4 Scrapyd批量部署
15.5 Gerapy分布式管理

由于文章内容比较多，篇幅不允许，部分未展示内容以截图方式展示。如有需要获取完整的资料文档的朋友点赞+评论《python3网络爬虫开发实战》，即可免费获取。

你可能感兴趣的:(python,爬虫)

Java Pjsip (Pjsua2 api ) 2.10 windows sip语音呼叫教程 java_lilin pjsip pjsip sip pjsua2 java sip
1.安装swigwin-4.0.1下载地址http://www.swig.org/download.html注意是swigwinWindowsusersshoulddownloadswigwin-4.0.1whichincludesaprebuiltexecutable.配置目录到winpath2.下载pjproject-2.10.zip(如果有python错误请安装py2.7及环境path配置)
Python中Tushare（金融数据库）入门详解 eqa11 数据库 python 金融
文章目录Python中Tushare（金融数据库）入门详解一、引言二、安装与注册1、安装Tushare2、注册与获取Token三、Tushare基本使用1、设置Token2、获取数据2.1、获取股票基础信息2.2、获取交易日历2.3、获取A股日线行情2.4、获取沪股通和深股通成份股2.5、获取上市公司基础信息2.6、获取A股周线行情字段解析四、总结Python中Tushare（金融数据库）入门详解
micropython 中socket中的非阻塞报错 Error-＞: [Errno 119] EINPROGRESS 水可煮粥 micropython 网络服务器 tcp/ip python
在建立连接前设置非阻塞，会报错[Errno119]EINPROGRESSsock=socket.socket(socket.AF_INET,socket.SOCK_STREAM)addr=socket.getaddrinfo(host,port)[0][-1]sock.setblocking(False)#非阻塞sock.connect(addr)改成先连接，后设置，即可sock=socket.s
python websocket 心跳_websocket心跳及重连机制蜗牛老湿 python websocket 心跳
websocket心跳及重连机制websocket是前后端交互的长连接，前后端也都可能因为一些情况导致连接失效并且相互之间没有反馈提醒。因此为了保证连接的可持续性和稳定性，websocket心跳重连就应运而生。在使用原生websocket的时候，如果设备网络断开，不会立刻触发websocket的任何事件，前端也就无法得知当前连接是否已经断开。这个时候如果调用websocket.send方法，浏览器
十四、python使用MySQL数据库 weixin_45460686 python笔记 mysql 数据库 python
（一）pymsql模块pymsql是Python3中操作MySQL的模块，其使用方法和py2的MySQLdb几乎相同。1、模块安装pipinstallpymysql2、使用模块步骤：导入pymysql库。调用pymysql.connect()方法建立与数据库的连接。在connect()方法中，传入数据库的主机名、用户名、密码和数据库名称等连接参数。importpymysql#创建数据库连接conn
python panda下载_pandas python下载|Pandas for python v0.25.0官方版 v0.25.0官方版 - 哩咯下载站... weixin_39647458 python panda下载
Pandas是python的数据分析包，最初被作为金融数据分析工具而开发出来，提供pandas.whl包下载，有需要的赶快下载吧！软件介绍Pandas是python的一个数据分析包，最初由AQRCapitalManagement于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被
python——作用域光纤光栅 python学习 python java 前端
一、作用域定义：作用域就是变量产生作用的范围。可以分为全局作用域和局部作用域（函数）。在代码运行中，不是所有变量都会一直保存，大多数变量是不断的建立和销毁，以此来避免内存被占用过多。y=2#y就是全局作用域的全局变量deffn():x=1#x是局部作用域中的变量fn()1.1全局作用域在代码中，全局作用域在程序执行时创建，在程序执行结束时销毁。所有函数以外的都是全局作用域。在全局作用域定义的变量都
如何使用 Docker 搭建 FastAPI 环境, 本地仅编辑代码 Acaibird. eureka 云原生
在开发FastAPI应用时，我们有时希望将应用容器化，以便于部署和管理，同时避免污染本地的Python环境。使用Docker可以轻松实现这一目标，但如果你想在容器中安装依赖并进行调试，如何在不破坏本地环境的情况下管理依赖呢？本文将介绍如何通过Docker将FastAPI应用容器化，并展示如何进入容器安装依赖。1.项目结构假设你已经有一个简单的FastAPI项目结构，主要包含以下文件：Dockerf
零基础学Python图片处理：用Pillow库轻松玩转修图小彭爱学习 python python pillow python处理图片
零基础学Python图片处理：用Pillow库轻松玩转修图一、初识Pillow：你的第一张数码暗房安装准备（只需要1分钟）打开电脑的命令行（Windows按Win+R输入cmd，Mac打开终端），输入：pipinstallpillow看到「SuccessfullyinstalledPillow-x.x.x」就安装成功啦！图片处理四步走打开图片：像打开文件柜一样找到图片修改图片：裁剪、调色、加特效查
2024年03月CCF-GESP编程能力等级认证Python编程四级真题解析码农StayUp python CCF GESP 青少年编程
本文收录于专栏《Python等级认证CCF-GESP真题解析》，专栏总目录：点这里，订阅后可阅读专栏内所有文章。一、单选题（共15题，共30分）第1题小杨的父母最近刚刚给他买了一块华为手表，他说手表上跑的是鸿蒙，这个鸿蒙是.（）A.小程序B.计时器C.操作系统D.神话人物答案：C本题属于考察计算机基础知识。鸿蒙是操作系统，操作系统是管理计算机硬件与软件资源的程序，同时也是计算机系统的内核与基石。它
python代码画动态烟花源码,烟花代码编程python复制 Rtee1 python 开发语言人工智能
本篇文章给大家谈谈爱心代码编程python可复制，以及python代码画动态烟花源码，希望对各位有所帮助，不要忘了收藏本站喔。Sourcecodedownload:本文相关源码下面是一个简单的Python烟花代码，可以通过编写程序来模拟烟花的绽放过程：importturtleimportrandom#设置窗口大小和标题screen=turtle.Screen()screen.setup(800,6
python 解决PyCharm里plugins搜索不到插件 weixin_43250628 python学习日记计算机 pycharm ide python
pycharmplugins搜索不到插件解决方案：在图示位置填入url：https://plugins.jetbrains.com/后应用即可
Python爬虫-猫眼电影的影院数据写python的鑫哥爬虫案例1000讲 python 爬虫猫眼电影电影院数据采集
前言本文是该专栏的第46篇，后面会持续分享python爬虫干货知识，记得关注。本文笔者以猫眼电影为例子，获取猫眼的影院相关数据。废话不多说，具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。接下来，跟着笔者直接往下看正文详细内容。（附带完整代码）正文地址：aHR0cHM6Ly93d3cubWFveWFuLmNvbS8=目标：获取猫眼电影的影院数据1.项目场景介绍老规矩，我们还是通过接码
跟我一起学Python数据处理（七十四）：数据处理工具与网页抓取入门 lilye66 python jupyter 开发语言爬虫
跟我一起学Python数据处理（七十四）：数据处理工具与网页抓取入门大家好！一直以来，我都坚信在学习的道路上，相互交流和共同进步是非常重要的。在Python数据处理这片充满挑战与机遇的领域，我也在持续学习和探索，希望借由这一系列的博客，能和大家一起深入钻研，共同成长。在上一篇博客中，我们学习了Jupyternotebook的相关知识，今天咱们接着来了解Python数据处理中的其他关键内容，包括一些
59.python的类与对象安迪python学习笔记 Python基础知识 python 开发语言
59.python的类与对象文章目录59.python的类与对象1.什么是类？2.作用3.Python中的类4.type函数查看数据类型5.什么是对象？1.什么是类？日常生活中，我们可能会听到这样的对话：物以类聚，人以群分。这一类的面包真的很难吃。这一类水果对身体很好。【类的中文释义】类是对一类事物的概括，是许多相似或相同事物的综合。这些事物各不相同，但具有一些共同的特征或行为。【示例】类名：花百
Python从0到100（四）：Python中的运算符介绍(补充) 是Dream呀 python java 数据库
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python从0到100（三十五）：beautifulsoup的学习是Dream呀 Dream的茶话会 python beautifulsoup 学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python学习笔记 - Python数据类型 yunfan188 #Python学习笔记 Python Python数据类型
前言在Python语言中，所有的数据类型都是类，每一个变量都是类的“实例”。没有基本数据类型的概念，所以整数、浮点数和字符串也都是类。Python有6种标准数据类型：数字、字符串、列表、元组、集合和字典，而列表、元组、集合和字典可以保存多项数据，它们每一个都是一种数据结构，因此可以称这四种为“数据结构”类型。本文我们主要介绍数字和字符串类型。一、数字类型Python数字类型有4种：整数类型、浮点数
MacOS Python版本管理(pyenv) IT匠人 macos
1.通过homebrew安装pyenvbrewupdatebrewinstallpyenv2.修改zshprofile否则通过pyenv切换python版本会不生效#编辑.zshrcor~/.bash_profilevim~/.zshrc#在配置下面增加exportPYENV_ROOT="$HOME/.pyenv"exportPATH="$PYENV_ROOT/shims:$PATH"ifcomm
labelme汉化以及打包为.exe xxbghh python 开发语言后端
刚接触python，记录一下自己的安装过程以及遇到的问题。一，安装labelme下载anaconda一直点击下一步安装，安装完成后在开始菜单找到AnacondaPrompt(anaconda3)并打开，运行下列代码condacreate-nlabelme_py27python=2.7condaactivatelabelme_py27condainstallpyqtpipinstalllabelme
python中的深度学习框架TensorFlow 和 PyTorch 有什么区别？大懒猫软件 python 深度学习 tensorflow pytorch
TensorFlow和PyTorch是目前最流行的两个深度学习框架，它们在设计理念、使用方式和社区支持等方面存在一些显著的区别。以下是它们的主要区别：1.设计理念TensorFlow：静态计算图：TensorFlow使用静态计算图，即在运行模型之前需要先定义整个计算图。这使得TensorFlow在大规模分布式训练和部署时具有优势，但调试和动态修改模型时可能不够灵活。功能全面：TensorFlow提
3. Python的变量 bai666ai Python语言入门 python 开发语言后端人工智能
《Python编程的术与道：Python语言入门》视频课程《Python编程的术与道：Python语言入门》视频课程链接：https://edu.csdn.net/course/detail/27845变量（Variable）变量用于存储数据值。与其它编程语言不同，Python没有用于声明变量的命令。变量是在第一次为其赋值时创建的。变量赋值变量赋值有三部分构成。#变量名赋值符号变量值message
【JAVA工程师从0开始学AI】，第五步：Python类的“七十二变“——当Java的铠甲遇见Python的液态金属架构默片 JAVA工程师从0开始学AI python java 开发语言
副标题：从继承大战到猴子补丁，看动态类型如何颠覆面向对象认知当Java工程师还在为implements和extends绞尽脑汁时，Python的类已化身"终结者T-1000"，在代码世界肆意变形。这里没有private的保险箱，super()能穿越多重继承时空，甚至能在运行时给类"整容换脑"。本文将用五个震撼场景，带你体验Python面向对象编程的"量子纠缠"——原来类的__init__只是开始，
深入浅出：Python 生成器软件架构师笔记 python python windows 服务器生成器
深入浅出：Python生成器生成器（Generator）是Python中一种特殊的迭代器，它允许你逐个生成值，而不是一次性生成所有值。生成器可以节省内存，并且在处理大量数据时非常高效。本文将深入探讨Python生成器的使用方法、常见操作以及应用场景，帮助你更好地理解和掌握这一强大的工具。1.生成器的基本概念1.1什么是生成器？生成器是一种可以迭代的对象，但它与普通迭代器不同的是，生成器不会一次性生
解密Python协程：提升并发编程效率的秘籍爪哇抓挖_Java 日常 python
在现代软件开发中，提升程序的执行效率和响应速度是每个开发者的追求。Python的协程是并发编程领域中的一个强大工具，能显著优化I/O密集型任务和高延迟操作的处理。本篇博客将详细介绍Python协程的工作原理和应用方法，通过具体的代码示例帮助开发者掌握这一技术。###Python协程简介协程，或称微线程，是一种用户态的轻量级线程，Python的协程通过`asyncio`库实现。与传统线程相比，协程在
Python 函数-递归函数赔罪 Python 系统学习算法 python 青少年编程
目录练习小结在函数内部，可以调用其他函数。如果一个函数在内部调用自身本身，这个函数就是递归函数。举个例子，我们来计算阶乘n!=1x2x3x...xn，用函数fact(n)表示，可以看出：fact(n)=n!=1×2×3×⋅⋅⋅×(n−1)×n=(n−1)!×n=fact(n−1)×n所以，fact(n)可以表示为nxfact(n-1)，只有n=1时需要特殊处理。于是，fact(n)用递归的方式写出
python异步编程实例_python 异步编程 weixin_39585070 python异步编程实例
Python3.5协程究竟是个啥Yushneng·Mar10th,2016作者是Python语言的核心开发人员，这篇文章也是我分享的，但是在翻译之前并没有看得太仔细。作者在这篇文章里先是是从Python异步编程的发展历史一直介绍到Python3.5中async/await新特性的提出，又从底层的实现的差异一直延伸到完整的代码实例，来说明旧的生成器作为协程的“权宜之计”与新语法的差别。真正做到了深入
python 协程深入浅出秋裤傻 python 多线程 java linux 多进程
说到并发编程，大家容易想到的就是：进程、线程、协程、异步IO。四者在实现上却有共通之处，不外乎调度二字。进程：操作系统进程系统调度，调度号：pid，基本由操作系统提供调度支持线程：操作系统线程调度，调度号：TCB，虚拟机提供一部分支持协程：程序自己进行调度，调度号：函数名，全部由程序自身完成。异步IO：由消息中间件负责调度，调度号：消息队列。进程、线程、协程它们三个实现的是时间复用，达到逻辑上的同
yolov5 python API（供其他程序调用） m0_67401499 面试学习路线阿里巴巴 python 深度学习计算机视觉机器学习 sklearn
你的yolov5??是否只局限于detect.py？如果其他程序要调用yolov5，就需要制作一个detect.py的pythonAPI。python无处不对象，制作detectAPI实际上就是制作detect类。目录前言一、总体思路二、制作detect类二、调用detect类结语前言yolov5源码版本：截止2022.2.3链接：https://github.com/ultralytics/yo
python中的Pillow 有哪些常用的功能？大懒猫软件 pillow 计算机视觉人工智能 python
Pillow的常用功能Pillow是一个强大的图像处理库，提供了丰富的功能来处理和操作图像。以下是一些常用的功能及其示例代码：1.打开和保存图像Pillow可以轻松地打开和保存各种格式的图像文件。示例代码Python复制fromPILimportImage#打开图像img=Image.open("example.jpg")#显示图像img.show()#保存图像img.save("output.j
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他