擒贼先擒王

Python爬虫一（入门综述、基础）

转载：静觅 » Python爬虫入门一之综述

转载：静觅 » Python爬虫入门二之爬虫基础了解

首先爬虫是什么？

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。

根据我的经验，要学习Python爬虫，我们要学习的共有以下几点：

Python基础知识
Python中urllib和urllib2库的用法
Python正则表达式
Python爬虫框架Scrapy
Python爬虫更高级的功能

1.Python基础学习

首先，我们要用Python写爬虫，肯定要了解Python的基础吧，万丈高楼平地起，不能忘啦那地基，哈哈，那么我就分享一下自己曾经看过的一些Python教程，小伙伴们可以作为参考。

1) 慕课网Python教程

曾经有一些基础的语法是在慕课网上看的，上面附有一些练习，学习完之后可以作为练习，感觉效果还是蛮不错的，不过稍微遗憾的是内容基本上都是最基础的，入门开始的话，就这个吧

学习网址：慕课网Python教程

2) 廖雪峰Python教程

后来发现了廖老师的Python教程，讲的非常通俗易懂哪，感觉也是非常不错，大家如果想进一步了解Python就看一下这个吧。

学习网址：廖雪峰Python教程

3) 简明Python教程

还有一个我看过的，简明Python教程，感觉讲的也不错

学习网址：简明Python教程

4) 汪海的实验室

这是我的本科实验室学长，入门的时候参考的他的文章，自己重新做了总结，后来这些系列文章又在他的基础上增加了一些内容。

学习网址：汪海的实验室

2.Python urllib和urllib2 库的用法

urllib和urllib2库是学习Python爬虫最基本的库，利用这个库我们可以得到网页的内容，并对内容用正则表达式提取分析，得到我们想要的结果。这个在学习过程中我会和大家分享的。

3.Python 正则表达式

Python正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。这个在后面的博文会分享的。

4.爬虫框架Scrapy

如果你是一个Python高手，基本的爬虫知识都已经掌握了，那么就寻觅一下Python框架吧，我选择的框架是Scrapy框架。这个框架有什么强大的功能呢？下面是它的官方介绍：

HTML, XML源数据选择及提取的内置支持
提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders)，对智能处理爬取数据提供了内置支持。
通过 feed导出提供了多格式(JSON、CSV、XML)，多存储后端(FTP、S3、本地文件系统)的内置支持
提供了media pipeline，可以自动下载爬取到的数据中的图片(或者其他资源)。
高扩展性。您可以通过使用 signals ，设计好的API(中间件, extensions, pipelines)来定制实现您的功能。
内置的中间件及扩展为下列功能提供了支持:
cookies and session 处理
HTTP 压缩
HTTP 认证
HTTP 缓存
user-agent模拟
robots.txt
爬取深度限制
针对非英语语系中不标准或者错误的编码声明, 提供了自动检测以及健壮的编码支持。
支持根据模板生成爬虫。在加速爬虫创建的同时，保持在大型项目中的代码更为一致。详细内容请参阅 genspider 命令。
针对多爬虫下性能评估、失败检测，提供了可扩展的状态收集工具。
提供交互式shell终端 , 为您测试XPath表达式，编写和调试爬虫提供了极大的方便
提供 System service, 简化在生产环境的部署及运行
内置 Web service, 使您可以监视及控制您的机器
内置 Telnet终端，通过在Scrapy进程中钩入Python终端，使您可以查看并且调试爬虫
Logging 为您在爬取过程中捕捉错误提供了方便
支持 Sitemaps 爬取
具有缓存的DNS解析器

官方文档：http://doc.scrapy.org/en/latest/

等我们掌握了基础的知识，再用这个 Scrapy 框架吧！

1.什么是爬虫

爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。

比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。

2.浏览网页的过程

在用户浏览网页的过程中，我们可能会看到许多好看的图片，比如 http://image.baidu.com/ ，我们会看到几张的图片以及百度搜索框，这个过程其实就是用户输入网址之后，经过DNS服务器，找到服务器主机，向服务器发出一个请求，服务器经过解析之后，发送给用户的浏览器 HTML、JS、CSS 等文件，浏览器解析出来，用户便可以看到形形色色的图片了。

因此，用户看到的网页实质是由 HTML 代码构成的，爬虫爬来的便是这些内容，通过分析和过滤这些 HTML 代码，实现对图片、文字等资源的获取。

3.URL的含义

URL，即统一资源定位符，也就是我们说的网址，统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的格式由三部分组成：
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址，如目录和文件名等。

爬虫爬取数据时必须要有一个目标的URL才可以获取数据，因此，它是爬虫获取数据的基本依据，准确理解它的含义对爬虫学习有很大帮助。

4. 环境的配置

学习Python，当然少不了环境的配置，最初我用的是Notepad++，不过发现它的提示功能实在是太弱了，于是，在Windows下我用了PyCharm，在Linux下我用了Eclipse for Python，另外还有几款比较优秀的IDE，大家可以参考这篇文章学习Python推荐的IDE 。好的开发工具是前进的推进器，希望大家可以找到适合自己的IDE

Python爬虫小白入门手册

长话短说：

1. 基本的爬虫工作原理

2. 基本的http抓取工具，scrapy

3. BloomFilter: Bloom Filters by Example

4. 如果需要大规模网页抓取，你需要学习分布式爬虫的概念。其实没那么玄乎，你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq:github.com/nvie/rq

5. rq和Scrapy的结合：darkrho/scrapy-redis· GitHub

6. 后续处理，网页析取(grangier/python-goose· GitHub)，存储(Mongodb)

短话长说：

说说当初写的一个集群爬下整个豆瓣的经验吧。

1）首先你要明白爬虫怎样工作。

想象你是一只蜘蛛，现在你被放到了互联“网”上。那么，你需要把所有的网页都看一遍。怎么办呢？没问题呀，你就随便从某个地方开始，比如说人民日报的首页，这个叫initial pages，用$表示吧。

在人民日报的首页，你看到那个页面引向的各种链接。于是你很开心地从爬到了“国内新闻”那个页面。太好了，这样你就已经爬完了俩页面（首页和国内新闻）！暂且不用管爬下来的页面怎么处理的，你就想象你把这个页面完完整整抄成了个html放到了你身上。

突然你发现，在国内新闻这个页面上，有一个链接链回“首页”。作为一只聪明的蜘蛛，你肯定知道你不用爬回去的吧，因为你已经看过了啊。所以，你需要用你的脑子，存下你已经看过的页面地址。这样，每次看到一个可能需要爬的新链接，你就先查查你脑子里是不是已经去过这个页面地址。如果去过，那就别去了。

好的，理论上如果所有的页面可以从initial page达到的话，那么可以证明你一定可以爬完所有的网页。

那么在 python 里怎么实现呢？

Python 伪代码实现

import Queue

initial_page = "http://www.renminribao.com"

url_queue = Queue.Queue()
seen = set()

seen.insert(initial_page)
url_queue.put(initial_page)

while(True): #一直进行直到海枯石烂
    if url_queue.size()>0:
        current_url = url_queue.get()    #拿出队例中第一个的url
        store(current_url)               #把这个url代表的网页存储好
        for next_url in extract_urls(current_url): #提取把这个url里链向的url
            if next_url not in seen:
                seen.put(next_url)
                url_queue.put(next_url)
    else:
        break

很简单。写得已经很伪代码了。所有的爬虫的backbone都在这里。

下面分析一下为什么爬虫事实上是个非常复杂的东西——搜索引擎公司通常有一整个团队来维护和开发。

2）效率

如果你直接加工一下上面的代码直接运行的话，你需要一整年才能爬下整个豆瓣的内容。更别说Google这样的搜索引擎需要爬下全网的内容了。

问题出在哪呢？需要爬的网页实在太多太多了，而上面的代码太慢太慢了。设想全网有N个网站，那么分析一下判重的复杂度就是N*log(N)，因为所有网页要遍历一次，而每次判重用set的话需要log(N)的复杂度。OK，OK，我知道python的set实现是hash——不过这样还是太慢了，至少内存使用效率不高。

通常的判重做法是怎样呢？Bloom Filter. 简单讲它仍然是一种hash的方法，但是它的特点是，它可以使用固定的内存（不随url的数量而增长）以O(1)的效率判定url是否已经在set中。可惜天下没有白吃的午餐，它的唯一问题在于，如果这个url不在set中，BF可以100%确定这个url没有看过。但是如果这个url在set中，它会告诉你：这个url应该已经出现过，不过我有2%的不确定性。注意这里的不确定性在你分配的内存足够大的时候，可以变得很小很少。一个简单的教程:Bloom Filters by Example

注意到这个特点，url如果被看过，那么可能以小概率重复看一看（没关系，多看看不会累死）。但是如果没被看过，一定会被看一下（这个很重要，不然我们就要漏掉一些网页了！）。 [IMPORTANT: 此段有问题，请暂时略过]

好，现在已经接近处理判重最快的方法了。另外一个瓶颈——你只有一台机器。不管你的带宽有多大，只要你的机器下载网页的速度是瓶颈的话，那么你只有加快这个速度。用一台机子不够的话——用很多台吧！当然，我们假设每台机子都已经进了最大的效率——使用多线程（python的话，多进程吧）。

3）集群化抓取

爬取豆瓣的时候，我总共用了100多台机器昼夜不停地运行了一个月。想象如果只用一台机子你就得运行100个月了…

那么，假设你现在有100台机器可以用，怎么用python实现一个分布式的爬取算法呢？

我们把这100台中的99台运算能力较小的机器叫作slave，另外一台较大的机器叫作master，那么回顾上面代码中的url_queue，如果我们能把这个queue放到这台master机器上，所有的slave都可以通过网络跟master联通，每当一个slave完成下载一个网页，就向master请求一个新的网页来抓取。而每次slave新抓到一个网页，就把这个网页上所有的链接送到master的queue里去。同样，bloom filter也放到master上，但是现在master只发送确定没有被访问过的url给slave。Bloom Filter放到master的内存里，而被访问过的url放到运行在master上的Redis里，这样保证所有操作都是O(1)。（至少平摊是O(1)，Redis的访问效率见:LINSERT – Redis)

考虑如何用python实现：
在各台slave上装好scrapy，那么各台机子就变成了一台有抓取能力的slave，在master上装好Redis和rq用作分布式队列。

#slave.py
 
current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
    to_send.append(next_url)
 
store(current_url);
send_to_master(to_send)
 
#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()
 
initial_pages = "www.renmingribao.com"
 
while(True):
    if request == 'GET':
        if distributed_queue.size()>0:
            send(distributed_queue.get())
        else:
            break
    elif request == 'POST':
        bf.put(request.url)

好的，其实你能想到，有人已经给你写好了你需要的：darkrho/scrapy-redis· GitHub

4）展望及后处理

虽然上面用很多“简单”，但是真正要实现一个商业规模可用的爬虫并不是一件容易的事。上面的代码用来爬一个整体的网站几乎没有太大的问题。

但是如果附加上你需要这些后续处理，比如

1. 有效地存储（数据库应该怎样安排）

2. 有效地判重（这里指网页判重，咱可不想把人民日报和抄袭它的大民日报都爬一遍）

3. 有效地信息抽取（比如怎么样抽取出网页上所有的地址抽取出来，“朝阳区奋进路中华道”），搜索引擎通常不需要存储所有的信息，比如图片我存来干嘛…

4. 及时更新（预测这个网页多久会更新一次）

如你所想，这里每一个点都可以供很多研究者十数年的研究。虽然如此，
“ 路漫漫其修远兮 , 吾将上下而求索 ” 。

Python设计模式 - 抽象工厂模式 mofei12138 设计模式 python python 设计模式抽象工厂模式
定义抽象工厂模式是一种创建型设计模式，它提供了一种创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。产品等级结构与产品族为了更好地理解抽象工厂模式，先引入两个概念：产品等级结构：就是产品的继承结构。例如电视机抽象类有A品牌电视机子类和B品牌电视机子类，那么抽象电视机和具体品牌的电视机就构成了一个产品等级结构。产品族：同一个工厂生产的，位于不同产品等级结构中的一组产品。例如海尔工厂生产的海
【Python设计模式07】工厂方法模式一碗姜汤设计模式 python 设计模式工厂方法模式
工厂方法模式（FactoryMethodPattern）是一种创建型设计模式，它定义了一个用于创建对象的接口，让子类决定实例化哪一个类。工厂方法使得一个类的实例化延迟到其子类。通过使用工厂方法模式，可以将对象的创建过程与使用过程分离，从而提高代码的灵活性和可扩展性。工厂方法模式的结构工厂方法模式主要包括以下几个角色：抽象产品（Product）：定义产品的接口。具体产品（ConcreteProduc
分形、大自然的分形几何、数据可视化、Python绘图 timedot-hj python绘图指南 -分形与数据可视化可视化 python 几何学算法
分形、大自然的分形几何、数据可视化、Python绘图中国传统中的『分形』大自然的分形几何数据可视化本系列采用turtle、matplotlib、numpy这三个Python工具，以分形与计算机图像处理的经典算法为实例，通过程序和图像，来帮助读者一步步掌握Python绘图和数据可视化的方法和技巧，并且让读者感受到“龙枝屈曲竞分形，瑰丽绮错千万状”的分形魅力。本系列共有八章，分别为海岸线有多长，基因与
python用电预测_用Python实时追踪你家的电量使用情况 weixin_39626745 python用电预测
现在的电表(附在你家房子外面的玩意)在每瓦时电量被使用后就会发出一下红外闪光，穿过电表顶部的端口。事实证明，你可以很容易地监测这一闪光，把它解码变成“实时的”电量使用情况，然后做成像这样酷的图表：Y轴表示实时功率，单位是KW，X轴表示时间。这闪光灯，好像有很高的瞬间准确度，至少我家的是这样，这意味着当1瓦时电量被使用时，它会很精确地闪了。这实在太棒了，因为它使得显示精确、实时的电量使用情况可以实现
Python Web开发 twc829 Python
Web开发介绍一、Web开发概述1C/S结构和B/S结构C/S—Client/Server，即客户机/服务器结构B/S—Browse/Server，即浏览器/服务器结构2B/S结构的优势2.1不用通知客户端安装某个软件2.2不用通知客户端升级2.3可轻松地实现跨平台3访问网站过程用户向服务器发起请求，服务器将HTML文件返回给用户，浏览器将HTML文件渲染成用户看到的网站；4分类4.1静态网站用户
如何优化Python开发：PIP和Anaconda的作用及国内源设置指南 Chaiio Dain python python pip 开发语言 conda
前言在现代数据科学和软件开发的世界中，Python已经成为了最受欢迎的编程语言之一。其强大的生态系统和丰富的第三方库使得开发者可以快速构建各种应用程序和解决方案。然而，随着项目规模的扩大和复杂性的增加，管理Python包和依赖项变得尤为重要。PIP（Python包管理工具）和Anaconda（一个开源的Python发行版）就是在这种背景下应运而生的重要工具。PIP和Anaconda不仅简化了包的安
配置pip安装源勤劳的搬砖工。 pip python linux
在Linux下配置pip的安装源折磨人的下载速度用过pip的人都知道，pip的下载速度简直令人窒息，有时候好有时候坏，简直全靠运气，甚至施加魔法也不行，所以选择配置一个下载源，从国内下载python包就显得很快，说实话百度网盘都比pip快。Linux下配置python2的安装源总所周知，python2和python3不一样，所以他们pip也不一样，配置也不一样修改工作目录下的.pip/pip.co
FastAPI介绍 -zZR fastapi python
1.fastapi介绍一个用于构建API的现代、快速（高性能）的web框架。特点快速：可与NodeJS和Go并肩的极高性能（归功于Starlette和Pydantic）。最快的Pythonweb框架之一。高效编码：提高功能开发速度约200％至300％。更少bug：减少约40％的人为（开发者）导致错误。智能：极佳的编辑器支持。处处皆可自动补全，减少调试时间。简单：设计的易于使用和学习，阅读文档的时
Python 潮流周刊#87：媲美 OpenAI-o1 的开源模型（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。本期分享了12篇文章，12个开源项目。下周因春节假期停更一周，提前恭祝大家蛇年吉祥，万事顺意！（PS.我在Python猫公众号给大家准备了一些红包封面，免费领取哟～）以下是本期摘要：文章&教程①优
一、新手学习爬虫第一课对网站发起请求（基于python语言） [木子加贝] python自学爬虫学习爬虫 python 开发语言后端
目录前言一、安装并引用请求模块requests1.安装请求模块2.引用requests请求模块3.引用requests请求模块并使用别名二、发起请求1.对网站发起get请求（最常用的请求）：（1）第一种方法（字符串）（2）第二种方法（变量）（3）第三种方法（关键字传参）2.对网站发起带参数的get请求：3.对网站发起post请求：4.对网站发JSON数据的post请求：4.注意事项总结前言爬虫的本
【Python Web开发】Python Web开发知识全解析萧鼎 python基础到进阶教程 python 前端开发语言
PythonWeb开发知识全解析Python是一种强大的编程语言，以其简洁和高效而闻名，尤其在Web开发领域，它有着广泛的应用。Python提供了许多功能强大且灵活的Web框架，如Flask、Django、FastAPI等，使得构建现代Web应用变得简单而高效。本文将从PythonWeb开发的基本知识入手，逐步介绍开发流程、核心技术以及如何使用Python框架构建高效、可扩展的Web应用。1.什么
【Pip】配置和优化 `pip` 安装源：提升 Python 包管理体验的全面指南丶2136 #pip pip python 开发语言
目录引言一、什么是`pip`配置文件？1.1配置文件的类型与位置二、配置文件的结构与配置项2.1中英文注释配置文件示例三、详细解析配置项3.1镜像源设置（`index-url`和`extra-index-url`）3.2代理设置（`proxy`）3.3安装选项（`no-deps`和`user`）3.4缓存控制（`no-cache-dir`和`cache-dir`）3.5日志和调试（`verbose
奥比中光Geminipro相机使用一傲 python 开发语言
相机使用入门，使用python获取深度图和颜色图并显示。#安装依赖importcv2importnumpyasnpfrommatplotlibimportpyplotasplt#奥比中光OrbbecPythonSDKfromObTypesimport*fromPropertyimport*importPipelineimportStreamProfilefromErrorimportObExcep
2021 年 GitHub 上十大最火 Python 项目，看完之后我裂开了酔清风 python github python 开发语言
GitHub作为程序员每天必逛的网站之一，上面有着太多优秀的开源项目，今天派森酱就带大家来梳理下在过去的一年里，GitHub上最火的Python项目Top10。数据获取如果你留心看过GitHub的文档的话，你就会知道关于GitHub上的大部分数据，GitHub官方都是提供了接口了的。比如我们今天要获取的数据就可以从下面这个接口拿到。https://api.github.com/search/rep
一、PyCharm(Professional)搭建Django环境郝家伙~ pycharm ide python django
目录一、创建项目1.左侧选择Django框架2.点击create开始创建项目3.下载Django失败，使用默认源下载可能失败，需要指定其他源，这里使用阿里源4.手动创建项目django-adminstartproject项目名称5.进入当前项目创建应用python3manage.pystartappsign6.点击运行按钮或终端运行项目python3manage.pyrunserverip:端口，
django项目部署ubuntu服务器,Ubuntu部署Django项目方法详解 weixin_39965075
教程使用的软件版本：Ubuntu18.04.1LTS，django2.0，Python3.6.5、nginx-1.13.7、uWSGI(2.0.17.1)，Ubuntu是纯净的，全新的。下面我们开始来部署。如果觉得看文字没意思，想看视频教程的，请点击这里：Django项目部署视频教程一、更新操作系统和安装依赖包#更新操作系统软件库sudoapt-getupdatesudoapt-getupgrad
python模块os和 importlib实战指南 ivwdcwso 开发运维 python 服务器运维开发 devops
os和importlib是Python中两个非常强大的模块，分别用于与操作系统交互和动态导入模块。本文将通过实际代码示例，展示如何在实际项目中使用这两个模块，帮助你更好地理解它们的用途和应用场景。©ivwdcwso(ID:u012172506)1.os模块实战os模块主要用于与操作系统交互，例如读取环境变量、操作文件路径、执行系统命令等。以下是os模块的常见实战场景。1.1读取环境变量在开发中，我
Django 日志配置实战指南 ivwdcwso django 数据库 sqlite python 开发
日志是Django项目中不可或缺的一部分，它帮助我们记录应用程序的运行状态、调试信息、错误信息等。通过合理配置日志，我们可以更好地监控和调试应用程序。本文将详细介绍如何在Django项目中实现日志文件分割、日志级别控制以及多环境日志配置，并结合最佳实践和代码示例，帮助你全面掌握Django日志的使用。1.日志级别概述Python的日志模块定义了以下日志级别（从低到高）：DEBUG：详细的调试信息，
Django WSGI 异步处理和多线程的实战指南 penmily django python
1.DjangoWSGI的架构和工作原理Django作为Python编程语言中最受欢迎的web框架之一，其WSGI（WebServerGatewayInterface）支持为应用的扩展性和性能优化提供了基础。本章将介绍DjanogWSGI架构的基本组成，阐述其工作原理，并分析它是如何使得Django应用能够与各种web服务器进行交互的。1.1WSGI架构的组成WSGI是Python的一种协议，定义
Python-Django 开源项目实战指南贾蕙梅Wayne
Python-Django开源项目实战指南python-djangoOpenTracinginstrumentationfortheDjangoframework项目地址:https://gitcode.com/gh_mirrors/py/python-django项目介绍Python-DjangoOpenTracing扩展是由OpenTracing社区贡献的一个开源项目，专为Django框架设计
由于直接展示多种编程语言的全套游戏代码会相当冗长，我将为你概述一个简单的小游戏——猜数字游戏，并用几种流行的编程语言（Python, JavaScript, C++, Java）给出其核心逻辑的代码片 IsaacHornby 游戏 python javascript
Python版本ftinc.cnPython版本非常直观，适合初学者。pythonimportrandomdefguess_number_game():number_to_guess=random.randint(1,100)guess=Noneattempts=0print("我想了一个1到100之间的数字，你能猜到是哪个吗？")whileguess!=number_to_guess:try:g
Python数据分析案例教程 kkchenjj 数据挖掘 python 数据分析信息可视化
Python数据分析案例教程Python在数据分析中的应用Python因其简洁的语法、强大的库支持以及广泛的社区资源，已成为数据分析领域的首选语言。它能够处理从数据清洗、数据可视化到机器学习模型构建的整个数据科学流程。本节将深入探讨Python在数据分析中的具体应用，包括但不限于数据清洗、数据探索、统计分析和预测建模。数据清洗数据清洗是数据分析的首要步骤，涉及处理缺失值、异常值、重复数据以及数据类
python中json的用法总结小疯子呀 python基础
一、json的概念json是一种通用的数据类型一般情况下接口返回的数据类型都是json长得像字典，形式也是k-v{}其实json是字符串字符串不能用key、value来取值，所以要先转换为字典才可以使用JSON函数，需要先导入importjson二、json的相关方法1、json.dumps：将Python对象编码成JSON字符串2、json.loads：将已编码的JSON字符串解码为Python
2025年新出炉的MySQL面试题长风清留扬 150道MySQL高频面试题 mysql 数据库面试 sql
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
精选了几道MySQL的大厂面试题，被提问的几率很高！长风清留扬 150道MySQL高频面试题 mysql android 数据库面试学习 MySQL面试
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
有史以来最全的异常类讲解没有之一！第二部分爆肝2万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第二部分长风清留扬最新Python入门基础合集 python 笔记学习异常处理改行学it 异常 BUG
本文是第二部分，第一部分请看：有史以来最全的异常类讲解没有之一！爆肝3万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第一部分博客主页：长风清留扬-CSDN博客系列专栏：Python基础专栏每天更新大数据相关方面的技术，分享自己的实战工作经验和学习总结，尽量帮助大家解决更多问题和学习更多新知识，欢迎评论区分享自己的看法感谢大家点赞收藏⭐评论异常类型IndexError
有史以来最全的异常类讲解没有之一！第三部分爆肝4万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第三部分长风清留扬最新Python入门基础合集 python 面试异常处理 BUG 异常类型职场和发展改行学it
本文是第三部分，第一第二部分请看：有史以来最全的异常类讲解没有之一！爆肝3万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第一部分有史以来最全的异常类讲解没有之一！第二部分爆肝2万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第二部分博客主页：长风清留扬-CSDN博客系列专栏：Python基础专栏每天更新大数据相关方面的技术，分享自己的实
还在为Python“运算符”中遇到的BUG而发愁吗？，变量相关的问题和解决办法看这篇文章就够了！长风清留扬 android python bug 运算符
博客主页：长风清留扬-CSDN博客系列专栏：Python疑难杂症百科-BUG编年史每天更新大数据相关方面的技术，分享自己的实战工作经验和学习总结，尽量帮助大家解决更多问题和学习更多新知识，欢迎评论区分享自己的看法感谢大家点赞收藏⭐评论关于运算符中常见的问题和解决方法在Python编程的浩瀚宇宙中，变量如同星辰般璀璨，它们承载着数据，驱动着程序的运行。然而，即便是这些看似简单的构建块，也时常隐藏着令
Python全网最全基础课程笔记(十三)——作用域，跟着思维导图和图文来学习，爆肝2w字，无数代码案例！长风清留扬最新Python入门基础合集 python 笔记学习作用域面试跳槽改行学it
本专栏系列为Pythong基础系列，每篇内容非常全面，包含全网各个知识点，非常长，请耐心看完。每天都会更新新的内容，搜罗全网资源以及自己在学习和工作过程中的一些总结，可以说是非常详细和全面。以至于为什么要写的这么详细：自己也是学过Python的，很多新手只是简单的过一篇语法，其实对于一个知识点的底层逻辑和其他使用方法以及参数详情根本不是很了解，这就导致学完很容易忘记，而且在实战过程中也是半知半解，
Python全网最全基础课程笔记(三)——所有运算符+运算符优先级长风清留扬最新Python入门基础合集开发语言 python 运算符 Python基础 numpy pandas pip
本专栏系列为Pythong基础系列，每天都会更新新的内容，搜罗全网资源以及自己在学习和工作过程中的一些总结，可以说是非常详细和全面。以至于为什么要写的这么详细：自己也是学过Python的，很多新手只是简单的过一篇语法，其实对于一个知识点的底层逻辑和其他使用方法以及参数详情根本不是很了解，这就导致学完很容易忘记，而且在实战过程中也是半知半解，所以自己就尽量写的详细些，让需要的人能更了解Python的
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源