python零基础入门小白

Python爬虫的作用及工具和反爬机制，爬虫新手入门篇

文章目录

一什么是爬虫
二爬虫工具
三. 反爬虫问题
- - Python爬虫技术资源分享
  - - 1、Python所有方向的学习路线
    - 2、学习软件
    - 3、入门学习视频
    - 4、实战案例
    - 5、清华编程大佬出品《漫画看学Python》
    - 6、Python副业兼职与全职路线

一什么是爬虫

爬虫能做什么

政治角逐

2016年这场美国总统竞选被媒体称作“第一次数字化竞选”，希阿姨和川大大都组建了庞大的技术团队，将大量资金花在获取和使用投票者的信息上。民意调查结果，一直是总统大选时最倚重的数据来源。在长达半年的总统竞选活动中，会有许多组织或机构通过不同方式进行大量调查，并将结果汇总整理加工成民意调查数据。在更大的数据规模上，总统候选人们也采用了同样的策略，所依赖的数据来源也不仅仅是民意调查结果，还涵盖了诸多的如facebook这类的社交网站和公开及私有的数据库。

及时准确的收集这些数据，并且帮助制定策略以获得更多的选民支持。将美国超过2亿的选民资料，与大型网站与社交网络上的个人账号相互匹配起来，将网络行为对应到具体的个体，再和已经构成的、庞大的用户个人数据相结合，最终完全由准确数据来驱动竞选策略。

而以上这些就使得大数据分析技术成了两党候选人的重要武器。

电商分析

抓取天猫、京东、淘宝等电商网的评论及销量数据，对各种商品（颗粒度可到款式）沿时间序列的销量以及用户的消费场景进行分析。

甚至还可以根据用户评价做情感分析，实时监控产品在消费者心目中的形象，对新发布的产品及时监控，以便调整策略。

投资理财

雪球等财经类网站通过抓取雪球KOL或者高回报用户的行为，找出推荐股票。

消费习惯分析

在大众点评、美团网等餐饮及消费类网站抓取各种店面的开业情况以及用户消费和评价，了解周边变化的口味，所谓是“舌尖上的爬虫”。

以及各种变化的口味，比如：啤酒在衰退，重庆小面在崛起。

内部数据利用

企业在运营过程中产生的大量数据，其实是蕴含着巨大的价值，对企业未来的发展和创新商业模式都有着很大的帮助。充分的挖掘数据潜在价值，能帮助企业更好的细分市场，以助于公司能有针对性的为企业日后的发展提供数据支撑。更好的掌握市场动向，更好的对市场反应产生新的决策。

数据背后所隐藏的巨大商业价值正开始被越来越多的企业所重视，越来越多的企业开始进入大数据市场，建立各种大数据入口，以获得更多更大的海量数据。那么问题来了，数据从何而来？

什么是网络爬虫

所谓爬虫，其本质是一种计算机程序，它的行为看起来就像是蜘蛛在网上面爬行一样，顺着互联网这个“网”，一条线一条线地“爬行”。所以爬虫在英文中又叫作“Spider”，正是蜘蛛这个单词。

由于传统低效率的数据收集手段越来越不能满足当今日益增长的数据需求，但是面对互联网这样一个由数据构建而成的海洋，如何有效获取数据，如何获取有效数据都是极其劳神费力、浪费成本、制约效率的事情。很多时候，按照传统手段完成一个项目可能80%～90%的时间用于获取和处理数据。这样的矛盾冲突，搁在以往，搁在普通的人和普通的公司身上，除了用金钱去填补（直接购买数据）之外，似乎只有默默认命了。

然而现在，终于有了扭转之机，那就是驾驭爬虫技术。

二爬虫工具

爬虫之urllib

urllib库request

urllib库是爬虫常用的一个库，通过这个库的学习，能够了解一些爬虫的基础技术。

下面以爬取某网站首页源码的示例代码介绍urilib库中常用的request()方法：

# 导入urllib库
import urllib.request
# urllib爬取某网站首页的步骤：
# (1) 定义一个url  即目标地址
url = 'http://www.xxx.com'
# (2) 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)
# (3) 获取响应中的页面的源码
# 这里read()函数可以获取响应，但是响应的格式是二进制的，需要解码
# 解码：decode('编码格式')  编码格式在 中显示
content = response.read().decode('utf-8')
# (4) 打印数据
print(content)

urllib库下载资源

下面介绍一下用urllib.request()方法如何下载文件：

# urllib下载文件的操作
# (1) 下载网页
url_page = 'http://www.baidu.com'
# 使用urillib.request.urlretrieve() 函数，
# 传参分别是url(网页的地址路径)、filename(网页文件的名字)
urllib.request.urlretrieve(url_page,'baidu.html')
# (2) 下载图片
url_img = 'https://xxx'
urllib.request.urlretrieve(url_img,'xxx.jpg')
# (3) 下载视频
url_video = 'https://xxx'
urllib.request.urlretrieve(url_video,'xxx.mov')

urllib库之GET请求

# get请求的quote()方法：单个参数的情况下常用该方法进行编解码
# 需求：用get请求的quote()方法获取源码 
# 找到网页地址url：此时复制的汉字会自动转成unicode编码，如下，即这段编码就是周杰伦三个汉字的编码
url = 'https://www.baidu.com/s?wd=%E5%91%A8%E6%9D%B0%E4%BC%A6'
# 寻找UA
headers = {
   'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
}
# 定制请求对象
request = urllib.request.Request(url = url,headers = headers)
# 模拟浏览器向服务器发起请求
response = urllib.request.urlopen(request)
# 获取响应内容
content = response.read().decode('utf-8')
# 打印内容
print(content)

urllib库之POST请求

# post请求：
import urllib.request
url = 'https://xxx'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
}
data = {
    'data':'data'
}
import urllib.parse
# post请求的参数 必须 进行编码
data = urllib.parse.urlencode(data).encode('utf-8')
# post请求的参数是不会拼接在url 的后面的，而是需要放置在请求对象定制的地方
request = urllib.request.Request(url = url,data = data,headers = headers)
# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)
# 获取响应的数据
content = response.read().decode('utf-8')
import json
# 字符串 - - - > json 对象
obj = json.loads(content)
print(obj)

urllib库之handler处理器

首先简单介绍一下handler处理器：handler处理器是urllib库中继urlopen()方法之后又一种模拟浏览器向服务器发起请求的方法或技术。

它的意义在于使用handler处理器，能够携带代理ip，这为对抗反爬机制提供了一种策略(很多的网站会封掉短时间多次访问的ip地址)。

下面是handler处理器的具体使用方法，其中不含代理ip的部分，代理ip这部分将在下一篇笔记中介绍。

# handler处理器的基础使用
# 需求：使用handler访问百度 获取网页源码
import urllib.request
url = 'http://www.baidu.com'
headers = {
            'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
     } 
request = urllib.request.Request(url = url,headers = headers)
# handler    build_opener    open 
# 第一步：获取handler对象
handler = urllib.request.HTTPHandler()
# 第二步：通过handler获取opener对象
opener = urllib.request.build_opener(handler)
# 第三步：调用open()函数
response = opener.open(request)
content = response.read().decode('utf-8')
print(content)

urllib库之IP池

# urllib代理
import urllib.request
url = 'https://www.xxx'
headers = {
            'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
     }
proxies = {
    'http' : '40.83.102.86:80'
}
request = urllib.request.Request(url = url, headers = headers)
handler = urllib.request.ProxyHandler(proxies = proxies)
opener = urllib.request.build_opener(handler)
response = opener.open(request)
content = response.read().decode('utf-8')
with open('daili.html','w',encoding = 'utf-8') as fp:
    fp.write(content)

爬虫之requests

requests库的基础

首先，了解一下什么是requests库：

它是一个Python第三方库，处理URL资源特别方便，可以完全取代之前学习的urllib库，并且更加精简代码量(相较于urllib库)。

用requests库时，我们发起请求是通过requests.get()函数进行的，传参是目的网页的url(后续会有其他的传参，暂时此处传入一个url)，并且用response变量接受服务器的响应。

import requests
url = 'http://www.xxx.com'
response = requests.get(url = url)

requests库的六种属性：

1️⃣ text属性：字符串形式返回网页源码(由于此时编码格式是gbk，中文部分可能会乱码，稍后解决)

print(response.text) # 由于没有设置编码格式，中文会乱码

2️⃣ encoding属性：设置相应的编码格式

response.encoding = ‘utf-8’

这之后的response就不会出现中文乱码现象了。

3️⃣ url属性：返回url地址

url = response.url

4️⃣ content属性：返回二进制的数据

content_binary = response.content

5️⃣ status_code属性：返回状态码 200是正常

status_code = response.status_code

6️⃣ headers属性：返回响应头

headers = response.headers

requests库的get请求

import requests
url = 'https://www.xxx.com'
headers = {
                'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
         }
data = {
    'data' : 'data'
}
response = requests.get(url = url,params = data,headers = headers)
response.encoding = 'utf-8'
content = response.text
print(content)

requests库的post请求

# requests_post请求
import requests
url = 'https://www.com'
headers = {
                'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
         }
data = {
    'data' : 'xxx'
}
response = requests.post(url = url,data = data,headers = headers)
content = response.text
import json
obj = json.loads(content.encode('utf-8'))
print(obj)

requests库的代理ip方法

# requests_ip代理
import requests
url = 'http://www.baidu.com/s'
headers = {
                'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
         }
data = {
    'wd' : 'ip'
}
proxy = {
    'http:' : '218.14.108.53'
}
response = requests.get(url = url, params = data,headers = headers,proxies = proxy)
content = response.text

爬虫之BeautifulSoup

BeautifulSoup简介

在第一部分安装的介绍之前，先介绍一下什么是xpath，以及为什么我们要学习xpath：

首先，介绍一下bs4，它是又一种解析的手段，之前有xpath和jsonpath。bs4的特点是这样的：

BS4全称是Beatiful Soup，它提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

BS4最舒服的一点是提供了更适合前端开发工作者使用的语言习惯，它的语法很大程度对前端开发工作者是友好的，同时它解析的对象是本地html文件和服务器的响应html文件。

BeautifulSoup使用

本地html的源码：




    
    soupDemo


    
            
            张三
            李四
            王五
            周六
            soupDemo
            hhh
        
    
    soupDemo2

bs4的基本操作语法：

# 解析本地文件：bs4基础语法的学习
soup = BeautifulSoup(open('soup.html',encoding = 'utf-8'),'lxml')
# bs4的基础操作：
# (1) 根据标签名查找节点，找到的是第一个符合条件的节点：
print(soup.a) # 返回的是soupDemo而不是soupDemo2
# (2) 获取标签的属性：
print(soup.a.attrs)

三. 反爬虫问题

反爬虫方式

一般而言，抓取稍微正规一点的网站，都会有反爬虫的制约。反爬虫主要有以下几种方式：

通过UA判断：这是最低级的判断，一般反爬虫不会用这个做唯一判断，因为反反爬虫非常容易，直接随机UA即可解决。

通过单IP频繁访问判断：这个判断简单，而且反反爬虫比较费力，反爬虫绝佳方案。需采用多IP抓取。

通过Cookie判断：例如通过会员制账号密码登陆，判断单账号短时间抓取次数判断。这个反反爬虫也很费力。需采用多账号抓取。

动态页面加载：这个考验前端工程师的功底，如果前端写的好，各种JS判断，各种逻辑，像百度、淘宝一样，post登录很难。较好的方法，但是对于大牛，还是防不胜防。反反爬虫多采用渲染浏览器抓取，效率低下。

采用验证码：这里要么是登录的时候有验证码，要么是判断是爬虫时，不封IP，而是采用验证码验证，例如链家网。验证码是反爬虫性价比较高的方案。反反爬虫一般接入OCR验证码识别平台或者人工打码平台，亦或者利用TesseractOCR识别，亦或者采用神经网络训练识别验证码等。

如何反反爬虫

修改请求头：除了处理网站表单，requests 模块还是一个设置请求头的利器。HTTP 的请求头是在你每次向网络服务器发送请求时，传递的一组属性和配置信息。HTTP 定义了十几种古怪的请求头类型，不过大多数都不常用。只有下面的七个字段被大多数浏览器用来初始化所有网络请求（表中信息是我自己浏览器的数据）。

修改爬虫的间隔时间：修改爬虫的间隔时间，使用随机间隔时间，模拟访问操作。合理控制速度是你不应该破坏的规则。所以请控制采集速度！

使用代理：上网者可以通过正向代理的方法隐藏自己的 ip。正向代理是一个位于客户端和目标服务器之间的代理服务器（中间服务器）。为了从目标服务器取得内容，客户端向代理服务器发送一个请求，并且指定目标服务器，之后代理向目标服务器转发请求，将获得的内容返回给客户端。正向代理的情况下，客户端必须要进行一些特殊的设置才能使用。

登录获取数据：在采集一些网站时 cookie 是不可或缺的。要在一个网站上持续保持登录状态，需要在多个页面中保存一个 cookie。有些网站不要求在每次登录时都获得一个新 cookie，只要保存一个旧的“已登录”的 cookie 就可以访问。

Python爬虫技术资源分享

小编是一名Python开发工程师，自己整理了一套 【最新的Python系统学习教程】，包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。

保存图片微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

如果你是准备学习Python或者正在学习，下面这些你应该能用得上：

1、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

2、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

3、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

4、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

5、清华编程大佬出品《漫画看学Python》

用通俗易懂的漫画，来教你学习Python，让你更容易记住，并且不会枯燥乏味。

6、Python副业兼职与全职路线

这份完整版的Python全套学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

CSDN大礼包：《Python入门资料&实战源码&安装工具】免费领取（安全链接，放心点击）

Appium介绍 max500600 开发工具 appium
在使用不同版本的Appium包进行自动化测试时，出现警告问题可能是由于版本不兼容、配置不正确等原因导致的。下面将详细介绍解决这些问题的步骤，确保模拟器能够正常启动，并能在Appium查看器中同步显示。1.环境准备首先，确保你已经安装了以下工具和库：AppiumServer：可以从Appium官方网站下载并安装。AppiumPythonClient：使用以下命令安装：pipinstallAppium
磁盘调度算法 max500600 算法算法数据库服务器
先来先服务（FCFS）算法原理：按照进程请求访问磁盘的先后顺序进行调度。就像是排队买东西，先到的先服务。示例（Python）：deffcfs(requests):"""requests是一个包含磁盘请求序列的列表例如requests=[98,183,37,122,14,124,65,67]假设磁头初始位置为53"""head_position=53total_distance=0forreques
requests 模块 dme. 爬虫学习dme 爬虫爬虫 python
在python中requests模块常用于爬虫本文将会讲述requests常用函数的用法。1.requests.get()/requests.post()1.基本语法#首先导入requests#pipinstallrequestsimportrequests#这里以百度为例url="https://www.baidu.com/"resp=requests.get(url)#requests.pos
Python学习第十天--处理CSV文件和JSON数据無量空所 python学习 python
CSV：简化的电子表格，被保存为纯文本文件JSON：是一种数据交换格式，易于人阅读和编写，同时也易于机器解析和生成，以JavaScript源代码的形式将信息保存在纯文本文件中一、csv模块CSV文件中的每行代表电子表格中的一行，逗号分隔了该行中的单元格。但并非CSV文件中的每个逗号都表示两个单元格之间的分界。CSV文件也有自己的转义字符，允许逗号和其他字符作为值的一部分。所以总是应该使用csv模块
使用 Python 的`turtle`库来实现 2025 新年快乐的程序 go5463158465 算法 python python 开发语言
以下是一个使用Python的turtle库来实现2025新年快乐的程序，其中包含烟花效果和祝福语：importturtleimportrandom#设置画布和画笔screen=turtle.Screen()screen.setup(width=800,height=600)screen.bgcolor("black")screen.title("2025新年快乐！")#定义烟花类classFire
二叉树深度的介绍 go5463158465 python 算法算法开发语言 python
二叉树深度的定义：二叉树的深度（高度）是指从根节点到最远叶子节点的最长路径上的节点数。例如，一个只有根节点的二叉树，其深度为1；如果根节点有两个子节点，且每个子节点又分别有两个子节点，那么这个二叉树的深度为3。计算二叉树深度的方法：递归方法：递归是解决二叉树问题的常用方法。对于二叉树深度的计算，其递归的思想是：二叉树的深度等于其左子树和右子树深度的最大值加1。以下是使用Python实现的代码：cl
2025最新实测可用的免费股票API接口推荐：python、JavaScript 、JAVA等实例代码演示教你如何免费获取股票实时、历史、指标等数据 Eumenides_max python javascript java 股票数据接口股票API接口
在数字化时代，股票投资已不再局限于传统的交易方式。随着金融科技的飞速发展，API（应用程序编程接口）接口正逐渐成为股票交易领域的新宠，为投资者提供了更加便捷、高效的交易体验。API接口在股票交易中的应用，主要体现在其能够实现数据的实时传输和交互。通过API接口，投资者可以实时获取市场动态、股票价格、交易量等关键信息，为决策提供有力支持。同时，API接口还支持自动化交易，投资者可以根据预设的交易策略
Java 核心与应用：Java 面向对象码力全開《Java 核心与应用》java python 开发语言
目录Java核心与应用：Java面向对象引言学习目标1.面向对象编程的三大特性1.1封装1.1.1封装的实现1.2继承1.2.1继承的实现1.3多态1.3.1多态的实现2.类与对象的关系2.1类与对象的概念2.1.1类与对象的关系示例3.方法签名与重载的边界条件3.1方法签名3.1.1方法签名的示例3.2方法重载的边界条件3.2.1方法重载的边界条件示例4.对象内存布局4.1对象内存布局的组成4.
Python 魔法学院 - 第03篇：Python 变量与数据类型 ⭐ 码力全開《Python 魔法学院》python 开发语言 windows pycharm
目录1.引言：开启Python变量与数据类型的魔法之旅2.变量：数据的魔法标签️2.1什么是变量？2.2变量的命名规则3.数据类型：Python的魔法工具箱3.1数据类型示例3.2数据类型的内存结构内存结构模拟4.Python中的关键字和保留字5.Python可变类型及其方法详解️5.1列表（List）5.1.1列表的创建5.1.2列表的常用方法5.1.3列表方法的使用示例及内存模拟5.2集合（S
可解释性：走向透明与可信的人工智能一位小说男主人工智能入门深度学习机器学习人工智能神经网络
随着深度学习和机器学习技术的迅速发展，越来越多的行业和领域开始应用这些技术。然而，这些技术的“黑盒”特性也带来了不容忽视的挑战。在许多任务中，尽管这些模型表现出色，取得了相当高的精度，但其决策过程不透明，这对于依赖于机器决策的应用（如金融、医疗、法律等）来说，可能是无法接受的。因此，如何提高模型的可解释性、实现透明和可信的人工智能，成为了当下人工智能领域的重要课题。❤️本文将深入探讨机器学习中的可
Python 实现2048 yingjiejk python python pygame 开发语言
2048游戏是一个经典的数字益智游戏，使用Python语言可以很容易地实现它。以下是一个简单的代码示例：importpygameimportrandompygame.init()#设置颜色WHITE=(255,255,255)BLACK=(0,0,0)GRAY=(128,128,128)RED=(255,0,0)GREEN=(0,255,0)BLUE=(0,0,255)#设置屏幕大小size=(4
Java学习 - Spring Boot整合 Thymeleaf 实例泡芙萝莉酱 Java java 学习 spring boot
什么是ThymeleafThymeleaf是新一代的Java模板引擎，类似于Velocity、FreeMarker等传统引擎，其语言和HTML很接近，而且扩展性更高；Thymeleaf的主要目的是将优雅的模板引入开发工作流程中，并将HTML在浏览器中正确显示。同时能够作为静态引擎，让开发成员之间更方便协作开发；SpringBoot官方推荐使用模板，而且SpringBoot也为Thymeleaf提供
python 中serial.read用法详解之serial.read(inwaiting or 1) huiyuanzhenduo python
在Python中，serial.read(inwaitingor1)是pyserial库中用于从串口读取数据的代码片段，下面是详细解释：read()serial类的方法，用于从串口缓冲区读取指定数量的字节数据。格式为read(size)，size为读取的字节数。inwaiting是serial类的属性，返回串口输入缓冲区中等待读取的字节数。如ser.inwaiting()可获取当前缓冲区字节数。i
通达信实时行情API的功能有哪些？如何利用这些功能进行股票分析股票程序化交易接口量化交易股票API接口 Python股票量化交易通达信实时行情api 股票分析行情数据股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>行情数据获取功能通达信实时行情API能够提供全面的行情数据。它可以获取股票的基本信息，如股票代码、名称等。能精确提供股票的实时价格，包括当前价、开盘价、收盘价等重要价格数据。这些数据是进行股票分析的基础。投资者可以根据当前价与开盘价的
「iOS」通过CoreLocation Framework深入了解MVC架构小鹿撞出了脑震荡 ios mvc 架构
「iOS」通过CoreLocationFramework重新了解多界面传值以及MVC架构文章目录「iOS」通过CoreLocationFramework重新了解多界面传值以及MVC架构前言CoreLocation了解根据需求建模设计属性方法设计协议传值Block传值KVONotification通知方式总结参考文章前言在这个学期的前段时间进行了MVC的相关学习，并且使用MVC完成了知乎日报奥的项目
Python项目之Pygame制作新年烟花！ WANGWUSAN66 pygame python 开发语言计算机经验分享源码
实现源码涉及到两个Python库：random和pygame。1.random库：randint(a,b)：返回一个在[a,b]范围内的随机整数。uniform(a,b)：返回一个在[a,b]范围内的随机浮点数。choice(sequence)：从给定的序列中随机选择一个元素。2.Pygame是一个用于制作游戏的Python模块，它包含了许多用于游戏开发和图形渲染的功能。以下是Pygame的一些主
python爬虫框架Scrapy简介码农~明哥 python python 爬虫 scrapy
当你写了很多个爬虫程序之后，你会发现每次写爬虫程序时，都需要将页面获取、页面解析、爬虫调度、异常处理、反爬应对这些代码从头至尾实现一遍，这里面有很多工作其实都是简单乏味的重复劳动。那么，有没有什么办法可以提升我们编写爬虫代码的效率呢？答案是肯定的，那就是利用爬虫框架，而在所有的爬虫框架中，Scrapy应该是最流行、最强大的框架。Scrapy概述Scrapy是基于Python的一个非常流行的网络爬虫
Linux安全体系学习笔记之二：OpenSSL源代码分析(1) Aegeaner 安全 Linux安全体系学习笔记代码分析 linux ssl session callback extension
OpenSSL的源代码包括三部分：加密算法库、SSL库和应用程序。加密算法库的源代码主要在crypto文件夹里，包括ASN.1编码与解码接口（crypto/asn1/asn1.h），伪随机数产生器（crypto/rand/rand.h），ENGINE机制（crypto/engine），统一密码算法的EVP密码算法接口（crypto/evp/evp.h），大数运算接口（crypto/bn/bn.h）
【算法】经典博弈论问题——斐波那契博弈 + Zeckendorf 定理 python 查理零世算法 python 数据结构
目录斐波那契博弈（FibonacciNim）齐肯多夫（Zeckendorf）定理示例分析实战演练斐波那契博弈（FibonacciNim）先说结论：当初始石子数目n是斐波那契数时，先手必败；否则，先手有策略获胜。证明概要:当n=2时，先手只能取1颗石子，后手直接取剩下的1颗石子获胜，因此先手必败。假设对于所有小于等于某个斐波那契数f[k]的情况，结论都成立。归纳：对于f[k+1]=f[k]+f[k-
单目测距（yolo-目标检测+标定+深度学习目标检测_测距）计算机C9硕士_算法工程师 YOLO 目标检测深度学习
YOLOv5模型介绍YOLOv5是目前最先进的目标检测算法之一，在多个数据集上取得了优秀的表现。相较于YOLOv4，YOLOv5采用了更深的Backbone网络和更高的分辨率输入图像，以提高检测精度和速度。单目测距实现方法在目标检测的基础上，我们可以通过计算物体在图像中的像素大小来估计其距离。具体方法是，首先确定某个物体的实际尺寸，然后根据该物体在图像中的像素大小计算其距离。这个方法可以应用于各种
用 Python 实现经典的 2048 游戏：一步步带你打造属于你的小游戏！一位小说男主 python python 游戏
用Python实现经典的2048游戏：一步步带你打造属于你的小游戏！（结尾附完整代码）简介2048是一个简单而又令人上瘾的数字拼图游戏。玩家通过滑动方块使相同数字的方块合并，目标是创造出数字2048！在这篇博客中，我们将用Python的Tkinter库从零开始实现这款游戏，涵盖从界面设计到逻辑实现的每一个细节，帮助你全面了解背后的开发思路。游戏特点经典玩法：滑动合并相同数字，尽可能达到2048。随
Python跨年烟花代码花洵琴
Python跨年烟花代码【下载地址】Python跨年烟花代码分享本资源文件提供了一个使用Python编写的跨年烟花代码，代码中使用了`pygame`、`random`和`math`库来实现烟花的模拟效果。代码中定义了三个类：`Firework`、`Particle`和`Trail`，分别代表烟花、烟花中的颗粒以及颗粒的轨迹点项目地址:https://gitcode.com/open-source-
Python web框架——Django xiabe python python django web开发
简介django是一个免费的开源的pythonweb框架。它遵循了model-view-template（MVT）的架构模式。由DjangoSoftwareFoundation维护，一个以501©(3)非营利组织形式成立的独立组织。django的主要目标是简单的去开发一个复杂的数据库驱动的网站。该框架强调组件的可重用性和“可插拔性”、代码更少、低耦合、快速开发以及“不要重复自己”的原则。Pytho
Go语言从入门到精通：一站式学习指南写代码写到不能自控 golang 开发语言后端
Go语言（也称Golang）自2009年由Google推出以来，凭借其简单、并发支持、以及高效的性能，迅速成为开发者的宠儿。它被广泛应用于Web开发、微服务架构、云计算等领域，并且得到了大量开发者的追捧。如果你是Go语言的初学者，或者已经有一定编程经验的开发者，那么这篇博客将帮助你从Go语言的入门知识学起，逐步深入，最终达到精通的水平。一、Go语言概述1.1什么是Go语言？Go语言是由Google
python 建立并使用 venv 波格斯特问题备忘 python 开发语言
python建立并使用venv[smf@5GC-10mmlShell]$python3-mvenv./.venv[smf@5GC-10mmlShell]$source./.venv/bin/activate(.venv)[smf@5GC-10mmlShell]$(.venv)[smf@5GC-10mmlShell]$(.venv)[smf@5GC-10mmlShell]$pip3installre
Tensorflow入门——训练结果的保存与加载 weixin_34087301 人工智能 python 数据库
2019独角兽企业重金招聘Python工程师标准>>>训练完成以后我们就可以直接使用训练好的模板进行预测了但是每次在预测之前都要进行训练，不是一个常规操作，毕竟有些复杂的模型需要训练好几天甚至更久所以将训练好的模型进行保存，当有需要的时候重新加载这个模型进行预测或者继续训练，这才是一个常规操作我们依然使用最简单的例子进行说明，这里沿用Tensorflow入门——实现最简单的线性回归模型的预测这个例
【Python学习】网络爬虫-获取京东商品评论并制作柱状图西攻城狮北 Python实用案例学习 python 爬虫京东评论柱状图
一、实现目标获取京东网站上商品的评论统计数据，并使用该数据制作了一个简单的柱状图。二、实现步骤2.1网页分析首先打开链接https://www.jd.com/。在搜索框中输入巧克力关键词后，点击第一件商品打开商品网页，找到商品评价，在商品评价模块能够看到用户选择的评论标签。由于该商品的全部用户评论有50万+，数据量较大。我们需要收集商品特点，所以我们选择对评价标签进行分析。打开https://it
python弹窗（tkinter库）：在弹窗中放置图片的两种方法独白不白 python 开发语言
我了解到的方法有两种，但无一例外，重点都是将图片转化成PhotoImage的形式，然后才能在弹窗中显示。相当于PhotoImage是tkinter库导出图片的专属格式。方法1基础写法：首先把gif格式的图片转化成PhotoImage形式，再利用Label导出。importtkinterastkroot=tk.Tk()a=tk.Frame(root)a.pack()b=tk.PhotoImage(f
爬虫实战--- （6）链家房源数据爬取与分析可视化 rain雨雨编程爬虫实战系列 python 爬虫数据分析
文章持续跟新，可以微信搜一搜公众号[rain雨雨编程]，第一时间阅读，涉及数据分析，机器学习，Java编程，爬虫，实战项目等。目录前言1.爬取目标2.所涉及知识点3.步骤分析（穿插代码讲解）步骤一：发送请求步骤二：获取数据步骤三：解析数据步骤四：保存数据4.爬取结果5.完整代码6数据可视化前言今天我将为大家分享一个非常实用的Python项目——链家房源数据的爬取与分析可视化。在这篇文章中，我们将分
Python 项目国际化：使用 Babel 实现多语言支持衫水 python进阶 python
文章目录如何使用Babel实现Python项目国际化1.安装Babel2.设置项目目录结构3.标记可翻译的文本4.提取可翻译的文本生成文件——生成pot文件4.1有配置文件方式（使用`babel.cfg`）4.1.1.创建`babel.cfg`文件4.1.2.提取翻译内容4.2无配置文件方式（直接指定文件路径）5.后续步骤（通用步骤）5.1.初始化翻译文件——生成po文件5.2.编辑po文件5.3
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1