Jianhao92

2 爬虫数据解析(bs4，XPath) robots协议 cookie反爬代理反爬

爬虫

1 数据解析

1.1 介绍

1.1.1 概念即作用

数据解析就是将一组数据中的局部数据进行提取，用于实现聚焦爬虫。
聚焦爬虫是建立在通用爬虫的基础上，从通用爬虫获取的整个源码数据中提取出指定的数据。

1.1.2 聚焦爬虫的流程

指定url
发起请求
获取响应数据
数据解析
持久化存储

常用的数据解析方式包括：
正则匹配、bs4、XPath(常用)、PyQuery等。

1.1.3 数据解析原理

html的主要作用是数据展示。
待解析的数据其实都存储在html标签之中或标签的属性中。
通用原理：
(1) 定位标签；
(2) 获取标签中的数据或者标签的属性值。

1.2 bs4解析

1.2.1 bs4数据解析步骤

实例化BeautifulSoup对象，将被解析的页面数据加载到BeautifulSoup对象中；
调用BeautifulSoup对象中的方法和属性，进行标签定位和相关数据的提取。

1.2.2 实例化BeautifulSoup对象

方式1：BeautifulSoup(fp, 'lxml')
用于对本地存储的html文件进行数据解析；

方式2：BeautifulSoup(page_text, 'lxml')
用于对互联网上请求到的页面资源进行数据解析。

解析器一般选用lxml。

1.2.3 标签定位

标签定位
bs_obj.tagName
定位到第一次出现的指定标签。

属性定位
bs_obj.find('tagName', attrName='attrValue')
find只可以定位到第一次出现的指定标签。

bs_obj.find_all('tagName', attrName='attrValue')
find_all可以定位到符合条件的所有标签，返回值类型是列表。

选择器定位
bs_obj.select('选择器')
id选择器、类选择器、层级选择器
注：层级选择器中
大于号：表示相邻层级
空格：表示中间间隔多个层级

fp = open('./test.html', 'r', encoding='utf-8')
bs_obj = BeautifulSoup(fp, 'lxml')  # 实例化BeautifulSoup对象

# 标签定位
bs_obj.div  # 第一次出现的div标签
bs_obj.find('div', class_="song")
bs_obj.find_all('div', class_='song')
bs_obj.find_all('a', id='feng')

bs_obj.select('#feng')  # id选择器
bs_obj.select('.song')  # 类选择器
bs_obj.select('.tang > ul > li > a')  # 层级选择器
bs_obj.select('.tang a')

1.2.4 提取数据

取文本
tag.string: 获取标签直系的文本内容
tag.text: 获取标签下所有的文本内容

取属性
tag['attrName']

bs_obj.find('a', id="feng").text
bs_obj.find('a', id="feng").string

bs_obj.find('a', id="feng")['href']

1.2.5 案例爬取文学名著

目标：从诗词名句网爬取《三国演义》
《三国演义》：http://www.shicimingju.com/book/sanguoyanyi.html

import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}
catalogue_url = 'http://www.shicimingju.com/book/sanguoyanyi.html'
catalogue_text = requests.get(url=catalogue_url, headers=headers).text

# 解析各章节标题 + 详情页的url
catalogue_bs_obj = BeautifulSoup(catalogue_text, 'lxml')
a_list = catalogue_bs_obj.select('.book-mulu > ul > li > a')
for each_a in a_list:
    each_title = each_a.string
    each_detail_url = 'http://www.shicimingju.com' + each_a['href']
    each_detail_text = requests.get(url=each_detail_url, headers=headers).text
    
    # 解析各章节的内容
    each_detail_bs_obj = BeautifulSoup(each_detail_text, 'lxml')
    each_detail_content = each_detail_bs_obj.find('div', class_='chapter_content').text
    each_filepath = './sgyy/{title}.txt'.format(title=each_title)
    with open(each_filepath, 'w', encoding='utf-8') as fp:
        fp.write(each_detail_content)
    print('《{title}》下载保存成功！'.format(title=each_title))

1.3 XPath解析

1.3.1 XPath数据解析步骤

html标签是基于树状结构的。

实例化etree对象，将待解析的数据加载到该对象中；
调用etree对象中的xpath方法，结合着不同形式的xpath表达式进行标签定位和数据提取。

1.3.2 实例化etree对象

方式1：etree.parse('filename')
用于对本地存储的数据进行解析。

方式2：etree.HTML('page_text')
用于对互联网上请求到的页面资源进行数据解析。

1.3.3 标签定位

tree_obj.xpath(xpath表达式)返回的数据类型是列表。

标签定位
对于最左侧的`/`，一定要从根标签开始定位；
对于最左侧的`//`，可以从任意位置的标签开始定位；
对于非最左侧的`/`，表示相邻层级；
对于非最左侧的`//`，表示中间间隔多个层级。

属性定位
tree_obj.xpath('//tagName[@attrName="attrValue"]')

索引定位
tree_obj.xpath('//tagName[index]')
注意索引从1开始，返回值类型仍是列表。

模糊定位
tree_obj.xpath('//tagName[contains(@attrName, "attrValue")]')
tree_obj.xpath('//tagName[starts-with(@attrName, "attrValue")]')

from lxml import etree

tree_obj = etree.parse('./test.html')
# 定位title标签
tree_obj.xpath('/html/head/title')  # []
tree_obj.xpath('/html//title')
tree_obj.xpath('//title')

# 属性定位
tree_obj.xpath('//div[@class="song"]')

# 索引定位
tree_obj.xpath('//div[2]')

# 模糊定位
tree_obj.xpath('//div[contains(@class, "ng")]')
tree_obj.xpath('//div[starts-with(@class, "ta")]')

1.3.4 数据提取

取文本

/text()：用于将标签中直系的文本内容取出，返回的列表只有一个元素；
//text()：用于将标签中所有的文本内容取出；

tree_obj.xpath('//a[@id="feng"]/text()')
# ['凤凰台上凤凰游,凤去台空江自流,吴宫花草埋幽径,晋代衣冠成古丘']
tree_obj.xpath('//a[@id="feng"]/text()')[0]
# '凤凰台上凤凰游,凤去台空江自流,吴宫花草埋幽径,晋代衣冠成古丘'

tree_obj.xpath('//div[2]//text()')
# ['\n\t\t', '李清照', '\n\t\t', '王安石', '\n\t\t'...]
''.join(tree_obj.xpath('//div[2]//text()'))
# '\n\t\t李清照\n\t\t王安石\n\t\t...'

取属性

/@attrName

tree_obj.xpath('//a[@id="feng"]/@href')
# ['http://www.haha.com']

1.3.5 案例爬取糗事百科的段子

糗事百科的段子：https://www.qiushibaike.com/text/

爬取首页

import requests
from lxml import etree

headers = {
    'User-Agent': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}
main_url = 'https://www.qiushibaike.com/text/'
main_text = requests.get(url=main_url, headers=headers).text

tree_obj = etree.HTML(main_text)
# 标签定位
div_list = tree_obj.xpath('//div[@class="col1 old-style-col1"]/div')
for each_div in div_list:
    # 局部数据解析，从每一个div中进一步进行数据解析
    author_str = each_div.xpath('./div[1]/a[2]/h2/text()')[0]  # ./指的是xpath方法的调用者
    content_list = each_div.xpath('./a[1]/div/span//text()')
    content_str = ''.join(content_list)
    print(author_str, content_str)

爬取指定页数
使用url模板：url_model = 'https://www.qiushibaike.com/text/page/%d/'

import requests
from lxml import etree

headers = {
    'User-Agent': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}

url_model = 'https://www.qiushibaike.com/text/page/%d/'
for each_page_num in range(1, 4):
    each_url = format(url_model % each_page_num)
    # main_url = 'https://www.qiushibaike.com/text/'
    each_text = requests.get(url=each_url, headers=headers).text

    tree_obj = etree.HTML(each_text)
    # 标签定位
    div_list = tree_obj.xpath('//div[@class="col1 old-style-col1"]/div')
    for each_div in div_list:
        # 局部数据解析，从每一个div中进一步进行数据解析
        author_str = each_div.xpath('./div[1]/a[2]/h2/text()')[0]  # ./指的是xpath方法的调用者
        content_list = each_div.xpath('./a[1]/div/span//text()')
        content_str = ''.join(content_list)
        print(author_str, content_str)

扩展：可以使用百度AI进行语音合成。
百度AI在线语音合成：https://ai.baidu.com/tech/speech/tts_online
技术文档：https://ai.baidu.com/ai-doc/SPEECH/Ik4nlz8l6

1.3.6 案例爬取彼岸图网的4K动漫图片

彼岸图网的4K动漫图片：http://pic.netbian.com/4kdongman/

import requests
import os
from lxml import etree

dirname = './imgs'
if not os.path.exists(dirname):
    os.mkdir(dirname)

headers = {
    'User-Agent': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}
url_model = 'http://pic.netbian.com/4kdongman/index_%d.html'
for each_page_num in range(1, 6):
    if each_page_num == 1:
        each_url = 'http://pic.netbian.com/4kdongman/'
    else:
        each_url = format(url_model % each_page_num)
    each_response_obj = requests.get(url=each_url, headers=headers)
    each_response_obj.encoding = 'gbk'
    each_page_text = each_response_obj.text
    
    tree_obj = etree.HTML(each_page_text)
    # tree_obj.xpath('//*[@id="main"]/div[3]/ul/li')  # Copy XPath
    li_list = tree_obj.xpath('/html/body/div[2]/div/div[3]/ul/li')  # Copy full XPath
    for each_li in li_list:
        each_title_str = each_li.xpath('./a/img/@alt')[0]
        each_img_name = '{filename}.jpg'.format(filename=each_title_str)
        each_img_src = each_li.xpath('./a/img/@src')[0]
        each_img_url = 'http://pic.netbian.com/{each_img_src}'.format(each_img_src=each_img_src)
        each_img_data = requests.get(url=each_img_url, headers=headers).content
        each_img_path = '{dirname}/{each_img_name}'.format(dirname=dirname, each_img_name=each_img_name)
        
        with open(each_img_path, 'wb') as fp:
            fp.write(each_img_data)
        print('{each_img_name} 已下载。'.format(each_img_name=each_img_name))

1.3.7 与bs4的对比

如果需要解析出带有标签名的文本，需要使用bs4。

2 反爬机制与反反爬策略

2.1 robots协议

robots协议，也称为robots.txt，是存放于网站根目录下的ASCII编码格式的文本文件，用于告诉网络搜索引擎的漫游器本网站中的哪些内容不可以被漫游器获取，哪些内容是可以被漫游器获取的。
robots协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。

举例：

https://www.bilibili.com/robots.txt

User-agent: *
Disallow: /include/
Disallow: /mylist/
Disallow: /member/
Disallow: /images/
Disallow: /ass/
Disallow: /getapi
Disallow: /search
Disallow: /account
Disallow: /badlist.html
Disallow: /m/

https://www.taobao.com/robots.txt

User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /

2.2 cookie反爬

案例：爬取雪球网中的资讯数据。
雪球网：https://xueqiu.com/

import requests

headers = {
    'User-Agent': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}
target_url = 'https://xueqiu.com/statuses/hot/listV2.json'
params = {
    'since_id': '-1',
    'max_id': '74012',
    'size': '15', 
}
response_obj = requests.get(url=target_url, headers=headers, params=params)
print(response_obj.json())  
'''
{'error_description': '遇到错误，请刷新页面或者重新登录帐号后再试', 'error_uri': '/statuses/hot/listV2.json', 'error_data': None, 'error_code': '400016'}
'''

结果：爬取失败
解决方案：在headers中添加Cookie即可成功爬取数据。

在爬虫中处理Cookie的方式：
方式1：手动添加Cookie
利用抓包工具获取浏览器请求时携带的Cookie，将Cookie添加到headers字典中。
手动处理Cookie局限性：写入headers字典中的Cookie存在有效时长，会过期失效。

方式2：使用Session机制自动处理Cookie
获取一个Session对象，基于该Session对象进行请求发送。

在基于Session机制的请求响应过程中，如果服务器端产生了Cookie，会将Cookie自动保存到Session对象中。
如果Cookie被保存到Session对象中，则可以再次使用该Session对象发送请求，此次请求会自动携带Cookie。

import requests

headers = {
    'User-Agent': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}

# 创建Session对象。
session_obj = requests.Session()
# 使用Session对象向首页发送请求。
# 服务端产生Cookie，自动将Cookie保存于Session对象中。
main_url = 'https://xueqiu.com/'
session_obj.get(url=main_url, headers=headers)

target_url = 'https://xueqiu.com/statuses/hot/listV2.json'
params = {
    'since_id': '-1',
    'max_id': '74012',
    'size': '15', 
}
# 使用Session对象再次发送请求，此次请求中自动携带Cookie。
response_obj = session_obj.get(url=target_url, headers=headers, params=params)
print(response_obj.json())

2.3 代理反爬

代理指的是代理服务器，用于对请求或响应进行转发或拦截。

在反爬中使用代理的目的
如果使用爬虫在段时间内对一个网站发起一个高频请求，该网站会检测出这个异常的现象，并会获取异常请求ip，将ip加入到黑名单中，则该ip在近期无法再次对该网站进行网络访问。
如果本机ip被对方服务器加入到黑名单中，可以使用代理服务器进行请求转发，对方服务器获取的请求ip是代理服务器的ip，而不是本机的ip。

代理的匿名度
透明：对方服务器知道请求方使用了代理，也知道请求方的真实ip；
匿名：对方服务器知道请求方使用了代理，但是不知道请求方的真实ip；
高匿：对方服务器不知道请求方使用了代理，也不知道请求方的真实ip。

代理的类型
http：只支持转发http协议的请求；
https：只支持转发https协议的请求；
兼容http和https。

获取对方服务器收到的请求ip
未使用代理

target_url = 'https://www.sogou.com/web?query=ip'
page_text = requests.get(url=target_url, headers=headers).text
tree_obj = etree.HTML(page_text)
tree_obj.xpath('//*[@id="ipsearchresult"]//text()')

使用代理

target_url = 'https://www.sogou.com/web?query=ip'
page_text = requests.get(
	url=target_url, 
	headers=headers, 
	proxies={'https': '代理服务器ip:代理服务器port'}
).text
tree_obj = etree.HTML(page_text)
tree_obj.xpath('//*[@id="ipsearchresult"]//text()')

获取代理
全网代理IP(免费)：http://www.goubanjia.com/
智连HTTP(付费)：http://http.zhiliandaili.cn/

构建代理池
提取智连HTTP提供的代理服务器的ip + port的方法

import random

proxy_list = []  # 代理池
# url是在智连HTTP购买代理并提取后生成的API链接
url = 'http://ip.11jsq.com/index.php/api/entry?method=proxyServer.generate_api_url&packid=1&fa=0&fetch_key=&groupid=0&qty=51&time=1&pro=&city=&port=1&format=html&ss=5&css=&dt=1&specialTxt=3&specialJson=&usertype=2'
page_text = requests.get(url, headers=headers).text
tree_obj = etree.HTML(page_text)
data_list = tree_obj.xpath('//body//text()')
for each_data in data_list:
    https_dic = {}
    https_dic['https'] = each_data
    proxy_list.append(https_dic)

使用代理池

url_model = 'http://www.521609.com/daxuemeinv/list8%d.html'
all_data_list = []
for each_page_num in range(1, 20):
    url = format(url_model % each_page_num)
    page_text = requests.get(
    	url=url, 
    	headers=headers, 
    	proxies=random.choice(proxy_list)  # proxy_list为上面构建的代理池
    ).text
    tree_obj = etree.HTML(page_text)
    li_list = tree_obj.xpath('//*[@id="content"]/div[2]/div[2]/ul/li')
    for each_li in li_list:
        detail_url = 'http://www.521609.com' + each_li.xpath('./a[1]/@href')[0]
        page_detail_text = requests.get(
        	url=detail_url, 
        	headers=headers,
        	proxies=random.choice(proxy_list)
		).text
        all_data_list.append(page_detail_text)
        
print(len(all_data_list))

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

2 爬虫 数据解析(bs4，XPath) robots协议 cookie反爬 代理反爬

爬虫