Ashley_ly

Python爬虫入门（纯记录）

1、request库入门

1-1 request库的使用

import requests
r = requests.get("http://www.baidu.com")
print(r.status_code) #200是成功 #404失败
r.encoding = 'utf-8'
print(type(r))
#
print(r.head)#头信息
print(r.text)#html内容

resuests库主要方法

resuests库主要方法	说明
request(method,url, *kwargs)	构造一个请求，是以下方法的基础方法
get(url，params=None, *kwargs)	获取html信息，相当HTTP的GET（请求URL位置的资源）**
head(url，**kwargs)	获取html头信息，相当HTTP的HEAD(请求获取URL位置资源的响应信息报告（头部信息））
post(url,data=None, json=None,**kwargs)	向html提交post请求，相当HTTP的POST（在请求URL位置的资源后添加新的资源）**
put(url,data=None,**kwargs)	向html提交put请求，相当HTTP的PUT 存储并覆盖URL原位置的资源）–全部字段（包括修改和不被修改）提交**
patch(url,data=None,kwargs)	向html提交局部修改请求，相当HTTP的PATCH(覆盖URL位置的资源）–只提交修改字段
delete(url,**kwargs)	向html提交删除请求，相当HTTP的DELETE（删除URL处的资源）

request(method,url, **kwargs)

method:请求方式，对应7种方法’GET’,‘HEAD’,‘POST’,‘PUT’,‘PATCH’,‘DELETE’,‘OPTIONS’

kwargs：13个控制访问的参数(以下为可选项）

params:字典或字节序列，作为参数增加到URL中，让服务器能筛选资源

data：字典、字节序或文件对象，均可作为Request内容

json：json格式的数据，作为Request的内容。

headers:字典，HTTP定制头

cookies:字典或CookieJar，Request中的cookie

auth:元组，支持HTTP认证功能

files：字典类型，传输文件

timeout:设定超时时间，秒为单位,超时有timeout异常

proxies:字典类型，设定访问代理服务器，可以增加登录认证

allow_redirects:True/False,默认为True，重定向开关

stream：True/False,默认为False，获取内容立即下载开关

verify:True/False,默认为True，认证SSL证书开关

cert：本地SSL证书路径

1-2 方法使用

get

r= requests.get(url)
#返回一个包含服务器资源的Response对象
#构造一个向服务器请求资源的Request对象

一些小demo

import requests
r = requests.get('https://www.shanghairanking.cn/rankings/bcur/2020')
print(r.status_code) #200
print(r.request.url) 
print(r.text)
#https://www.so.com/s?q=Python


# -------------------
import requests
r = requests.get("http://www.baidu.com")
print(r.status_code) #200成功
r.encoding = 'utf-8'
print(r.text)

#-----------------------
import requests
def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status()#如果状态不是200，引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

post

import requests
#post和put方法类似
payload = {'key1':'value1','key2':'value2'}

#向URL post一个字典，自动编码为form（表单）
r = requests.post("http://httpbin.org/post",data = payload)
print(r.text)

#向URL post一个字符串，自动编码为data
r = requests.post("http://httpbin.org/post",data = "abc")
print(r.text)

来post一个文件吧，乖！

import requests
fs = {'file':open('data.xls','rb')}
r = requests.request('POST','http://python123.io/w',files=fs)
print(r.text)

requests

requests库一些方法的使用

#requests方法parms的实例
import requests
kv = {'key1':'value1','key2':'value2'}
r = requests.request('GET','http://python123.io/ws', params=kv)
print(r.url)
#https://python123.io/ws?key1=value1&key2=value2


#requests方法headers的实例
import requests
hd = {'user-agent':'Chrome/10'}
r = requests.request('POST','http://python123.io/w',headers=hd)


#requests方法files的实例
import requests
fs = {'file':open('data.xls','rb')}
r = requests.request('POST','http://python123.io/w',files=fs)


#requests方法timeout的实例
import requests
r = requests.request('GET','http://baidu.com', timeout=10)

#requests方法proxiest的实例
import requests
pxs = {'http':'http://user:[email protected]:1234',
'https':'https://10.10.10.1:4321'}
r = requests.request('GET','http://www.baidu.com', proxies=pxs)

Response

Response 对象的属性

属性	说明
r.status_code	HTTP请求的返回值，200表示连接成功，404表示失败
r.text	HTTP响应内容的字符串形式
r.encoding	从HTTP header 中猜测的响应内容编码方式（容易出错）注：如果header中不存在charset,则认为编码为ISO-8859-1
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
r.content	HTTP响应内容的二进制形式（比如一个图片的还原）

1-3 requests库的异常

异常	说明
ConnectionError	网络连接异常，如DNS查询失败，拒绝连接等
HTTPError	HTTP错误异常
URLRequired	URL缺失异常
TooManyRedirects	超过最大重定向次数，产生重定向异常
ConnectTimeout	连接远程服务器超时异常
Timeout	请求URL超时，产生超时异常

查询异常方法	说明
r.raise_for_status()	如果不是200，产生异常requests.HTTPError

1-4 爬取网页的通用代码框架

import requests

def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status()#如果状态不是200，引发HTTPError异常(很重要)
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

2、事项

2-1 HTTP协议

Hypertext Transfer Protocol,超文本传输协议

HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。
HTTP协议和Requests库是一一对应的。
HTTP协议采用URL作为定位网络资源的标识。
URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。
URL格式： http://host[:port][path]
host:合法的Internet主机域名或IP地址
port：端口号，缺省名为80

2-2 网络爬虫

网络爬虫的尺寸
小规模（网页）：数据量小、爬取速度不敏感，Requests库
中规模（网站）：数据规模较大，爬取速度较慢。Scrapy库
大规模（全网）：搜索引擎

网络爬虫的限制

来源审查：判断User-Agent进行限制
检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问。
发布公告：Robots协议

Robots Exclusion Standard 网络爬虫排除标准。
- 形式：在网站根目录下的robots.txt文件也不是所有网站都有。没有就是默认可以随便爬。
- 告知所有爬虫网站的爬取策略，要求爬虫遵守。

案例：京东的Robots协议:

https://www.jd.com/robots.txt
User-agent: * —无论什么类型的网络爬虫
Disallow: /?* ----任何爬虫不允许访问以？开头的路径
Disallow: /pop/.html
Disallow: /pinpai/.html?*
User-agent: EtaoSpider —下面四种爬虫不允许爬取京东的任何数据资源
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /

Robots协议的基本语法
# 注释， *代表所有， /代表根目录

Robots协议的使用

网络爬虫：自动或人工识别robots.txt，再进行内容爬取
约束性：Robots协议是建议性非约束性的。
类人的爬虫行为可不参考Robots协议。

3、requests库网络爬虫实战

3-1京东商品页面的爬取

import requests
url = "https://item.jd.com/100010079900.html"
try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")

3-2 亚马逊商品页面的爬取

import requests
r = requests.get("https://www.amazon.cn/dp/B07RB134KX/ref=sr_1_1?brr=1&qid=1585304390&rd=1&s=digital-text&sr=1-1")
print(r.status_code) #200
print(r.encoding)#ISO-8859-1
r.encoding = r.apparent_encoding
print(r.text) #出现验证信息，不能爬取
print(r.headers)

{‘Server’: ‘Server’, ‘Date’: ‘Fri, 27 Mar 2020 10:30:54 GMT’, ‘Content-Type’: ‘text/html’, ‘Content-Length’: ‘2369’, ‘Connection’: ‘keep-alive’, ‘Vary’: ‘Content-Type,Accept-Encoding,X-Amzn-CDN-Cache,X-Amzn-AX-Treatment,User-Agent’, ‘Content-Encoding’: ‘gzip’, ‘x-amz-rid’: ‘ARC0DKYHE23WNMPJAJRZ’}

url ="https://www.amazon.cn/dp/B07RB134KX/ref=sr_1_1?brr=1&qid=1585304390&rd=1&s=digital-text&sr=1-1"
kv = {'user-agent':'Mozilla/5.0'}
r = requests.get(url,headers=kv)
print(r.status_code) #200

import requests
url ="https://www.amazon.cn/dp/B01BTX8DIC/ref=s9_acsd_hps_bw_r2_r0_1_i?pf_rd_m=A1U5RCOVU0NYF2&pf_rd_s=merchandised-search-3&pf_rd_r=ZE4P6V56J3W1KE8EG7NR&pf_rd_t=101&pf_rd_p=0632bfee-8e34-483d-855b-5d8adcfeac89&pf_rd_i=813108051"
try:
    kv = {'user-agent':'Mozilla/5.0'}
    r = requests.get(url,headers=kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[1000:2000])
except:
    print("爬取失败")

有验证码（反爬了）QAQ

3-3 360、必应搜索关键字提交

搜索引擎关键字交接口

百度（反爬了）：http://www.baidu.com/s?wd=keyword
360: http://www.so.com/s?q=keyword
必应：https://cn.bing.com/search?q=keyword

import requests
kv = {'q':'Python'}
r = requests.get("http://www.so.com/s", params=kv)
print(r.status_code) #200
print(r.request.url) 
#https://www.so.com/s?q=Python

import requests
keyword = "Python"
try:
    kv = {'q':keyword}
    r = requests.get("http://www.so.com/s", params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败")
'''
https://www.so.com/s?q=Python
278348
'''

3-4 网络图片的爬取和存储

可以改为gif、视频(二进制）的获取模板
网络图片链接的格式：http://www.example.com/picture.jpg

import requests
path = "D:/abc.jpeg"
url = 'https://images.pexels.com/photos/462030/pexels-photo-462030.jpeg'
r = requests.get(url)
print(r.status_code)
with open(path, "wb") as f: #wb二进制
    f.write(r.content)
f.close()

全代码

import requests
import os
url = 'https://images.pexels.com/photos/462030/pexels-photo-462030.jpeg'
root = 'D://pics//'
path = root + url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r = requests.get(url)
        with open(path, 'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件已存在")
except:
    print("爬取失败")

3-5 IP地址归属地的自动查询

查询IP地址的网站： https://m.ip138.com/
查询端口：https://m.ip138.com/iplookup.asp?ip=ipadress

import requests
text="202.204.80.112"
headers={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36",
}
url="https://m.ip138.com/iplookup.asp?ip={}".format(text)
html=requests.get(url,headers=headers)
html.encoding=html.apparent_encoding
print(html.text[-500:])

3-6 查询虎牙某120前的播放人数的主播

这个是我在慕课上的python入门中敲的，2020年敲的，现在已经忘了怎么实现的了，记录一下，发现这个还能跑。

from urllib import request
import re

class Spider():
    url = 'https://www.huya.com/g/lol'
    root_pattern = '([\s\S]*?[\s\S]*?)'
    name_pattern = '([\s\S]*?)'
    number_pattern = '([\s\S]*?)'

    def __fetch_content(self):
        r = request.urlopen(Spider.url)
        htmls = r.read()
        htmls = str(htmls,encoding='utf-8')
        return htmls

    #数据提取
    def __analysis(self,htmls):
        root_html=re.findall(Spider.root_pattern,htmls)
        anchors = []
        for html in root_html:
            name = re.findall(Spider.name_pattern,html)
            number = re.findall(Spider.number_pattern,html)
            anchor = {'name':name,'number':number}
            anchors.append(anchor)
        # print(root_html[0])
            # print(anchors)
        return anchors

    def __sort_seed(self, anchors):
        r = re.findall('[1-9]\d*\.?\d*',anchors['number'])
        number = float(r[0])
        print(number)
        if '万' in anchors['number']:
            number *= 10000
        return number

    def __sorted(self, anchors):
        anchors = sorted(anchors,key=self.__sort_seed,reverse=True)
        return anchors
    
    def __show(self,anchors):
        for rank in range(0,len(anchors)):
            print('rank' +str(rank+1)+' : '+anchors[rank]['name']+' '+anchors[rank]['number'])

#精炼数据
    def __refine(self,anchors):
        l = lambda anchor: {
            'name':anchor['name'][0],
            'number':anchor['number'][0]
            }
        return map(l,anchors)

    # 总控方法
    def go(self):
        htmls = self.__fetch_content()
        anchors = self.__analysis(htmls)
        anchors = self.__refine(anchors)
        anchors = self.__sorted(anchors)
        self.__show(anchors)

spider = Spider()
spider.go()

4、BeautifulSoup库入门

pip install beautifulsoup4

4-1 BeautifulSoup库的基本元素

BeautifulSoup库的理解：
BeautifulSoup库是解析、遍历维护“标签树”的功能库

属性是由键和值构成的。

BeautifulSoup的引用

from bs4 import BeautifulSoup import bs4

from bs4 import BeautifulSoup soup = BeautifulSoup('data',"html.parser") soup2 = BeautifulSoup(open("D://demo.html"),"html.parser")

BeautifulSoup库解析器

解析器 使用方法条件

bs4的HTML解析器 BeautifulSoup(mk,‘html.parser’) 安装bs4库

Ixml的HTML解析器 BeautifulSoup(mk,‘Ixml’) pip install Ixml

Ixml的XML解析器 BeautifulSoup(mk,‘xml’) pip install Ixml

html5lib的解析器 BeautifulSoup(mk,‘html5lib’) pip install html5lib

BeautifulSoup类的基本元素

基本元素 说明

Tag 标签，分别用<>和标明开头和结尾

Name 标签的名字，
…
的名字是p，格式：.name

Attributes 标签的属性，字典形式组织，格式：.attrs

NavigableString 标签内的非属性字符串，<>…中的字符串，格式：.string

Comment 标签内字符串的注释部分，一种特殊的Comment类型

import requests r = requests.get("http://python123.io/ws/demo.html") demo = r.text from bs4 import BeautifulSoup soup = BeautifulSoup(demo,"html.parser") print(soup.title) #title标签 #This is a python demo page print(soup.a) #a标签，有多个只能返回第一个标签 ##Basic Python print(soup.a.string) #Basic Python print(type(soup.a.string)) # print(soup.a.name)#a print(soup.a.parent.name)#p print(soup.a.parent.parent.name)#body print("--------------------------") tag = soup.a print(tag.attrs) #{'href': 'http://www.icourse163.org/course/BIT-268001', 'class': ['py1'], 'id': 'link1'} print(tag.attrs['class'])#['py1'] print(tag.attrs['href']) #http://www.icourse163.org/course/BIT-268001 print(type(tag.attrs)) # newsoup = BeautifulSoup("This is not a comment ","html.parser") print(newsoup.b.string) #This is a comment print(type(newsoup.b.string)) # print(newsoup.p.string) #This is not a comment print(type(newsoup.p.string)) #

4-2 基于bs4库的HTML内容遍历方法

BeautifulSoup对应一个HTML/XML文档的全部内容

标签树的下行遍历

下行遍历属性 说明

.content 子节点的列表，将所有儿子节点存入列表

.chirdren 子节点的迭代类型，用于循环遍历儿子节点

.descendants 子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

4-3、中国大学爬虫

程序的结构设计：

从网络上获取大学排名网页内容

getHTML.Text()

提取网页内容中信息到合适的数据结构

fillUnivList()

利用数据结构展示并输出

printUnivList()

import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r=requests.get(url,timeout=30) #30s r.raise_for_status() #它能够判断返回的Response类型状态是不是200。如果是200，他将表示返回的内容是正确的，如果不是200，他就会产生一个HttpError的异常。 r.encoding = r.apparent_encoding return r.text except: return "" #核心部分 def fillUnivList(ulist, html): soup=BeautifulSoup(html,"html.parser") for tr in soup.find('tbody').children: if isinstance(tr,bs4.element.Tag): #检测tr标签的类型 tds = tr('td') #将所有的td标签存了一个列表类型tds ulist.append([tds[0].string,tds[1].string,tds[2].string]) #加入排名、大学名称、分数 '''你希望打印多少个num个学校的信息''' def printUnivList(ulist,num): print("{:^10}\t{:^6}\t{:^10}".format("排名","学校名称","总分")) for i in range(num): u=ulist[i] print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2])) print("Suc"+str(num)) def main(): uinfo = [] url='https://www.shanghairanking.cn/rankings/bcur/2020' html=getHTMLText(url) fillUnivList(uinfo,html) printUnivList(uinfo,20) #20个学校 main()

5、Scrapy

pip install scrapy

5-1 爬虫框架



scrapy命令行

命令行更容易自动化，适合脚本控制

5-2 基本使用

在特定的目录下

scrapy startproject python123demo cd python123demo scrapy genspider demo python123.io //Created spider 'demo' using template 'basic' scrapy crawl demo

下面是输入：scrapy genspider demo python123.io生成的demo.py

import scrapy class DemoSpider(scrapy.Spider): name = 'demo' allowed_domains = ['python123.io'] start_urls = ['http://python123.io/'] #parse()用于处理响应，解析内容形成字典，发现新的URL爬去请求 def parse(self, response): pass

import scrapy class DemoSpider(scrapy.Spider): name = 'demo' #allowed_domains = ['python123.io'] start_urls = ['http://python123.io/ws/demo.html'] def parse(self, response): fname=response.url.split('/')[-1] with open(fname,'wb') as f: f.write(response.body) self.log('Saved file %s.' % name)

捕获页面存到demo.html中

在这里插入图片描述

生成器的优势：

更节省存储空间，当n很大很大时

响应更迅速

使用更灵活

生成器写法（！！！）

5-3 基本类

Request类：

Response类：

Item类

class scrapy.item.Item()

Item对象表示一个从HTML页面中提取的信息内容。

由Spider生成，由ItemPipeline处理。

Item类似字典类型,可以按照字典类型操作。

Scrapy爬虫提取信息时万法

Scrapy爬虫支持多种HTML信息提取方法

Beautiful Soup

lxml

re

XPath SelectorCSs

Selector

CSS Selector的基本使用

CSS Selector由W3C组织维护并规范

解析器	使用方法	条件
bs4的HTML解析器	BeautifulSoup(mk,‘html.parser’)	安装bs4库
Ixml的HTML解析器	BeautifulSoup(mk,‘Ixml’)	pip install Ixml
Ixml的XML解析器	BeautifulSoup(mk,‘xml’)	pip install Ixml
html5lib的解析器	BeautifulSoup(mk,‘html5lib’)	pip install html5lib

基本元素	说明
Tag	标签，分别用<>和标明开头和结尾
Name	标签的名字， … 的名字是p，格式：.name
Attributes	标签的属性，字典形式组织，格式：.attrs
NavigableString	标签内的非属性字符串，<>…中的字符串，格式：.string
Comment	标签内字符串的注释部分，一种特殊的Comment类型

下行遍历属性	说明
.content	子节点的列表，将所有儿子节点存入列表
.chirdren	子节点的迭代类型，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

Python爬虫入门（纯记录）

1、request库入门

1-1 request库的使用

1-2 方法使用

get

post

requests

Response

1-3 requests库的异常

1-4 爬取网页的通用代码框架

2、事项

2-1 HTTP协议

2-2 网络爬虫

3、requests库网络爬虫实战

3-1京东商品页面的爬取

3-2 亚马逊商品页面的爬取

3-3 360、必应搜索关键字提交

3-4 网络图片的爬取和存储

3-5 IP地址归属地的自动查询

3-6 查询虎牙某120前的播放人数的主播

4、BeautifulSoup库入门

4-1 BeautifulSoup库的基本元素

4-2 基于bs4库的HTML内容遍历方法

4-3、中国大学爬虫

5、Scrapy

5-1 爬虫框架

5-2 基本使用

5-3 基本类

CSS Selector的基本使用

你可能感兴趣的:(Python,python,爬虫,1024程序员节)