Hooray11

零基础_Python爬虫_urllib

1.urllib基本使用

2.urllib 一个类型六个方法

编辑 3.urllib下载

4. urllib请求对象的定制

4.urllib_get请求的quote方法

5.urllib_get请求的urlencode方法

6.urllib_post请求

7.urllib_ajax的get请求

获取豆瓣电影的第一页数据并且存储到本地

获取豆瓣电影的前十页数据并且存储到本地

8.urllib_ajax的post请求

9.urllib_异常

10.urllib_cookie_QQ空间登录

10.urllib_Handler处理器基本使用

11.urllib_代理

12.urllib_代理池

注意：请求url一定要找对，我的很多都是url没有找对导致运行错误的

1.urllib基本使用

#使用urllib来获取百度首页的源码
import urllib.request

#（1）定义一个url  就是要访问的网站
url = "http://www.baidu.com"

#（2）模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

#（3）获取响应中的页面源码
#read方法 返回的是字节形式的二进制数据
#我们要求将二进制的数据转换为字符串 使用decode 设置编码格式
content = response.read().decode('utf-8')

#（￥）打印数据
print(content)

2.urllib 一个类型六个方法

#使用urllib来获取百度首页的源码
import urllib.request

#定义一个url  就是要访问的网站
url = "http://www.baidu.com"

#模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

#一个类型（response是HTTPResponse类型）
# print(type(response))

#六个方法

#按照一个字节一个字节的去读取
content = response.read()
print(content)

#读取一行
content.readline()
print(content)

#读取多行
content = response.readlines()
print(content)

#返回状态码
print(response.getcode())

#返回url地址
print(response.geturl())

#获取状态信息
print(response.getheaders())

3.urllib下载

import urllib.request

#下载网页\图片\视频同理
url_page = 'http://www.baidu.com'
#第一个参数为url,第二个为filename
urllib.request.urlretrieve(url_page,'baidu.html')

4. urllib请求对象的定制

一个网址（URL）有哪些部分组成？域名包括哪些？_网址组成_crary,记忆的博客-CSDN博客https://blog.csdn.net/qq_44327851/article/details/133175861

import urllib.request
from urllib.request import urlopen

url = 'http://www.baidu.com'
headers = {
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.82'
}

#请求对象的定制
#注意：因为参数顺序的原因 不能直接写url 和headers，中间还有data 所哟我们必须使用关键字传参
resquest = urllib.request.Request(url=url,headers=headers)

response = urllib.request.urlopen(resquest)

content = response.read().decode('utf8')
print(content)

4.urllib_get请求的quote方法

import urllib.request
from urllib.request import urlopen
import urllib.parse

url = 'https://www.baidu.com/s?wd='
#请求对象的定制是为了解决反爬的一种手段
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.82'
}
#将周杰伦三个字变成unicode编码
name = urllib.parse.quote('周杰伦')

url += name
#请求对象的定制
request = urllib.request.Request(url=url,headers=headers)
#模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)
#获取响应内容
content = response.read().decode('utf-8')

print(content)

5.urllib_get请求的urlencode方法

urlencode的应用场景：多个参数的时候

import urllib.parse

data = {
    'wd':'周杰伦',
     'sex':'男'
}

a = urllib.parse.urlencode(data)
print(a)

6.urllib_post请求

1.post请求的参数必须要进行编码
data = urllib.parse.urlencode(data).encode('utf-8')
2.post请求的参数，是不会拼接在url的后面，而是需要放在请求对象定制的参数中
request = urllib.request.Request(url=url,data=data,headers=headers)

import urllib.request
import urllib.parse
import json

url = 'https://fanyi.baidu.com/'

data = {
    'kw': 'spider'
}

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.82'
}

data = urllib.parse.urlencode(data).encode('utf-8')

request = urllib.request.Request(url=url,data=data,headers=headers)

response = urllib.request.urlopen(request)

content = response.read().decode('utf-8')
print(content)

# obj = json.loads(content)
#
# print(obj)

import urllib.request
import urllib.parse
import json

url = 'https://fanyi.baidu.com/'

data = {
    'from': 'en',
    'to': 'zh',
    'query': 'spider',
    'transtype': 'realtime',
    'simple_means_flag': '3',
    'sign': '63766.268839',
    'token': '57abc218470ecde5f243716ff139d792',
    'domain': 'common',
    'ts': '1699633768731'
}

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.82',
    'Cookie':'BIDUPSID=27C677FC03842E7B4593C0FC23E63309; PSTM=1633330321; BAIDUID=DA5564F1160BAB4A47C7DA6772F3B9EA:FG=1; BAIDUID_BFESS=DA5564F1160BAB4A47C7DA6772F3B9EA:FG=1; ZFY=WMyGDJ9xOPi2:AJjfiiFFCIrg8JrCq3v03cIXPlzYGZ8:C; __bid_n=1838403fb79a2548194207; jsdk-uuid=d85ccdd5-f917-4d66-8cc6-bd351168ebe5; RT="z=1&dm=baidu.com&si=a3626b33-feb3-485b-b048-c642195c3c57&ss=lor8jods&sl=2&tt=7r3&bcn=https%3A%2F%2Ffclog.baidu.com%2Flog%2Fweirwood%3Ftype%3Dperf&ld=426s"; H_PS_PSSID=39633_39670; APPGUIDE_10_6_7=1; REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1699633696; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1699633738; ab_sr=1.0.1_MTMwOTFkY2FmZDZkYmIwMTEwY2JkYTg0YWZiYzQ0Y2E4N2YzMDI4ZjlhYzU0Zjg1ZTg0YzY3MTA1ODFmY2U4OWU0MWJhM2E1NmE5YTQ1NDMzOTlhMzI4N2Y5MDFmNjVkOWRkMjRkYWQ0ZDcxOTEyZjVmZDdmOTc0ZDllNjFhNTBkOTk3ZDJlMTc5MWEwM2VlNjg4ZjRmYjI2OWZiODkzNQ=='
}

data = urllib.parse.urlencode(data).encode('utf-8')

request = urllib.request.Request(url=url,data=data,headers=headers)

response = urllib.request.urlopen(request)

content = response.read().decode('utf-8')
print(content)

# obj = json.loads(content)
#
# print(obj)

7.urllib_ajax的get请求

获取豆瓣电影的第一页数据并且存储到本地

#get请求
#获取豆瓣电影的第一页数据 并且存储到本地

import urllib.request

url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=20'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.82'
}

request = urllib.request.Request(url=url,headers=headers)

response = urllib.request.urlopen(request)

content = response.read().decode('utf-8')

# f = open('douban.json','w',encoding='utf-8')
# f.write(content)

with open('douban1.json','w',encoding='utf-8') as f:
    f.write(content)

获取豆瓣电影的前十页数据并且存储到本地

自己看完课程之后独立写出来的，一次性运行成功，我写代码的思路，是先从主函数开始写，先把最基本的框架写出来，对于写函数，就是先把函数的基本框架和固定的格式和步骤全写出来，然后根据需要慢慢再去补充。

#下载豆瓣电影前十页的电影
#https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=40&limit=20
#start : (page-1)*20
import urllib.request
import urllib.parse
#请求对象的定制
def create_request(page):
    base_url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action='
    data = {
        'start':'(page-1)*20',
        'limit':'20'
    }
    data = urllib.parse.urlencode(data)
    url = base_url+data
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.82'
    }
    request = urllib.request.Request(url=url,headers=headers)
    return request
#获取响应数据
def get_response(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content
#下载数据
def down_load(page,content):
    with open('douban_'+str(page)+'.json','w',encoding='utf-8') as f:
        f.write(content)

if __name__ == '__main__':
    start_page = int(input("请输入起始页码："))
    end_page = int(input("请输入截止页码："))

    for page in range(start_page,end_page+1):
        request = create_request(page)
        content = get_response(request)
        down_load(page,content)

8.urllib_ajax的post请求

#http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname

# cname: 北京
# pid:
# pageIndex: 1
# pageSize: 10

#http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname

# cname: 北京
# pid:
# pageIndex: 2
# pageSize: 10

import urllib.request
import urllib.parse
#请求对象的定制
def create_request(page):
    url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname'
    data = {
        'cname': '北京',
        'pid':'',
        'pageIndex': page,
        'pageSize': '10'
    }
    data = urllib.parse.urlencode(data).encode('utf-8')
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.82'
    }
    request = urllib.request.Request(url=url,data=data,headers=headers)
    return request
#获取响应数据
def get_response():
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content
#下载数据
def down_load(page,content):
    with open('kfc'+str(page)+'.json','w',encoding='utf-8') as f:
        f.write(content)

if __name__ == '__main__':
    start_page = int(input("请输入起始页码："))
    end_page = int(input("请输入截止页码："))

    for page in range(start_page,end_page+1):
        request = create_request(page)
        content = get_response()
        down_load(page,content)

9.urllib_异常

#https://blog.csdn.net/weixin_43936332/article/details/131465538
import urllib.request
import urllib.error

url = 'http://douban111.com'

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.82'
}

try:
    request = urllib.request.Request(url=url,headers=headers)

    response = urllib.request.urlopen(request)

    content = response.read().decode('utf-8')

    print(content)
except urllib.error.HTTPError:
    print("系统正在升级")
except urllib.error.URLError:
    print("系统真的在升级")

10.urllib_cookie_QQ空间登录

import urllib.request

url = 'https://qzone.qq.com/'

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.82',
        #cookie中携带着登录信息 如果有登录之后的cookie 那么就可以携带着cookie进入到任何的页面
        'Cookie':'RK=bOytW6VLlo; ptcz=7e42b5634fed507c62cd10eac2db090c6086233be352a3b5acd6289c1e5cb0c7; pgv_pvid=2191120395; tvfe_boss_uuid=7a43881ad4b8395d; o_cookie=2647969182; iip=0; pac_uid=1_2647969182; fqm_pvqid=6348b068-eacc-4111-a1b6-b4fb7a040cde; qq_domain_video_guid_verify=7365d123d341ac43; _qz_referrer=cn.bing.com; _qpsvr_localtk=0.33179965702435776; pgv_info=ssid=s5577236883',
        #referer 判断当前路径是不是由上一个路径进来的 一般情况下 是做图片防盗链
        'Referer':'https://cn.bing.com/'
}

request = urllib.request.Request(url=url,headers=headers)

response = urllib.request.urlopen(request)

content = response.read().decode('utf-8')

print(content)

10.urllib_Handler处理器基本使用

import urllib.request

url = 'https://www.baidu.com/'

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.82'
}

request = urllib.request.Request(url=url,headers=headers)

#response = urllib.request.urlopen(request)
#获取hanler对象
handler = urllib.request.HTTPHandler()
#获取opener对象
opener = urllib.request.build_opener(handler)
#调用open 方法
response = opener.open(request)

content = response.read().decode('utf-8')

print(content)

11.urllib_代理

国内高匿HTTP免费代理IP_IP代理_HTTP代理 - 快代理 (kuaidaili.com)

import urllib.request

url = 'http://www.baidu.com/s?wd=ip'

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.82'
}

request = urllib.request.Request(url=url,headers=headers)

proxies = {
    'http':'223.70.126.84:8888'
}
handler = urllib.request.ProxyHandler(proxies=proxies)

opener = urllib.request.build_opener(handler)

response = opener.open(request)

content = response.read().decode('utf-8')

print(content)

12.urllib_代理池

import urllib.request

proxies_pool = [
    {'http':'118.24.151.16817'},
    {'http':'118.24.151.16817'}
]

import random

proxies = random.choice(proxies_pool)

url = 'http://www.baidu.com/s?wd=ip'

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.82'
}

request = urllib.request.Request(url=url,headers=headers)

handler = urllib.request.ProxyHandler(proxies=proxies)

opener = urllib.request.build_opener(handler)

response = opener.open(request)

content = response.read().decode('utf-8')

with open('daili.html','w',encoding='utf-8') as fp:
    fp.write(content)

Redis为什么要自定义序列化？如何实现自定义序列化器？小马不敲代码后端 redis 序列化
在Redis中，通常会使用自定义序列化器，那么，Redis为什么需要自定义序列化器，该如何实现它？1、为什么需要自定义序列化器？整体来说，Redis需要自定义序列化器，主要有以下几个原因：1.1性能优化序列化效率：默认的序列化器（如Java的JDK序列化）可能效率较低，尤其是在处理大型对象或高并发场景下。反序列化效率：快速的反序列化可以减少应用响应时间，提升整体性能。1.2存储空间优化紧凑的存储格
java byte序列化,java对象序列化byte[] and byte[]反序列化对象--转 xiangzi92 java byte序列化
importjava.io.ByteArrayInputStream;importjava.io.ByteArrayOutputStream;importjava.io.IOException;importjava.io.ObjectInputStream;importjava.io.ObjectOutputStream;publicclassObjectAndByte{/***对象转数组*@pa
Oracle 12c多租户架构总结 weixin_34235135 数据库 python
2019独角兽企业重金招聘Python工程师标准>>>Oracle数据库12c的一大创新即是其采用的多租户架构。对于多租户这项新功能，业内的评价褒贬不一。有的声音认为，这项功能的用处不是特别大，但在某些场景或特定的环境下，多租户依然有它的用处。其最大的用处就在于整合数据库。在一些小的系统环境中，多租户的特点就可以显现出来，其可以进行有效的整合，这样可以减少成本、降低管理的复杂度。多租户架构通过对不
爬虫自学——爬取古诗词网唐诗三百首菜比码农爬虫 python 开发语言
frombs4importBeautifulSoupasbsimportrequestsimportjsonurl='https://so.gushiwen.cn/gushi/tangshi.aspx'header={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome
Python接口自动化测试：断言封装详解程序员潇潇软件测试 python 开发语言软件测试自动化测试功能测试程序人生职场和发展
在进行API接口测试时，断言起着至关重要的作用。断言是用于验证预期结果与实际结果是否一致的过程。在Python中，我们可以利用一些库来实现断言功能。1.安装必要的库在Python中，我们主要会使用两个库：requests和jsonpath。requests库用于发送HTTP请求，而jsonpath库则用于解析JSON数据。首先，我们需要安装这两个库。打开命令行，输入以下命令：pipinstallr
Java多线程理发店小测试不被定义的~wolf Java多线程 java 安全
功能需求如下：一个理发店里有两张理发椅子，各有一个理发师(线程)，还有5张用户椅子。初始主线程每间隔100毫秒产生一个用户(线程)，连续产生20名用户。一个用户理发需要300毫秒。用户线程的逻辑：1)如果理发店客满(两个理发师正忙理发，5张客户椅子有人坐着等待)，理发店外的用户(线程)，将在外等待。2)但理发店中一张用户椅子空，则允许一个用户进入并坐上椅子等待。3)但一个用户理完发，允许5张椅子上
全面掌握Python&Java分层自动化测试：从单元测试到安全检测的完整指南 jardonwang1 python java
分层自动化（LayeredAutomation）是一种软件测试策略，通过将自动化测试分为不同层次或阶段，针对不同类型的测试需求，确保测试覆盖的全面性以及提高测试效率。这种方法通过分解复杂的测试任务，将其分配到适当的层级，从而降低测试的维护成本并提高自动化测试的稳定性和复用性。通常，分层自动化包括以下几层：1.单元测试层(UnitTestLayer)定义：单元测试是针对代码中的最小功能单元（通常是函
【Gee-Web框架】【Day6】【Golang】模板Template 行者无疆xcc GeeWeb 前端 golang 开发语言
实现静态资源服务StaticResource支持HTML模板渲染一、服务端渲染1.简要说明前后端分离的开发模式，web后端提供RESTful接口，返回结构化的数据（通常是JSON或者XML），前端使用AJAX技术请求到所需的数据，利用JavaScript进行渲染。Vue/React等前端框架火热，优势突出后端专注解决资源利用、并发、数据库等问题，只需考虑数据如何生成前端专注界面设计实现，只需要考虑
判断一个数是否是素数——Java（进阶高效算法） Pniubi Java错题集算法 java
本文续写上一篇文章：判断一个数是否是素数——Java（初阶低效算法）上一篇中的for循环是从3直到n-1，这里通过Math.sqrt(n)的方法做出改进，使得循环的次数变少以加快运算效率和速率一、Math.sqrt(n)实际上就是开方如果一个数n不是质数，那么它一定可以分解成两个因数a和b，其中a*b=n。如果两个因数都大于sqrt(n)，那么它们的乘积将大于n，这与a*b=n矛盾。因此，至少有一
pip安装Python包时，遇到错误“required to install pyproject.toml-based projects” 烤着地瓜数星星 python pip 开发语言
1.确保你的Python环境是最新的。在命令行中运行以下命令更新pip：pipinstall--upgradepip2.确保你已经安装了setuptools和wheel这两个Python包：pipinstallsetuptoolswheel3.如果问题仍然存在，你可能需要检查你是否安装了正确的Python版本。某些Python包可能只支持特定版本的Python。你可以使用以下命令检查你的Pytho
Java高频面试之集合-05 牛马baby java 面试开发语言
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：快速失败(fail-fast)和安全失败(fail-safe)分别是什么？快速失败（Fail-Fast）与安全失败（Fail-Safe）详解1.快速失败（Fail-Fast）定义：系统在检测到可能导致错误或异常的条件时，立即终止当前操作并抛出异常/错误，避免程序在错误状态下继续运行。其核心思想是“尽早暴露问题”。核心特点
Python 自然语言处理实战： NLTK 与 spaCy，文本分析的左右护法清水白石008 python Python题库 python 自然语言处理 easyui
Python自然语言处理实战：NLTK与spaCy，文本分析的左右护法引言在信息爆炸的时代，文本数据以前所未有的速度增长，蕴藏着巨大的信息和价值。从社交媒体的评论，到浩如烟海的文档，文本数据无处不在，成为了解用户意图、挖掘商业情报、洞察社会趋势的关键来源。然而，文本数据本质上是非结构化的，计算机难以直接理解和处理。自然语言处理(NaturalLanguageProcessing,NLP)技术应运而
二.Jupyter Notebook 无敌小昊昊 AI/Python jupyter python linux
JupyterNotebook1.安装condainstalljupyter2.使用#激活虚拟环境condaactivateeny_Python3.12#启动jupyterlab
计算机毕业设计Python+uniapp今日健康饮食食谱小程序(小程序+源码+LW) Python毕设源码程序高学长 python 课程设计 uni-app
计算机毕业设计Python+uniapp今日健康饮食食谱小程序(小程序+源码+LW)该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+uni+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+UNI等等组成，B/S模式+pychram
社团周报系统可行性研究-web后端框架对比-springboot，django，gin 拉玛干数据库 spring python golang
对于目前市面上web后端框架，我主要了解到的就是springboot，djangogin等，分别对应javapythongo三种语言，目前我比较熟悉的就是springboot目录springboot框架简介优点缺点适用场景与需求匹配度django框架简介优点缺点适应场景与需求匹配度gin框架简介优点缺点适用场景与需求匹配度springboot框架简介Spring是一款开源的轻量级java开发框架，
在Vue中，onLoad，onShow ，mounted的区别檐角小猫 vue.js 前端 javascript
1.onLoad触发时机：页面首次加载时触发，且只会触发一次。适用场景：适合在页面加载时执行一次性操作，比如获取页面参数、初始化数据、发送请求等。特点：可以接收页面传递的参数（通过options对象）。是UniApp页面生命周期钩子，不是Vue组件的钩子。示例代码javascriptexportdefault{onLoad(options){console.log('页面加载，参数为:',opti
数据挖掘实战-基于Catboost算法的艾滋病数据可视化与建模分析艾派森数据挖掘实战合集 python 人工智能数据挖掘信息可视化数据分析
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
MySQL主从架构配合ShardingJdbc实现读写分离 eddie_k2 #ShardingJdbc MySQL mysql 架构数据库
文章目录目录架构搭建读写分离pom.xmlfdy-live-user-provider模块application.ymlfdy-db-sharding.yamlShardingJdbcDatasourceAutoInitConnectionConfig.java目录架构搭建基于Docker去创建MySQL的主从架构读写分离pom.xmlmysqlmysql-connector-java${fdy-
Python 原生爬虫 eddie_k2 Python python 爬虫开发语言
Python描述代码描述爬网站的页面配合正则表达式设置定时任务仅学习参考，切勿使用其他用途代码importreimportscheduleimporttimefromurllib.requestimporturlopenclassSpider:def__init__(self):#初始化代码...pass#self.start_schedule()#需要爬的网址url='https://www.*
pytorch安装记录 cy010124 pytorch 人工智能 python
在conda中创建环境(condacreate-npytorch1python=3.12)，接着进入pytorch1环境（condaactivatepytorch1）。使用官网命令安装pytorch，第一次安装显示python版本过高，torchaudio和torchvision不支持3.12，python3.10可以同时满足，于是准备换成3.10。删除环境，首先切换到base环境（condaac
笔试题1：电商销售数据处理与分析 clownAdam 大数据笔试题大数据面试
笔试题1电商销售数据处理与分析：某电商平台提供了一份销售数据文件sales_data.csv，包含以下字段：order_id（订单ID）、customer_id（客户ID）、product_name（产品名称）、quantity（购买数量）、price（产品单价）、order_date（订单日期，格式为YYYY-MM-DD）。请使用Python的Pandas库完成以下任务：读取sales_data
npm下载canvas报错 zzzll30 npm 前端 node.js
npm下个canvas报错了，网上说的一堆方法都无效。特来记录下。canvas库说是要本地编译，需要本地的一些环境。跑canvas脚本报错。提示是需要安装python大于3.6.0的版本。根本原因是canvas下载完成后需要执行这句话node-pre-gypinstall--fallback-to-build--update-binary一般有两种解决方法第一种是下载编译好的适合自己操作系统的二进
爬虫必备scrapy-redis详解 ylfhpy 爬虫项目入门爬虫 scrapy redis python 数据库 ip代理池分布式
一、概述1.1定义Scrapy-Redis是基于强大的Python爬虫框架Scrapy开发的分布式爬虫组件。它巧妙地借助Redis数据库，实现了请求对象的持久化存储、请求去重的持久化管理以及分布式爬取功能。这使得原本在单节点运行的Scrapy爬虫能够在多个节点上并行工作，极大地提升了爬取效率和处理大规模数据的能力。1.2功能分布式爬取：Scrapy-Redis允许将爬取任务分配到多个爬虫节点上同时
Java项目中ES作为时序库大丈夫在世当日食一鲲 java elasticsearch 开发语言
一、ES作为时序库的核心优势高写入性能通过BulkAPI支持批量插入/更新，优化吞吐量，适合流式数据（如监控指标、IoT设备数据）的高频写入。使用Logstash作为数据管道时，可通过调整pipeline.workers和batch.size进一步提升并发处理能力。高效的查询与分析倒排索引：对文本字段（如标签）的分词处理，支持快速多条件匹配（如tagslike‘%tag1%’ANDtagslike
ZooKeeper的初识（Zookeeper基本知识，ZooKeeper shell，ZooKeeper数据模型，ZooKeeper Watcher 监听机制，ZooKeeper选举机制） kismetG Azkaban Zookeeper基本知识 ZooKeeper shell ZooKeeper数据模型 ZooKeeper Watcher 监听机制 ZooKeeper选举机制
Zookeeper基本知识Zookeeper集群搭建Zookeeper集群搭建指的是ZooKeeper分布式模式安装。通常由2n+1台servers组成。这是因为为了保证Leader选举（基于Paxos算法的实现）能过得到多数的支持，所以ZooKeeper集群的数量一般为奇数。Zookeeper运行需要java环境，所以需要提前安装jdk。对于安装leader+follower模式的集群，大致过程
Ubuntu快速安装kafka集群拥抱世界的精彩 kafka集群 ubuntu搭建kafka集群 kafka集群
搭建集群做少需要三台服务器一个centos和两个ubuntu每台都按照下面做：安装JDKsudoapt-getinstalldefault-jrejava-versionapt-getinstalldefault-jdkjava-version安装：sudoapt-getinstallzookeeper/etc/init.d/zookeeperstart//自启动默认信息：#安装路径/usr/sh
python爬虫是什么架构_Python爬虫是什么?常用框架有哪些? weixin_39596090 python爬虫是什么架构
大家都知道python是一门多岗位编程语言，学习python之后可以从事的岗位有很多，python爬虫便在其中，不过很多人对python不是很了解，所以也不知道python爬虫是什么，接下来带着你的疑问小编为大家介绍一下。Python是一门非常适合开发网络爬虫的编程语言，相比于其他静态编程语言，Python抓取网页文档的接口更简洁;相比于其他动态脚本语言，Python的urllib2包提供了较为完
linux上卸载kafka,kafka安装在linux上的安装飞鼠明天做窝 linux上卸载kafka
kafka安装第一关java的安装捞得嘛，不谈第二关zookeeper的安装及配置1.直接打开Apachzookeeper进行下载Tips:source是源文件，需要编译后才能继续使用，所以一般直接下载上面的源文件。2.安装zookeeper传到linux里面进行解压3.配置zookeeper打开/etc/profile文件进行配置exportZOOKEEPER_INSTALL=/usr/loca
React Native 0.78版本发布 wayne214 react native
这个版本在ReactNative中集成了React19，还带来了一些其他相关特性，比如原生支持Android矢量图形（AndroidVectordrawables），以及在iOS上更好的混合开发（brownfieldintegration）体验。亮点React19迈向更小巧、更快速的版本发布Metro中JavaScript日志的可选开启功能新增对AndroidXML图形资源的支持iOS上的Reac
Java连接Zookeeper，创建监听通知机制永旗狍子 Spring Linux zookeeper java
目录一.Java连接Zookeeper1.创建Springboot工程，导入依赖1.1排除log4j和桥接包2.配置application.yml3.编写连接Zookeeper的工具类4.监听通知机制4.1在zookeeper容器内部新增节点一.Java连接Zookeeper1.创建Springboot工程，导入依赖org.springframework.bootspring-boot-start
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <bookjovi@gmail.com> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

零基础_Python爬虫_urllib

1.urllib基本使用

2.urllib 一个类型六个方法

3.urllib下载

4. urllib请求对象的定制

4.urllib_get请求的quote方法

5.urllib_get请求的urlencode方法

6.urllib_post请求

7.urllib_ajax的get请求

获取豆瓣电影的第一页数据 并且存储到本地

获取豆瓣电影的前十页数据 并且存储到本地

8.urllib_ajax的post请求

9.urllib_异常

10.urllib_cookie_QQ空间登录

10.urllib_Handler处理器基本使用

11.urllib_代理

12.urllib_代理池

你可能感兴趣的:(python自学,python,爬虫,java)

获取豆瓣电影的第一页数据并且存储到本地

获取豆瓣电影的前十页数据并且存储到本地