Lvcx

数据采集学习（使用Python的urllib模块）

一、课程介绍

环境搭建
urllib和BeautifulSoup
存储数据到MySQL
常见文档读取（TXT、PDF）
使用爬虫要注意什么

1. 前导课程

2. 可做的相关内容

购物比价网
综合搜索网
统计QQ用户的兴趣爱好
搜索引擎

二、环境搭建

1. 下载并安装Python

2. 安装BeautifulSoup4

1. Linux安装命令

sudo apt-get install python-bs4

2. Mac安装命令

sudo easy_install pip
pip install beautifulsoup4

3. Windows安装命令

pip install beautifulsoup4    # python2环境
# 或者是
pip3 install beautifulsoup4   # python3环境

3. 检查是否安装成功

在命令行中分别输入以下命令：

python    # 检查Python是否安装成功
from urllib.request import urlopen   # 检查urllib模块是否存在
from bs4 import BeautifulSoup     # 检查bs4模块是否存在

如下图所示：
三条命令都未出现错误提示说明环境已经准备好了。

三、urllib和BeautifulSoup

urllib是Python3.x中提供的一些列操作URL的库，它可以轻松模拟用户使用浏览器访问网页。

1. urllib的用法

1. 具体步骤

# 1. 导入urllib库的request模块
from urllib import request

# 2. 请求URL
resp = request.urlopen('http://www.baidu.com')

# 3. 使用响应对象输出数据
print(resp.read().decode("utf-8"))

2. 简单urllib的get方法的完整示例

from bs4 import BeautifulSoup   # 导入BeautifulSoup模块
from urllib import request    # 导入urllib.request的urlopen模块

url = "http://www.baidu.com/"
resp = request.urlopen(url)
print(resp.read().decode("utf-8"))

打印的效果如下：

3. 模拟真实浏览器

1. 携带User-Agent头

from urllib import request

url = "http://www.baidu.com"
key = "User-Agent"
value = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.42"
req = request.Request(url)
req.add_header(key, value)
resp = request.urlopen(req)
print(resp.read().decode("utf-8"))

运行程序，同样能打印出结果：

4. 使用post方法发送请求的步骤

# 1. 导入urllib库下面的parse
from urllib import parse

# 2. 使用urlencode生成post数据
postData = parse.urlencode([
	(key1, val1),
	(key2, val2),
	(keyn, valn)
])

# 3. 使用postData发送post请求
request.urlopen(req, data=postDate.encode('utf-8'))

# 4. 得到请求状态
resp.status

# 5. 得到服务器的类型
resp.reason

5. 示例：urllib使用post方法请求台湾高铁网

台湾高铁

from urllib import request
from urllib.request import urlopen
from urllib import parse

url = "https://m.thsrc.com.tw/TimeTable/Search"
headers = {
    'User-Agent':'Mozilla/5.0 (X11; Fedora; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}

# # 代理IP,由快代理提供
# proxy = '124.94.203.122:20993'
# proxy_values = "%(ip)s" % {'ip': proxy}
# proxies = {"http": proxy_values, "https": proxy_values}
#
# # 设置代理
# handler = request.ProxyHandler(proxies)
# opener = request.build_opener(handler)

data = {
    "SearchType": "S",
    "Lang": "TW",
    "StartStation": "NanGang",
    "EndStation": "ZuoYing",
    "OutWardSearchDate": "2022/10/18",
    "OutWardSearchTime": "14:30",
    "ReturnSearchDate": "2022/10/18",
    "ReturnSearchTime": "14:30",
    "DiscountType": ""
}
data = parse.urlencode(data).encode("utf8")    # 对参数进行编码
req = request.Request(url=url, data=data, headers=headers, method="POST")    # 请求处理
resp = request.urlopen(req)
# resp = opener.open(req).read()    # 使用代理用这种方式请求

print(resp.read().decode("utf-8"))

出现拒绝访问时参考文章：https://blog.csdn.net/kdl_csdn/article/details/103989024
运行效果：

拓展示例：用requests模块实现

import requests

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.42"
}
url = "https://m.thsrc.com.tw/TimeTable/Search"
params = {
    "SearchType": "S",
    "Lang": "TW",
    "StartStation": "NanGang",
    "EndStation": "ZuoYing",
    "OutWardSearchDate": '2022/10/18',
    "OutWardSearchTime": "14:00",
    "ReturnSearchDate": "2022/10/18",
    "ReturnSearchTime": "14:00",
    "DiscountType": ""
}

resp = requests.post(url=url, headers=headers, params=params)
# print(resp.status_code)     # 200
print(resp.text)

运行效果：

测试发送请求的爬虫工具：postman、fildder。

2. BeautifulSoup的使用

1. 解析器的优缺点对比

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	1. Python的内置标准库； 2. 执行速度适中； 3. 文档容错能力强	Python 2.7.3 or(3.2.2)前的版本中文档容错能力差。
lxml HTML解析器	BeautifulSoup(markup, “lxml”)	1. 速度快； 2. 文档容错能力强。	需要安装C语言库。
lxml XML解析器	BeautifulSoup(markup, [“lxml”, “xml”]) BeautifulSoup(markup, “xml”)	1. 速度快； 2. 唯一支持XML的解析器。	需要安装C语言库。
html5lib解析器	BeautifulSoup(markup, “html5lib”)	1. 最好的容错性； 2. 以浏览器的方式解析文档； 3. 生成HTML5格式的文档。	1. 速度慢； 2. 不依赖外部扩展。

2. 几个简单的浏览结构化数据的方法

soup.title    # 获取第一个title标签
# The Dormouse's story

soup.title.name    # 获取第一个title标签名字
# u'title'

soup.title.string   # 获取第一个title标签内的文本内容
# u'The Dormoouse's story'

soup.title.parent.name    # 获取第一个title标签父元素的名字
# u'head'

soup.p    # 获取第一个p标签
# The Dormouse's story

soup.p['class']    # 获取第一个p标签的class属性值
# u'title'

soup.a    # 获取第一个a标签
# Elsie

soup.find_all('a')     # 获取所有a标签   
"""
[Elsie,
Lacie,
Tillie
]
"""

soup.find(id="link3")  # 获取第一个id值为link3的标签
# Tillie

3. 测试BeautifulSoup中常用的方法

from bs4 import BeautifulSoup as bs

html_doc = """
The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well 

...
"""

soup = bs(html_doc, "html.parser")

# print(soup.prettify())

print(soup.title.string)   # 获取title标签的内容
print(soup.a)    # 获取第一个a标签
print(soup.find(id="link2"))    # 获取id=“link2”的元素
print(soup.find(id="link2").string)    # 获取id=“link2”的元素的内容(string要获取的内容中不含有标签才行)
print(soup.find(id="link2").get_text())    # 获取id=“link2”的元素的内容
print(soup.find_all("a"))     # 获取所有的a标签
print(soup.findAll("a"))    # 获取所有的a标签
print([item.string for item in soup.findAll("a")])    # 获取所有的a标签的文本内容   # 列表推导式
print(soup.find("p", {"class": "story"})) # 获取class为story的p标签
print(soup.find("p", {"class": "story"}).get_text())   # 获取class为story的p标签的内容
print(soup.find("p", {"class": "story"}).string)  # 获取class为story的p标签的内容 由于获取到的p标签中还含有别的标签，所以无法用string，否则返回None。

print()
import re
# 使用正则表达式
for tag in soup.find_all(re.compile("^b")):    # 查找以b开头的标签名
    print(tag.name)

# 查找所有a标签中href属性为“http://...”这样的a标签
data = soup.findAll("a", href=re.compile(r"^http://example.com/"))
print(data)
data2 = soup.findAll("a", href=re.compile(r"^http://example\.com/"))
print(data2)

# 文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id28

运行结果：

4. 示例：获取维基百科词条信息（该示例仅做参考，功能已失效）

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

# 请求URL并把结果用utf-8编码
resp = urlopen("https://en.wikipedia.org/wiki/Main_Page").read().decode("utf-8")
# 使用BeautifulSoup解析
soup = BeautifulSoup(resp, "html.parser")
# 获取所有以/wiki/开头的a标签的href属性
listUrls = soup.findAll("a", href=re.compile("^/wiki/"))
# 输出所有词条对应的名称和URL
for url in listUrls:
	if not re.search("\.(jpg|JPG)$", url['href']):    # 过滤掉以.JPG或.jpg结尾的图片URL
		# print(url['href'])     # 输出不完整的url
		# print(url.get_text(), "<--->", url['href'])    # 输出对应名字和不完整的url
		print(url.get_text(), "<---->", "https://en.wikipedia.org" + url['href'])    # 输出对应名字和完整的url

5. 示例：获取百度百科的词条和链接

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

# 词条来源的url地址
url = "https://baike.baidu.com/"
# 请求url，并把结果用utf-8编码
resp = urlopen(url).read().decode("utf-8")
# 使用BeautifulSoup解析
soup = BeautifulSoup(resp, "html.parser")
# 获取所有以class="card_cnt_tit"的div
list_divs = soup.findAll("div", {"class": "card_cnt_tit"})
# 根据源码中的规律，我们先找到包裹词条a标签的div
for div in list_divs:
    # 再在div标签中用正则表达式中过滤出a标签
    a = div.find("a", href=re.compile(r"^https://"))
    # 输出词条的名称和链接
    print(a.string, "<-------->", a['href'])

运行结果：

四、存储数据到MySQL

1. 环境准备

需要安装pymysql模块：

pip install pymysql

2. 存入MySQL数据库的使用方法

# 1. 引入开发包
import pymysql.cursors

# 2. 获取数据库链接
connection = pymysql.connect(
	host="localhost", 
	user="root", 
	password="123456", 
	db="baikeurl",
	charset="utf8mb4")

# 3. 获取会话指针
connection.cursor()

# 4. 执行SQL语句
cursor.execute(sql, (参数1, 参数2, ..., 参数n))

# 5. 提交
connection.commit()

# 6. 关闭
connection.close()

3. 示例：将上一示例的数据存入MySQL数据库

1. 利用Navicat创建数据库和数据表

创建数据库：

在数据库中创建数据表：

2. 修改前面的示例代码，将数据加入数据库

完整代码：

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import pymysql.cursors

# 词条来源的url地址
url = "https://baike.baidu.com/"
# 请求url，并把结果用utf-8编码
resp = urlopen(url).read().decode("utf-8")
# 使用BeautifulSoup解析
soup = BeautifulSoup(resp, "html.parser")
# 获取所有以class="card_cnt_tit"的div
list_divs = soup.findAll("div", {"class": "card_cnt_tit"})
# 根据源码中的规律，我们先找到包裹词条a标签的div
for div in list_divs:
    # 再在div标签中用正则表达式中过滤出a标签
    a = div.find("a", href=re.compile(r"^https://"))
    # 输出词条的名称和链接
    print(a.string, "<-------->", a['href'])

    # 获取数据库链接
    connection = pymysql.connect(host="localhost",
                                 user="root",
                                 password="123456",
                                 database="baikeurl",
                                 charset="utf8mb4")
    try:
        # 获取会话指针
        with connection.cursor() as cursor:
            # 创建sql语句
            sql = "insert into `urls` (`urlname`, `urlhref`)values(%s, %s)"
            # 执行sql语句
            cursor.execute(sql, (a.get_text(), a['href']))
            # 提交
            connection.commit()
    finally:
        connection.close()

运行效果：

4. 从MySQL数据库读取的使用方法

# 1. 引入开发包
import pymysql.cursors

# 2. 获取数据库链接
connection = pymysql.connect(
	host="localhost", 
	user="root", 
	password="123456", 
	db="baikeurl",
	charset="utf8mb4")

# 3. 获取会话指针
connection.cursor()

# 4.1 得到总记录数
cursor.execute()

# 4.2 查询下一行
cursor.fetchchone()

# 4.3 得到指定条数的数据
cursor.fetchmany(size=None)

# 4.4 得到全部
cursor.fetchall()

# 5. 关闭链接
connection.close()

5. 示例：查询MySQL数据库中的内容

# 导入模块
import pymysql.cursors

# 获取数据库连接
connection = pymysql.connect(host="localhost",
                                user="root",
                                password="123456",
                                database="baikeurl",
                                charset="utf8mb4")
try:
    # 获取会话指针
    with connection.cursor() as cursor:
        # 查询语句
        sql = "select urlname, urlhref from urls where id is not null"
        # 查询共有几条记录
        count = cursor.execute(sql)
        print(count)   # 9

        # 查询数据
        result = cursor.fetchmany(size=3)    # 获取前三条数据
        # result = cursor.fetchall()    # 获取所有数据
        print(result)
finally:
    connection.close()

运行结果对照数据库中的数据如下：

五、常见文档读取（TXT、PDF）

读取txt文档（用urlopen()方法读取）
读取PDF文档（使用第三方模块pdfminer3k读取）

1. 一些语言字符出现乱码的原因

计算机只能处理0和1两个数字，所以想要处理文本，必须把文本变成0和1这样的数字，最早的计算机使用八个0和1来表示一个字节，所以最大能够表示的整数是255=11111111.如果想要表示更大的数，就必须使用更多的字节。
由于计算机是由美国人发明的，所以最早只有127个字符被编写进计算机，也就是常见的阿拉伯数字，字母大小写，以及键盘上的符号。这个编码被称为ASCII编码，比如大写的字母A的ASCII编码为65,65这个数字再被转换成二进制01000001，就是计算机真处理的东西。
很显然，ASCII编码没办法表示我们的中文，于是中国就制定了自己的GB2312编码，并且兼容ASCII编码，那么问题来了，使用GB2312编码的文字，慕课网三个字，假设编码分别是61、62、63，那么在ASCII码表中可能是键盘上的@符号，或者是其他东西。

而Unicode编码将所有语言整合到了一起：

Unicode编码的体积要更大一些：

文件在系统间会进行编码转换：（utf-8打开可以节省空间，Unicode保存可以最大化兼容）

服务器也会先将Unicode编码转换成utf-8编码后再传给浏览器，可减轻浏览器负担：
Python3字符串默认使用Unicode编码，所以Python3支持多语言。
以Unicode表示的str通过encode()方法可以编码为指定的bytes。
如果bytes使用ASCII编码，遇到ASCII码表没有的字符会以\x##表示，此时只用‘\x##’.decode(‘utf-8’) 就可以了。

2. 读取txt

from urllib.request import urlopen
# 百度robots协议：https://www.baidu.com/robots.txt

url = "https://www.baidu.com/robots.txt"
html = urlopen(url)

print(html.read().decode('utf-8'))

3. 读取PDF文件

1. 安装pdfminer3k模块

下载安装pdfminer3k模块：

pip install pdfminer3k

另一种方式，或者是直接去网上下载包，然后解压包，进入包目录（目录中有setup.py文件），使用如下命令直接安装：

python setup.py install

2. 检查pdfminer3k模块是否安装成功

python

import pdfminer

3. 读取PDF文档的流程

以上流程的完整图示如下：

4. 读取pdf文件

打开的模式参考：

示例：读取本地PDF

# 导入需要用到的包：
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 获取文档对象：
fp = open("Automatic Detection.pdf", "rb")    # 以二进制只读方式打开

# 创建一个与文档关联的解释器
parser = PDFParser(fp)

# PDF文档的对象
doc = PDFDocument()

# 连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

# 初始化文档
doc.initialize("")      # 由于文档没有密码，所以里面的密码参数设置为空字符串

# 创建PDF资源管理器
resource = PDFResourceManager()

# 创建参数分析器
laparam = LAParams()

# 创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

# 创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

# 使用文档对象得到页面的集合
for page in doc.get_pages():
    # 使用页面解释器来读取
    interpreter.process_page(page)

    # 使用聚合器来获得内容
    layout = device.get_result()

    # 获得布局内容
    for out in layout:     # 利用循环输出布局的每一项
        # 避免报错：AttributeError: 'LTFigure' object has no attribute 'get_text'
        if hasattr(out, "get_text"):
            print(out.get_text())

运行结果：

无法解析的部分会被标红：

示例：读取网上的PDF

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from urllib.request import urlopen

# 获取文档对象
# 参考pdf：https://www.tipdm.org/u/cms/www/202107/28162910tww9.pdf
# fp = open("Automatic Detection.pdf", "rb")    # 以二进制只读方式打开
fp = urlopen("https://www.tipdm.org/u/cms/www/202107/28162910tww9.pdf")    # 以二进制只读方式打开

# 创建一个与文档关联的解释器
parser = PDFParser(fp)

# PDF文档的对象
doc = PDFDocument()

# 连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

# 初始化文档
doc.initialize("")      # 由于文档没有密码，所以里面的密码参数设置为空字符串

# 创建PDF资源管理器
resource = PDFResourceManager()

# 创建参数分析器
laparam = LAParams()

# 创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

# 创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

# 使用文档对象得到页面的集合
for page in doc.get_pages():
    # 使用页面解释器来读取
    interpreter.process_page(page)

    # 使用聚合器来获得内容
    layout = device.get_result()

    # 获得布局内容
    for out in layout:     # 利用循环输出布局的每一项
        # 避免报错：AttributeError: 'LTFigure' object has no attribute 'get_text'
        if hasattr(out, "get_text"):
            print(out.get_text())

六、使用爬虫需要注意什么

注意事项

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。
User-agent：表示指定爬虫*为通配符。
Disallow：不允许访问。
Allow：允许访问。
Robots协议一般是针对搜索引擎的，对用户的爬虫不太限制。

不能做的行为

网站服务协议条款明确禁止使用爬虫，并且对方检测到你的行为，通过某种途径通知停止这种行为。
使用分布式多线程爬虫，给对方的服务器带来了庞大的负担，影响对方正常用户使用，甚至对对方服务器造成实质伤害。
故意使用爬虫消耗对方的服务器，黑客性质的恶意攻击。
同时满足以上三个条件，则属于侵犯对方的固定资产，如果单单违反爬虫协议，而没有满足其他两个条件，则不属于违法。所以请限制你的爬虫，避免在高峰期采集。

场景分析

场景一

遍历某个小网站的所有内容。
一定要在晚上网站比较空闲的时间（晚3到早8）进行。

场景二

搜寻一个相关的内容，爬取了几万个网站。
最好快速爬取，不要在一个网站上有过多的停留。
如果要遍历一个网站的所有内容，那么要对爬虫做一些限制，因为遍历一个大型网站，会侵犯别人的知识版权。
爬取部分内容可以，但是不要遍历。

场景三

遍历如慕课网这种大型网站。
最好不要遍历这种很多人常用的网站，造成网站负担过重会导致网站崩溃。

七、课程总结

环境搭建

Python3
BeautifulSoup4

urllib和BeautifulSoup

urllib
- 使用urlopen请求链接
- 使用add_header(key, value)方法添加请求头
- 使用decode对结果进行编码
- 使用Request(url)获得请求对象
- 使用parser.urlencode()生成post数据
- 使用urlopen(req, data=postData.encode(‘utf-8’))
BeautifulSoup
- 使用BeautifulSoup(html, “html.parser”)解析HTML
- 查找一个节点：soup.find(id=‘imooc’)
- 查找多个节点：soup.findAll(‘a’)
- 使用正则表达式匹配：soup.findAll(‘a’, href=re.compile(exp))

存储数据到MySQL数据库

获取数据库连接：connection = pymysql.connect(host=‘localhost’, user=‘root’, password=‘123456’, db=‘db’, charset=‘utf8md4’)
使用connection.cursor()获取会话指针
使用cursor.ececute(sql, (参数1, 参数2, …,参数n))执行sql
提交connection.commit()
关闭连接connection.close()
使用cursor.execute()获得查询出多少条记录
使用cursor.fetchone()获取下一行记录
使用cursor.fetchmany(size=10)获取指定数量的记录
使用cursor.fetchall()获得全部的记录

常见文档读取（TXT、PDF）

乱码的原因，以及解决方案
使用pdfminer3k读取PDF文档

使用爬虫需要注意什么

爬虫协议文件robots.txt
User-agent：表示指定爬虫*为通配符
Disallow：不允许访问
Allow：允许访问
如何找到网站robots协议：在网站根网址后输入robots.txt

文章笔记参考课程：https://www.imooc.com/video/12622
代码资源：https://download.csdn.net/download/ungoing/86790114

【软件工程】Waitress + Nginx 部署 Python Web 服务 meisongqing nginx python WEB
下面是完整的Windows系统部署方案，使用Waitress作为WSGI服务器运行Python后端，Nginx作为反向代理同时提供前端服务：项目结构text复制下载myapp/├──backend/#Python后端│├──app.py#Flask应用入口│├──requirements.txt#Python依赖│└──api/#API模块├──frontend/#前端文件│├──index.ht
基于python的药品后台销售管理系统 sudo-ikun python django javascript mysql
摘要人类生活的水平不断提高是因为依靠着不断发展变革的信息化科技，从头到尾没有一件事情是可以脱离现代化的发展。科技改变了生活，同时也造就了多种多样的生活方式，有了“美团”我们可以足不出户吃便天下美食；有了“京东”我们可以享受到各种各样电子科技产品第一时间带来的快感；有了“淘宝”每逢四季我们可以第一时间感受到潮流的服装，这些都是科技的力量，也是科技给我们的生活带来的一种方式。中药销售一直是我们社会大家
【华为OD机试真题 2025B卷】767、寻找最大价值的矿堆 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KJ.JK OJ+最新华为OD机试 (C++Java Py C JS)华为od c++java 华为OD机试真题 2025B卷 javascript c语言寻找最大价值的矿堆
文章目录一、题目题目描述输入输出样例1二、代码与思路参考C++语言思路C++代码Java语言思路Java代码Python语言思路Python代码C语言思路C代码JS语言思路JS代码作者：KJ.JK订阅本专栏后即可解锁在线OJ刷题权限专栏介绍：最新的华为OD机试题目总结，使用C++、Java、Python、C语言、JS五种语言进行解答，每个题目的思路分析都非常详细，支持在线OJ评测刷题！！！！订阅后
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）神经网络15044 深度学习算法神经网络 python 深度学习 django 机器学习人工智能算法目标检测
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）一、系统概述本系统结合YOLOv8目标检测和ResNet50图像分类算法，构建了一个智能线上问诊平台。系统支持用户上传医学影像（皮肤照片/X光片），自动分析并生成诊断报告，同时提供医生审核功能。二、技术栈后端框架：Django4.2数据库：MySQL8.0深度学习：YOLOv8：皮肤病变区域检测ResNet50：肺炎X光
Python,Go开发穷游宝典APP Geeker-2025 python golang
以下是为使用**Python和Go开发"穷游宝典APP"**设计的创新技术方案，结合两种语言优势实现低成本、高智能的旅行体验：---###**技术栈分工**|**技术**|**核心优势**|**在穷游APP中的应用**||----------|--------------------------|------------------------------------------||**Pytho
Python,Go开发数据流量分配查询APP Geeker-2025 python golang
#数据流量分配查询应用我将设计一个基于Python和Go开发的数据流量分配查询应用，帮助用户监控和分析网络流量分配情况。##设计思路这个应用将实现以下核心功能：-实时监控网络流量分配情况-多维度流量数据分析（设备、应用、时间段）-流量分配策略设置与管理-异常流量告警系统-直观的数据可视化展示##技术架构```前端(Python+Streamlit)后端(Go)┌──────────────────
《48小时极速开发：Python+MySQL 学生信息管理系统架构实战揭秘》 Cyber4K Python 项目实践及实战 python mysql 架构
Python项目实践：学生信息管理系统1.项目概述1.1项目背景开发周期：2天（需求分析0.5天+开发1天+测试0.5天）技术栈：Python3.9+MySQL+面向对象编程核心价值：实现学生信息的全生命周期管理采用分层架构设计（表示层/业务层/数据层）数据库驱动的高效数据持久化方案1.2系统架构系统架构调用CRUD操作连接池业务逻辑层命令行界面数据访问层MySQL数据库2.核心模块实现2.1数据
python里面的全局变量和局部变量的区别（很好的一篇文章，找不到出处，原作者看到请联系，我会署上名字） scuter_yu 全局变量与局部变量的区别 python
python中，对于变量作用域的规定有些不一样。在诸如C/C++、java等编程语言中，默认在函数的内部是可以直接访问在函数外定义的全局变量的，但是这一点在python中就会有问题，下面是一个例子。[plain]viewplaincopy在CODE上查看代码片派生到我的代码片test.py:#!/usr/bin/pythonCOUNT=1deffunc():COUNT=COUNT+1func()P
LeetCode第300题_最长递增子序列 @蓝莓果粒茶算法 leetcode 算法职场和发展学习 c#游戏 python
LeetCode第300题：最长递增子序列文章摘要本文详细解析LeetCode第300题"最长递增子序列"，这是一道考察动态规划和二分查找的中等难度题目。文章提供了动态规划和贪心+二分查找两种实现方案，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合学习动态规划和二分查找的读者。核心知识点：动态规划、二分查找、贪心算法难度等级：中等推荐人群：具备基础算法知识，想要提升
LeetCode第301题_删除无效括号 @蓝莓果粒茶算法 leetcode 算法职场和发展 c#学习 python c++
LeetCode第301题：删除无效括号文章摘要本文详细解析LeetCode第301题"删除无效括号"，这是一道考察DFS和括号匹配的困难难度题目。文章提供了DFS和BFS两种实现方案，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合学习深度优先搜索和字符串处理的读者。核心知识点：DFS、BFS、括号匹配、字符串处理难度等级：困难推荐人群：具备基础算法知识，想要提升搜
Python复制方法“=/copy/deepcopy”的区别 superlitong 笔记经验 python list 列表机器学习人工智能
1、当复制的值是不可变对象（数值，字符串，元组）时，=/copy/deepcopy三者没有区别。测试代码：importcopya='abcdefgh'b=ac=copy.copy(a)d=copy.deepcopy(a)print(a,b,c,d)print(id(a),id(b),id(c),id(d))a+='x'#相当于重新赋值，把a这个标签重新贴到了一个新的箱子print(a,b,c,d)
Python binary search二分查找算法详解及源码猿来如此yyy Python算法详解及源码算法 python 排序算法开发语言数据库人工智能数据结构
二分查找算法是一种在有序数组中查找特定元素的常用算法。它的基本思想是将要查找的元素与数组的中间元素进行比较，如果相等，则返回该元素的索引；如果要查找的元素比中间元素小，则在数组的左半部分继续查找；如果要查找的元素比中间元素大，则在数组的右半部分继续查找。通过不断缩小查找范围，最终可以找到要查找的元素或确定该元素不存在于数组中。二分查找算法的优点是时间复杂度为O(logn)，效率较高。这是因为每一次
python中copy和deepcopy详细区别 jialun0116 python 列表 python
python中copy和deepcopy在python中，标识一个对象唯一身份的是：对象的id(内存地址)，对象类型，对象值。deepcopy是真正意义上的复制，深拷贝，被复制对象完全复制一遍作为独立的新个体，新开辟一块空间。等于赋值，浅拷贝，不会产生独立对象，只是对原有数据块打上新标签，其中一个标签改变，数据块就会变化。copy仅拷贝对象本身，浅拷贝不会对其中的子对象进行拷贝，对子对象进行修改也
python 几种排序方法与二分查找愤怒的玉米棒 python学习小结 python
#选择排序defselectionSort(arr):#-1虽然有n个数字但是没有第n轮最多n-1轮foriinrange(0,len(arr)-1):forjinrange(i+1,len(arr)):ifarr[i]>arr[j]:arr[i],arr[j]=arr[j],arr[i]print(arr)#冒泡排序defbubbleSort(arr):#-1虽然有n个数字但是没有第n轮最多n-
Python二分查找库bisect 来个大包的二重积分编程基础 python 算法排序算法
找暑期实习的时候做到某厂的笔试题里面用到这个，就总结一下。。。1.bisect_left(a,x,lo=0,hi=len(a))功能：在已排序序列a中查找元素x应该插入的位置，并返回最左侧的插入位置（index啊）。区别：如果有多个相同元素，bisect_left返回最左侧的插入位置。默认情况下，查找范围是整个序列a，但可以通过lo和hi参数来限制查找范围。2.bisect_right(a,x,l
【python】赋值操作（=）、切片、copy()、deepcopy()经常分不清。叶阿猪 python python 数据结构开发语言
切片（Slicing）、copy()（浅拷贝）和deepcopy()在Python中都涉及复制操作，但复制的深度和方式有所不同。而赋值操作不涉及复制，只是改变变量与对象之间的绑定关系。本文将详细讲解这几种方式的区别。一、赋值操作（=）定义：将值或引用绑定到变量名上。特性：赋值操作不会创建值的副本，它只是将变量名与现有的值或引用关联起来。如果赋值的值是可变对象（如列表、字典等），则变量名将引用该对象
【Python】第一弹：对 Python 的认知敖云岚 python 开发语言
目录一、Python的背景1.1.Python的由来1.2Python的作用1.3Python的优缺点1.4Python的开发工具一、Python的背景1.1.Python的由来Python由荷兰数学和计算机科学研究学会的吉多・范罗苏姆（GuidovanRossum）在20世纪80年代末至90年代初开发，并于1991年正式发布。当时，计算机领域正朝着更高效、更便捷的编程方向发展，吉多希望创造一门语
2025B卷最新华为OD机试,独家整理总结上岸技巧,考试题库清单(Python/JS/C/C++/JAVA/GO)持续收录中无限码力华为od 华为OD机试华为OD2025B卷华为机试2025B卷华为OD机考2025B卷华为OD2025B卷题库
2025华为OD机试2025B卷华为OD上机考试由5月9号统一切换至华为OD2025B卷，现在刷2025B卷，刷得越多，通过率越高。题库链接最新华为OD机试(C++/C/Python/JavaScript/GO)目录提供在线OJ环境刷题:(私信联系开通)在线OJ私信联系开通OJ环境+使用介绍：私信联系开通2025最新华为OD真题目录华为OD面试手撕代码高频题华为OD机试2025B卷题单下面精心为大
华为OD 机试 2025 B卷 - 最大报酬 (C++&Python&JAVA&JS&GO) 无限码力华为OD机试真题刷题笔记华为od 算法华为OD2025B卷华为OD机试2025B卷华为OD机考2025B卷
最大报酬2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型题目描述小明每周上班都会拿到自己的工作清单，工作清单内包含n项工作，每项工作都有对应的耗时时间（单位h）和报酬，工作的总报酬为所有已完成工作的报酬之和，那么请你帮小明安排一下工作，保证小明在指定的工作时间内工作收入最大化。输入描述T代表工作时长（单位h，00），w代表该项工作的报酬
2025 华为OD机试 B卷 - 考勤信息 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机试2025B卷华为OD机试
考勤信息华为OD机试2025B卷真题目录:点击去查看华为OD2025B卷100分题型题目描述公司用一个字符串来表示员工的出勤信息absent：缺勤late：迟到leaveearly：早退present：正常上班现需根据员工出勤信息，判断本次是否能获得出勤奖，能获得出勤奖的条件如下：缺勤不超过一次；没有连续的迟到/早退；任意连续7次考勤，缺勤/迟到/早退不超过3次。输入描述用户的考勤数据字符串记录条
华为OD机试2025B卷 - 比赛 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试华为OD机试2025B卷
比赛2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD2025B卷100分题型题目描述一个有N个选手参加比赛，选手编号为1~N（3<=N<=100），有M（3<=M<=10）个评委对选手进行打分。打分规则为每个评委对选手打分，最高分10分，最低分1分。请计算得分最多的3位选手的编号。如果得分相同，则得分高分值最多的选手排名靠前(10分数量相同，则比较9分
Matplotlib 完全指南：从入门到精通老哥不老 python matplotlib
前言Matplotlib是Python中最基础、最强大的数据可视化库之一。无论你是数据分析师、数据科学家还是研究人员，掌握Matplotlib都是必不可少的技能。本文将带你从零开始学习Matplotlib，帮助你掌握各种图表的绘制方法和高级技巧。目录Matplotlib简介安装与基础配置基础绘图常用图表类型图表样式与美化多子图布局高级技巧实战案例常见问题与解决方案总结与资源Matplotlib简介
【数据分析】Python+Tushare实现均线金叉死叉交易策略回测虚拟现实旅人数据分析 python 数据挖掘
【数据分析】Python+Tushare实现均线金叉死叉交易策略回测简介在本文中，我们将利用Python和Tushare数据接口，对贵州茅台（600519.SH）进行数据分析，并实现基于“双均线”策略的量化回测，完整评估该策略的收益效果。项目目标使用tushare包获取贵州茅台的历史行情数据。计算该股票历史数据的5日均线和30日均线。分析输出所有金叉日期和死叉日期。模拟实际买卖交易流程。1.数据获
Python邮件处理（使用imaplib和email库实现自动化邮件处理）老哥不老 python 自动化 java
在日常工作中，我们经常需要自动化处理电子邮件，比如自动下载附件、解析邮件内容、处理特定格式的数据等。本文将通过一个实际案例，详细介绍如何使用Python的imaplib和email库来实现邮件的自动化处理。目录环境准备与库介绍IMAP邮件服务器连接邮件搜索与获取邮件内容解析附件处理实战案例：自动化处理Excel附件最佳实践与注意事项1.环境准备与库介绍首先，我们需要导入必要的库：importima
2024年全国青少年信息素养大赛python复赛第6题-阶梯式收费（含题库答题软件账号）程序猿下山信息素养大赛python python 信息素养大赛
更多试卷、更多题库请点如需给您的学生安排作业和训练请点，或者自己练习小航助学编程在线模拟试卷系统（含题库答题软件账号）更多试卷、更多题库请点如需给您的学生安排作业和训练请点，或者自己练习小航助学编程在线模拟试卷系统（含题库答题软件账号）
什么是脚本，脚本有什么用，如何调用脚本？诸葛务农 java 编辑器
1.什么是脚本（Script）？脚本是一种由解释器直接执行的代码文件，无需编译成二进制文件。它通常用于自动化任务、简化操作流程或控制软件行为。脚本语言（如Python、JavaScript、Bash）相比编译型语言（如C++、Java）更灵活，但执行效率较低。2.脚本的常见用途自动化重复任务：批量重命名文件、定期备份数据、自动发送邮件等。系统管理：配置服务器、监控系统资源（如通过Bash/Powe
@dataclass装饰器简单用法 yuuki456 python 开发语言
dataclass是从Python3.7版本开始，作为标准库中的模块被引入，提供便捷的数据类创建和管理方式。引言Dataclass是Dataclasses模块的一种装饰器，当使用@dataclass装饰器时，会自动生成一些特殊的方法，包括：__init__:根据类属性初始化实例。__repr__:用于打印或调试时显示实例信息。__eq__:用于比较两个实例是否相等。还可以根据需要生成__lt__,
python汉语编程，将关键字与文言文对应 xinhuanjieyi 汉语编程 python
以下是将Python3.13的35个关键字与宋词中的典雅字词（或意象化表达）进行创意关联的版本，力求保留宋词意境的同时与关键字语义形成朦胧呼应：宋词风关键字映射谧（mì）-False（取自“静谧”，喻“假”之空寂，如“谧夜无痕”）缈（miǎo）-None（“缥缈”之虚，如“空山缈云踪”）瑧（zhēn）-True（“瑧”通“真”，喻“真”之确然，如“瑧意自昭昭”）俦（chóu）-and（“俦侣”喻“
windows11安装node.js，选择同时安装Chocolatey包管理工具 xinhuanjieyi node.js
https://nodejs.org/dist/v21.1.0/node-v21.1.0-x64.msi下载，安装到D:\ide\node.js我勾选了安装Chocolatey包管理工具，默认没打勾弹出powershell命令窗口，安装过程中python程序安装报错实际上电脑里已经安装了python多个版本，环境变量都配好了，不知道为什么这个安装工具说没检测到python。以下是窗口信息：Forc
Python编程实现大雪纷飞郭学会 pygame python
大雪纷飞。importpygameimportrandomimportmathimportnumpyasnp#配置参数SCREEN_WIDTH,SCREEN_HEIGHT=1280,720SNOW_COLOR=(245,245,255)TERRAIN_COLOR=(45,65,89)BACKGROUND_COLOR=(13,27,42)classTerrainGenerator:"""多噪声融合地
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo

数据采集学习（使用Python的urllib模块）

一、课程介绍

1. 前导课程

2. 可做的相关内容

二、环境搭建

1. 下载并安装Python

2. 安装BeautifulSoup4

1. Linux安装命令

2. Mac安装命令

3. Windows安装命令

3. 检查是否安装成功

三、urllib和BeautifulSoup

1. urllib的用法

1. 具体步骤

2. 简单urllib的get方法的完整示例

3. 模拟真实浏览器

1. 携带User-Agent头

4. 使用post方法发送请求的步骤

5. 示例：urllib使用post方法请求台湾高铁网

拓展示例：用requests模块实现

2. BeautifulSoup的使用

1. 解析器的优缺点对比

2. 几个简单的浏览结构化数据的方法

3. 测试BeautifulSoup中常用的方法

4. 示例：获取维基百科词条信息（该示例仅做参考，功能已失效）

5. 示例：获取百度百科的词条和链接

四、存储数据到MySQL

1. 环境准备

2. 存入MySQL数据库的使用方法

3. 示例：将上一示例的数据存入MySQL数据库

1. 利用Navicat创建数据库和数据表

2. 修改前面的示例代码，将数据加入数据库

4. 从MySQL数据库读取的使用方法

5. 示例：查询MySQL数据库中的内容

五、常见文档读取（TXT、PDF）

1. 一些语言字符出现乱码的原因

2. 读取txt

3. 读取PDF文件

1. 安装pdfminer3k模块

2. 检查pdfminer3k模块是否安装成功

3. 读取PDF文档的流程

4. 读取pdf文件

示例：读取本地PDF

示例：读取网上的PDF

六、使用爬虫需要注意什么

注意事项

不能做的行为

场景分析

场景一

场景二

场景三

七、课程总结

环境搭建

urllib和BeautifulSoup

存储数据到MySQL数据库

常见文档读取（TXT、PDF）

使用爬虫需要注意什么

你可能感兴趣的:(Python爬虫,爬虫,python)