程序汪小陈

Python 爬虫：教你四种姿势解析提取数据

一、分析网页

以经典的爬取豆瓣电影 Top250 信息为例。每条电影信息在 ol class 为 grid_view 下的 li 标签里，获取到所有 li 标签的内容，然后遍历，就可以从中提取出每一条电影的信息。

翻页查看url变化规律：

第1页：https://movie.douban.com/top250?start=0&filter=  
第2页：https://movie.douban.com/top250?start=25&filter=  
第3页：https://movie.douban.com/top250?start=50&filter=  
第10页：https://movie.douban.com/top250?start=225&filter=

start参数控制翻页，start = 25 * （page - 1）

本文分别利用正则表达式、BeautifulSoup、PyQuery、Xpath来解析提取数据，并将豆瓣电影 Top250 信息保存到本地。

二、正则表达式

正则表达式是一个特殊的字符序列，它能帮助你方便地检查一个字符串是否与某种模式匹配，常用于数据清洗，也可以顺便用于爬虫，从网页源代码文本中匹配出我们想要的数据。

re.findall

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。
注意：match和 search 是匹配一次；而 findall 匹配所有。
语法格式为：findall(string[, pos[, endpos]])
string : 待匹配的字符串；pos : 可选参数，指定字符串的起始位置，默认为 0；endpos : 可选参数，指定字符串的结束位置，默认为字符串的长度。

示例如下：

import re  
text = """  
  
  
  
  
  
  
pattern = re.compile(r'\d+')  # 查找所有数字  
result1 = pattern.findall('me 123 rich 456 money 1000000000000')  
print(result1)  
img_info = re.findall('', text)  # 匹配src2 alt里的内容  
  
for src, alt in img_info:  
    print(src, alt)  
   
['123', '456', '1000000000000']  
http://pic2.sc.chinaz.com/Files/pic/pic9/202007/apic26584_s.jpg 山水风景摄影图片  
http://pic2.sc.chinaz.com/Files/pic/pic9/202007/apic26518_s.jpg 山脉湖泊山水风景图片  
http://pic2.sc.chinaz.com/Files/pic/pic9/202006/apic26029_s.jpg 旅游景点山水风景图片

代码如下：

# -*- coding: UTF-8 -*-  

import requests  
import re  
from pandas import DataFrame  
from fake_useragent import UserAgent  
import logging  
  
# 日志输出的基本配置  
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')  
# 随机产生请求头  
ua = UserAgent(verify_ssl=False, path='fake_useragent.json')  
  
  
def random_ua():  
    headers = {  
        "Accept-Encoding": "gzip",  
        "Connection": "keep-alive",  
        "User-Agent": ua.random  
    }  
    return headers  
  
  
def scrape_html(url):  
    resp = requests.get(url, headers=random_ua())  
    # print(resp.status_code, type(resp.status_code))  
    if resp.status_code == 200:  
        return resp.text  
    else:  
        logging.info('请求网页失败')  
  
  
def get_data(page):  
    url = f"https://movie.douban.com/top250?start={25 * page}&filter="  
    html_text = scrape_html(url)  
    # 电影名称  导演 主演  
    name = re.findall(', html_text)  
    director_actor = re.findall('(.*?)
', html_text)  
    director_actor = [item.strip() for item in director_actor]  
    # 上映时间  上映地区  电影类型信息   去除两端多余空格  
    info = re.findall('(.*) / (.*) / (.*)', html_text)  
    time_ = [x[0].strip() for x in info]  
    area = [x[1].strip() for x in info]  
    genres = [x[2].strip() for x in info]  
    # 评分  评分人数  
    rating_score = re.findall('(.*)', html_text)  
    rating_num = re.findall('(.*?)人评价', html_text)  
    # 一句话引言  
    quote = re.findall('(.*)', html_text)  
    data = {'电影名': name, '导演和主演': director_actor,  
            '上映时间': time_, '上映地区': area, '电影类型': genres,  
            '评分': rating_score, '评价人数': rating_num, '引言': quote}  
    df = DataFrame(data)  
    if page == 0:  
        df.to_csv('movie_data2.csv', mode='a+', header=True, index=False)  
  
    else:  
        df.to_csv('movie_data2.csv', mode='a+', header=False, index=False)  
    logging.info(f'已爬取第{page + 1}页数据')  
  
  
if __name__ == '__main__':  
    for i in range(10):  
        get_data(i)

结果如下：

三、BeautifulSoup

find( )与 find_all( ) 是 BeautifulSoup 对象的两个方法，它们可以匹配 html 的标签和属性，把 BeautifulSoup 对象里符合要求的数据都提取出来：

find( )只提取首个满足要求的数据
find_all( )提取出的是所有满足要求的数据
find( ) 或 find_all( ) 括号中的参数：标签和属性可以任选其一，也可以两个一起使用，这取决于我们要在网页中提取的内容。括号里的class_，这里有一个下划线，是为了和 python 语法中的类 class 区分，避免程序冲突。当然，除了用 class 属性去匹配，还可以使用其它属性，比如 style 属性等；只用其中一个参数就可以准确定位的话，就只用一个参数检索。如果需要标签和属性同时满足的情况下才能准确定位到我们想找的内容，那就两个参数一起使用。

代码如下：

# -*- coding: UTF-8 -*-  

import requests  
from bs4 import BeautifulSoup  
import openpyxl  
from fake_useragent import UserAgent  
import logging  
  
# 日志输出的基本配置  
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')  
# 随机产生请求头  
ua = UserAgent(verify_ssl=False, path='fake_useragent.json')  
wb = openpyxl.Workbook()    # 创建工作簿对象  
sheet = wb.active           # 获取工作簿的活动表  
sheet.title = "movie"       # 工作簿重命名  
sheet.append(["排名", "电影名", "导演和主演", "上映时间", "上映地区", "电影类型", "评分", "评价人数", "引言"])  
  
  
def random_ua():  
    headers = {  
        "Accept-Encoding": "gzip",  
        "Connection": "keep-alive",  
        "User-Agent": ua.random  
    }  
    return headers  
  
  
def scrape_html(url):  
    resp = requests.get(url, headers=random_ua())  
    # print(resp.status_code, type(resp.status_code))  
    if resp.status_code == 200:  
        return resp.text  
    else:  
        logging.info('请求网页失败')  
  
  
def get_data(page):  
    global rank  
    url = f"https://movie.douban.com/top250?start={25 * page}&filter="  
    html_text = scrape_html(url)  
    soup = BeautifulSoup(html_text, 'html.parser')  
    lis = soup.find_all('div', class_='item')  
    for li in lis:  
        name = li.find('div', class_='hd').a.span.text  
        temp = li.find('div', class_='bd').p.text.strip().split('\n')  
        director_actor = temp[0]  
        temp1 = temp[1].rsplit('/', 2)  
        time_, area, genres = [item.strip() for item in temp1]  
        quote = li.find('p', class_='quote')  
        # 有些电影信息没有一句话引言  
        if quote:  
            quote = quote.span.text  
        else:  
            quote = None  
        rating_score = li.find('span', class_='rating_num').text  
        rating_num = li.find('div', class_='star').find_all('span')[-1].text  
        sheet.append([rank, name, director_actor, time_, area, genres, rating_score, rating_num, quote])  
        logging.info([rank, name, director_actor, time_, area, genres, rating_score, rating_num, quote])  
        rank += 1  
  
  
if __name__ == '__main__':  
    rank = 1  
    for i in range(10):  
        get_data(i)  
    wb.save(filename='movie_info4.xlsx')

结果如下：

四、PyQuery

每个网页，都有一定的特殊结构和层级关系，并且很多节点都有 id 或 class 作为区分，我们可以借助它们的结构和属性来提取信息。
强大的 HTML 解析库：pyquery，利用它，我们可以直接解析 DOM 节点的结构，并通过 DOM 节点的一些属性快速进行内容提取。

如下示例：在解析 HTML 文本的时候，首先需要将其初始化为一个 pyquery 对象。它的初始化方式有多种，比如直接传入字符串、传入 URL、传入文件名等等。

from pyquery import PyQuery as pq  
  
html = '''  
  
      
        first item  
        second item  
          
           
      
  
'''  
  
doc = pq(html)  
print(doc('li'))

结果如下：

<li class="item-0">first item</li>  
<li class="item-1"><a href="link2.html">second item</a></li>  
<li><img src="http://pic.netbian.com/uploads/allimg/210107/215736-1610027856f6ef.jpg"/></li>  
<li><img src="http://pic.netbian.com//uploads/allimg/190902/152344-1567409024af8c.jpg"/></li>

首先引入 pyquery 这个对象，取别名为 pq，然后定义了一个长 HTML 字符串，并将其当作参数传递给 pyquery 类，这样就成功完成了初始化。接下来，将初始化的对象传入 CSS 选择器。在这个实例中，我们传入 li 节点，这样就可以选择所有的 li 节点。

代码如下：

# -*- coding: UTF-8 -*-  

import requests  
from pyquery import PyQuery as pq  
import openpyxl  
from fake_useragent import UserAgent  
import logging  
  
# 日志输出的基本配置  
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')  
# 随机产生请求头  
ua = UserAgent(verify_ssl=False, path='fake_useragent.json')  
wb = openpyxl.Workbook()    # 创建工作簿对象  
sheet = wb.active           # 获取工作簿的活动表  
sheet.title = "movie"       # 工作簿重命名  
sheet.append(["排名", "电影名", "导演和主演", "上映时间", "上映地区", "电影类型", "评分", "评价人数", "引言"])  
  
  
def random_ua():  
    headers = {  
        "Accept-Encoding": "gzip",  
        "Connection": "keep-alive",  
        "User-Agent": ua.random  
    }  
    return headers  
  
  
def scrape_html(url):  
    resp = requests.get(url, headers=random_ua())  
    # print(resp.status_code, type(resp.status_code))  
    if resp.status_code == 200:  
        return resp.text  
    else:  
        logging.info('请求网页失败')  
  
  
def get_data(page):  
    global rank  
    url = f"https://movie.douban.com/top250?start={25 * page}&filter="  
    html_text = scrape_html(url)  
    doc = pq(html_text)  
    lis = doc('.grid_view li')  
    for li in lis.items():  
        name = li('.hd a span:first-child').text()  
        temp = li('.bd p:first-child').text().split('\n')  
        director_actor = temp[0]  
        temp1 = temp[1].rsplit('/', 2)  
        time_, area, genres = [item.strip() for item in temp1]  
        quote = li('.quote span').text()  
        rating_score = li('.star .rating_num').text()  
        rating_num = li('.star span:last-child').text()  
        sheet.append([rank, name, director_actor, time_, area, genres, rating_score, rating_num, quote])  
        logging.info([rank, name, director_actor, time_, area, genres, rating_score, rating_num, quote])  
        rank += 1  
  
  
if __name__ == '__main__':  
    rank = 1  
    for i in range(10):  
        get_data(i)  
    wb.save(filename='movie_info3.xlsx')

结果如下：

五、Xpath

Xpath是一个非常好用的解析方法，同时也作为爬虫学习的基础，在后面的 Selenium 以及 Scrapy 框架中也会涉及到这部分知识。

首先我们使用 lxml 的 etree 库，然后利用 etree.HTML 初始化，然后我们将其打印出来。其中，这里体现了 lxml 的一个非常实用的功能就是自动修正 html 代码，大家应该注意到了，最后一个 li 标签，其实我把尾标签删掉了，是不闭合的。不过，lxml 因为继承了 libxml2 的特性，具有自动修正 HTML 代码的功能，通过 xpath 表达式可以提取标签里的内容，如下所示：

from lxml import etree  
text = '''  
  
      
         first item  
         second item  
         third item  
         fourth item  
         fifth item  
       
   
'''  
html = etree.HTML(text)  
result = etree.tostring(html)  
result1 = html.xpath('//li/@class')   # xpath表达式  
print(result1)  
print(result)  


['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']  
<html><body>  
<div>  
    <ul>  
         <li class="item-0"><a href="link1.html">first item</a></li>  
         <li class="item-1"><a href="link2.html">second item</a></li>  
         <li class="item-inactive"><a href="link3.html">third item</a></li>  
         <li class="item-1"><a href="link4.html">fourth item</a></li>  
         <li class="item-0"><a href="link5.html">fifth item</a></li>  
    </ul>  
</div>  
</body></html>

代码如下：

# -*- coding: UTF-8 -*-  

import requests  
from lxml import etree  
import openpyxl  
from fake_useragent import UserAgent  
import logging  
  
# 日志输出的基本配置  
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')  
# 随机产生请求头  
ua = UserAgent(verify_ssl=False, path='fake_useragent.json')  
wb = openpyxl.Workbook()    # 创建工作簿对象  
sheet = wb.active           # 获取工作簿的活动表  
sheet.title = "movie"       # 工作簿重命名  
sheet.append(["排名", "电影名", "导演和主演", "上映时间", "上映地区", "电影类型", "评分", "评价人数", "引言"])  
  
  
def random_ua():  
    headers = {  
        "Accept-Encoding": "gzip",  
        "Connection": "keep-alive",  
        "User-Agent": ua.random  
    }  
    return headers  
  
  
def scrape_html(url):  
    resp = requests.get(url, headers=random_ua())  
    # print(resp.status_code, type(resp.status_code))  
    if resp.status_code == 200:  
        return resp.text  
    else:  
        logging.info('请求网页失败')  
  
  
def get_data(page):  
    global rank  
    url = f"https://movie.douban.com/top250?start={25 * page}&filter="  
    html = etree.HTML(scrape_html(url))  
    lis = html.xpath('//ol[@class="grid_view"]/li')  
    # 每个li标签里有每部电影的基本信息  
    for li in lis:  
        name = li.xpath('.//div[@class="hd"]/a/span[1]/text()')[0]  
        director_actor = li.xpath('.//div[@class="bd"]/p/text()')[0].strip()  
        info = li.xpath('.//div[@class="bd"]/p/text()')[1].strip()  
        # 按"/"切割成列表  
        _info = info.split("/")  
        # 得到 上映时间  上映地区  电影类型信息   去除两端多余空格  
        time_, area, genres = _info[0].strip(), _info[1].strip(), _info[2].strip()  
        # print(time, area, genres)  
        rating_score = li.xpath('.//div[@class="star"]/span[2]/text()')[0]  
        rating_num = li.xpath('.//div[@class="star"]/span[4]/text()')[0]  
        quote = li.xpath('.//p[@class="quote"]/span/text()')  
        # 有些电影信息没有一句话引言  加条件判断  防止报错  
        if len(quote) == 0:  
            quote = None  
        else:  
            quote = quote[0]  
        sheet.append([rank, name, director_actor, time_, area, genres, rating_score, rating_num, quote])  
        logging.info([rank, name, director_actor, time_, area, genres, rating_score, rating_num, quote])  
        rank += 1  
  
  
if __name__ == '__main__':  
    rank = 1  
    for i in range(10):  
        get_data(i)  
    wb.save(filename='movie_info1.xlsx')

结果如下：

六、总结

爬取网页数据用正则表达式的话，可以直接从网页源代码文本中匹配，但出错率较高，且熟悉正则表达式的使用也比较难，需要经常翻阅文档。
实际爬取数据大多基于 HTML 结构的 Web 页面，网页节点较多，各种层级关系。可以考虑使用 Xpath 解析器、BeautifulSoup解析器、PyQuery CSS解析器抽取结构化数据，使用正则表达式抽取非结构化数据。
Xpath：可在 XML 中查找信息；支持 HTML 的查找；通过元素和属性进行导航，查找效率很高。在学习 Selenium 以及 Scrapy 框架中也都会用到。
BeautifulSoup：依赖于 lxml 的解析库，也可以从 HTML 或 XML 文件中提取数据。
PyQuery：Python仿照 jQuery 严格实现，可以直接解析 DOM 节点的结构，并通过 DOM 节点的一些属性快速进行内容提取。

对于爬取网页结构简单的 Web 页面，有些代码是可以复用的，如下所示：

from fake_useragent import UserAgent  
  
# 随机产生请求头  
ua = UserAgent(verify_ssl=False, path='fake_useragent.json')  
  
def random_ua():  
    headers = {  
        "Accept-Encoding": "gzip",  
        "User-Agent": ua.random  
    }  
    return headers

伪装请求头，并可以随机切换，封装为函数，便于复用。

def scrape_html(url):  
    resp = requests.get(url, headers=random_ua())  
    # print(resp.status_code, type(resp.status_code))  
    # print(resp.text)  
    if resp.status_code == 200:  
        return resp.text  
    else:  
        logging.info('请求网页失败')

请求网页，返回状态码为 200 说明能正常请求，并返回网页源代码文本。

最后

我们准备了一门非常系统的爬虫课程，除了为你提供一条清晰、无痛的学习路径，我们甄选了最实用的学习资源以及庞大的主流爬虫案例库。短时间的学习，你就能够很好地掌握爬虫这个技能，获取你想得到的数据。

01 专为0基础设置，小白也能轻松学会

我们把Python的所有知识点，都穿插在了漫画里面。

在Python小课中，你可以通过漫画的方式学到知识点，难懂的专业知识瞬间变得有趣易懂。

你就像漫画的主人公一样，穿越在剧情中，通关过坎，不知不觉完成知识的学习。

02 无需自己下载安装包，提供详细安装教程

03 规划详细学习路线，提供学习视频

04 提供实战资料，更好巩固知识

05 提供面试资料以及副业资料，便于更好就业

这份完整版的Python全套学习资料已经上传CSDN，朋友们如果需要也可以扫描下方csdn官方二维码或者点击主页和文章下方的微信卡片获取领取方式，【保证100%免费】

brew 安装pip_pip brew wget 安装 weixin_32612253 brew 安装pip
终端播放器安装教程从简书上看到一篇,终端实现网易云音乐的文章,并给出了一个github链接.心里有些痒痒,想看看是什么样子,于是尝试安装.安装过程中有些坎坷,记录以便以后查阅.程序实现是用Python写的.安装使用方式仅仅给了三行命令.安装$pipinstallnetease-musicbox$brewinstallmpg123使用$musicbox下载了源码后,不知道该如何安装.三行命令也是莫名
Centos使用docker搭建Graylog日志平台 moxiaoran5753 centos docker graylog
日志管理系统有很多，比如ELK,Graylog，Loki+Grafana+Promtail适用场景：1.如果需求复杂，服务器资源不受限制，推荐使用ELK（Logstash+Elasticsearch+Kibana）方案；2.如果需求仅是将不同服务器上的日志采集上来集中展示和检索，且需要一个轻量级的框架，那使用PLG（Promtail+Loki+Grafana）最合适不过了。3.Graylog专注于
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
从5G向6G演进的三维连接宋罗世家技术屋智能科学与技术专栏 5G
【摘要】三维连接技术作为地面网络（TN）与非地面网络（NTN）的融合组网技术，既能解决TN空天地海覆盖受限与NTN服务场景受限问题，又能促进后5G（B5G）与6G网络基础设施产业链的健康发展。首先简述了三维连接技术的发展历程，然后重点介绍了未来两年将要完成的5GNTN标准需求、部署结构、空中接口、频谱与终端方面的设计考虑，最后给出了对未来B5G/6G三维连接技术展望，提出了需要全球产学研机构共同研
MotionLayout（二）：MotionLayout是什么？MotionLayout调试技巧、KeyFrame关键帧等等前期后期 android kotlin 学习
一、MotionLayout是什么？●定位：AndroidJetpack中的高级布局容器，继承自ConstraintLayout。●核心功能：通过状态（State）和过渡（Transition）定义复杂的界面动画，支持手势交互、路径动画等。●优势：简化动画开发流程，替代传统Animator或TransitionManager，适合处理多视图联动、复杂转场效果。1.1应用场景使用MotionLayo
Android 使用设计模式：装饰者设计模式，对功能进行封装升级，学会可以让我们的代码更加的简洁。前期后期设计模式 android 设计模式
一、前言我遇到什么问题要使用装饰者设计模式？看源码的时候：我们发现明明ui有一个功能，但是在这个ui类找不到，后来发现，这个ui被当做一个参数传递到了一个类里面，后来才在这个类里找到了这个功能。突然醍醐灌顶，这不就是装饰者设计模式吗？写代码的时候：如果我们想给一个功能增加新的东西，可以借助装饰者设计模式来装饰，如果不需要则可以把这个方法去掉，非常的简洁和优雅，并且新增的功能放到了另外一个类里面，也
Android :实现登录功能的思路前期后期 android
android的登录功能和前端一样，需要保存登录的用户信息。创建一个工具类//用户工具类，用于管理用户登录状态和用户信息objectAppUserUtil{//常量定义privateconstvalLOGGED_FLAG="logged_flag"//登录状态的键名privateconstvalUSER_INFO="user_info"//用户信息的键名privateconstvalTAG="Ap
多级缓存设计实践 MClink 架构缓存
缓存是什么？缓存技术是一种用于加速数据访问的优化策略。它通过将频繁访问的数据存储在高速存储介质（如内存）中，减少对慢速存储设备（如硬盘或远程服务器）的访问次数，从而提升系统的响应速度和性能。缓存的基本原理是：当某个数据被请求时，系统首先检查缓存中是否已存储该数据。如果缓存中存在，则直接返回缓存中的数据，称为“缓存命中”；如果缓存中没有该数据，则从源数据存储（如数据库或远程服务器）中获取数据，并将其
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
python实现绘制爱心函数（绘制过程） halo0416 python 开发语言
首先，确保已经安装了matplotlib库和numpy库。如果没有安装，可以通过pip来安装：pipinstallmatplotlibpipinstallnumpy了解心形函数公式：x(t)=y(t)=13cos⁡(t)−5cos⁡(2t)−2cos⁡(3t)−cos⁡(4t)定义函数：defheart_shape(t):x=16*np.sin(t)**3y=13*np.cos(t)-5*np.c
python 绘图（爱心） @小H python 开发语言
#-*-coding:utf-8-*-fromturtleimport*defcurvemove():foriinrange(200):right(1)forward(1)color('red','pink')begin_fill()left(140)forward(111.65)curvemove()left(120)curvemove()forward(111.65)end_fill()don
扫地机高增长神话破灭！科沃斯、石头科技艰难 “破冰”！ liukuang110 科技
扫地机器人赛道太冷，陆续有企业倒在寒风里。先是，老牌研发商广东宝乐机器人宣布破产重整；曾获得腾讯和红杉资本大额融资，并邀请罗永浩代言的“追光”品牌，也在短短两年内宣告失败。就连雷军投资、小米生态链孵化的睿米科技，也发布了停止运营的通告。头部玩家近况亦不乐观。以科技创新而闻名的科沃斯业绩大幅下滑，在过去几个月中股价的剧烈下跌，引发了市场的高度关注与深刻反思。另一头部玩家石头科技，毛利率下滑、存货周转
多种方法判断一个数是否为素数的实现与优化徐浪老师徐浪老师大讲堂数据结构算法
素数，又称质数，是一个在数学和计算机科学中非常重要的概念。它是大于1的自然数中，除了1和它本身，不能被其他数整除的数。本文将从最基础的方法讲解到优化算法，并提供完整的实现代码，帮助您高效地判断一个数是否为素数。一、素数的基础知识1.1素数的定义素数：一个大于1的正整数，只有两个正因子：1和它本身。例如：2、3、5、7、11等。非素数：大于1的数中，可以被除1和本身以外的数整除的数。例如：4、6、8
Graylog日志系统超详细部署和配置 kim_liao123 部署 elasticsearch docker
Graylog日志系统部署和配置1.软件介绍：Graylog是一个开源的日志聚合、分析、审计、展现和预警工具。功能上和ELK类似，但又比ELK要简单，依靠着更加简洁，高效，部署使用简单；官方文档：https://docs.graylog.org/en/3.3/pages/users_and_roles.html以下所有部署方式都来源与官方文档2.软件准备：服务端：Mongo：存储graylog的一
docker（10、日志管理4）5、Graylog 日志系统(1、部署Graylog日志系统，2、Graylog管理日志) junior1206 k8s docker
部署Graylog日志系统Graylog是与ELK可以相提并论的一款几种式日志管理方案，支持数据收集、检索、可视化Dashboard。将实践用Graylog来管理Docker日志Graylog架构Graylog架构如下图所示：Graylog负责接收来自各种设备和应用的日志，并未用户提供Web访问接口。Elasticsearch用于索引和保存Graylog接收到的日志MongoDB负责保存Grayl
利用Docugami将商业文档转化为XML知识图谱 bBADAS xml 知识图谱人工智能 python
在当今的数字化时代，处理和理解商业文档的结构及其内容是企业信息化管理的关键任务。Docugami作为一种创新的技术工具，能够将复杂的商业文档转换为文档XML知识图谱。这种知识图谱由完整文档的XML语义树组成，能够精准地表示文档的语义和结构特性，为文档自动化处理提供了基础。技术背景介绍Docugami通过将文档转化为结构化的XML语义树，使得原本无序的文本变得有序和可操作。这种转化不仅仅是格式的改变
Milvus 中常见相似度度量方法 Sirius Wu milvus 机器学习算法
在Milvus中，相似度度量方法用于衡量向量之间的相似程度，不同的度量方法有不同的特点、优缺点和适用场景。以下是对Milvus中常见相似度度量方法的详细介绍以及对应的search参数示例。1.欧氏距离（L2Distance，L2）特点欧氏距离是最常用的距离度量方法之一，它计算的是两个向量在欧几里得空间中的直线距离。对于两个nnn维向量x⃗=(x1,x2,⋯ ,xn)\vec{x}=(x_1,x_2
CI/CD构建与注意事项 Sirius Wu ci/cd
1.CI/CD概述1.1定义CI（ContinuousIntegration，持续集成）：是一种软件开发实践，开发团队成员频繁地将代码集成到共享的代码仓库中。每次集成都会通过自动化的构建（包括编译、打包等）和测试来验证，从而尽早发现集成错误。CD（ContinuousDelivery/Deployment，持续交付/持续部署）：持续交付：是在持续集成的基础上，将经过测试的代码自动部署到预生产环境，
Mulvus向量库数据插入失败排查 Sirius Wu milvus
Mulvus是一个开源的向量数据库，要判断数据是否成功插入以及在插入失败时进行排查，可以参考以下方法：确认数据是否成功插入1.API返回结果在使用Mulvus提供的API插入数据时，API会返回相应的结果信息。以PythonSDK为例，插入数据的代码通常如下：frompymilvusimportconnections,Collection,FieldSchema,CollectionSchema,
新能源智慧路灯：点亮城市未来之路 2501_91106766 材料工程
在城市发展进程中，新能源智慧路灯凭借其创新性，为可持续发展指引了方向。它不仅是照明设施的升级换代，更是城市基础设施向智能化转型的重要环节。一、能源供应的革新新能源智慧路灯的关键在于其能源系统。通常配备太阳能电池板，可将日间阳光转化为电能，并储存于高性能电池中，为夜间照明及其他功能提供动力。在光照条件欠佳的区域，出现了风能辅助发电的路灯，风力发电机与太阳能电池板协同运作，确保能源供应的稳定性。这种多
Java高频面试之集合-07 牛马baby java 面试开发语言
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：ArrayList和Vector的区别是什么？ArrayList与Vector的区别详解ArrayList和Vector都是Java中基于动态数组实现的List接口的实现类，但它们在设计、性能和线程安全性上有显著差异。以下是两者的核心区别：1.线程安全性特性ArrayListVector线程安全非线程安全（方法未同步）线
使用 Python 绘制爱心图形（高级版）徐浪老师徐浪老师大讲堂 python 开发语言
以下是一段使用Python绘制高级“爱心”图案的代码，结合数学公式生成精美的爱心形状，并附加一些交互式的效果，比如渐变颜色或动态展示：动态渐变爱心importnumpyasnpimportmatplotlib.pyplotaspltimportmatplotlib.animationasanimation#设置爱心的数学公式defheart_shape(t):x=16*np.sin(t)**3y=
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
2025计算机毕设全流程实战指南：Java/Python+协同过滤+小程序开发避坑手册启点毕设课程设计 java python 大四论文指南查重降重技巧毕业设计 spring
技术框架的选择是项目开发的关键起点，直接影响开发效率和最终成果质量。然而，许多开发者在选择技术框架时面临困难：现有知识储备不足以支撑复杂项目需求，团队经验有限，框架选择缺乏前瞻性常导致后期问题。尽管技术框架的选择过程充满挑战，但合适的框架能为项目开发和维护奠定基础，而不当的选择则可能带来持续的技术债务和开发困扰。所以，建议对项目技术框架把握不好的同学，最好是找自己的研究生学长或者老师详细的把关机技
加快推进工业互联网，图扑“智”绘发展新蓝图智慧园区数字孪生 3d 网络人工智能物联网前端
当前，智能制造已成为我国实现从制造大国走向制造强国的战略目标，在迈向“钢铁强国”的征程上，“智慧”正成为钢铁产业的鲜明特征。图扑软件-构建先进2D和3D可视化所需要的一切方大九钢公司围绕钢铁企业管理模式变革的需求，借力能源绿色低碳转型的契机，以信息技术广泛应用为主导，大力推进“智能制造”，“淬炼”智慧钢铁。并与图扑软件合作，率先将5G、可视化、GIS相关技术引入钢铁行业。打造基于5G+云平台的智慧
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
Jarslink 是一个 SOFA 方舟插件，用于管理多应用部署后端java
前言大家好，我是老马。sofastack其实出来很久了，第一次应该是在2022年左右开始关注，但是一直没有深入研究。最近想学习一下SOFA对于生态的设计和思考。sofaboot系列SOFABoot-00-sofaboot概览SOFABoot-01-蚂蚁金服开源的sofaboot是什么黑科技？SOFABoot-02-模块化隔离方案SOFABoot-03-sofaboot介绍SOFABoot-04-快
pycharm中使用anaconda部署python环境_pycharm部署配置anaconda环境教程 weixin_39796652
本篇文章小编给大家分享一下pycharm部署配置anaconda环境教程，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。pycharm部署anaconda环境Pycharm：python编辑器，社区版本Anaconda：开源的python发行版本(专注于数据分析的python版本)，包含大量的科学包环境基本指令(准备工作)：conda--version查看anaconda
字符串作为数组和用指针指向的字符串的区别 kfhj c语言
字符串作为数组和用指针指向的字符串在C语言（以及类似语言如C++）中都有各自的用途和特点。以下是它们之间的主要区别：定义和声明•字符串作为数组：字符串数组是一个字符数组，其中最后一个字符是空字符（’\0’），用于标识字符串的结束。例如：charstr[]=“Hello,World!”;这里，str是一个字符数组，包含了字符串"Hello,World!"和它的结尾空字符。•用指针指向的字符串：字符串
Cesium实践（1）—— Hello World 迦南giser WebGIS #Cesium webgis cesium
文章目录前言Cesium是什么Cesium核心类ViewerSceneEntityDataSourceCollection创建第一个Cesium应用工程搭建Cesium版helloworld总结前言工作大半年来主要的技术栈是mapbox-gl和threejs，但是作为一名GIS专业毕业生，一直对Cesium充满兴趣。Cesium不仅保持了threejs的三维绘制能力，而且内置大量渲染地理数据的AP
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

Python 爬虫：教你四种姿势解析提取数据

一、分析网页

二、正则表达式

三、BeautifulSoup

四、PyQuery

五、Xpath

六、总结

最后

01 专为0基础设置，小白也能轻松学会

02 无需自己下载安装包，提供详细安装教程

03 规划详细学习路线，提供学习视频

04 提供实战资料，更好巩固知识

05 提供面试资料以及副业资料，便于更好就业

你可能感兴趣的:(python,爬虫,开发语言,学习,数据分析,大数据,职场和发展)