Python编程KK

用python做爬虫非常的简单：美团网数据采集技巧，有基础就开爬！

1.数据采集工具介绍

现在的大多数动态网站，都是由浏览器端通过js发起ajax请求，拿到数据后再渲染完成页面展示。这种情况下采集数据，通过脚本发起http的get请求，拿到DOM文档页面后再解析提取有用数据的方法是行不通的。然后又有人会想到通过F12打开浏览器控制台分析服务端api，再模拟请求相应的api来拿到我们想要的数据，这种思路在一些情况下可行，但是很多大型网站都会采取一些反爬策略，出于安全性考虑，往往对接口增加了安全验证，比如只有设置了相关的header和cookie，才能对页面进行请求；还有的对请求来源也做了限制等等，这个时候通过这种方式采集数据就更加困难了。我们还有其他有效的方法吗？当然，python做爬虫非常的简单，我们先来了解一下Selenium和Selectors,然后通过爬取美团网上商家信息的例子总结一下数据采集的一些技巧:

Selenium 是一个开源测试框架，用来对web应用(比如网站)做自动化测试用的，因为它可以驱动浏览器，诸如Chrome，Firefox，IE等，所以可以较为真实的模拟人自动去点击网站的各个按钮，翻页，填写表单等，我们使用python驱动Selenium的webdriver，可以驱动浏览器，直接拿到的就是渲染好的DOM文档，大量节省了时间。
Selectors是Scrapy(Python的一套爬虫框架)提取数据的一套机制。被称作选择器，可以通过特定的 XPath 或者 CSS 表达式来“选择” HTML文件中的某个部分。用它来分析提取DOM文档有效数据非常的方便。并且XPath是W3C标准，所以使用Selectors提取数据的方法是通用的。

2.页面抓取数据分析和数据表创建

以朝阳大悦城中的一家美食店为例进行数据采集，网址是：

https://www.meituan.com/meishi/40453459/

2.1 抓取数据

我们要抓取的第一部分数据是商家的基本信息，包括商家名称、地址、电话、营业时间，分析多个美食类商家我们可知，这些商家的web界面在布局上基本是一致的，所以我们的爬虫可以写的比较通用。为了防止对商家数据的重复抓取，我们将商家的网址信息也存储到数据表中。

第二部分要抓取的数据是美食店的招牌菜，每个店铺基本都有自己的特色菜，我们将这些数据也保存下来，用另外的一张数据表存储。

最后一部分我们要抓取的数据是用户的评论，这部分数据对我们来说是很有价值的，将来我们可以通过对这部分数据的分析，提取更多关于商家的信息。我们要抓取的这部分信息有：评论者昵称、星级、评论内容、评论时间，如果有图片，我们也要将图片的地址以列表的形式存下来。

2.2 创建数据表

我们存储数据使用的数据库是Mysql,Python有相关的ORM,项目中我们使用peewee。但是在建立数据表时建议采用原生的sql,这样我们能灵活的控制字段属性，设置引擎和字符编码格式等。使用Python的ORM也可以达到效果，但是ORM是对数据库层的封装，像sqlite、sqlserver数据库和Mysql还是有些许差别的，使用ORM只能使用这些数据库共有的部分。下面是存储数据需要用到的数据表sql：

在学习过程中有什么不懂得可以加我的
python学习交流扣扣qun，784758214
群里有不错的学习视频教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python，和学习什么内容

CREATE TABLE `merchant` (  #商家表
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(255) NOT NULL COMMENT '商家名称',
  `address` varchar(255) NOT NULL COMMENT '地址',
  `website_address` varchar(255) NOT NULL  COMMENT '网址',
  `website_address_hash` varchar(32) NOT NULL COMMENT '网址hash',
  `mobile` varchar(32) NOT NULL COMMENT '电话',
  `business_hours` varchar(255) NOT NULL COMMENT '营业时间',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=10 DEFAULT CHARSET=utf8mb4;

CREATE TABLE `recommended_dish` (   #推荐菜表
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `merchant_id` int(11) NOT NULL COMMENT '商家id',
  `name` varchar(255) NOT NULL COMMENT '推荐菜名称',
  PRIMARY KEY (`id`),
  KEY `recommended_dish_merchant_id` (`merchant_id`),
  CONSTRAINT `recommended_dish_ibfk_1` FOREIGN KEY (`merchant_id`) REFERENCES `merchant` (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=309 DEFAULT CHARSET=utf8mb4;

CREATE TABLE `evaluate` (   #评论表
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `merchant_id` int(11) NOT NULL COMMENT '商家id',
  `user_name` varchar(255) DEFAULT '' COMMENT '评论人昵称',
  `evaluate_time` datetime NOT NULL COMMENT '评论时间',
  `content` varchar(10000) DEFAULT '' COMMENT '评论内容',
  `star` tinyint(4) DEFAULT '0' COMMENT '星级',
  `image_list` varchar(1000) DEFAULT '' COMMENT '图片列表',
  PRIMARY KEY (`id`),
  KEY `evaluate_merchant_id` (`merchant_id`),
  CONSTRAINT `evaluate_ibfk_1` FOREIGN KEY (`merchant_id`) REFERENCES `merchant` (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=8427 DEFAULT CHARSET=utf8mb4;

相应的我们也可以使用Python的ORM创建管理数据表，后边具体分析到代码时会讲到peewee对mysql数据库的一些常用操做，比如查询数据,插入数据库数据并返回id；批量插入数据库等，读者可搜集相关资料系统学习。
meituan_spider/models.py代码:

from peewee import *

# 连接数据库
db = MySQLDatabase("meituan_spider", host="127.0.0.1", port=3306, user="root", password="root", charset="utf8")

class BaseModel(Model):
    class Meta:
        database = db

# 商家表，用来存放商家信息
class Merchant(BaseModel):
    id = AutoField(primary_key=True, verbose_name="商家id")
    name = CharField(max_length=255, verbose_name="商家名称")
    address = CharField(max_length=255, verbose_name="商家地址")
    website_address = CharField(max_length=255, verbose_name="网络地址")
    website_address_hash = CharField(max_length=32, verbose_name="网络地址的md5值，为了快速索引")
    mobile = CharField(max_length=32, verbose_name="商家电话")
    business_hours = CharField(max_length=255, verbose_name="营业时间")

# 商家推荐菜表，存放菜品的推荐信息
class Recommended_dish(BaseModel):
    merchant_id = ForeignKeyField(Merchant, verbose_name="商家外键")
    name = CharField(max_length=255, verbose_name="推荐菜名称")

# 用户评价表，存放用户的评论信息
class Evaluate(BaseModel):
    id = CharField(primary_key=True)
    merchant_id = ForeignKeyField(Merchant, verbose_name="商家外键")
    user_name = CharField(verbose_name="用户名")
    evaluate_time = DateTimeField(verbose_name="评价时间")
    content = TextField(default="", verbose_name="评论内容")
    star = IntegerField(default=0, verbose_name="评分")
    image_list = TextField(default="", verbose_name="图片")

if __name__ == "__main__":
    db.create_tables([Merchant, Recommended_dish, Evaluate])

3.代码实现和详解

代码比较简单，但是让代码运行起来，需要安装前边提到的工具包：selenium、scrapy，另外使用peewee也需要安装，这些包都可以通过pip进行安装；另外selenium驱动浏览器还需要安装相应的driver,因为我本地使用的是chrome浏览器，所以我下载了相关版本的chromedriver，这个后边会使用到。请读者自行查阅python操作selenium需要做的准备工作，先手动搭建好相关环境。接下来详细分析代码；源代码如下：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.common.exceptions import NoSuchElementException

from scrapy import Selector
from models import *

import hashlib
import os
import re
import time
import json

chrome_options = Options()

# 设置headless模式，这种方式下无启动界面，能够加速程序的运行
# chrome_options.add_argument("--headless")
# 禁用gpu防止渲染图片
chrome_options.add_argument('disable-gpu')
# 设置不加载图片
chrome_options.add_argument('blink-settings=imagesEnabled=false')

# 通过页面展示的像素数计算星级
def star_num(num):
    numbers = {
        "16.8": 1,
        "33.6": 2,
        "50.4": 3,
        "67.2": 4,
        "84": 5
    }

    return numbers.get(num, 0)

# 解析商家内容
def parse(merchant_id):
    weblink = "https://www.meituan.com/meishi/{}/".format(merchant_id)
    # 启动selenium
    browser = webdriver.Chrome(executable_path="/Users/guozhaoran/python/tools/chromedriver", options=chrome_options)
    browser.get(weblink)
    # 不重复爬取数据
    hash_weblink = hashlib.md5(weblink.encode(encoding='utf-8')).hexdigest()
    existed = Merchant.select().where(Merchant.website_address_hash == hash_weblink)
    if (existed):
        print("数据已经爬取")
        os._exit(0)
    time.sleep(2)
    # print(browser.page_source)  #获取到网页渲染后的内容
    sel = Selector(text=browser.page_source)

    # 提取商家的基本信息
    # 商家名称
    name = "".join(sel.xpath("//div[@id='app']//div[@class='d-left']//div[@class='name']/text()").extract()).strip()
    detail = sel.xpath("//div[@id='app']//div[@class='d-left']//div[@class='address']//p/text()").extract()
    address = "".join(detail[1].strip())
    mobile = "".join(detail[3].strip())
    business_hours = "".join(detail[5].strip())
    # 保存商家信息
    merchant_id = Merchant.insert(name=name, address=address, website_address=weblink,
                                  website_address_hash=hash_weblink, mobile=mobile, business_hours=business_hours
                                  ).execute()

    # 获取推荐菜信息
    recommended_dish_list = sel.xpath(
        "//div[@id='app']//div[@class='recommend']//div[@class='list clear']//span/text()").extract()

    # 遍历获取到的数据，批量插入数据库
    dish_data = [{
        'merchant_id': merchant_id,
        'name': i
    } for i in recommended_dish_list]

    Recommended_dish.insert_many(dish_data).execute()

    # 也可以遍历list，一条条插入数据库
    # for dish in recommended_dish_list:
    #     Recommended_dish.create(merchant_id=merchant_id, name=dish)

    # 查看链接一共有多少页的评论
    page_num = 0
    try:
        page_num = sel.xpath(
            "//div[@id='app']//div[@class='mt-pagination']//ul[@class='pagination clear']//li[last()-1]//span/text()").extract_first()
        page_num = int("".join(page_num).strip())
        # page_num = int(page_num)
    except NoSuchElementException as e:
        print("改商家没有用户评论信息")
        os._exit(0)

    # 当有用户评论数据，每页每页的读取用户数据
    if (page_num):
        i = 1
        number_pattern = re.compile(r"\d+\.?\d*")
        chinese_pattern = re.compile(u"[\u4e00-\u9fa5]+")
        illegal_str = re.compile(u'[^0-9a-zA-Z\u4e00-\u9fa5.，,。？“”]+', re.UNICODE)
        while (i <= page_num):
            # 获取评论区元素
            all_evalutes = sel.xpath(
                "//div[@id='app']//div[@class='comment']//div[@class='com-cont']//div[2]//div[@class='list clear']")
            for item in all_evalutes:
                # 获取用户昵称
                user_name = item.xpath(".//div[@class='info']//div[@class='name']/text()").extract()[0]
                # 获取用户评价星级
                star = item.xpath(
                    ".//div[@class='info']//div[@class='source']//div[@class='star-cont']//ul[@class='stars-ul stars-light']/@style").extract_first()
                starContent = "".join(star).strip()
                starPx = number_pattern.search(starContent).group()
                starNum = star_num(starPx)
                # 获取评论时间
                comment_time = "".join(
                    item.xpath(".//div[@class='info']//div[@class='date']//span/text()").extract_first()).strip()
                evaluate_time = chinese_pattern.sub('-', comment_time, 3)[:-1] + ' 00:00:00'
                # 获取评论内容
                comment_content = "".join(
                    item.xpath(".//div[@class='info']//div[@class='desc']/text()").extract_first()).strip()
                comment_filter_content = illegal_str.sub("", comment_content)
                # 如果有图片，获取图片
                image_container = item.xpath(
                    ".//div[@class='noShowBigImg']//div[@class='imgs-content']//div[contains(@class, 'thumbnail')]//img/@src").extract()
                image_list = json.dumps(image_container)

                Evaluate.insert(merchant_id=merchant_id, user_name=user_name, evaluate_time=evaluate_time,
                                content=comment_filter_content, star=starNum, image_list=image_list).execute()
            i = i + 1
            if (i < page_num):
                next_page_ele = browser.find_element_by_xpath(
                    "//div[@id='app']//div[@class='mt-pagination']//span[@class='iconfont icon-btn_right']")
                next_page_ele.click()
                time.sleep(10)
                sel = Selector(text=browser.page_source)

if __name__ == "__main__":
    parse("5451106")

3.1 启动webdriver并设置优化参数

为了让爬虫更加通用，我们的解析函数通过接收商家"参数id"来摘取不同商家的网页内容。selenium通过webdriver驱动web浏览器:

 weblink = "https://www.meituan.com/meishi/{}/".format(merchant_id)
    # 启动selenium
    browser = webdriver.Chrome(executable_path="/Users/guozhaoran/python/tools/chromedriver", options=chrome_options)
    browser.get(weblink)

其中executable_path就是之前我们下载好的相关版本的chromedriver可执行文件，另外selenium启动web浏览器之前还可以设置一些参数：

在学习过程中有什么不懂得可以加我的
python学习交流扣扣qun，784758214
群里有不错的学习视频教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python，和学习什么内容

chrome_options = Options()

# 设置headless模式，这种方式下无启动界面，能够加速程序的运行
# chrome_options.add_argument("--headless")
# 禁用gpu防止渲染图片
chrome_options.add_argument('disable-gpu')
# 设置不加载图片
chrome_options.add_argument('blink-settings=imagesEnabled=false')

设置–headless可以让chrome不启动前台界面运行，有点类似于守护进程，不过在调试代码的过程中我们可以不设置这个参数，这样就能看到程序对浏览器中的网页具体进行了哪些操作。另外我们还可以通过disable-gpu、blink-settings=imagesEnabled=false使浏览器解析网页过程中不加载图片来提高浏览器渲染网页的速度；因为我们数据中存储的图片数据也只是路径而已。selenium做爬虫的一个缺点是效率比较低，爬取速度慢，但是通过设置这些优化参数，也是可以极大提升爬虫抓取速度的。

3.2 提取商家的基本信息

前边提到过，为了不重复爬取数据，我们会对要抓取的商家进行hash校验:

# 不重复爬取数据
    hash_weblink = hashlib.md5(weblink.encode(encoding='utf-8')).hexdigest()
    existed = Merchant.select().where(Merchant.website_address_hash == hash_weblink)
    if (existed):
        print("数据已经爬取")
        os._exit(0)

如果商家数据没有被爬取过，我们就获取到网页数据进行解析：

 time.sleep(2)
    # print(browser.page_source)  #获取到网页渲染后的内容
    sel = Selector(text=browser.page_source)

sleep两秒是因为browser对象解析网页需要时间，不过这个时间一般会很快，这里是为了使程序更加稳妥；之后构造一个选择器对页面数据进行解析：

 # 提取商家的基本信息
    # 商家名称
    name = "".join(sel.xpath("//div[@id='app']//div[@class='d-left']//div[@class='name']/text()").extract()).strip()
    detail = sel.xpath("//div[@id='app']//div[@class='d-left']//div[@class='address']//p/text()").extract()
    address = "".join(detail[1].strip())
    mobile = "".join(detail[3].strip())
    business_hours = "".join(detail[5].strip())
    # 保存商家信息
    merchant_id = Merchant.insert(name=name, address=address, website_address=weblink,
                                  website_address_hash=hash_weblink, mobile=mobile, business_hours=business_hours
                                  ).execute()

解析商家基本信息是通过xpath语法定位到相关元素然后提取文本信息，为了保证提取的数据都是不为空的字符串，进行了字符串拼接；最后将解析到的数据插入到商家数据表，peewee的insert方法返回了主键id,在后边采集数据入库时会使用到。

3.3 提取商家特色菜信息

提取商家特色菜信息逻辑比较简单，提取出来的数据返回一个list，python解析数据类型非常的方便，不过数据入库时有不同的方案，可以批量插入也可以循环遍历列表插入，这里我们采用批量插入。这样效率会更高。

# 获取推荐菜信息
    recommended_dish_list = sel.xpath(
        "//div[@id='app']//div[@class='recommend']//div[@class='list clear']//span/text()").extract()

    # 遍历获取到的数据，批量插入数据库
    dish_data = [{
        'merchant_id': merchant_id,
        'name': i
    } for i in recommended_dish_list]

    Recommended_dish.insert_many(dish_data).execute()

    # 也可以遍历list，一条条插入数据库
    # for dish in recommended_dish_list:
    #     Recommended_dish.create(merchant_id=merchant_id, name=dish)

3.4 分页提取用户评论信息

用户信息的提取是数据抓取中最难的部分了，基本思路就是我们首先查看有多少页的用户评论，然后再一页一页的解析用户评论信息。期间我们可以通过selenium模拟浏览器的点击事件进行翻页，入库的时候还要注意对文本进行清洗，因为评论中很多的表情字符是不符合数据表字段设计的编码规范的，另外点击了下一页之后，程序一定要sleep一段时间，因为网站的数据发生了更新，要进行页面数据的重新获取。我们先来看看如何获取一共有多少页的用户评论数据，网站的分页图如下:

这里我们重点关注两个按钮，一个是下一页，另一个是最后一页的数字，这是我们想要的信息，不过有些商家可能没有相关的用户评论，页面上也没有相关的元素，程序还是要做一下兼容性处理的：

 # 查看链接一共有多少页的评论
    page_num = 0
    try:
        page_num = sel.xpath(
            "//div[@id='app']//div[@class='mt-pagination']//ul[@class='pagination clear']//li[last()-1]//span/text()").extract_first()
        page_num = int("".join(page_num).strip())
        # page_num = int(page_num)
    except NoSuchElementException as e:
        print("改商家没有用户评论信息")
        os._exit(0)

接下来就是像获取商场特色菜一样获取一条条的评论数据了，只是过程比较繁琐而已，我们的基本思路就是这样：

    if (page_num):
        i = 1
          ... 
        while (i <= page_num):
           ...
            i = i + 1
            if (i < page_num):
                next_page_ele = browser.find_element_by_xpath(
                    "//div[@id='app']//div[@class='mt-pagination']//span[@class='iconfont icon-btn_right']")
                next_page_ele.click()
                time.sleep(10)
                sel = Selector(text=browser.page_source)

我们判断程序解析是否到了最后一页，如果没有，通过模拟点击下一页获得新页面，程序sleep是为了给浏览器解析新页面数据留下时间。详细的解析过程我们挑几个重点说一下：

获取用户评论星级并不是直接获取到的，而是通过获取到星级评级元素的css宽度，通过函数计算得到的：

# 通过页面展示的像素数计算星级
def star_num(num):
    numbers = {
        "16.8": 1,
        "33.6": 2,
        "50.4": 3,
        "67.2": 4,
        "84": 5
    }

    return numbers.get(num, 0)

    ...
    # 获取用户评价星级
                star = item.xpath(
                    ".//div[@class='info']//div[@class='source']//div[@class='star-cont']//ul[@class='stars-ul stars-light']/@style").extract_first()
                starContent = "".join(star).strip()
                starPx = number_pattern.search(starContent).group()
                starNum = star_num(starPx)

用户的评论内容可能含有非法字符，程序通过正则表式来过滤，正则表达式一般使用python中的re模块，预先编译能提高性能，另外这些操作要放在while,for这些循环外边：

number_pattern = re.compile(r"\d+\.?\d*")
        chinese_pattern = re.compile(u"[\u4e00-\u9fa5]+")
        illegal_str = re.compile(u'[^0-9a-zA-Z\u4e00-\u9fa5.，,。？“”]+', re.UNICODE)
         while (i <= page_num):
         ...
        comment_content = "".join(
                    item.xpath(".//div[@class='info']//div[@class='desc']/text()").extract_first()).strip()
                comment_filter_content = illegal_str.sub("", comment_content)

用户评论时图片可能有多张，我们只获得图片路径，以json压缩的形式保存到数据表字段中：

 image_container = item.xpath(
                    ".//div[@class='noShowBigImg']//div[@class='imgs-content']//div[contains(@class, 'thumbnail')]//img/@src").extract()
                image_list = json.dumps(image_container)

4.反思总结

下边是程序运行过程中数据抓取的截图：

对Python感兴趣或者是正在学习的小伙伴，可以加入我们的Python学习扣qun：784758214，看看前辈们是如何学习的！从基础的python脚本到web开发、爬虫、django、数据挖掘等，零基础到项目实战的资料都有整理。送给每一位python的小伙伴！分享一些学习的方法和需要注意的小细节，教你如何实现边学习边用Python赚钱的学习方式。点击加入我们的 python学习者聚集地

程序的思路很简洁，真实的企业应用中，可能会更多的考虑爬虫的效率和稳定性。一般linux服务器下程序发生错误，都会记录有相关的日志，selenium也只能是无界面的运行，程序中没有用到太多的高级特性，其实一个爬虫架构中要包含的技术点有很多，比如多线程的数据爬取，还有针对验证码反爬的验证（本示例中第一次打开美团页面也需要验证，我手动处理了一次）等等，这里算是起一个抛砖引玉的目的吧。不过程序中使用到的文本处理技巧、数据分析提取等都是爬虫中经常会使用到的，很高兴在这里和大家一块分享。

揭秘 CSS Houdini：用浏览器魔法解锁 CSS 的终极潜力寒鸦xxx css houdini 前端
一、为什么我们需要CSSHoudini？1.1传统CSS的困境当我们试图用CSS实现一个波浪形边框时，通常会经历这样的挣扎：/*传统实现方案*/.wave-border{position:relative;overflow:hidden;}.wave-border::after{content:'';position:absolute;/*需要复杂计算和多个伪元素拼接*/}这种实现方式存在三个致命
Ubuntu终端常用快捷键总结机器人那些事儿开发环境 ubuntu
基本导航快捷键：Ctrl+A：将光标移到行首Ctrl+E：将光标移到行尾Ctrl+U：删除光标前的所有字符Ctrl+K：删除光标后的所有字符Ctrl+L：清屏（相当于执行clear命令）编辑命令行：Ctrl+W：删除光标前的一个单词Ctrl+Y：粘贴之前使用Ctrl+U或Ctrl+K删除的文本Ctrl+_：撤销上一步的操作历史命令：Ctrl+R：逆向搜索历史命令Ctrl+G：退出历史命令搜索模式C
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
ubuntu22.4搭建单节点es8.1 宇智波云大数据项目运维 elasticsearch
下载对应的包elasticsearch-8.1.1-linux-x86_64.tar.gz创建es租户groupaddelasticsearcuseraddelasticsearch-gelasticsearch-pelasticsearchchmodu+w/etc/sudoerschmod-Relasticsearch:elasticsearchelasticsearch修改配置文件vim/et
鸢尾花分类项目 GUI 编织幻境的妖分类数据挖掘人工智能
1.机器学习的定义机器学习是一门人工智能的分支，专注于开发算法和统计模型，使计算机能够在没有明确编程的情况下从数据中自动学习和改进。通过识别数据中的模式和规律，机器学习系统可以做出预测或决策。常见的应用包括图像识别、语音识别、推荐系统等。2.为什么使用鸢尾花数据集（Irisdataset）鸢尾花数据集是一个经典的多类分类问题数据集，由英国统计学家和遗传学家RonaldFisher在1936年引入。
Mybatisplus更新某个字段为null 辉夜姬想环游世界日常记录 java spring 开发语言
使用@TableField(updateStrategy=FieldStrategy.IGNORED)注解要更新的字段。@TableField注解是Mybatisplus框架中提供的一个注解，主要用于实体类（Entity）的字段上，帮助开发者更灵活地映射Java对象属性与数据库表字段之间的关系主要功能：1、字段映射：当实体类和数据库字段不一致时，可以是使用value属性指定数据库字段名@Table
关于防火墙运维面试题2 编织幻境的妖运维网络 php
三、防火墙配置与管理类21.如何根据企业的网络安全策略，制定一套全面的防火墙规则集？需要考虑哪些关键因素？以下是根据企业网络安全策略制定全面防火墙规则集的指导，以及需要考虑的关键因素：一、关键因素（一）网络架构与拓扑了解企业的网络结构明确企业网络是简单的星型拓扑、复杂的网状拓扑还是混合拓扑等。例如，在星型拓扑中，所有设备都连接到一个中心交换机或集线器，这种结构下防火墙规则可能相对集中和简单；而在网
python做一个注册界面_python如何做一个登录注册界面 weixin_39824033 python做一个注册界面
python做一个登录注册界面的方法：首先初始化一个window界面，并使用画布实现欢迎的logo；然后用代码实现登录和注册按钮；接着并进行登录判断代码；最后完成注册界面即可。【相关学习推荐：python视频教程】python做一个登录注册界面的方法：一、登录界面1、首先初始化一个window界面window=tk.Tk()window.title('WelcometoMofanPython')w
python读取zip包内文件_Python模块学习：zipfile zip文件操作 weixin_40001634 python读取zip包内文件
最近在写一个网络客户端下载程序，用于下载服务器上的数据。有些数据(如文本，office文档)如果直接传输的话，将会增加通信的数据量，使下载时间变长。服务器在传输这些数据之前先对其进行压缩，客户端接收到数据之后进行解压，这样可以减小网通传输数据的通信量，缩短下载的时间，从而增加客户体验。以前用C#做类似应用程序的时候，我会用SharpZipLib这个开源组件，现在用Python做类似的工作，只要使用
关于防火墙运维面试题编织幻境的妖运维 php 网络
一、防火墙基础概念类1.请详细阐述防火墙在网络安全体系中的具体作用及核心原理。以下是防火墙在网络安全体系中的具体作用及核心原理的详细阐述：防火墙在网络安全体系中的作用访问控制限制非法访问：防火墙可以根据预设的规则，允许或拒绝特定的网络流量通过。例如，企业内部网络可能只允许来自特定IP地址范围的员工访问敏感资源，而阻止其他未经授权的外部IP地址的访问，从而保护内部网络免受未经授权的访问和潜在的攻击。
改进YOLO系列 | YOLOv5/v7 引入 Dynamic Snake Convolution | 动态蛇形卷积 wei子 YOLO 目标跟踪人工智能
改进YOLO系列：动态蛇形卷积（DynamicSnakeConvolution，DSC）简介YOLO系列目标检测算法以其速度和精度著称，但对于细长目标例如血管、道路等，其性能仍有提升空间。动态蛇形卷积（DSC）是YOLOv5/v7中引入的一种改进，旨在更好地处理细长目标。DSC原理DSC的核心思想是使用类似蛇形运动的卷积核来提取细长目标的特征。具体来说，DSC卷积核沿着一系列控制点移动，并根据每个
python制作登陆窗口_python登陆界面 weixin_39758494 python制作登陆窗口
广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！print(账号密码错误！请重试。)returnfalsebutton(master,text=登陆,width=10,command=test).grid(row=3,column=0,sticky=w,padx=10,pady=5)button(master,text=退出,wid
hget和get redis_redis get hget 区别 weixin_39615257 hget和get redis
下标是从0开始的,接着上面例子redis>substrk08"hello,wor"redis>getk"hello,world"3.listredis的list类型其实就是一个每个子元素都......String–>SETNG“NewGrand”–>ok–>GETNG–“NewGrand”Redis常用命令?Hash–HSET–HGET–HEXISTS–HDEL应用场景:存储用户信息......5
如何使用零配置的Sphinx生成Python文档？潮易 sphinx 全文检索搜索引擎
如何使用零配置的Sphinx生成Python文档？在Python编程中，编写文档是非常重要的。一个好的文档可以帮助其他开发者理解和使用你的代码。Sphinx是一个用于生成Python项目的文档的静态网页生成器，它支持多种文档格式，包括ReStructuredText和Markdown。以下是使用零配置的方式来使用Sphinx生成Python文档的详细步骤：1.首先，确保你已经安装了Sphinx。打
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？潮易 python 开发语言
如何订阅&q；/扫描&q；主题、修改消息并发布到新主题？这个问题涉及到Python编程中的MQTT（MessageQueuingTelemetryTransport）库的使用，该库允许我们创建客户端订阅和发布消息到MQTT服务器。以下是一个简单的步骤：1.安装MQTT库：可以使用pip安装`paho-mqtt`库。```pythonpipinstallpaho-mqtt```2.创建一个MQTT客
Playwright 入门介绍和使用指南 IT鱼多多 Python基础 #Python接口测试框架 python 开发语言 Playwright
Playwright入门介绍,Playwright使用指南请参考另一篇博客此博客为Playwright官网：译文希望让读者可以快速了解Playwriht可以用来做什么，怎么用。有些专业名词可能翻译不准确哈文章目录1.入门1.1Installation安装1.1.1AddExampleTest添加示例测试1.1.2RunningtheExampleTest运行示例测试1.2WritingTests编
Ubuntu之12.04常用快捷键——记住这些你就是高手啦！码莎拉蒂 . Linux/Unix积累 ubuntu 快捷键
桌面ALT+F1:聚焦到桌面左侧任务导航栏，可按上下键导航。ALT+F2:运行命令ALT+F4:关闭窗口ALT+TAB:切换程序窗口ALT+空格:打开窗口菜单PRINT:桌面截图SUPER:打开Dash面板，可搜索或浏览项目，默认有个搜索框，按“下”方向键进入浏览区域（SUPER键指Win键或苹果电脑的command键）在Dash面板中按CTRL+TAB:切换到下一个子面板（可搜索不同类型项目，如
ubuntu终端常用快捷键 superyuanzhe linux linux
转自http://forum.ubuntu.org.cn/viewtopic.php?f=86&t=318908今天看到一个有关快捷键的帖子，觉得不错，粘过来大家看看:BashShell快捷键l：删除从光标到行尾的部分l：删除从光标到行首的部分l：删除从光标到当前单词结尾的部分l：删除从光标到当前单词开头的部分l：将光标移到行首l：将光标移到行尾l：将光标移到当前单词头部l：将光标移到当前单词尾部
Java平台上的多线程与多核处理研究向哆哆 Java入门到精通 java python 开发语言
Java平台上的多线程与多核处理研究在现代计算机架构中，多核处理器已成为主流。随着硬件性能的提升，如何有效利用多核处理器的计算能力成为开发者面临的重要问题之一。Java作为一种广泛使用的编程语言，提供了多线程编程的强大支持，使得开发者能够在多核环境下实现并行计算。本篇文章将深入探讨Java平台上的多线程与多核处理，探讨其工作原理、应用场景，并通过代码实例进行演示。1.多线程与多核处理的基本概念1.
Spring框架在Java企业级应用中的应用分析向哆哆 Java入门到精通 java spring 后端
Java在移动应用开发中的优势与挑战Java作为一门历史悠久且功能强大的编程语言，在移动应用开发中一直占据着重要地位，尤其是在安卓平台的应用开发上，Java是主要的开发语言。随着技术的发展，尤其是Kotlin的崛起，Java在移动应用中的角色发生了一些变化，但它依旧具有许多独特的优势，尤其是在企业级应用和维护现有项目中。本文将从多个角度探讨Java在移动应用开发中的优势与挑战，并提供相关的代码示例
c#编程：基于C#+Access的学生信息管理系统课程设计报告撰写提纲 gu20 C#c#课程设计开发语言数据库开发
1.摘要简述系统目标、技术选型（C#+Access）、核心功能及数据库设计亮点。关键词：学生信息管理系统；数据库原理；C#；Access；事务处理。2.引言背景与意义：信息化管理需求、数据库技术在教育领域的应用价值。设计目标：实现学生信息的高效管理，体现数据库规范化、安全性等原理。技术路线：C#（WinForm）、Access数据库、ADO.NET数据访问技术。3.需求分析3.1功能需求：1.学生
ROS turtlesim 无法通过键盘控制 turtle 移动狗头鹰 ubuntu linux
原因：当我们在singlemachine上进行试验时，如果出现了上述问题，除了指令输入错误、本地没该功能包，未选中turtle_teleop_key终端进行操作等简单原因外，还有可能是未正确设置环境变量ROS_MASTER_URI,ROS_HOSTNAMEsolutions：vim~/.basrhc打开文件.bashrc,在文件末尾加上exportROS_HOSTNAME=ubuntu.local
C++ C_style string overview and basic Input funcitons 狗头鹰 C++notes c++开发语言
writeinadvance最近在做题，遇到一个简单的将console的输入输出到文件中的简单题目，没有写出来。悔恨当初没有踏实地总结string相关的I/O以及与文件的操作。这篇文章旨在记录基础的字符I/O,简单常用的文件I/O操作函数。当然，你会说C++已经有一个stringclass，我们只需要#include就能够使用它带来的便捷性及强大的功能，无需烦恼细节。但知道底层的具体情况在语言的学
十大经典排序算法的C++实现与解析金外飞176 算法算法数据结构 c++
经典排序算法的C++实现与解析在计算机科学中，排序算法是数据处理和算法设计的基础。无论是处理大规模数据还是优化小规模数据的性能，排序算法都扮演着重要角色。本文将介绍10种经典排序算法，并提供它们的C++实现代码。这些算法包括冒泡排序、选择排序、插入排序、希尔排序、归并排序、快速排序、堆排序、计数排序、基数排序和桶排序。1.冒泡排序（BubbleSort）原理冒泡排序是最简单的排序算法之一。它通过重
Linux发展史：从个人项目到开源帝国的技术演进 ♢.＊人工智能大模型 Linux 操作系统
一、起源与诞生（1960s-1991）UNIX的奠基Linux的基因可追溯至1969年贝尔实验室的KenThompson与DennisRitchie。为运行《星际旅行》游戏，Thompson用BCPL语言开发了UNIX原型，后由Ritchie以C语言重构，成为首个可移植操作系统12。其“一切皆文件”的设计哲学深刻影响了后续系统架构1。MINIX的启发1987年，AndrewS.Tanenbaum开
Python-tkinter自制登录界面（含注册） GCHEK python 开发语言
简单的用户登录、注册界面importtkinterastkimporttimeimportsubprocessimportsysimportosimporttkinter.messageboxwindow=tk.Tk()window.title('GCHEK')window.geometry('400x300')#设置储存用户信息的容器，这里用的txt。ifnotos.path.exists('U
马斯克的Grok-3：技术突破与行业冲击的深度解析 ♢.＊马斯克人工智能大模型 xAI Grok 3
一、技术架构与核心突破超大规模算力集群Grok-3基于xAI自研的Colossus超级计算机训练完成，搭载20万块英伟达H100GPU，累计消耗2亿GPU小时，算力投入是前代Grok-2的10倍48。这一规模远超行业平均水平，例如中国团队DeepSeek-V3的算力消耗仅为Grok-3的1/2634。技术挑战：团队在122天内完成首期10万块GPU部署，克服了散热、电力供应等工程难题1。思维链推理
git删除已经commit但是未push的文件不知西向东 git git
git删除已经commit但是未push的文件已经2次了，没注意,将target文件夹直接就commit了，造成的是你本地仓库就会多出很多class文件来解决方法：打开项目所在目录的文件夹（就是,git文件夹所在的目录）然后打开git命令行(gitbashhere)输入gitlog会将你最近commit的id都输出出来撤销本次commit：gitresetidok,结束。并不会对你改动的代码进行撤
【干货】视频文件抽帧（opencv和ffmpeg方式对比） zkFun 超硬干货 Python opencv ffmpeg 人工智能
1废话不多说，直接上代码opencv方式importtimeimportsubprocessimportcv2,osfrommathimportceildefextract_frames_opencv(video_path,output_folder,frame_rate=1):"""使用OpenCV从视频中抽取每秒指定帧数的帧,并保存到指定文件夹。如果视频长度不是整数秒,则会在最后一帧时补充空白
idea error invoking main method （亲测有效）大葱蘸个酱 intellij-idea java ide
一、前言我的idea是IntelliJIDEA2021.3.2版本，前一天测试javagc回收，把idea的堆内存调成了28m和56m，导致今天idea无法启动，提示errorinvokingmainmethod二、解决方案把配置文件中的配置调整正常，问题解决-Xms128m最小堆内存-Xmx750m最大堆内存-Xms最小堆内存-Xmx最大堆内存其它问题导致的无法启动解决方案：管理员模式下面cmd
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs