Blue Protocol

MySQL中的Join连接查询

目录

- Join
- Join的分类
- 笛卡尔积
- - 笛卡尔积出现的原因
  - 为什么不推荐有笛卡尔积出现
  - 那应该怎么做多表连接
- Join的使用
- 小表驱动大表
- - 小表驱动大表是什么
  - 小表驱动大表的好处
  - 如何区分哪一个是驱动表和被驱动表
- Join原理及算法
- NLJ算法
- BNLJ算法
- 总结：如何写入高性能的连接查询
- 为什么MySQL不推荐使用Join
- 那有什么可以替代Join的方案

Join

首先我们先抛出一个问题，为什么要使用Join?
Join可以将我们数据库中的两张或者两张以上的表进行连接操作，并且使用Join做关联查询的好处是可以做分页。

Join的分类

Join的分类我们可以具体看下面这张图片。

具体分类说明看下文。

笛卡尔积

笛卡尔积是我们多表联合查询的时候会出现的一种现象。我们来举个例子来简单理解笛卡尔积。
假设集合A={a, b}有两个元素，集合B={0, 1, 2}有三个元素，则两个集合的笛卡尔积为
{(a, 0), (a, 1), (a, 2), (b, 0), (b, 1), (b, 2)}，有2*3为6个元素。

笛卡尔积出现的原因

如果数据库表关联查询时，只是纯粹的进行表连接没有使用其他条件，会出现全部的笛卡尔积。
数据库表关联查询，如果ON条件是非唯一字段，则会出现局部笛卡尔积。
数据库表关联查询，如果ON条件是表的唯一字段，则不会出现笛卡尔积。

为什么不推荐有笛卡尔积出现

笛卡尔积没有什么实践意义。在实际应用中，笛卡尔积本身大多没有什么实际用处，只有在两个表连接时加上限制条件，才会有实际意义。
多个大数据量的表产生的笛卡尔积表会占用很大的内存空间。

那应该怎么做多表连接

我们在进行表连接查询的时候一般都会使用JOIN xxx ON xxx的语法，ON语句的执行是在JOIN语句之前的，也就是说两张表数据行之间进行匹配的时候，会先判断数据行是否符合ON语句后面的条件，再决定是否JOIN。

（因此，有一个显而易见的SQL优化的方案是，当两张表的数据量比较大，又需要连接查询时，应该使用 FROM table1 JOIN table2 ON xxx的语法，避免使用 FROM table1,table2 WHERE xxx 的语法，因为后者会在内存中先生成一张数据量比较大的笛卡尔积表，增加了内存的开销。）

Join的使用

Join的分类

内联接（Inner Join）：内连接查询返回满足条件的所有记录，如果没有指定是left还是right 仅仅只有一个join也是inner join。
左联接（Left Join）：除了匹配2张表中相关联的记录外，还会匹配左表中剩余的记录，右表中未匹配到的字段用NULL表示。
右外联接（Right Join）：除了匹配2张表中相关联的记录外，还会匹配右表中剩余的记录，左表中未匹配到的字段用NULL表示。

小表驱动大表

说到连接，我们经常会听到的规则是小表驱动大表。

小表驱动大表是什么

小表驱动大表指的是用小数据集的来驱动大数据集。

小表驱动大表的好处

我们可以使用两个循环来理解小表驱动大表，例如：现有两个表A与B ，表A有200条数据，表B有20万条数据
小表驱动大表： A驱动表，B被驱动表

 for(200条){
     for(20万条){
       ...
     }
 }

大表驱动小表： B驱动表，A被驱动表

 for(20万){
      for(200条){
       ...
      }
 }

看以上两个for循环，总共循环的次数是一样的。但是对于MySQL数据库而言，并不是这样了，我们尽量选择第1个for循环，也就是小表驱动大表。
数据库连接的建立，第一个建立了200条次链接，第二个建立了20万次链接。假设链接了两次，每次做上百万次的数据集查询，查完就走，这样就只做了两次；相反建立了上百万次链接，申请链接释放反复重复，这样系统就受不了了。

综上，小表驱动大表的好处是

通过减少创建连接的次数，来加快查询速度。
驱动表索引没有生效，被驱动表索引有效。检索大表的时候可以使用索引，B+树查找时间复杂度是logn，所以小驱大大概的时间200log2000000，当然比2000000log200快很多

如何区分哪一个是驱动表和被驱动表

1）通过EXPLAIN查看SQL语句的执行计划可以判断在谁是驱动表，EXPLAIN语句分析出来的第一行的表即是驱动表 ;
2）在JOIN查询中经常用到的 inner join、left join、right join
（1）当使用left join时，左表是驱动表，右表是被驱动表 ;
（2）当使用right join时，右表时驱动表，左表是被驱动表 ;
（3）当使用inner join时，mysql会选择数据量比较小的表作为驱动表，大表作为被驱动表 ;

测试环境配置：MYSQL 5.7
数据准备：创建两张测试表 大表 user_big_info ，测试数据400万条, 小表user_small_info ,测试数据200万条 ;

CREATE TABLE `user_small_info` (
  `id` int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT 'ID',
  `user_id` varchar(32) NOT NULL COMMENT '用户唯一标识',
  `username` varchar(32) NOT NULL DEFAULT '' COMMENT '用户名',
  `password` varchar(255) NOT NULL DEFAULT '' COMMENT '密码',
  `real_name` varchar(32) NOT NULL DEFAULT '' COMMENT '真实姓名',
  `phone` varchar(32) NOT NULL DEFAULT '' COMMENT '手机号码',
  `remarks` varchar(255) NOT NULL DEFAULT '' COMMENT '备注',
  `status` tinyint(4) NOT NULL DEFAULT '1' COMMENT '状态 1-启用 2-禁用 ',
  `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (`id`),
  UNIQUE KEY `uniq_user_id` (`user_id`) USING BTREE,
  KEY `idx_username` (`username`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=3000001 DEFAULT CHARSET=utf8 COMMENT='用户表';

LEFT JOIN 测试：小表驱动大表

结果：

执行时间：18.141s ，由于使用左连接以小表为主表所以，返回行数:200万。
执行计划

LEFT JOIN 测试：大表驱动小表

执行时间：25.949s ，由于使用左连接以大表为主表所以，返回行数: 400万
执行计划

Join原理及算法

我们在进行表连接查询的时候一般都会使用JOIN xxx ON xxx的语法，ON语句的执行是在JOIN语句之前的，也就是说两张表数据行之间进行匹配的时候，会先判断数据行是否符合ON语句后面的条件，再决定是否JOIN,对参与 Join 操作的基表或视图进行过滤，之后再对两表进行 Join 操作，输出结果集。

对于三表或多表 Join，则都是可以拆分为两表 Join 的方式进行处理，最先参与 Join 操作的两个表的 Join 的结果集，以表的形式参与后续的 Join 操作。

NLJ算法

NLJ：Nested-Loop Join（嵌套循环算法）
执行过程：一次一行地从驱动表中读取行，在这行数据中取到关联字段，根据关联字段在被驱动表里取出满足条件的行，然后取出两张表的结果合集。

 EXPLAIN select * from t1 inner join t2 on t1.a= t2.a;

如果被驱动表中关联字段存在索引，整个过程会读取驱动表中所有的数据（比如100行），然后遍历每行数据中字段a的值，然后在遍历出来的a值索引扫描被驱动表中的对应行，一次找到一个，整个过程扫描了200行。

BNLJ算法

BNLJ：Block Nested-Loop Join（基于块的嵌套循环连接）
执行过程：把驱动表的数据全部读入join_buffer中，然后扫描被驱动表，把被驱动表的每一行取出来和join_buffer中的数据做对比，重复这个步骤。这个过程做了两次全表扫描ALL。

EXPLAIN select * from t1 inner join t2 on t1.b= t2.b;

整个过程对驱动表和被驱动表都做了一次全表扫描（比如t1=10000,t2=100），扫描总行数：10000+100=10100，并且join_buffer里面的数据是无序的，因此对被驱动表的每一行，都需要,100次判断，所以内存中的判断次数是10000*100=100w次。

问题1：join buffer一次性放不下t2表怎么办？
join_buffer 的大小是由参数 join_buffer_size 设定的，默认值是 256k。如果放不下表 t2 的所有数据话，策略很简单，就是分段放。
举栗子：比如 t2 表有1000行记录， join_buffer 一次只能放800行数据，那么执行过程就是先往 join_buffer 里放800行记录，然后从 t1 表里取数据跟 join_buffer 中数据对比得到部分结果，然后清空 join_buffer ，再放入 t2 表剩余200行记录，再次从 t1 表里取数据跟 join_buffer 中数据对比。所以就多扫了一次 t1 表。

问题2：被驱动表的关联字段没索引为什么要选择使用 BNL 算法而不使用 Nested-Loop Join 呢？

如果上面第二条sql使用 Nested-Loop Join，那么扫描行数为 100 * 10000 = 100万次，这个是磁盘扫描。很显然，用BNL磁盘扫描次数少很多，相比于磁盘扫描，BNL的内存计算会快得多。因此MySQL对于被驱动表的关联字段没索引的关联查询，一般都会使用 BNL 算法。如果有索引一般选择 NLJ 算法，有索引的情况下 NLJ 算法比 BNL算法性能更高。

总结：如何写入高性能的连接查询

连表的时候，我们需要去关注磁盘的IO。一般的操作是用小表驱动大表，注意在连接字段上建立索引，特别是被驱动表，这样MySQL内部使用的就是NLJ算法进行连接处理，能有效减少磁盘IO。如果连接条件有索引，MySQL内部会使用NLJ算法。如果没有索引，MySQL内部会使用BNLJ算法来基于内存计算，减少磁盘的IO扫描。

为什么MySQL不推荐使用Join

在阿里巴巴的开发规范中有明确规定超过三个表的情况下禁止使用join,即使是两表join时，也需要注意表的索引，SQL性能。

所以，不推荐使用Join的原因是性能原因。
当表的到达百万级数据量后，Join导致DB性能下降。
分布式的分库分表，不建议使用Join，跨库join表现不良。
当系统比较大时，如果要修改表的字段，单表查询的修改比较容易，Join写的SQL语句也需要修改，单不容易发现。

那有什么可以替代Join的方案

建议分别根据索引进行单表查询，单表查询出来之后，作为条件给下一次的单表查询。这样的结果我们更容易接受。

参考：
由笛卡尔积现象分析数据库表的连接
数据库开发应知应会之笛卡尔积
小表驱动大表
Mysql-表连接join中的NLJ、BNL算法

你可能感兴趣的:(MySQL,MySQL,连表查询,JOIN,笛卡尔积,Join算法)

Python与自动驾驶仿真平台AirSim：未来驾驶的“练兵场”如何用代码玩转现实？ Echo_Wish Python！实战！python 自动驾驶开发语言
Python与自动驾驶仿真平台AirSim：未来驾驶的“练兵场”如何用代码玩转现实？今天咱们聊聊一个非常火但又特别实用的技术方向——自动驾驶仿真。具体点，就是用Python怎么玩转微软出品的自动驾驶仿真平台AirSim。别看名字叫AirSim，实际上它不仅支持无人机，还对自动驾驶汽车的模拟提供了强大支持。自动驾驶不是科幻，背后需要海量数据、复杂算法和大量实车测试。而现实世界测试成本高、风险大，怎么
.net密码加密解密AES 步、步、为营网络服务器运维 .net
.NET中使用AES进行密码加密解密技术解析在当今数字化的时代，数据安全至关重要。密码作为保护个人和敏感信息的第一道防线，其加密和解密的安全性显得尤为重要。AES（AdvancedEncryptionStandard）作为一种广泛使用的对称加密算法，在.NET中也有着很好的支持。本文将深入探讨在.NET中如何使用AES算法进行密码的加密和解密。什么是AES算法AES，即高级加密标准，它是美国联邦政
【随机数真的是随机数吗？】￥-oriented 其他
在计算机科学中，随机数是一个非常有趣且复杂的话题。我们常常在各种应用程序中看到随机数的应用，比如游戏、加密、统计模拟等。然而，许多人可能并不清楚计算机生成的随机数到底有多“随机”。本文将详细解释程序中的随机数，探讨其生成机制以及不同类型的随机数。伪随机数与真随机数首先，我们需要明确两个关键概念：伪随机数和真随机数。伪随机数（PseudorandomNumbers）：伪随机数是由计算机算法生成的数字
强化学习【chapter0】-学习路线图明朝百晓生算法人工智能机器学习
前言：主要总结一下西湖大学赵老师的课程【强化学习的数学原理】课程：从零开始到透彻理解（完结）_哔哩哔哩_bilibili1️⃣基础阶段（Ch1-Ch7）：掌握表格型算法，理解TD误差与贝尔曼方程2️⃣进阶阶段（Ch8-Ch9）：动手实现DQN/策略梯度，熟悉PyTorch/TensorFlow3️⃣前沿阶段（Ch10：阅读论文（OpenAISpinningUp/RLlib文档）Chapter1：基
力扣1590. 使数组和能被 P 整除
这一题的难点在于模运算，对模运算足够了解，对式子进行变换就很容易得到结果，本质上还是一道前缀和+哈希表的题这里重点讲一下模运算。常见的模运算的用法(a-b)%k==0等价于a%k=b%k而在这一题中由于多了一个len，（数组的总和）即len-(sum[j]-sum[i])%p=0len%p=(sum[j]-sum[i])%p因为两边都是%p所以可以把%p提出来，对等式进行移项(sum[j]-len
LeetCode 热题 100 - 贪心算法 - 买卖股票的最佳时机 - javascript Jxxli LeetCode hot100 leetcode 算法贪心算法 javascript
题目给定一个数组prices，它的第i个元素prices[i]表示一支给定股票第i天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获取的最大利润。返回你可以从这笔交易中获取的最大利润。如果你不能获取任何利润，返回0。示例1：输入：[7,1,5,3,6,4]输出：5解释：在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，
MySQL server version for the right syntax to use near '' KENYCHEN奉孝
1.配置不对，一直提示''com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException:YouhaveanerrorinyourSQLsyntax;checkthemanualthatcorrespondstoyourMySQLserverversionfortherightsyntaxtousenear''atline1atsun.refle
【算法系列】买卖股票的最佳时机【JS代码】 DTcode7 算法系列 #前端基础入门三大核心之JS 算法 javascript 最佳时机
【算法系列】买卖股票的最佳时机【JS代码】问题描述基本概念和作用说明解决方案暴力解法一次遍历法代码示例总结与讨论在前端开发中，虽然我们主要关注的是构建用户界面和交互逻辑，但掌握一些基本的算法和数据结构知识也是非常有用的。今天，我们就来探讨一个经典的问题：“买卖股票的最佳时机”。这个问题看似与前端开发无关，但实际上，它背后的算法思想对于优化我们的程序和解决问题有着极大的帮助。问题描述假设你有一个数组
买卖股票的最佳时机--js 算法 stoneSkySpace 算法 javascript 数据结构
一、买卖股票的最佳时机给定一个数组prices，它的第i个元素prices[i]表示一支给定股票第i天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获取的最大利润。返回你可以从这笔交易中获取的最大利润。如果你不能获取任何利润，返回0；贪心算法：每次发现更低价格立即更新买入点（minPrice）每次发现更高利润立即更新卖出收益（maxProf
Redis 地理空间索引实践 Hello.Reader 人工智能缓存技术数据库 redis 数据库缓存
一、地理空间索引概览Redis支持两种地理空间索引类型：GEO：对单个地理坐标点（经度、纬度）建立索引，适合“查找半径内的点”场景。GEOSHAPE：通过WKT（Well-KnownText）格式定义点、线、面等几何体，支持更丰富的空间关系查询（如包含、相交、相离等）。二、GEO索引2.1创建GEO索引假设你的JSON文档中有一字段location，存放"lon,lat"格式的字符串，使用以下命令
熟练掌握RabbitMQ和Kafka的使用及相关应用场景。异步通知与解耦，流量削峰，配合本地消息表实现事务的最终一致性并解决消息可靠、顺序消费和错误重试等问题老三牛擦 skywalking
RabbitMQstock.#.nyse，#匹配多个字符，*匹配一个字符。ConfirmCallback到达exchange的回调。ReturnCallback到达queue失败的回调。KafkaKafka生产端分区器：1.直接指定partition指定0,1。2.设置hashkey，计算key的hash值进行取模分区。3.不设置分区键，采用粘性发送，即往某个分区发送至batchSize16K大小
Android Telephony 网络状态中的 NAS 信息 Dic- #Android Telephony #计算机网络网络通信 Telephony 自学笔记 Android 计算机网络移动网络非接入层
引言上层如何拿到NAS信息？那么首先要知道什么是NAS。领域知识术语表通信网络术语英文缩写英文全称中文含义NASNon-AccessStratum非接入层RRCRadioResourceControl无线资源控制层PDCPPacketDataConvergenceProtocol分组数据汇聚协议层RLCRadioLinkControl无线链路控制层MACMediumAccessControl媒体接
RediSearch 字段类型与配置选项 Hello.Reader 缓存技术人工智能数据库 redis lua 数据库缓存
1.数值字段（NUMERIC）用途：存储整数或浮点数，可进行范围查询与排序。选项：SORTABLE：允许用SORTBY排序NOINDEX：不参与索引，仅供返回定义语法FT.CREATEidxONHASHPREFIX1prod:SCHEMApriceNUMERIC[SORTABLE][NOINDEX]查询示例#查找price在200到300之间的文档FT.SEARCHidx"@price:[2003
精准定义 RediSearch 索引 Schema Hello.Reader 数据库缓存技术人工智能 django python 后端
一、Schema基础概念索引（Index）：对Redis中的Hash或JSON文档进行反向索引，以支持全文、标签、数值、地理、向量等多种查询模式。Schema：定义索引结构，包括哪些字段（fields/attributes）、字段类型、是否可排序、权重（relevanceweight）、过滤条件等。在执行FT.CREATE时，必须指定：数据类型：ONHASH或ONJSONKey前缀（可选）：PRE
使用numpy或pytorch校验两个张量是否相等
文章目录1、numpy2、pytorch做算法过程中，如果涉及到模型落地，那必然会将原始的深度学习的框架训练好的模型转换成目标硬件模型的格式，如onnx,tensorrt,openvino,tflite;那么就有对比不同格式模型输出的一致性，从而判断模型转换是否成功。1、numpy用到的核心代码就一行，就是：importnumpyasnpnp.testing.assert_allclose(act
Excel高效转Json工具类详解你一身傲骨怎能输游戏工具链 excel json
文章摘要该工具类提供Excel到Json的转换功能，主要包含：ExcelToJsonToolEditor：核心编辑器类，处理Excel批量/单表转换、文件路径操作类型定义：TypeValue存储字段信息，JsonKeyType标识键类型转换流程：读取Excel→生成Json→自动创建对应C#配置类代码扩展性：支持指定表转换、错误处理、代码模板化生成关键方法：DoXlsxToJson处理单表转换，G
游戏配置表导出工具深度解析你一身傲骨怎能输游戏工具链游戏
文章摘要TableExportTool是一个用于表格数据导出的工具，主要包含表格读取、数据解析、导出和代码生成四大模块。它支持读取Excel/CSV文件，解析字段和类型后转换为JSON、二进制、Lua等多种格式，并自动生成C#、Lua等数据结构代码。工具还提供Unity集成功能，支持一键导出、Asset生成和热更新。核心流程包括读取表头、类型校验、数据组装和导出，通过NPOI/EPPlus实现表格
大数据面试题之Hive(1) 小的~~ 大数据大数据 hive hadoop
说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?说下Hive是什么?跟数据仓库区别?Hive架构Hive内部表和外部表的区别?为什么内部表的删除，就会将数据全部删除，而外部表只删除表结构?为什么用外部表更好?Hive建表语句?创建表时使用什么分隔符?Hive删除语句外部表删除的是什么?Hive数据倾斜以及解决方案Hive如果不用参数调优，在map和reduce端应该做什么Hive
CppCon 2018 学习:A Little Order! Delving into the STL sorting algorithms 虾球xz CppCon 学习 c++排序算法
记录一下一个编译器加密的算法#include#include#include#include#include#include#includenamespacedetail{//编译期伪随机key：每个字符对应不同keytemplateconstexprstd::uint8_tkey8(){returnstatic_cast((N*31+57)^0xAA);}}//namespacedetail//
数据仓库之星型模型 james二次元数据仓库大数据数据仓库
星型模型（StarSchema）是一种常见的数据仓库建模技术，专门用于支持高效的查询和数据分析。它以其简单直观的结构得名，中心是一个事实表（FactTable），周围是多个维度表（DimensionTables），整体结构看起来像一颗星。星型模型的组成部分事实表（FactTable）定义：存储与业务过程相关的数值型度量数据（Measures），如销售额、数量等。特征：主键：由多个外键组成，这些外键
JS实现函数重载数字浪儿 javascript javascript 前端开发语言
仅支持数字和字符串，其他类型的可根据封装的方法思路自行封装createOverLoad=()=>{constfnMap=newMap();overLoad=(...args)=>{constkey=args.map((it)=>typeofit).join(',');constfn=fnMap.get(key);if(!fn){thrownewTypeError('没有找到对应的实现');}ret
使用c++编写一段人脸识别眨眼检测的代码语嫣凝冰 c++opencv 计算机视觉图像处理开发语言
我可以给你一些大致的步骤：使用摄像头或图像文件获取视频帧。使用人脸检测算法检测视频帧中的人脸。对检测到的人脸进行眼睛检测。判断眼睛是否闭合，如果是则认为该人在眨眼。以下是一段使用OpenCV库编写的C代码示例：```#include#include#include#includeusingnamespacestd;usingnamespacecv;intmain(){//使用摄像头获取视频帧Vid
[ 渗透测试面试篇 ] 渗透测试面试题大集合(详解)（4-2）XSS注入相关面试题寒蝉听雨[原ID_PowerShell] 面试总结渗透测试自学篇渗透测试面试分享渗透测试升职加薪网络安全 XSS注入面试题网络安全面试题 1024程序员节
博主介绍‍博主介绍：大家好，我是_PowerShell，很高兴认识大家~✨主攻领域：【渗透领域】【数据通信】【通讯安全】【web安全】【面试分析】点赞➕评论➕收藏==养成习惯（一键三连）欢迎关注一起学习一起讨论⭐️一起进步文末有彩蛋作者水平有限，欢迎各位大佬指点，相互学习进步！渗透方向的岗位，涉及到的知识点是很广泛的。这里我总结了整个一系列的面试题，可能没有覆盖到全部的知识面，但是应该是比较全面的
易语言数据分析小实例：数人头。用到：易数据库好开心啊没烦恼易语言数据分析数据库数据挖掘开发语言
目录（不如Python方便，已弃用易语言，但以“易语言”为工具的朋友可作参考。已测试通过。）------0需求1直接操作Excel表2易语言实现2.1导库2.2处理小插曲3欢迎纠错4论文写作/Python学习智能体------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内
基于MCP架构的ChatBI：破解数据分析难题，让智能对话赋能商业决策码力金矿 MCP 人工智能 python 架构数据分析数据挖掘数据库 sql oceanbase 人工智能
在数据驱动的时代，传统BI工具操作复杂、效率低下，而ChatBI（对话式商业智能）的兴起为企业带来了新希望。本文将深入探讨一种基于MCP（ModelContextProtocol，模型上下文协议）架构的ChatBI解决方案，通过创新设计解决数据准确性、多指标查询及自动化分析等核心痛点。文章以技术拆解+实战案例的形式呈现，帮助您快速理解其原理与价值，助力企业高效实现智能数据分析。关键词：MCP、Ch
欧盟AI法案、中国《生成式AI管理办法》规范数据隐私与算法歧视 DK_Allen 大模型人工智能算法
一、全球AI治理框架：双轨并行1.欧盟《AI法案》（2025全面生效）风险等级监管要求典型场景不可接受风险全面禁止社会评分系统、实时生物识别（公共场所）高风险强制注册+第三方评估+人工监督医疗诊断、关键基础设施管理有限风险透明度披露（AI生成内容标注）聊天机器人、深度伪造最小风险无限制垃圾邮件过滤、游戏AI处罚机制：最高罚金≈全球营收6%（或3000万欧元，取较高者）典型判例：ClearviewA
数据库领域数据仓库的星型模型与雪花模型对比数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库数据仓库 ai
数据库领域数据仓库的星型模型与雪花模型对比关键词：数据仓库、星型模型、雪花模型、数据建模、对比分析摘要：本文深入探讨了数据库领域数据仓库中的星型模型与雪花模型。首先介绍了数据仓库建模的背景知识，包括目的、预期读者和文档结构等。接着详细阐述了星型模型和雪花模型的核心概念、联系以及各自的架构特点，并通过Mermaid流程图进行直观展示。然后对两种模型的核心算法原理展开分析，结合Python源代码进行说
【Python爬虫实战】全面抓取网页资源（图片、JS、CSS等）——超详细教程与源码解析 Python爬虫项目 python 爬虫 javascript 新浪微博开发语言 css 旅游
前言在互联网时代，网页数据已经成为重要的信息来源。许多时候，我们不仅需要抓取网页中的文字信息，还需要将网页中的各种资源文件（如图片、CSS样式表、JavaScript脚本文件等）一起抓取并保存下来。这种需求广泛应用于网页备份、离线浏览、数据分析等场景。本篇文章将带你从零开始，系统讲解如何使用Python最新技术，一步步实现抓取网页中所有静态资源的完整流程，包括：页面结构分析爬虫基本架构搭建异步爬取
西南交通大学【机器学习实验1】
实验目的理解和掌握回归问题和分类问题模型评估方法，学会使用均方误差、最大绝对误差、均方根误差指标评估回归模型，学会使用错误率、精度、查全率、查准率、F1指标评价分类模型。实验内容给定回归问题的真实标签和多个算法的预测结果，编程实现MSE、MAE、RMSE三种评测指标，对模型进行对比分析。给定二分类问题真实标签和多个算法的预测结果，编程实现混淆矩阵评测，采用错误率、精度、查全率、查准率、F1指标对结
AWS WebRTC: 判断viewer端拉流是否稳定的算法 Jasper张 AWS WebRTC webrtc aws 服务器 linux
在使用sdk-cviewer端进行拉流的过程中，viewer端拉取的是视频帧和音频帧，不会在播放器中播放，所以要根据收到的流来判断拉流过程是否稳定流畅。我这边采用的算法是：依据相邻帧之间的时间间隔是否落在期望值的±20%范围内。音频帧、视频帧的日志打印如下：07:19:26.263VERBOSEsampleAudioFrameHandler():AudioFramereceived.TrackId
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他