iven2166

007数据分析能力：SQL

SQL

理论及函数之间比较

如何优化查询避免数据倾斜等问题

详细的查询数

文章目录

1 函数、之间比较

建表

auto-increment
foreign-key
删除
顺序
正则表达式：REGEXP

isnull(variable_name, replace_value)
decode赋值（结合sign等函数）
exists & in, not exists & not in
group_concat(var_sub separator ',')
substr(var_string, start, end)
having & where
union & union all
窗口函数：row_number & rank

2 如何优化

大表并大表
个别函数的使用
数据倾斜
s

3 其他（比如面试题里面sql的难点）

你觉得的mysql中的难点
hadoop原理和mapreduce原理
SQL的数据类型

4. 详细查询示例

更新
条件判断
写出中位数、众数
手动写出row_number：
次日留存率
查询连续几天登录的用户
查询过去一个月的最高付款量是哪几天
随机抽取用户，按照年龄段分层抽样
查询30天内连续访问7天以上的用户数量
表user_id,visit_date,page_name,plat 统计近7天每天到访的新用户数，统计每个访问渠道plat7天前的新用户的3日留存率和7日留存率

1 函数、之间比较

建表

auto-increment

用于 MySQL 的语法
下列 SQL 语句把 “Persons” 表中的 “P_Id” 列定义为 auto-increment 主键：

CREATE TABLE Persons
(
P_Id int NOT NULL AUTO_INCREMENT,
LastName varchar(255) NOT NULL,
FirstName varchar(255),
Address varchar(255),
City varchar(255),
PRIMARY KEY (P_Id)
)

foreign-key

订单表格的客户id = 客户表格的客户id

CREATE TABLE Orders
(
Id_O int NOT NULL,
OrderNo int NOT NULL,
Id_P int,
PRIMARY KEY (Id_O),
FOREIGN KEY (Id_P) REFERENCES Persons(Id_P)
);

删除

mysql中删除表记录delete from和truncate table的用法区别:
MySQL中有两种删除表中记录的方法:
(1)delete from语句，
(2)truncate table语句。

delete from语句可以使用where对要删除的记录进行选择。delete语句更灵活。
truncate table将删除表中的所有记录。

情况一：清空表中的所有记录，可以使用下面的两种方法：
delete from tablename
truncate table tablename
其中第二条记录中的table是可选的。

情况二：删除表中的部分记录，只能使用delete语句。
delete FROM table1 WHERE ;

顺序

书写顺序
1. select top
2. from table
3. join table_B on ...
4. join table_C on...
5. where
6. group by var1
7. having ...
8. order by ...

参考

执行顺序
1. from 
2. join
3. on
4. where
5. group by 
6. having
7. select 
8. distinct
9. order by

正则表达式：REGEXP

正则表达式参考1
案例：匹配手机号码

select phone_num from table where REGEXP_LIKE(phone_num, '^[1]{1}[35678]{1}[0-9]{9}$'); # 可替代为[[:digit:]]{9}

^、$：代表字符开始与结束
{n}：字符数字出现n次

isnull(variable_name, replace_value)

比如在计算全部产品总价格时，订单单价乘订单数+库存数，需要注意可能存在空值，要替换为0.

SELECT ProductName,UnitPrice*(UnitsInStock+IFNULL(UnitsOnOrder,0))
FROM Products

decode赋值（结合sign等函数）

现定义一table名为output，其中定义两个column分别为monthid（var型）和sale（number型），若sale值=1000时翻译为D，=2000时翻译为C，=3000时翻译为B，=4000时翻译为A，如是其他值则翻译为Other：

Select monthid , decode (sale,1000,'D',2000,'C',3000,'B',4000,'A',’Other’) sale from output;

sign()函数根据某个值是0、正数还是负数，分别返回0、1、-1，
用如下的SQL语句取较小值：

select monthid,decode(sign(sale-6000),-1,sale,6000) from output;

exists & in, not exists & not in

in是把外表和内表作hash连接，而exists是对外表作loop循环，每次loop循环再对内表进行查询，一直以来认为exists比in效率高的说法是不准确的。如果查询的两个表大小相当，那么用in和exists差别不大。如果两个表中一个较小一个较大，则子查询表大的用exists，子查询表小的用in。

例题：使用含有关键字exists查找未分配具体部门的员工的所有信息。

select * from employees as e
where not exists (select emp_no from dept_emp where emp_no = e.emp_no);

group_concat(var_sub separator ‘,’)

返回每个部门下面的员工，用逗号

select dept_no,group_concat(emp_no SEPARATOR ',') from dept_emp group by dept_no;

substr(var_string, start, end)

如果是从后往前，则为单参数 substr(var_string, -3)，倒数三个

having & where

相同点：

都是对数据进行过滤，只保留符合条件的有效数据

不同点：

having是从前面筛选的字段里再筛选，where是从数据表中的字段直接筛选的
where是不能用字段的别名，having可以（由于where是直接筛选的，所以别名是不能用的，比如下面的where avg(price)是不合法的）

select id, avg(price) as ag from goods **where ag > 100** group by goods_category; # 不合法

类型的区别
where是一个约束声明（E.G. 比如数据库的分区字段），在查询的结果返回之前对查询条件进行约束，并且后面不能写“聚合函数”。

having是一个过滤声明，在查询的结果返回之后对查询条件进行约束，并且后面可以写“聚合函数”。

聚合函数：sum, min, max, avg, count

在from后面的执行顺序：可以协助判断是否先约束还是后过滤（where先进行条件的约束，之后再进行聚合函数的计算，得到结果返回之后用having进行筛选）：where > 聚合函数 > having

union & union all

UNION和UNION ALL关键字都是将两个结果集合并为一个，但这两者从使用和效率上来说都有所不同。
对重复结果的处理：UNION在进行表链接后会筛选掉重复的记录，Union All不会去除重复记录。
对排序的处理：Union将会按照字段的顺序进行排序；UNION ALL只是简单的将两个结果合并后就返回。
从效率上说，UNION ALL 要比UNION快很多，所以，如果可以确认合并的两个结果集中不包含重复数据且不需要排序时的话，那么就使用UNION ALL

窗口函数：row_number & rank

用法是一样的，都是在函数之后接上 over (已排序的字段)
row_number是对每一行数据进行序号标记（无重复），而rank是对每一行进行序号标记但是允许同个水平是同一个序号（有重复）。

select row_number() over(order by var_x desc) as row_num, * from table;

2 如何优化

参考1
参考2

大表并大表

PV表a(表结构为user_id,goods_id),点击表b(user_id,goods_id),数据量各为50万条，在防止数据倾斜的情况下，写一句sql找出两个表共同的user_id和相应的goods_id

个别函数的使用

where：尽量少对null进行筛选，不然会放弃索引而全表扫描，应该将null设置为0，再用where取0
where：避免使用!= 或者<>，否则会全表扫描
where：不要在 = 的左边进行运算，比如select xxx from table where Y/2=100;
用in或者not in：尽量用between等去代替

数据倾斜

数据倾斜描述的是Map-Reduce中，由于存在空值 key 的分布严重不均匀，导致的很多数据交给了一个reduce，而剩下的少部分到了不同的reduce处理。所以在reduce方面可能卡在了99%

原因：

join两个大表，存在大量的null值，这些都在一个reduce里面处理
函数 distinct 处理大表，遇到较多的特殊值
group by的维度过小，某些reducer处理速度较慢
合并的表格的字段，存在着不同的类型——int或者字符，hash会自动地将int作为若干个group，而字符汇成一个group

s

如何调优：

join 操作中，使用 map join 在 map 端就先进行 join
让小表 join 大表，使得小表先进内存
大表 join 大表的过程中，把空值的 key 用随机数附在字符串后面，把倾斜的数据分到不同的reducer上。
在用count distinct 的过程中，用group by 来代替

3 其他（比如面试题里面sql的难点）

你觉得的mysql中的难点

hadoop原理和mapreduce原理

1）Hadoop原理：采用HDFS(Hadoop Distributed File System)分布式存储文件，MapReduce分解计算，其它先略
2）MapReduce原理：

a. map阶段：读取HDFS中的文件，解析成的形式，并对进行分区（默认一个区），将相同k的value放在一个集合中
b. reduce阶段：将map的输出copy到不同的reduce节点上，节点对map的输出进行合并、排序

————————————————
版权声明：本文为CSDN博主「稻蛙」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/u013382288/article/details/80450360

SQL的数据类型

1）字符串：char、varchar、text
2）二进制串：binary、varbinary
3）布尔类型：boolean
4）数值类型：integer、smallint、bigint、decimal、numeric、float、real、double
5）时间类型：date、time、timestamp、interval

4. 详细查询示例

更新

有两个表A 和B ，均有key 和value 两个字段，如果B 的key 在A 中也有，就把B 的value 换为A 中对应的value
这道题的SQL 语句怎么写？

update b set b.value=(select a.value from a where a.key=b.key)
where b.id in(select b.id from b,a where b.key=a.key);

条件判断

(case var_0 when 1 then var_1 * 0.1 
				  when 2 then var_1 * 0.2
				  else var_1 * 0.3 end) as var_3

下面的例子是，btype表示奖金类型，如果是1，则奖金为工资乘以10%，是2，则奖金为工资乘以20%，以此类推到else，最后再接上end。

SELECT e.emp_no, e.first_name, e.last_name, b.btype, s.salary, 
(CASE b.btype 
 WHEN 1 THEN s.salary * 0.1
 WHEN 2 THEN s.salary * 0.2
 ELSE s.salary * 0.3 END) AS bonus
FROM employees AS e INNER JOIN emp_bonus AS b ON e.emp_no = b.emp_no
INNER JOIN salaries AS s ON e.emp_no = s.emp_no AND s.to_date = '9999-01-01'

写出中位数、众数

中位数

--没有考虑偶数的情况
set @mm = (select count(*)/2 from table);
select var_1 from table order by var_1 limit @mm, 1;

--考虑偶数的情况
set @i = -1;
select avg(t.var_1) from 
(select @i := @i + 1 as ii, var_1 from table order by var_1) as t
where t.ii in (floor(@i/2), ceiling(@i/2));

众数

select var_2, count(*) as cnt from table
group by var_2
having count(*) >= 
select max(cnt) from (select count(*) as cnt from table group by var_2);

升级版中位数
三个班级合在一起的一张成绩单，统计每个班级成绩中位数
解：设表table中字段为id，class，score

select t1.class, avg(distinct t1.score) as median
from table t1, table t2 on t1.id = t2.id
group by t1.class, t1.score
having sum(case when t1.score >= t2.score then 1else 0 end) >=
(select count(*)/2 from table where table.class = t1.class)
and
having sum(case when t1.score <= t2.score then 1else 0 end) >=
(select count(*)/2 from table where table.class = t1.class);

手动写出row_number：

SET @row_number = 0; 
SELECT (@row_number:=@row_number + 1) AS num FROM table;

次日留存率

字段及表说明：
表名：user_log
字段名：
log_day:登录日期
device_id:用户设备id
app_id:用户app的id，其中device_id和app_id确定唯一的用户

连字符：var1 || var2

select log_day, count(user_day1) / count(user_day0) as retention1
count(user_day3)/count(user_day0) as retention3
from (
	select a.log_day, a.user_day0, b.device_id || b.app_id user_day1, 
	c.device_id || c.app_id user_day3 from 
		(select log_day, device_id || app_id user_day0 from user_log tmp1 
		where device_id || app_id not in (select distinct device_id || app_id from user_log tmp2 having tmp2.log_day < tmp1.log_day)) a
		left join user_log b on a.log_day=(b.log_day - 1) and a.user_day0=b.(device_id || app_id)
		left join user_log c on a.log_day=(c.log_day - 3) and a.user_day0=c.(device_id || app_id)
)
group by log_day;

查询连续几天登录的用户

思路：如果是三天连续登录，首先把每一个用户单独判断，用到group by，并且在每个用户里进行日期的排序，row_number() over partition (order by )，或者使用datediff得到每天与最小一天的差形成新的一列。

join三个相同的表，我们查询的是第一个表，但是第一个表的日期的排序号码，可能在三天内的第一位，或者第二位，或者第三位，然后有
(s1.dayi = s2.dayi - 1 and s2.dayi = s3.dayi - 1) or
(s2.dayi = s1.dayi - 1 and s1.dayi = s3.dayi - 1) or
(s2.dayi = s3.dayi - 1 and s3.dayi = s1.dayi - 1)

查询过去一个月的最高付款量是哪几天

交易表结构为user_id,order_id,pay_time,order_amount
写sql查询过去一个月付款用户量（提示用户量需去重）最高的3天分别是哪几天
写sql查询做昨天每个用户最后付款的订单ID及金额

1）select count(distinct user_id) as c from table group by month(pay_time) order by c desc limit 3
2）select order_id, order_amount from ((select user_id, max(pay_time) as mt from table group by user_id where DATEDIFF(pay_time, NOW()) = -1 as t1) left join table as t2 where t1.user_id = t2.user_id and t1.mt == t2.pay_time)
————————————————
版权声明：本文为CSDN博主「稻蛙」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/u013382288/article/details/80450360

随机抽取用户，按照年龄段分层抽样

表结构为user_id,reg_time,age, 写一句sql按user_id随机抽样2000个用户写一句sql取出按各年龄段（每10岁一个分段，如（0,10））分别抽样1%的用户
1）随机抽样2000个用户
select * from table order by rand() limit 2000

2）取出各年龄段抽样1%的用户
set @target = 0
set @count_user = 0
select @target:=@target+10 as age_right, *
from table as t1
where t1.age >=@target-10 and t1.age < (@target)
and t1.id in
(select floor(count(*)*0.1） from table as t2
where t1.age >=@target-10 and t1.age < (@target)
order by rand() limit ??)

查询30天内连续访问7天以上的用户数量

用户登录日志表为user_id,log_id,session_id,plat,visit_date 用sql查询近30天每天平均登录用户数量用sql查询出近30天连续访问7天以上的用户数量

1）近三十天每天平均登录用户数量

select visit_date, count(distinct user_id)

group by visit_date

2）近30天连续访问7天以上的用户数量

select t1.date

from table t1, table t2, …, table t7

on t1.visit_date = (t2.visit_date+1) and t2.visit_date = (t3.visit_date+1)

and … and t6.visit_date = (t7.visit_date+1）

表user_id,visit_date,page_name,plat 统计近7天每天到访的新用户数，统计每个访问渠道plat7天前的新用户的3日留存率和7日留存率

1）近7天每天到访的新用户数

select day(visit_date), count(distinct user_id)

from table

where user_id not in

(select user_id from table

where day(visit_date) < date_sub(visit_date, interval 7day))

2）每个渠道7天前用户的3日留存和7日留存

三日留存
先计算每个平台7日前的新用户数量

select t1.plat, t1.c/t2.c as retention_3

(select plat, count(distinct user_id)

from table

group by plat, user_id

having day(min(visit_date)) = date_sub(now(), interval 7 day)) as t1

left join

(select plat, count(distinct user_id) as c

from table

group by user_id having count(user_id) > 0

having day(min(visit_date)) = date_sub(now(), interval 7 day)

and day(max(visit_date)) > date_sub(now(), interval 7 day)

and day(max(visit_date)) <= date_sub(now(), interval 4day)) as t2

on t1.plat = t2.plat

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
python读写CSV文件 bcbobo21cn .Net python 开发语言机器学习 CSV
做数据分析，有时候要分析的数据在CSV文件里；先看一下python读写CSV文件；importpandasaspddf=pd.read_csv('test1.csv')print(df)print('')print(df.head(2))companyname=["A1","B2","E3","F4"]legperson=["lier","yanqi","wangwu","zhangsan"]le
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
数据库常见笔试面试题及其解析 yxsr_zxx 数据库数据库 SqlServer Oracle 笔试面试
数据库基础(面试常见题)一、数据库基础1.数据抽象：物理抽象、概念抽象、视图级抽象,内模式、模式、外模式2.SQL语言包括数据定义、数据操纵(DataManipulation),数据控制(DataControl)数据定义：CreateTable,AlterTable,DropTable,Craete/DropIndex等数据操纵：Select,insert,update,delete,数据控制：g
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
python数据分析知识点大全编程零零七 python数据分析 python 开发语言 python数据分析数据分析知识点大全 python数据分析知识点 python教程 python基础
Python数据分析知识点大全可以归纳为以下几个主要方面：一、基础概念与目的数据分析定义：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。其目的在于从数据中挖掘规律、验证猜想、进行预测。Python在数据分析中的优势：Python因其易学性、快速开发、丰富的扩展库（如NumPy、Pandas等）和成熟的框架，成为数据分析领域的
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
OmicsTools除b站教学视频外已整理的零代码生信全流程分析文档邢博士谈科教医学科研生信分析 r语言数据可视化数据挖掘数据分析生信医学生信分析
OmicsTools软件介绍和下载安装配置软件简介我开发了一款本地电脑无限使用的零代码生信数据分析作软图神器电脑软件OmicsTools，欢迎大家使用OmicsTools进行生物医学科研数据分析和作图，该软件件能让大家在不需要任何编程和代码编写的基础上，分析次数没有限制，可以无限使用，让您在自己电脑上快速进行大量的生信分析和加速大家的科研。OmicsTools生信分析电脑软件可以做医学生物生信各个
【数据分析】利用Python+AI+工作流实现自动化数据分析-全流程讲解 z千鑫 AI领域 FLASK基础 Python基础人工智能数据分析 python AI编程 AI工作流 ai 自动化
文章目录一、为什么要用AI进行自动化分析？二、AI自动化分析场景三、编写Python脚本示例1、用flask实现让AI分析数据内容使用说明：示例2、用定时任务的方式，定时处理AI数据代码说明四、把AI分析的数据，放到AI工作流中做展示五、openAI的key结尾在信息爆炸的时代，如何快速获取有价值的洞察力成为了各行各业的迫切需求。传统的内容分析方法往往又耗时又费力，并且难以满足快速变化的市场需求。
Mall4j商城实战 - 部署 canal 数据库增量日志解析 yueerba126 Mall4j商城实战数据库 spring cloud 微服务架构
Canal简介Canal是基于MySQL数据库增量日志解析的工具，主要用于增量数据的订阅和消费。Canal主要用途基于MySQL数据库增量日志解析详细功能：实时解析MySQL的二进制日志（Binlog）。捕获数据库中的所有增量变更，如插入、更新和删除操作。使用场景：适用于实时监控数据库变化的应用，比如数据复制、数据备份或实时数据分析等。提供增量数据订阅和消费服务
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
Rust: duckdb和polars读csv文件比较 songroom rust 开发语言后端
duckdb在数据分析上，有非常多不错的特质。1、快；2、客户体验好，特别是可以同时批量读csv（在一个目录下的csv等文件）。polars的性能比pandas有非常多的超越。但背后的一些基于arrow的技术栈有很多相同之类。今天想比较一下两者在csv数据读写的情况。一、文件准备csv样本内容，是N行9列的csv标准格式，有字符串，有浮点数，有整型。具体如下：本次准备了两个csv文件，一个大约是2
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
Python最全的股票数据API接口 w_traveler python 开发语言大数据
python最全的股票数据API接口使用python是一种有效的方式来获取高频股票数据，以便进行股票行情数据分析和量化交易。python是一种广泛应用于金融数据领域的编程语言，可用于与股票数据API接口进行交互。通过调用股票数据API接口，我们可以获取实时的股票数据，包括tick数据和k线历史数据。tick数据提供了每次交易的详细信息，而k线历史数据则提供了一段时间内港股、美股、A股、沪深行情数据
R 地图绘制-比例尺与指北针 jamesjin63
ggplot绘制mapR语言可以进行数据分析，也可以进行地图绘制，而且非常简洁，快速。虽然Arcgis基于桌面可视化操作，能够进行空间分析，但是唯一不足的就是操作步骤繁琐而且一不小心，就要从头再来，可重复性较低。这篇文章主要讲述如何利用R语言中的ggplot与sf绘制带有指北针、图列与标尺的地图屏幕快照2020-06-28下午9.27.59.png数据我们下载非洲地区54个国家的图层Afirca.
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
新质农业-再生农业的应用橙蜂智农人工智能制造创业创新
橙蜂智能公司致力于提供先进的人工智能和物联网解决方案，帮助企业优化运营并实现技术潜能。公司主要服务包括AI数字人、AI翻译、埃域知识库、大模型服务等。其核心价值观为创新、客户至上、质量、合作和可持续发展。橙蜂智农的智慧农业产品涵盖了多方面的功能，如智能化推荐、数据分析、远程监控和决策支持系统。用户可以通过应用获得个性化的作物种植建议、实时的生长状态监控以及精确的灌溉和施肥指导，提升农业生产效率。文
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

007数据分析能力：SQL

文章目录

1 函数、之间比较

建表

auto-increment

foreign-key

删除

顺序

正则表达式：REGEXP

isnull(variable_name, replace_value)

decode赋值（结合sign等函数）

exists & in, not exists & not in

group_concat(var_sub separator ‘,’)

substr(var_string, start, end)

having & where

union & union all

窗口函数：row_number & rank

2 如何优化

大表并大表

个别函数的使用

数据倾斜

s

3 其他（比如面试题里面sql的难点）

你觉得的mysql中的难点

hadoop原理和mapreduce原理

SQL的数据类型

4. 详细查询示例

更新

条件判断

写出中位数、众数

手动写出row_number：

次日留存率

查询连续几天登录的用户

查询过去一个月的最高付款量是哪几天

随机抽取用户，按照年龄段分层抽样

查询30天内连续访问7天以上的用户数量

表user_id,visit_date,page_name,plat 统计近7天每天到访的新用户数，统计每个访问渠道plat7天前的新用户的3日留存率和7日留存率

你可能感兴趣的:(笔试面试-数据分析)