大数据面试题

https://www.yuque.com/zhongguohaopangzi/igi4hb/kws4zv

京东

1、列举几种数据倾斜的情况，并解释为什么会倾斜，以及如何解决？

Join的时候发生数据倾斜：
join的键对应的记录条数超过这个值则会进行分拆，值根据具体数据量设置

set hive.skewjoin.key=100000; 
set hive.optimize.skewjoin=false

广而告之

1、近期做得什么项目，你负责什么模块，什么技术难点让你影响深刻。

近期主要做的是数据挖掘相关的工作，之前在公司负责架构了实时数仓、用户画像系统。

2、Flume可不可以写数据到HDFS，架构中为啥要加kafka。

Flume可以直接写数据到Hdfs，可以配置100M 写一次或者 10分钟写一次。但是要注意的是，我们都知道hdfs的默认块大小是128M，那么我们为什么不配置128M呢，因为flume 大概率会多一点点数据，所以一般我们都是设置100M 就行。

3、公司集群分布。

公司集群有十几台都是混合部署的。

4、Zookeeper为啥做3台。

1、因为成本控制，3台允许1台宕机，4台允许一台宕机，为什么不用3台呢，当然是根据各个公司的业务场景以及数据量来定的

2、因为防止脑裂，因为 3台允许一台机器宕机剩余两台机器大于半数，但是4台机器宕机两台，剩余2台无法选举，出现了脑裂。

5、公司人员分配。安卓开发多少人，iOS多少人。

研发那一边不清楚，有研发1组 2 组和 3组 app专门一个组。一个组大概10几个

JVM调优，具体参数

一般我会调整Xms和Xmx

RDD是什么

分布式弹性数据集。spark中最基本的数据抽象就是rdd

RDD 有三个基本特点：

1、分区

分区是什么意思呢，其实我们可以理解一个RDD 中包含的数据被存储在不同的节点上，逻辑上我们也可以将RDD 认为是一个大的数据，一个RDD 中包含了多个分区，这些分区所指向的物理存储可能是在内存也可能是在硬盘。也就是说 spark的分区并不会存储数据，数据是存储在不同的位置的，只是记录的数据的索引而已。数据都会尽可能的放在内存当中，只有当内存没有空间的时候才会放入硬盘存储，这样可以最大化的减少磁盘IO的开销。

2、不可变

不可变性是指每个RDD都是只读的，他所有的transform算子都会生成新的rdd，然后依赖这些rdd最终计算出我们的结果。这样做的好处是可以容错，可伸缩。

3、并行操作

因为rdd的分区特性，所以其天然支持并行处理的特性，即不同节点上数据可以分别被处理，然后生成一个新的RDD。

黑名单是什么策略，为啥要做黑名单。

hadoop节点下线可以使用黑名单策略，黑名单可以一次下线多台机器，但是直接下线节点一次只能下一个。

正保教育

1、MySql什么情况下索引失效

条件中带有or
like是以%开头的
如果是组合索引，不是使用的第一部分

2、释以下Scala闭包，这样做有什么好处

闭包的实质就是代码与用到的非局部变量混合。

3、Hbase的二级索引是什么

hbase的二级索引讲的就是例如我们有一个用户表，但是我们要查用户，例如我要按照城市查用户的所有属性，那么我们rowkey里面是没有的，我们需要全表扫描，那么我们就可以建立一个rowkey为城市为前缀，后缀为用户表的userid，column我们就存储 rowkey 和城市名，拿到rowkey之后我们去到user表查询这样可以大大的加速。一般有两种方案，一种是离线的，一种是实时的利用协处理的方案

4、Java多线程状态(生命周期)

NEW: 新生

RUNNABLE：运行

BLOCKED：阻塞

WAITING：等待

TIME_WATING：等待一段时间

TERMINATED：线程终止状态

5、Sleep和wait有啥区别

sleep抱着锁睡

wait 释放锁，结束的时候重新分配资源

6、多线程锁有几种

公平锁非公平锁可重入锁读锁写锁

7、Synchronize this和Synchronize Class那个力度大

Synchronize Class 力度比较大，因为锁的是模板对象，同时可以锁静态方法和非静态方法，那么 Synchronize this 锁的是当前对象，只能锁非静态方法

8、Synchronize this和Synchronize Class什么时候用合适

Synchronize this 用来修饰非静态方法的

Synchronize class 用来修饰静态方法的

巧达数据

1、Spark shuffle过程在哪些情况下会发生？为什么这些情况下需要进行shuffle？

例如发生了reduce的时候会进行shuffle，在spark中有 reduceBykey groupBykey、distinct、sortbykey等这些算子执行的时候会发生shuffle。为什么要进行shuffle呢，是因为shuffle的时候是数据重分布，也就是在计算的时候，我们想到的就是数据在那里我去哪里计算，这个想法是最好的，但是有些情况下，我的数据是分布在不同的节点上的，但是我要做一个distinct 去重怎么办。这个时候肯定是需要把数据拉取到一个节点上来进行统一处理。

2、有哪些方法可以对spark任务进行调优

一份数据就创建一个RDD
对多次使用的rdd进行持久化
尽量不使用shuffle算子，改用mapjoin，就是将小数据广播出去在进行shuffle。
如果必须要进行shuffle 使用优化算子例如 reducebykey、aggreatebykey 替代 groupbykey算子
使用mapParitions 、foreacheParitions
在filter 之后进行重分区，因为没有fitler之后数据量会变少，这样重分布一下数据让程序run的更好。
使用 repartitionsandsortwithinparitions算子替代sort 也就是边分区边排序比分区后排序效率要高很多
使用序列化。

3、哪些情况会发送数据倾斜，如何解决？

我们公司有很多的分公司，例如北京卖的比杭州要多很多。

提前用hive解决，直接聚合好，spark直接拉
在shuffle算子上设置大一些的并行度，因为并行度调大每个rdd的数据可能会分散到不同地方。
reduce join 转换为 map join 也就是广播机制
增加随机前缀，也就是将key加上一个随机数，让他去往不同的task ，进行聚合，当聚合结束后，把key拆开，然后再进行一次聚合，大概率会解决问题，如果不是join的话可行。
自定义 Partitioner
扩容rdd 加随机前缀进行join。

4、Java代码实现快速排序算法

 public static void main(String[] args) {
        int[] arr = {9,8,7,6,5,4,4,3,2};
        sort(arr);
        System.out.println(Arrays.toString(arr));
    }

    private static void sort(int[] arr) {
        quickSort(arr,0,arr.length-1);
    }

    private static void quickSort(int[] arr, int left, int right) {
        if (left >= right){
            return ;
        }
        int base = arr[left];
        int i = left;
        int j = right;
        while ( i < j){
            while (arr[j]>= base && i 
    
  5、Java代码实现二分查找算法 
    
      private static int binarrySearch(int [] arr,int target){
        int l = 0;
        int r = arr.length-1;
        while (l<=r){
            int mid = l + (r-l)/2;
            if (arr[mid]== target){
                return mid;
            }else if (arr[mid]>target){
                r = mid -1;
            }else{
                l = mid +1;
            }
        }
        return -1;
    } 
    
  北京开拓天际 
    
  1、hadoop集群怎么配 
    
   
   设计架构 
   准备机器 
   机器环境准备 
   选型 开源 、CDH  or  ambari 
   搭建。 
   
    
  2、Kafka为什么读写效率高 
    
  写： 
    
   
   内存池的设计 
   批量发送数据默认200ms发送一次 
   强势的网络架构 Reactor网络设计模式 
   一直写的是队列，也就是内存写入，后续根据三层网络架构进行分发多线程处理 
   顺序写磁盘 
   零拷贝机制。减少了网络IO 
   
    
  读： 
    
   
   跳表设计 
   日志存储是稀疏索引设计，也就是双重定位都有索引。 
   
    
  4、spark job划分 
    
  在Spark中一个用户提交的程序我们叫做一个Application，一个Application有多个job组成，这些job可以并行也可以串行执行，job是由action算子来进行划分的。一个job里面有多个stage，stage是由算子之间的shuffle中由rdd关系通过stage scheduler 划分的。一个stage中有多个 task ，组成taskset，通过taskscheduler分发到不同的executor 中进行执行。 
    
  5、flume和Kafka有序吗 
    
  flume单实例可以保证有序，但是多实例无法保证。 
    
  kafka分区内有序，分区间无序。 
    
  6、flume和Kafka区别 
    
  flume是一个数据采集组件，kafka是一个消息中间件，应用场景不同。 
    
  7、linklist和arraylist那个效率高，存同一个对象那个更占内存 
    
  arraylist 底层是采用的 数组结构，插入时间的均摊复杂度是o（logn）的 查询时 索引查询是O(1) 
    
  linkedlist 采用的是链表数据结构 插入时间复杂度是 O（1）删除也是o（1），但是查询是O（n）的 
    
  一般情况下，LinkedList的占用空间更大，因为每个节点要维护指向前后地址的两个节点，但也不是绝对，如果刚好数据量超过ArrayList默认的临时值时，ArrayList占用的空间也是不小的，因为扩容的原因会浪费将近原来数组一半的容量。 
    
  8、Kafka调度 
    
  采用的是时间轮机制。kafka内部没有用java的定时器而是采用了自己的设计 ，时间轮的概念。在一个时间轮中 有跨度，大小还有当前时间的指针，例如我要执行8ms后的任务，那么就再当前位置添加8的位置上增加任务就好了。那么要是110ms之后呢，kafka内部的时间轮不只是一个，还有更大的，例如20ms的大小，20个格子的，也就是可以定时110ms内的。那首先会将他放入当前时间加5个格子的位置，然后执行到的时候，会把任务放入到小任务时间轮格子里进行执行。 
    
  9、spark流程 
    
   
   我们一般是在Yarn模式下跑的spark 
   编写spark提交的shell脚本 
   脚本启动的时候，会执行sparksubmit类中的main方法，也就是java sparksubmit 
   在main方法中有一个方法叫做submit方法，这个方法会反射调用client类中的方法 
   在Client中就会封装指令发送给RM，启动ApplicationMaster 
   NM会找到一台nodemanager来进行启动container，并且将applicationmaster启动起来 
   applicationmaster启动之后，会将引用交给applicationmaster 
   applicationmaster向rm进行请求资源 
   rm响应给所有可以启动的container节点给他，application会对这些container进行本地化选择，和机架优化策略，会告诉nm启动container 
   当封装完毕的时候，会封装一条指令启动CoarseGrainedExectorBackend，并启动exector 
   当exector启动之后会向driver反向注册，当注册完成的时候开始运行driver，首先开始启动的是sparkcontext，他会将dagscheduler，taskscheduler启动起来 
   dagescheduler会将任务根据shuffle为界划分为stage，并把每一个stage封装为taskset交给taskschedule 
   taskschedule会根据启动的shufflemapstage和resultstage生成shufflemaptask和resulttask，并提交给corsegraidexecterbackend进行执行 
   执行过程中exector一直与driver保持心跳交互 
   执行完成后，注销sparkcontext 
   
    
  10、Hbase的region怎么划分，每次划分大小都一样吗 
    
  Hbase默认的切分阈值是10G，如果region个数是一个的话，那么就会flush size * 2 否则就是按照10G的切分策略。 
    
  11、rowkey设计及大小范围 
    
   
   散列原则 
   唯一原则 
   长度原则（最多16个字节） 
   
    
  12、zookeeper选举机制 
    
   
   假设有三台机器依次启动 
   
    
  启动第一台： 
    
   
   还没有选举出来leader之前，所有的节点都是LOOKING的状态，也就是找leader的状态 
   首先会构造自己的选票，然后把自己的选票发送给所有参与选举的机器，然后就会一直去接收外部队列的外部选票，因为此时是场景驱动，其他的机器都没有机器获取到选票，只能获取到自己的选票。 
   然后依次进行判断，当前选票和外部接收的选票的epoch是否一直，此时肯定是一样的，然后会判断zxid，发现zxid还是一样的这个时候判断myid，发现还是一样的，这个时候就发现了我的选票就是我自己的，然后就会把自己的选票加入到合法队列里面 
   然后就判断合法队列中的这个选票是否大于半数，如果不大于就一直循环，并且发现别的机器一直连不上 就处于了等待状态 
   
    
  启动第二台： 
    
   
   第二台机器启动的时候还是LOOKING的状态，也就是找leader的状态 
   还是会构建自己的选票，然后发送给所有参与选举的机器 
   这个时候 第一台机器发现第二台机器起来了，然后发送了自己认为正确的选票给其他机器，然后再进行判断 
   第二台机器也会发送自己的选票，第二台机器先收到的是自己的选票，然后把自己的选票更新为最优的，然后发现唱票不足半数。 
   然后第二胎机器收到了第二台机器发来的选票以此判断epoch、zxid、myid 然后发现myid不如我啊，什么都不做 
   第一台机器发现有新选票了，我要看看，然后进行对比，然后发现，我靠 我没有它厉害，我认为他是最好的，然后把自己的选票更新为他的选票 
   然后发送给所有机器，第二台机器也就收到了和这个选票，然后对于epoch、zxid、myid对比，然后发现这不就是我吗。然后添加到选票集合中。发现唱票成功也就是大于半数了 
   这个时候进行发送一次，看看是否还是认为他是leader 
   如果是就开始更新状态为leader然后第一台发现有leader了，然后就开始更新自己的状态为follower开始同步数据 
   leader也会开始开放端口对外进行服务 
   
    
  启动第三台： 
    
   
   发现有leader 也就成为了follower 
   
    
  水滴互助 
    
  1、HDFS文件系统中，fsimage 和edit的区别 
    
  命名空间镜像FSImage： 保存了某一时刻集群元数据信息的快照，并持久化到了磁盘中 
    
  镜像编辑日志EditLog： 元数据编辑日志，将每次的改动都保存在日志中，如果namenode 机器宕机或者namenode进程挂掉后可以使用FSImage和EditLog联合恢复内存元数据。 
    
  2、请描述MR中shuffle的过程以及作用。 
    
  Read阶段：MapTask通过用户编写的RecordReader，从输入InputSplit中解析出一个个的key/value 
    
  Map阶段：将read阶段读取过来的key/value交给map（）方法执行，产生一系列新的kv值 
    
  Collect阶段：在用户编写的map（）函数中，当数据处理完成之后，一般会写出这些数据，写出的过程中会调用OuputCollector.collect（）方法输出结果，在函数内部，会调用默认的分区器来进行数据的分区，接着写入到环形缓冲区中 
    
  溢写阶段：当写入环形缓冲区中的数据满了之后，会将数据溢写到磁盘上，在溢写之前会对数据进行一次快速排序，并在必要的时候进行Comber或者压缩操作，并生成临时文件。 
    
  合并阶段：当所有数据处理完了后，maptask会将所有的临时文件进行合并成一个大文件，同时生成对应的索引文件，合并的时候采用的是归并排序，这样避免小文件问题。 
    
  copy阶段：reducetask从每个maptask上将数据远程拷贝过来，先拷贝到缓冲区中，缓冲区不够的时候，溢写到磁盘 
    
  merge阶段：在远程拷贝数据的同时，reducetask启动了两个后台线程对内存和磁盘上的文件进行合并，防止内存使用过多，和磁盘占用太大 
    
  排序阶段：在传入reduce方法之前，传入的数据是按照key聚集的数据，mapreduce为了实现这样的数据结构，因为maptask传过来的时候都是有序的，所以我们仅仅需要将进行一次归并排序就将这些数据聚集在一起了 
    
  reduce阶段：在reduce方法中对数据进行操作之后，会将数据写入hdfs中。 
    
  3、YARN的配置文件中，yarn.resourcemanager.scheduler.class ，yarn.nodemanagerresource.cpu-vcores两个参数分别有什么用？ 
    
  class 是用来配置 yarn的调度策略 可以分配三种 中的一种 有 FIFO 、CAPACITY 、FAIR 
    
  cpu-vcores 是用来表示yarn可以使用节点的核心数，默认是8个 一般配置 cpu核心数据的 2-3倍 
    
  4、请实现二分查找。（不限开发语言）。 
    
      private static int binarrySearch(int [] arr,int target){
        int l = 0;
        int r = arr.length-1;
        while (l<=r){
            int mid = l + (r-l)/2;
            if (arr[mid]== target){
                return mid;
            }else if (arr[mid]>target){
                r = mid -1;
            }else{
                l = mid +1;
            }
        }
        return -1;
    } 
    
  5、Linux中，如何调整文件最大打开数 
    
  1、临时设置 ulimit -a 65535 
    
  2、永久更新那么就更改limits文件 
    
  6、请列举几个常用到Linux命令？ 
    
  ps -ef 、 rz -be 、rsync等 
    
  7、Hive SQL中，left outer join和left semi join的区别 
    
  left outer join 也就是左表有的数据 都拿出来，右表假如和join键 有多条的话 也都会展示出来 
    
  left semi join 是把左表中join键 在右表中有的数据都拿出来没有就算了，并且不会展示右表数据 
    
  微钛科技 
    
  1、二分查找法 
    
      private static int binarrySearch(int [] arr,int target){
        int l = 0;
        int r = arr.length-1;
        while (l <= r){
            int mid = l + (r-l)/2;
            if (arr[mid] == target){
                return mid;
            }else if (arr[mid] >target){
                r = mid-1;
            }else {
                l = mid +1;
            }
        }
        return -1;
    } 
    
  2、二叉树后序遍历 
    
      public void lastOrder() {
        lastOrder(root);
    }

    private void lastOrder(Node node) {
        if (node == null)
            return;
        lastOrder(node.left);
        lastOrder(node.right);
        System.out.println(node.e);
    } 
    
  3、找出数组中重复最多的元素 
    
      public static  int getMaxCountNum(int[] arr){
        HashMap map = new HashMap<>();
        for (int i : arr) {
            if (map.containsKey(i)){
                map.put(i,map.get(i)+1);
            }else {
                map.put(i,1);
            }
        }
        Set> entries = map.entrySet();
        int max = Integer.MIN_VALUE ;
        int max_key = Integer.MIN_VALUE ;
        for (Map.Entry entry : entries) {
            Integer value = entry.getValue();
            if (value >max){
                max = value;
                max_key = entry.getKey();
            }
        }
        return max_key;
    } 
    
  国信博飞 
    
  1、Map或者HashMap的存储原理 
    
  hashmap是一个存储键值对的集合，也就是常说的key value。其中每一个键值对叫做一个 entry对象，这些对象存储在一个数组当中。这个数组也就是我们hashmap的一个主干，初始的默认值都是Null。 
    
  那么怎么put进去数据呢。假如我们要插入的数据是  那么这个时候 会对 helloworld进行一个hash，hash其实就是将一个值映射为另一个值。假如 对helloworld 的结果是2，那么就会在数据索引为2 的位置 插入这个entry对象。因为数组的长度是有限的，哪怕你的hash函数再好再均匀，当插入的entry对象越来越多的时候，那么肯定会发生hash冲突，当有hash冲突的时候 hashmap是采用链表的方式解决的，每个插入对象不只是一个entry同时还是一个链表的头结点。当有冲突的时候会把数据挂接到数据的后面，当链表的长度小于8的时候还是用链表，当链表的长度大于8的时候会进行转换成红黑树。当数组中的元素大于原数组的0.75倍的时候，会进行扩容 扩容为原来的两倍 并且数据会进行重排。同时数组的长度一定是2的幂次方，因为幂次方会让所有的数组元素都用上 让分布更加均匀减少hash冲突。 
    
  2、当数据表中A、B字段做了组合索引，那么单独使用A或单独使用B会有索引效果吗？ 
    
  单独使用A索引 有索引效果 但是使用B索引 没有索引效果。 
    
  3、HTTP协议，GET和POST的区别？ 
    
  get请求是将参数写到url里面，post是把参数写入到请求体里面。 
    
  天虹商场 
    
  1、如果canal传入kafka的数据无序应该怎么办？ 
    
   
   配置canal的数据 分区数为 下游kafka的分数区 和 配置表的 主键 为hash 
   在消费的时候进行数据比对，如果已经消费了 那么就比对数据 
   消费的时候单线程消费会比较慢，用多线程加队列的方式 是比较好的。 
   
    
  2、Flink实时和spark的区别？ 
    
  从宏观上理解，flink是实时处理，spark是微批处理，因为当初他俩的设计理念就是不一样的。 
    
  第二点呢，flink的批处理没有spark的批处理要强 ml 没有spark的ml厉害 第三点呢，就是flink 在实时处理方面要强过sparkstreming 因为flink 有状态  并且可以保证精确一次性语义。窗口操作也比spark多。 
    
  3、你们的数据存在hdfs上还是hbase，格式是什么 
    
  如果是现在这个公司的话，数据是存储在hdfs当中的 是parquet格式。 
    
  4、你们公司的数据量有多少 
    
  一天30-40G 左右 但是会出现膨胀，大概一天100G左右 
    
  5、你在公司项目中起到什么作用 
    
  主要负责架构和主程 
    
  6、Join和left join 
    
  join 返回两个表中都有的数据 
    
  left join 返回 左表中全部数据，右表中 在左表中存在的数据 
    
  袋鼠云 
    
  1、Spark怎么做到Exactly-once？ 
    
  做到这个有三点：就是要采用direct模式消费kafka的数据；自己保存和维护offset；将计算和 更新偏移量放到一个事务中。 
    
  步骤是这样的： 
    
   
   启动后先从mysql中获取偏移量数据，也就是一个分区一个便宜量 
   使用获取到的offset创建directstream 
   将结果处理和偏移量处理放到一个事务当中，要么都成功要么都失败 
   
    
  2、flink的怎么和rocksDB交互的。画一个流程图。 
    
   
    
  3、flink怎么实现Exactly-once？ 
    
  一般Flink进行消费的时候大概率都是kafka，Flink保证精确一次性消费有几种机制来共同保证的，状态机制，checkpoint，二阶段提交。状态机制是flink 的核心，也就是flink自称流状态计算的根本原因，flink中的状态分为两种，operator state、keyed state，其中kafka的source端采用的是operatore state 来进行记录的偏移量，flink的checkpoint是最核心的部分，也就是将状态持久化。这个持久化，其实就是将我们内存中的状态写入到状态后端中进行持久化，有三种内存后端、HDFS后端、和RocksDB后端，这个是保证状态数据不会丢失。那么二阶段提交的意思是，jobmanager会定期的发送执行checkpoint的命令，当source端收到执行指令之后，就会插入一条barrier消息到input队列中，当处理barrier的时候会执行本地checkpoint，也就是把当前task的状态给保存起来，并且将barrier发送到下一个结点，当checkpoint完成之后会发送一条ack信息给jobmanager。 
    
  当所有节点都完成了checkpoint的时候，jobmanager收到了所有的ack这个时候，就会进行提交事务。 
    
  其实就是在状态存储完成后，会进行预提交操作，也就是将offset写入到kafka中，但是并不提交事务，在状态全部都完成后就会提交事务。 
    
  4、flink on yarn 的任务提交流程？ 
    
   
    
   
   任务提交后，client向hdfs上传flink的jar包以及配置 
   向yarn的resourcemanager提交任务 
   resoucemanager分配container资源并通知对应的nodemanager启动applicationmaster 
   applicationmaster启动后加载flink的jar包和构建环境 启动jobmanager 
   applicationmaster向resourcemanager申请资源启动taskmanager 
   nodemanager加载flink的jar包和配置环境启动taskmanager 
   jobmanager就会分配任务 直到任务结束 
   
    
  5、rocksDB为什么可以存储那么大的数据量。 
    
  rocksdb会将业务数据存储于多个sst文件中，业务数据的存储量依赖于当前peer节点的磁盘大小。 
    
  6、使用eventtime+watermark的时候，如果数据到6点结束了。怎么保证最后一条数据能计算。 
    
  用CountTrigger 来一条触发一次窗口计算，但是他不是等窗口关闭才触发计算，是来一条触发一次。或者自定义trigger 
    
  7、你理解的什么样的数仓是一个好的数仓。 
    
  被业务所认可，第二他的扩展性要好，运行稳定，数据质量有保证。 
    
  8、你们有做过数据的结果的校验吗？怎么校验的 
    
  我们是实时和业务库进行对账，因为我们关心的是销售额，只要差异在百分之3以下就可以接受。 
    
  9、Flink topN的实现 
    
  10、使用状态后端的时候与hdfs/rocksdb的交互 
    
    
  11、用原生api创建线程池和调用 
    
          ThreadPoolExecutor threadPoolExecutor =
                new ThreadPoolExecutor(
                        5,
                        10,
                        0L,//永不过期
                        TimeUnit.SECONDS,
                        new LinkedBlockingDeque<>(3),
                        Executors.defaultThreadFactory(),
                        new ThreadPoolExecutor.DiscardOldestPolicy());
        threadPoolExecutor.execute(new Runnable() {
            @Override
            public void run() {
                System.out.println("heheh");
            }
        });
        threadPoolExecutor.shutdown(); 
    
  12、map和list的各实现类的用法与区别 
    
  list的实现类一般有 Arraylist 和linkedlist，Arraylist底层采用的数组，插入时间复杂度是logn，索引查找的时间复杂度是1，linkedlist插入时间复杂度是1，查找是1 
    
  map的实现类一般有hashmap和hashtable，hashmap插入时间复杂度是1的 
    
  13、数仓各层的理解 
    
  ODS：直接加载的是采集到的原始数据，数据保存原貌不做处理，就一个字段（一行就是一个日志字符串），使用天作为分区表，一般为json数据 
    
  DWD:对ods的数据进行展开 
    
  例如：如果采集的日志分类型的，可以根据事件的类型分为多个表 
    
  电商的比如：点赞、启动、评论、点击、广告、消息通知等事件 
    
  my公司的：以行业类型分割为各个阵地表，对json数据进行解析，获取简历、滴滴行程单、邮件落款、http等数据 
    
  DWS： （数据服务层）： 基于ADS需要统计的主题，创建宽表 
  ADS： （应用数据层）： 基于DWS的宽表，计算出结果 
    
  14、怎么把hdfs上的数据导到hive，内部和外部表 
    
  load data inpath '/hivedata1.txt' into table rdcuser; # 外部表

1.hive无论是内部表还是外部表，无非就是往对应的hdfs目录复制文件，再以定义的表结构来读取数据。
2.hive删除内部表时，会连同数据文件、元数据一起删除，而外部表仅删除表里的元数据，数据文件不会删除。 
    
  15、星型模型和雪花模型，事实表维度表 
    
   
    
  在多维分析的商业智能解决方案中，根据事实表和维度表的关系，又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候，就应考虑数据是按照星型模型还是雪花型模型进行组织。 
    
  当所有维表都直接连接到“ 事实表”上时，整个图解就像星星一样，故将该模型称为星型模型，如图 1 。 
    
  星型架构是一种非正规化的结构，多维数据集的每一个维度都直接与事实表相连接，不存在渐变维度，所以数据有一定的冗余，如在地域维度表中，存在国家 A 省 B 的城市 C 以及国家 A 省 B 的城市 D 两条记录，那么国家 A 和省 B 的信息分别存储了两次，即存在冗余。 
    
   
    
  星型模型因为数据的冗余所以很多统计查询不需要做外部的连接，因此一般情况下效率比雪花型模型要高。星型结构不用考虑很多正规化的因素，设计与实现都比较简单。雪花型模型由于去除了冗余，有些统计就需要通过表的联接才能产生，所以效率不一定有星型模型高。正规化也是一种比较复杂的过程，相应的数据库结构设计、数据的 ETL、以及后期的维护都要复杂一些。因此在冗余可以接受的前提下，实际运用中星型模型使用更多，也更有效率。 
    
  事实表： 
    
  事务事实表 
    
  官方定义是：发生在某个时间点上的一个事件。比如以订单为例：下单是一个事实、付款是一个事实、退款是一个事实，所有事实的累计就是事务事实表 
    
  周期快照事实表 
    
  如果需要对某一天或者某个月的数据进行分析，那么可以使用周期快照事实表，比如：以天举例，财务报表一般都是周期快照事实表，它的最细粒度主键就是：日期+订单 
    
  累计快照事实表 
    
  累计快照表，具有确定的开始和结束事件，并且记录关键事件或者过程的里程碑，它因此包含了很多日期的外键 
    
  16、namenode的内存结构 
    
  namenode 里面存储目录树，也就是INODE的抽象模仿的是linux，在底层实现上 对于文件有InodeFile 和InodeDirecdory。存储目录数的是arraylist 
    
  17、数据质量监控 
    
  1、完整性： 
    
  是否有丢失数据问题、有可能行丢了 也可能列丢了，一般会在数据接入的时候做完整性校验，例如从hive导入 clickhouse数据 会做校验 
    
  2、准确性： 
    
  准确性我们校验的，是每日的日活和销售额。是否和平时会有很大的差异。 
    
  3、一致性： 
    
  一致性是指同一指标在不同地方的结果是否一致。也就是一个指标对外展示的数据是否一致，就像销售额，和促后毛利，到分公司累加是否可以得到总数 
    
  4、及时性 
    
  也就是要监控大数据平台是否有数据积压，例如实时数仓中的flink和kafka的监控 夜晚的 etl监控 
    
  18、kafka的数据重复在数仓怎么处理的 
    
  因为我们是有clickhouse实时数仓的，会在clickhouse用replicing mergetree 引擎 去重。 
    
  19、存储格式及对比 
    
   
    
   
    
   
    
  总结：如果仅仅是在HIve中存储和查询，建议使用ORC格式，如果在Hive中存储，而使用Impala查询，建议使用Parquet 
    
  飞贷金融 
    
  1、Java常用的设计模式，适用场景 
    
  模板方法，工厂模式，单例模式，策略模式。 
    
  2、Java多线程，多线程的状态 
    
   
    
  3、Impala运行机制，架构，优化机制 
    
  Impala运行 
    
   
   客户端通过ODBC、JDBC、或者Impala shell向Impala集群中的任意节点发送SQL语句，这个节点的impalad实例作为这个查询的协调器（coordinator）。 
   Impala解析和分析这个查询语句来决定集群中的哪个impalad实例来执行某个任务。 
   HDFS和HBase给本地的impalad实例提供数据访问。 
   各个impalad向协调器impalad返回数据，然后由协调器impalad向client发送结果集。 
   
    
  Impala架构 
    
   
    
  4、CDH怎么增加，删除一个节点 
    
  在主机页面中下线和上线 
    
  5、堆排序 
    
  代学 
    
  7、Sqoop的应用场景 
    
  主要是从业务数据库中将数据抽取到hive数仓中 或者从数仓中将数据抽取到 业务库。也就是看板库 或者指标库。 
    
  五矿证券 
    
  1、hive半天跑不出任务。也没有报错，你咋办？实际工作中就是会出现。你怎么分析 
    
   
   首先会看是否发生了数据倾斜 
   查看hive执行日志 
   查看mr执行页面 
   是否资源不足在等待执行 
   
    
  2、spark和hive shuffle的区别 
    
  首先个人任务spark被称为是基于内存的计算框架，其最初的设计目标是想把数据域结果存放在内存中，这样可以对数据进行快速的存取，但是由于数据量大的话，内存是远远不够的，那么就会和磁盘进行大量的交互，这个时候效率就会低。还有一个问题是，内存容易崩溃也就是掉电，我遇到过一次redis 内存坏了，这个时候是一件很糟心的事情，数据是存储在内存中的，可能会频繁的调用java gc机制，对于gc压力很大，容易出现垃圾回收不急导致性能问题。单节点不能处理很大的数据，如果单节点的内存超出本身内存大小，会出现问题，就像clickhouse分布式join的时候结果集大于一台机器内存的时候会有问题，所以一般采用allowjoin。mapreduce 任务是基于hdfs的，本身硬盘存储数据的可靠性就很高，其次hdfs对于文件结果有自己的备份与恢复机制，一个文件存储在多个副本，他可能会慢一些，但是，他稳定，尤其是在夜维的过程中，1-2个小时的时间，真的不是那么太重要。 
    
  3、spark提交任务的流程 
    
   
   我们一般是在yarn模式下跑的spark 
   编写spark提交的shell脚本 
   脚本启动的时候会执行sparksubmit类中的main方法，也就是java sparksubmit 
   在main方法中有一个方法叫做submit方法，这个方法会反射调用client类中的方法 
   在client中就会封装指令发送给rm，启动applicationmaster 
   rm会找到一台节点启动 container，并且将applicationmaster启动起来 
   applicationmaster启动之后，会将引用交给applicationmaster 
   applicationmaster向rm进行请求资源 
   rm响应给applicationmaster可以启动container节点给他，application会对这些conatiner进行本地化选择和机架优化策略，会告诉nm启动container。 
   当封装完毕的时候，会封装一条指令启动coarsegrinedexctorbackend并启动exector 
   当exector启动之后会向driver反向注册，当注册完成的时候 开始运行driver。首先开始启动的是sparkcontext，他会将dagscheduler和taskscheduer启动起来。 
   dagscheduler会将任务以shuffle为界划分为stage，并把每个stage封装为taskset交给taskscheduler 
   taskscheduler 就会吧划分的号的shufflemapstage和resultstage生成shufflemaptask 和resulttask 并其交给csbackend进行执行 
   执行过程中exector一直与driver保持心跳交互，执行完成后，注销sparkcontext 
   
    
  4、mapreduce的shuffle原理 
    
  read阶段：maptask通过用户编写的recordreader，从输入inputsplit中解析出一个个的key、value 
    
  map阶段：将read阶段的数据key value交给 map方法执行，执行结束后生成新的keyvalue 
    
  collect阶段：在用户编写的map函数中，当数据处理完成之后，一般会写出这些数据，写的过程中会在函数内部调用分区器对数据进行分区，然后写入到环形缓冲区中。 
    
  溢写阶段：当写入环形缓冲区中的数据满了之后，会将数据溢写到磁盘上，在溢写之前会对数据进行一次快速排序并在必要的时候进行comber或者压缩操作，并生成临时文件。 
    
  合并阶段：当所有数据处理完了后，maptask会将所有的临时文件进行合并成一个大文件，同时生成对应的索引文件，合并的时候采用的是归并排序，这样避免小文件问题。 
    
  copy阶段：reducetask从每个maptask上将数据远程拷贝过来，先拷贝到缓冲区中，缓冲区不够的时候，溢写到磁盘 
    
  merge阶段：在远程拷贝数据的同时，reducetask启动了两个后台线程对内存和磁盘上的文件进行合并，防止内存使用过多，和磁盘占用太大 
    
  排序阶段：在传入reduce方法之前，传入的数据是按照key聚集的数据，mapreduce为了实现这样的数据结构，采用了归并排序来进行数据聚集。 
    
  reduce阶段：在reduce方法中对数据进行操作之后，会将数据写入hdfs中。 
    
  5、hive优化 
    
   
   mapjoin 
   行列过滤 
   列式存储 
   合理的分区策略 
   合理设置map数 
   合理设置reduce数 
   reduce中间结果压缩 
   小文件解决 
   jvm重用 
   采用tez 和spark引擎 
   
    
  6、你怎么保证数据的准确性 
    
   
   控制业务的修改逻辑 
   保证理解业务 
   数据质量监控 
   
    
  边锋科技 
    
  1、关系型数据库和非关系型数据库的区别和应用场景？ 
    
  OLTP和OLAP主要区别有： 
    
  1、基本含义不同：OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，记录即时的增、删、改、查，比如在银行存取一笔款，就是一个事务交易。OLAP即联机分析处理，是数据仓库的核心部心，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。典型的应用就是复杂的动态报表系统。 
    
  2、实时性要求不同：OLTP实时性要求高，OLTP 数据库旨在使事务应用程序仅写入所需的数据，以便尽快处理单个事务。OLAP的实时性要求不是很高，很多应用顶多是每天更新一下数据。 
    
  3、数据量不同：OLTP数据量不是很大，一般只读/写数十条记录，处理简单的事务。OLAP数据量大，因为OLAP支持的是动态查询，所以用户也许要通过将很多数据的统计后才能得到想要知道的信息，例如时间序列分析等等，所以处理的数据量很大。 
    
  4、用户和系统的面向性不同：OLTP是面向顾客的,用于事务和查询处理。OLAP是面向市场的,用于数据分析。 
    
  5、数据库设计不同：OLTP采用实体-联系ER模型和面向应用的数据库设计。OLAP采用星型或雪花模型和面向主题的数据库设计。 
    
  2、MySQL事务和隔离级别 
    
  mysql的事务呢，我理解就是事务是多个操作数据库的动作集合，要么全部成功，要么全部失败 
    
  事务的四大特性（ACID） 
    
   
   原子性：意思就是在一个事务中，事务是不可分隔的，也就是说不能一半成功，要么全部成功要么全部失败 
   一致性：事务操作会确保数据库状态保持一致性，事务提交前和事务提交后数据库状态会发生变化，但是会保持一致。 
   隔离性：隔离性指的是事务间是相互独立的，不会互相影响，例如点餐过程为一个事务。从电话订购到做出饭菜送餐完成结算所有这些操作假如为一个事务。不同的人进行点餐操作都是互相独立的，并不会互相影响，这就是事务的隔离性，如果一个事务影响了其他的事务，其他的事务会进行回滚，就如上面的点餐例子，如果饭菜已经卖完了，最后点餐的事务将会影响后面的事务，因为没有餐可点了，那么后面的事务将会进行回滚 
   持久性：事务提交的结果，假如成功的话，那么永远不变。 
   
    
  事务的四大隔离级别（ACID） 
    
   
   读未提交：也就是别人未提交的事务你也可以读取到 
   读已提交：是读取别人已经提交的事务 
   可重复度：可重复读指的是在一个事务内，最开始读到的数据和事务结束前的任意时刻读到的同一批数据都是一致的。通常针对数据更新（UPDATE）操作。 
   串行化：读取操作会使用共享锁，可以保证不同事务的互斥，也就是锁表。 
   
    
  3、HDFS读写流程 
    
  写流程： 
    
   
   往hdfs目录树中添加INodeFile 
   添加契约，也就是当前仅有一个客户端可以操作这个文件（后台会有一个线程一直进行扫描契约是否过期） 
   启动DataStreamer来进行写数据的操作 
   进行启动线程进行续约操作 
   将chuck写到packet然后将packet加入到dataQueue 
   向namenode去申请block，也就是返回可用的datanode节点（数据的负载均衡，也就是机架感知和其他的一些策略·） 
   建立datanode之间的数据管道 
   先把要写出的数据添加到ackQueue里面，然后写数据，移除dataQueue中的package，假如此时写数据失败了，就把ack队列里面的package添加到dataQueue中重新写 
   然后datanode会初始化一个PacketResonder的线程，进行将我们的数据写入到ack队列，然后把数据写入其他的datanode同时获取其他datanode的处理结果，将数据写入磁盘，然后依次层层上报给我们的客户端，写失败了，还是会用ack机制。 
   假如数据管道建立失败了，就删除向namenode申请的block然后重新建立block和建立数据数据管道 
   假如在datanode写数据流程中出现问题，那么这个会分为两个流程，先判断写几个副本写失败了，如果是三个副本的情况下，>=2的时候。这个时候重新去申请建立管道，如果只有一个的话，那么这个时候没事，重新建立管道，这个时候管道此时就两个节点，失败的踢出，等namenode的心跳来处理他的问题。 
   
    
  4、MapReduce流程 
    
  read阶段：maptask通过用户编写的recordreader，从输入inputsplit中解析出一个个的key、value 
    
  map阶段：将read阶段的数据key value交给 map方法执行，执行结束后生成新的keyvalue 
    
  collect阶段：在用户编写的map函数中，当数据处理完成之后，一般会写出这些数据，写的过程中会在函数内部调用分区器对数据进行分区，然后写入到环形缓冲区中。 
    
  溢写阶段：当写入环形缓冲区中的数据满了之后，会将数据溢写到磁盘上，在溢写之前会对数据进行一次快速排序并在必要的时候进行comber或者压缩操作，并生成临时文件。 
    
  合并阶段：当所有数据处理完了后，maptask会将所有的临时文件进行合并成一个大文件，同时生成对应的索引文件，合并的时候采用的是归并排序，这样避免小文件问题。 
    
  copy阶段：reducetask从每个maptask上将数据远程拷贝过来，先拷贝到缓冲区中，缓冲区不够的时候，溢写到磁盘 
    
  merge阶段：在远程拷贝数据的同时，reducetask启动了两个后台线程对内存和磁盘上的文件进行合并，防止内存使用过多，和磁盘占用太大 
    
  排序阶段：在传入reduce方法之前，传入的数据是按照key聚集的数据，mapreduce为了实现这样的数据结构，采用了归并排序来进行数据聚集。 
    
  reduce阶段：在reduce方法中对数据进行操作之后，会将数据写入hdfs中。 
    
  5、HIVE和Hadoop的关系 
    
  hive是一个数据仓库组件sql化查询引擎，底层引擎是可插拔的，可以依赖于spark、mapreduce、tez。底层存储是依赖于hadoop的hdfs。计算引擎是跑在 yarn上面的。 
    
  6、数仓分层，每层都做了什么；都有什么事实表 
    
  分层： 
    
  ODS：贴源层 
    
  DWD：明细层 
    
  DWS：聚合宽表层 
    
  ADS：数据集市层 
    
  事实表有库存、销售、用户行为、用户等级等。 
    
  7、分析的指标有什么？ 
    
  实时线上分析、实时销售明细、实时预售、实时促销、实时用户等 
    
  8、数据倾斜的处理？ 
    
  1、set hive.groupby.skewindata=true 
    
  2、看看是否可以过滤一个表成为小表，变成mapjoin 
    
  3、如果是count操作的话，那么就采用group by sum的操作，使用sum...group by代替。如select a,sum(1) from (select a, b from t group by a,b) group by a; 
    
  4、大表和大表join的话，如果join键是固定的，可以用分桶 
    
  比客 
    
  1、Java的熟不熟，常见的Java集合说一下 
    
  ArrayList、LinkedList、HashSet、TreeSet、HashMap、TreeMap 
    
  2、spark streaming消费kafka，怎么样保证数据消费唯一性 
    
  做到这个有三点：就是要采用direct模式消费kafka的数据；自己保存和维护offset；将计算和 更新偏移量放到一个事务中。 
    
  步骤是这样的： 
    
   
   启动后先从mysql或者redis中获取偏移量数据，也就是一个分区一个便宜量 
   使用获取到的offset创建directstream 
   将结果处理和偏移量处理放到一个事务当中，要么都成功要么都失败 
   
    
  3、spark shuffle过程

你可能感兴趣的:(spark,Flink,数据库,数据库,spark,flink)

为什么wal会提升数据库性能浩澜大大数据库
由于对于一个数据库内会存在很多张表，那么当数据库更新表数据时（1）直接写入磁盘实际写入的位置，会根据表的不同对应到不同的磁盘位置，在写入数据的时候，就会不停的寻找磁盘地址，找到地址后再去写入，对于机械硬盘来说，无规律的寻址是非常耗时的，对应SSD来说虽然性能提升很多，但是也会消耗时间；（2）先写入日志，在写入磁盘（WAL）WAL的过程，由于总是按照在文件末尾追加，只要找到文件写入位置，写入修改后，
Flink中的SQL Client和SQL Gateway BigDataMLApplication flink flink sql gateway
Flink中的SQLClient和SQLGateway对比目录定义基本原理适用场景主要区别常用运维命令示例官方链接正文1.定义SQLClient：FlinkSQLClient是一种用于提交和执行FlinkSQL语句的命令行界面或图形界面工具。SQLGateway：FlinkSQLGateway是一个独立的服务，它允许客户端通过RESTfulAPI将SQL查询提交到Flink集群。2.基本原理SQL
通俗易懂：MySQL中如何设置只读实例并确保数据一致性？大龄下岗程序员 mysql java mysql spring
在MySQL中设置只读实例主要应用于构建高可用性和扩展性的数据库环境，通常是为了分担读取负载或者用于备份和灾难恢复。以下是创建MySQL只读实例并确保数据一致性的基本步骤：1.创建并配置只读实例-主从复制设置-首先，你需要有一个主数据库实例（Master）负责接收所有的写操作。-创建一个或多个从数据库实例（Slave），并将它们配置为主数据库的复制品。这通常通过设置主从复制（Replication
C#中的PLINQ和LINQ的效率对比搬砖的诗人Z C#c#linq 开发语言
PLINQ（ParallelLINQ）和LINQ（LanguageIntegratedQuery）都是.NET框架中的功能，用于对集合进行查询和操作。它们之间的主要区别在于并行处理能力。LINQ:LINQ是一种用于在.NET应用程序中进行数据查询和操作的语言集成功能。它提供了一种统一的方式来查询各种数据源，如集合、数组、XML、数据库等。LINQ是在单线程环境中执行查询操作的，因此对于大型数据集或
docker怎么端口映射 Lance_mu docker 容器运维
1、默认固定的端口#Web服务器：WebApache或Nginx通常使用80端口HTTP：80HTTPS：443#数据库服务器MySQL：3306PostgreSQL：5432MongoDB：27017Redis：6379#邮件服务器SMTP：25POP3：110IMAP：143#其他服务SSH：22FTP：21DNS（域名解析）：53代理服务器Squid：3128版本控制系统Git：9418(S
新注册的阿里云账号有哪些优惠？阿里云新用户必看优惠大合集阿里云最新优惠和活动汇总
很多用户看到阿里云各种活动中的云服务器、云数据库、企业邮箱等云产品都仅限新用户购买之后，都纷纷直接注册了阿里云新账号之后购买，其实，阿里云新用户不仅可以优惠购买活动中的各种云产品，还有很多优惠，下面是“阿里云最新优惠和活动汇总”整理汇总的阿里云新用户必看优惠大合集。新注册的阿里云账号在购买活动中的云产品之前，还有免费领云产品通用代金券、抽取无门槛代金券、免费试用云服务器和正式购买云服务器等阿里云产
MyBatis高级面试题-2024 my_styles mybatis java 开发语言面试题
MyBatis的核心组件有哪些？首先第一个是，SqlSessionFactory，它就像是一个会话工厂。它的任务是创建SqlSession对象，这个对象是我们与数据库交互的主要途径。SqlSessionFactory的作用很重要，因为它可以帮我们配置数据库连接信息和事务管理等。一旦这个工厂被建立起来，它就会加载一些必要的配置和映射文件，为后续的数据库操作提供一个可靠的基础。第二个是SqlSessi
SQLite版本3中的文件锁定和并发(七）代码工匠云数据库 SQLite C与c++sqlite c++数据库
返回：SQLite—系列文章目录上一篇：自己编译SQLite或将SQLite移植到新的操作系统（六）下一篇：SQLite—系列文章目录正文：1.0SQLite版本3中的文件锁定和并发SQLite版本3.0.0引入了新的锁定和日志功能旨在提高SQLite版本2的并发性的机制并减少作家的饥饿问题。新机制还允许交易的原子提交涉及多个数据库文件。本文档介绍新的锁定机制。目标受众是想要理解和/或修改的程序员
python转码 Desamond python 开发语言
转码在许多场景中都有应用，以下是一些常见的场景：网页开发：当用户在网页上输入文本时，可能需要将特殊字符（如空格、引号、特殊符号等）进行转码，以防止这些字符对URL或HTML代码产生干扰。文件名处理：在处理文件名时，可能需要将特殊字符进行转码，以避免文件名被错误地解析或显示。数据传输：在数据传输过程中，为了确保数据的完整性和正确性，可能需要将数据中的特殊字符进行转码。数据存储：在数据库或数据存储中，
Python | Redis工具类 -拟墨画扇- Python redis 数据库缓存 python
一、需求自动连接Redis数据库，通过连接池处理数据对输出结果进行Log打印并保存到文件二、代码Utils.redisUtils.py#!/usr/bin/envpython#-*-coding:utf-8-*-importredisfromUtils.loggerimportlog"""Redis数据格式(1)字符串|存储形式:key-value:str-存储二进制数据:可以存储任意类型的数据，
数据管理知识体系指南（第二版）-第五章——数据建模和设计-学习笔记键盘上的五花肉数据治理数据库数据仓库数据治理
目录5.1引言5.1.1业务驱动因素5.1.2目标和原则5.1.3基本概念5.2活动5.2.1规划数据建模5.2.2建立数据模型5.2.3审核数据模型5.2.4维护数据模型5.3工具5.3.1数据建模工具5.3.2数据血缘工具5.3.3数据分析工具5.3.4元数据资料库5.3.5数据模型模式5.3.6行业数据模型5.4方法5.4.1命名约定的最佳实践5.4.2数据库设计中的最佳实践5.5数据建模和
项目管理工具最佳实践水岩
各个公司的最佳实践去哪儿jira自定义使用1.jira编号对应git分支命名，后台增加监控程序，新增一个分支，自动解析分支中的jira编号，自动落地到数据库，完成映射2.各个发布系统间信息同步，消息中心（IC）+数据中心（DC）,广播消息加一站式查询，持续集成，推进代码检查质量，分钟级反馈质量检查反思：1.项目管好：针对一线研发人员，简单易用，而不是满足管理层的“统计度量”（...）简化分类字段，
Azkaban各种类型的Job编写 __元昊__
一、概述原生的Azkaban支持的plugin类型有以下这些：command：Linuxshell命令行任务gobblin：通用数据采集工具hadoopJava：运行hadoopMR任务java：原生java任务hive：支持执行hiveSQLpig：pig脚本任务spark：spark任务hdfsToTeradata：把数据从hdfs导入TeradatateradataToHdfs：把数据从Te
Python Flask 使用数据库安果移不动 python flask 开发语言
pipinstallflask_sqlalchemy官方文档：Flask-SQLAlchemy—Flask-SQLAlchemyDocumentation(3.1.x)为了不报错也需要导入另外两个库#pipinstallflask_sqlalchemy#pipinstallmysqlclient完整代码importosfromflaskimportFlaskfromflask_sqlalchemy
.NET Core 将实体类转换为 SQL(ORM 映射) 你小子在看什么…… .NET .netcore sqlsugar postgresql
一、环境说明PostgreSQL数据库Npgsql数据库连接库SqlSugarORM框架二、映射流程1、创建数据库：检查指定数据库是否存在，如果不存在则创建数据库。2、初始化SqlSugar实例：使用SqlSugarClient初始化数据库连接配置。3、筛选实体类：根据指定的命名空间和排除条件筛选需要创建表的实体类。4、创建表：使用CodeFirst.InitTables方法创建数据库表。////
数据库的魅力：深入探索与应用小黄编程快乐屋数据库
数据库的魅力：深入探索与应用在数字化时代，数据库已经成为信息处理和存储的基石。无论是大型企业还是个人开发者，数据库都是不可或缺的工具。本文将带您深入探索数据库的魅力，了解其基本概念、类型以及应用，并分享一些实用的数据库管理技巧。一、数据库的基本概念数据库，简而言之，就是按照一定规则存储、组织和管理数据的仓库。它可以看作是一个电子化的文件柜，用于存储电子化的文件。这些文件按照特定的数据模型组织起来，
Thinkphp - 详细实现网站系统登录功能，附带 Mysql 数据库设置、Web 前端展示界面、信息校验等（详细代码，即设计过程）王佳斌 +Thinkphp mysql 前端数据库
前言登录功能，是我们几乎开发每个系统都必须的模块。登录功能设计思路，主要包括几个方面。用户输入网址展示登录页面用户输入用户名，密码等点击登录进行信息校验校验通过之后，记录用户登录信息，跳转指定页面用户校验失败，提示失败信息页面目录具体功能实现为了快速搭建可用、美观的页面，我们采用一个比较成熟的前端框架Bootstrap。下面我们到Bootstrap的官网Bootsrap官网下载bootstrap。
设置mysql 数据库和表的编码方式UTF-8 盖盖衍上中间件数据库 mysql oracle
要设置MySQL数据库表和字段的编码方式为UTF-8，可以使用下面的SQL语句：1.设置数据库默认编码为UTF-8：ALTERDATABASEyour_database_nameCHARACTERSETutf8mb4COLLATEutf8mb4_unicode_ci;2.创建表时指定编码为UTF-8：CREATETABLEyour_table_name(column1VARCHAR(100)CHA
kafka-eagle 配置文件修改使用自带的数据库 bright future cheer kafka 数据库分布式
######################################multizookeeper&kafkaclusterlistSettingsprefixedwith‘kafka.eagle.’willbedeprecated,use‘efak.’instead######################################efak.zk.cluster.alias=clu
mysql 常见数据表操作天狼1222 mysql系列 mysql 数据库
前面介绍了数据库表的基本操作。把常用的做一个汇总。时间久了，记不得完整的语法了，再打开一看，就清楚了。1，表操作1，建表+注释CREATETABLEstudent(idINTPRIMARYKEYAUTO_INCREMENTCOMMENT'学号',nameVARCHAR(200)COMMENT'姓名',ageINTCOMMENT'年龄')COMMENT='学生表'2，修改注释--修改表注释-ALTE
GROM学习码小白l golang
什么是GROMGo语言ORM（对象关系映射）库，它提供了一种高效、简洁的方式来操作数据库。通过将数据库表映射为Go语言的结构体，GORM让数据库操作变得更加直观和类型安全。GORM支持主流的数据库系统，包括MySQL、PostgreSQL、SQLite和SQLServer等GORM提供了一系列的API来操作MySQL数据库。以下是一些常用的GORMAPI操作，以及它们在操作MySQL时的用法：安装
centos7 安装influxdb+telegraf+grafana 监控服务器吕吕-lvlv grafana 服务器运维
influxdbinfluxdb是一个时间序列数据库,所有数据记录都会打上时间戳,适合存储数字类型的内容telegraftelegraf可以用于收集系统和服务的统计数据并发送到influxdbgrafanagrafana是一个界面非常漂亮,可直接读取influxdb数据展示成各种图表的开源可视化web软件安装并启动influxdb数据库vim/etc/yum.repos.d/influxdb.re
Flink算子通用状态应用测试样例公子乂 flink java servlet
Flink算子通用状态应用测试样例1.获取Flink执行环境finalStreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism(1);2.创建数据源，生成随机数据DataStream>source=env.addSource(newSourceFunct
Mysql数据库MariaDB数据库MHA高可用程序 yichen_china
声明：本次实验使用的是MariaDB数据库，所以本文中所出现的MariaDB与MySQL都是指的是MariaDB！！！MHA（MasterHA）是一款开源的MySQL的高可用程序，它为MySQL主从复制架构提供了automatingmasterfailover功能。MHA在监控到master节点故障时，会提升其中拥有最新数据的slave节点成为新的master节点，在此期间，MHA会通过于其它从节
基于SSM+Vue企业销售培训系统企业人才培训系统企业课程培训管理系统企业文化培训班系统Java 计算机程序老哥
作者主页：计算机毕业设计老哥有问题可以主页问我一、开发介绍1.1开发环境开发语言：Java数据库：MySQL系统架构：B/S后端：SSM(Spring+SpringMVC+Mybatis)前端：Vue工具：IDEA或者Eclipse，JDK1.8，Maven二、系统介绍2.1图片展示注册登录页面：登陆.png前端页面功能：首页、培训班、在线学习、企业文化、交流论坛、试卷列表、系统公告、留言反馈、个
SQL运维_Unix下MySQL-8.0.18配置文件示例 Mostcow SQL sql 运维 unix
SQL运维_Unix下MySQL-8.0.18配置文件示例MySQL是一个关系型数据库管理系统,由瑞典MySQLAB公司开发,属于Oracle旗下产品。MySQL是最流行的关系型数据库管理系统之一,在WEB应用方面,MySQL是最好的RDBMS(RelationalDatabaseManagementSystem,关系数据库管理系统)应用软件之一。MySQL是一种关系型数据库管理系统,关系数据库将
关于HDP的20道高级运维面试题编织幻境的妖运维
1.描述HDP的主要组件及其作用。HDP（HortonworksDataPlatform）的主要组件包括Hadoop框架、HDFS、MapReduce、YARN以及Hadoop生态系统中的其他关键工具，如Spark、Flink、Hive、HBase等。以下是对这些组件及其作用的具体描述：Hadoop框架:Hadoop是一个开源的分布式计算框架，用Java语言编写，用于存储和处理大规模数据集。它广义
c#IQueryable和IEnumberable的区别彭小彭~ c#基础 c#
IQueryable和IEnumerable是C#中处理集合的两个重要接口，常用于LINQ查询。它们有一些关键区别，适用于不同的场景：1.执行查询的位置IEnumerable:当你对一个IEnumerable序列使用LINQ操作时，这些操作是在本地内存中执行的。如果IEnumerable表示数据库中的数据（例如，使用EntityFramework时），那么整个数据集首先会被加载到内存中，然后再应用
【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理音乐学家方大刚 Scala Hadoop hadoop scala spark
风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语
Linux系统定时备份mysql数据库 er_得一数据库 mysql oracle
1、创建shell脚本mysql_db_backup并赋予执行权限#!/bin/bash#备份目录BACKUP=/data/backup/db#当前时间DATETIME=$(date+%Y-%m-%d_%H%M%S)echo$DATETIME#数据库地址HOST=localhost#数据库用户名DB_USER=root#数据库密码DB_PW=pwd@123#备份的数据库名DATABASE=Apol
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不