走不到尽头的程序员

大数据面试

适合应届生的大数据面试题

一、 java基础

1、 Queue（队列）和Stack（栈）你平时有用过么，说说你常用的方法，他们的区别在哪呢？

2、了解java的异常吗，有什么区别，常见的异常有哪些呢？

3、两个字面值相同的Integer，它们两个用等于号去比较，结果是true还是false？（这个题要分两部分去回答，结果可能为true，也可能为false。因为有缓存）

4、可以讲一下你常用的集合类么？他们的实现类有哪些？

5、 ArrayList、LinkedList的区别，底层的实现呢了解吗，有没有什么优缺点，分别适合于什么样的场景，多线程环境下，有没有安全的list的实现类呢？

6、其他数据结构的了解吗？LinkedHashMap、ConcurrentSkipHashMap（作为一个扩展，面试的时候问到的不是很多，能答出来挺好，答不出来也没关系）

7、说一说你对HashSet的理解，越详细越好 ( tip：底层是用hashMap实现的)，treeSet有了解吗？聊一聊？

8、 HashMap的疯狂试探：
a. HashMap的底层数据结构是什么样子的
b. 了解hash冲突吗？它是如何解决hash冲突的
c. 请你简单叙述一下hashMap的put和get操作，当然，能说多细就说多细？
d. Jdk7和jdk8中对hashMap做了什么改进嘛（红黑树）？
e. 有没有其他的解决冲突的办法呢
f. HashMap中的hash函数了解吗？那他的扩容机制了解吗？
g. HashMap为什么扩容是2倍呢，可以说说嘛？
h. 假如说我加入一个键值对，这个时候出现了冲突，它只怎么把这个节点加入进去？是加入到当前bucket所对应的链表的头结点还是尾节点？（答不上来可以问一个稍微简单的，equals和 == 的区别，以及其中hashCode的作用）
i. 可以说说什么条件下，可以把一个链表转成红黑树呢？它里面的大概流程是什么，了解吗？
j. 有没有想过为什么选用了红黑树，而不是其他的数据结构，譬如说二叉树，二叉查找树，或者其他的树？
k. 在高并发大流量的情况下，hashMap有什么问题吗，会不会造成cpu达到100%？如果会，那是在哪一步可能会出现这个问题呢（插入、删除、查找、扩容）？

9、 ConcurrentHashMap的疯狂试探：
a、他和HashTable的区别呢？
b、说说你对JUC包的了解？
c、 ConcurrentHashMap中是怎么加锁的？
d、 1.7和1.8中，ConcurrentHashMap的区别是什么？
e、 ConcurrentHashMap是怎么做到线程安全的呢？（CAS和锁）
f、为什么会抛弃分段锁，它有什么毛病吗（上面一个题回答上才可以问这个）？
g、知道红黑树的transfer过程么？简单的描述一下

10、多线程下的疯狂试探：
a. 多线程了解吗？说说线程的生命周期？
b. 线程池有用到过吗？怎么用的，jdk有提供那些线程池（总共提供了四种）？
c. 线程的状态有哪些呢？
d. 线程池的核心参数有哪些？（核心线程数、最大线程数、时间、时间单位、队列、拒绝策略、默认的线程工厂）
e. Wait，yeild，stop，sleep、join、start、run的区别和如何使用？
f. 接着上题：这四种有什么区别吗，你用过哪一种，可能存在什么问题吗？
g. 接上题：拒绝策略有哪些呢？了解吗？聊聊？
h. 接上题：你刚才说了队列，线程池中的队列有哪些？有界队列、无界队列、同步队列都有了解吗？聊聊？
i. 如何实现一个消费者和生产者的循环消费和生产呢？（有两种方式，一种是通过锁，lock或者Synchronize，还有一个是通过ArrayBlockingQueue实现）
j. 你可以实现线程之间的相互通信吗？如何实现？要不写一个？

11、线程安全的疯狂试探：
a. Synchronzie了解吗？谈谈你的理解
b. 在一个普通方法上加synchronize和在一个静态方法上加synchronize有什么区别（对象锁和类锁的的区别）？
c. Synchronize和lock有什么区别呢？说说你对lock的理解？
d. Lock的公平和非公平锁？
e. 说一说volitaile为什么保证不了原子性，可以保证可见性嘛？如何保证的（jvm的多线程的内存模型有关系）
f. 了解CountDownLatch么，CyclicBarrier的区别呢？
g. Synchronize的实现原理知道吗？moniter的实现机制呢，为什么加了Synchronzie关键字，就可以在多线程下是安全的（这个回答要从java对象的Object头来回答）
h. 类锁和对象锁的区别呢？字节码的体现呢？
i. Java中的自旋锁、偏向锁、读写锁、重锁等了解吗？
j. 了解java重对象的对象头嘛？有哪些属性和字段呢？
k. Aqs(AbstractQueuedSynchronizer)了解吗？它和lock的关系？说说aqs中的核心思想?
l. Lock中存在锁升级嘛，他是可重入得嘛，那Synchronize是可重入得嘛，有没有锁升级的概念？
m. Volitaile了解吗？他的作用是什么呢，内存语义是什么呢？有没有了解过cpu的缓存一致性协议？
n. 还知道其他的juc类嘛，有哪些呢（譬如lockSupport）？

12、 jvm的疯狂试探：
a. 了解jvm么？jvm的内存模型？
b. Java如何判断一个对象是否还活着呢？
c. Java的类加载了解吗？
d. Java类加载器了解吗，有哪些呢？那它的双亲委派了解吗？
e. Jvm指令你知道哪些（jps，jstack，jinfo，jmap……），都有什么作用呢？
f. Java的垃圾回收算呢，了解吗,G1回收算法了解吗？
g. Jvm参数你了解吗，知道多少说多少？
h. 在实战中有进行过jvm调优嘛，怎么做的，
i. Java的对象年龄知道吗，有什么作用吗？
j. Young GC和fullGC了解吗，如何触发，如果在你的项目中，频繁出现young GC 怎么办？

13、设计模式的疯狂试探：
a. 你了解的设计模式有哪些？
b. 可以写一个单例模式嘛，工厂模式呢，抽象工程模式解决了什么问题？
c. 策略模式、责任链模式、适配器模式写一个，写不出来的话，java中在哪用到了这些模式
d. 代理模式了解吗，会写吗，jdk代理和cglib代理的区别呢，说说你的理解？

二、数据结构与算法

1、排序算法了解什么？能不能手写一个快速排序、或者归并排序，堆排序有了解吗？

2、给你一个一元二次方程公式，你写一个方法，用计算机语言实现它。

3、图了解么，有向图呢？你可以实现一个有向图么？（假如他回答的是二维矩阵，可以反问他有没有更好的解决方案呢，因为这个图可能是个稀疏矩阵）

4、接上题，在图中，如何判断两个节点的联通性，可以写代码写出来么？

5、给你一个1T的Int文件，然后你只有一台内存是8G的机器，如何用最快的方法，求出里面出现频率最高的topN个数？

6、算法的时间复杂度和空间复杂度了解吗？说说你了解的算法的时间复杂度和空间复杂度。

7、二叉树了解吗，树的广度优先算法和宽度优先算法了解吗？写一个他的前序（中序、后序）遍历可以么（递归和非递归的方式都可以写出来么）？

8、给你一个字符串，请检查中间出现的括号的正确性，譬如：（{[]}），（（（）））这都是个合法的字符串，（（）（））（（（）这就不是一个合法的字符串；

9、给你一个单向链表，检测它有没有形成环？

10、给你一个单向链表，如何反转，可不可以把空间复杂度降低到O(1)级别？

11、写一个字符串匹配算法，判断在一个字符串中是否包含另外一个字符串（一般都会说循环去比较，这样的时间复杂度很高，有一个算法是KMP，面试者要是能提到KMP都就很不错了，因为很多面试官都不知道，也不会）？

12、可以用两个栈模拟一个队列么？

13、如何判断两棵树相不相等

14、动态规划有了解吗？
a. 给你一个机器人，它每次只能向右或者向下走一步，其中，中间有一个障碍物，不可以经过，请问，在一个n*m的矩阵中，这个机器人总共有多少种走的方法？（答不出来就降低一下难度，把中间的那个障碍物去掉）
b. 青蛙跳知道吗？给你一个数组，里面的每一个数字代表青蛙可以前进的最大的步数，如何判断这个青蛙可不可以达到终点；譬如2，3，4，1就可以，1，2，1，0，1就不可以；
c. 爬楼梯，假设有一个n阶的楼梯，你每次都只能爬1或者2个台阶，请问有多少种不同的方法可以爬上去呢？
d. 给你一个整数数组，找到一个具有最大和的连续子数组（子数组至少包含一个元素），返回最大值
e. 给你一个容量为V的背包，现在有N件商品（有重复，相同的商品可以随意取），每件商品的体积是v1，价值是w1，请问，这个背包所能容纳的最大价值是多少？
f. 一个100层高的楼，有两颗鸡蛋，你需要用最少的次数找到那个临界点，这个临界点以上的楼层上摔下去，鸡蛋都会碎掉，以下的楼层，鸡蛋是不会碎的，（扩展，加入现在是N层高的楼房，你现在有m个鸡蛋，m>=1，用最少的次数找到那个临界点）

三、数据库大汇总

1、用过mysql嘛？了解吗？

2、 Mysql事务了解吗，隔离级别呢，每种隔离级别会出现什么问题？

3、 Mysql的锁了解吗（表锁、行锁、间隙锁，读写锁）？

4、 Mysql引擎知道吗，innodb和myisam的区别知道吗，说说底层的实现？

5、聚簇索引和非聚簇索引知道么，有什么区别？

6、 B+树知道吗？为什么使用B+树？

7、分库分表做过吗，如果让你去实现分库分表，你有什么需要考虑或者注意的嘛？

8、了解死锁嘛？知道他是怎么产生的嘛，如何避免呢？

9、 Sql优化了解过吗？说说你的理解，给你一条sql，你会怎么优化？

四、框架

1、 redis大家庭：
a. redis是什么，能干嘛，怎么用？
b. Redis的基础数据类型有哪些？
c. Reids除了这些，还有哪些数据结构，能解决什么问题？
d. Redis集群有搭建过么，说说你的实现
e. Redis如何实现分布式锁
f. Redis的支持事务么？
g. 位图了解吗？
h. 布隆过滤器了解吗，他的原理是什么呢？
i. Redis的通信协议你知道嘛？
j. Redis中的数据结构底层了解吗？string的编码、list的编码、zset的编码；
k. 在集群环境下，Redis的分布式锁一定可靠吗，redis社区有没有提供可靠地分布式锁的集群方案（有，红锁）?
l. Redis的持久化你知道么，说说rdb和aof的区别
m. Aof瘦身知道么？如何瘦身
n. Redis的拒绝策略你知道么？那它的淘汰策略你知道么
o. Redis的哨兵模式呢，了解吗？
p. Zookeeper了解吗，用zookeeper实现分布式锁，和redis实现有什么不同呢，说说他们的原理？

2、 Spring大家庭：
a. Autowire和Resource 的区别
b. 谈谈你对spring的理解，它干了什么？
c. Spring的依赖注入和切面呢？
d. Spring的事务了解吗，他的传播机制呢
e. Spring的aop切面详细说说，你的应用场景呢？
f. Springmvc用过吗？了解他的启动流程嘛？说说你的看法
g. Spring中的bean的生命周期呢，了解吗？如何扩展一个bean的生命周期？
h. Spring源码读过吗？有没有想过他是如何解析在xml中定义的bean的。
i. 在spring的配置文件中加入component-scan标签，它就可以自动加载所有添加相应注解的java类，这个是怎么做到的呢，你知道嘛？
j. Dubbo了解吗？dubbo是怎么和spring想结合的？

3、消息中间件大家庭：
a. 你了解消息中间件有哪些？
b. 谈谈你对topic和partition的理解？
c. Kafka中的isr和osr有了解吗？
d. Kafka的高水位你知道嘛？
e. Kafka的分区器、拦截器、序列化器你了解吗？
f. 消息的可靠性怎么保证？
g. 消息丢失怎么办？kafka有什么保证策略？（我了解kafka，你们也可以问问其他的，譬如rocketMq）
h. Kafka的事务你了解过吗（这个特别难，一般别问昂）？

4、 zookeeper大家庭：
a. 谈谈你对zookeeper的理解？
b. Zookeeper的节点类型你知道么？
c. Zookeeper的心跳机制呢？
d. Zookeeper的优势在哪？
e. 知道zookeeper的watch嘛？
f. Cap理论知道吗？
g. Paxos算法呢，了解吗？

5、 springBoot大家庭：
a. 什么是springboot？
b. 为什么要用springboot呢？
c. Spring boot 的核心配置文件有哪几个？他们的区别是什么？
d. Spring boot 的配置文件有哪几种格式？区别？
e. Spring boot的核心注解是那个？它主要由哪几个注解组成的？
f. 如何理解springboot的配置加载顺序？

五、离线方向

数据优化中，需要注意哪些关键词

```
Uninon 跟uninon all 的区别
```

除了distinct外如何使用SQL对数据去重

```
项目中etl过程
```
```
Spark的运行流程
```

Sql开窗函数，开窗函数中row_number与rank的区别

Avg、sum、count 函数，在某列有空值的情况下，结果会有哪些不同

一个表两个字段，一个id，一个values;values有连续相同；但是有缺失，找出缺失的地方补全(连续缺失的字段如何补全)

```
数据仓库的基本原理
```
数据表的各个模型，例如（雪花模型），简述
数据优化中除了用过mapjoin之外，还用过哪些join(不是常见的五种),简述
修改批量文件中的词
Shell脚本的定时任务

1.英语自我介绍，说一下越到的最大的挑战
2.union和union all的区别
3.给了个题目，一个表两个字段，一个是id，一个是value，value是连续相同的，但是有缺失的，找出来缺失的地方补全
4.去重的操作
5.spark提交任务的流程
6.Spark oom怎么处理
7.join有哪些？mapsidejoin是什么知道吗（不知道，大概猜了下，然后就没继续问）
8.Linux指令用过哪些？
9.用shell直接查找到文件中的一个词，然后替换（这个不会）
10.Data modeler用过没
11.维度建模什么情况

1.用英语介绍下数据仓库和数据集市的区别
2.讲下 linux 免密登陆
3.介绍下spark执行流程
4.spl 开窗函数
5.shell 脚本读取文件
6.项目中最自豪的事情
7.数据库中count(*) 和count(1) 在什么情况下数据不一致
8.最有压力的事情
9.shell 脚本替换文件内容，替换文本
10.数据倾斜调优

1.英语介绍一下olap和oltp的区别
2.olap的产品知道哪些
3.数仓模型建设
4.对表的设计
5.data modeler工具
6.项目中的etl过程
7.统计人员使用什么工具查询
8.数据报表工具知道哪些
9.工作主要涉及的技术有哪些
10.每日数据量多少，存量多少
11.如何通过sparksql对数据进行更新
12.hbase数据如何更新
13.两表join跑不出数据会是什么原因，如何解决
14.如何进行mapjoin
15.开窗函数
16.linux命令考查
17.hdfs上跨节点如何数据迁移
18.免密登录如何实现
19.ip映射是记录在哪个文件中
20.如何批量修改文件中某一字符串
21.如何确保项目成功交付
22.项目交付时如何进行数据验证
23.项目中最有成就感的事情

六、Spark相关

Q: Spark任务提交后的流程
A: 只要能说出来sparkContext, DAG, Stage, Executor 就大致上应该了解些。

详细答案参考：
1)构建Spark Application的运行环境（启动SparkContext），SparkContext向资源管理器（可以是Standalone、Mesos或YARN）注册并申请运行Executor资源；
(2)资源管理器分配Executor资源并启动StandaloneExecutorBackend，Executor运行情况将随着心跳发送到资源管理器上；
(3)SparkContext构建成DAG图，将DAG图分解成Stage，并把Taskset发送给Task Scheduler。Executor向SparkContext申请Task
(4)Task Scheduler将Task发放给Executor运行同时SparkContext将应用程序代码发放给Executor。
(5)Task在Executor上运行，运行完毕释放所有资源。

Q: Spark的API有哪两大类？分别解释一下和举个例子？
A: Transformation & Action.Transformations是转换操作，如map, filter, union, reduceByKey等，Actions是执行操作，如count, collect, reduce, saveAsXXX等

Q: Spark中的union属于宽依赖还是窄依赖? 有无shuffle?
A: 属于窄依赖，无shuffle

SQL:

Q: union all 和 union 有什么区别？哪个性能好？
A: union all 不去重， union会去重。Union all性能好，因为无需额外去重

Q: 如何判断一张表里某个字段有重复？
A: 利用COUNT 加HAVING ，答到这个的一般没问题, 具体如下：
SELECT COL, COUNT(1) AS CNT FROM TABLEGROUP BY 1 HAVING CNT > 1

Q: 有一张表有两个字段，分别是商品ID和商品价格，如何取到商品价格是前10名的所有商品ID？
A: 如果只能想到ORDER BY + LIMIT的，说明SQL较弱。知道用窗口函数(PARTITION BY)的话，至少说明应该不止做过简单的SELECT * FROMTABLE，但想到用row_number()的话。。不行，如果会问价格是否有重复的话，说明对问题考虑得算周全，因为价格通常都会重复，ID是一般唯一的，如果知道rank() , dense_rank()的话基本就没问题了。当然也有不用partition by 的方式，但步骤较多

数仓:
Q: 数据仓库一般的分层有哪些
A: 不同公司叫法不同，但是可以让他解释每层分别放什么样的数据，下面是网上抄的，大同小异，知道基本概念就行
ODS：Operation Data Store
原始数据
DWD(数据清洗/DWI) data warehouse detail
数据明细详情，去除空值，脏数据，超过极限范围的
明细解析
具体表
DWS(宽表-用户行为，轻度聚合) data warehouseservice ----->有多少个宽表？多少个字段
服务层–留存-转化-GMV-复购率-日活
点赞、评论、收藏;
轻度聚合对DWD
ADS(APP/DAL/DF)-出报表结果 Application Data Store
做分析处理同步到RDS数据库里边

Q: 维度表和事实表分别是什么？举些例子？
A: 简单解释：
事实表就是交易表。
维度表就是基础表。
二者的区别：
维度表的冗余很大，主要是因为维度一般不大(相对于事实表来说的)，而维度表的冗余可以使事实表节省很多空间。
事实表一般都很大，如果以普通方式查询的话，得到结果一般发的时间都不是我们可以接受的。所以它一般要进行一些特殊处理。如SQL Server 2005就会对事实表进行如预生成处理等。
事实表一般是没有主键的，数据的质量完全由业务系统来把握。

七、SQL相关

1.distributeby 、sort by 、cluster by 、order by 区别？
1). order by 只有一个reduce负责对所有的数据进行排序，若大数据量，则需要较长的时间。建议在小的数据集中使用order by 进行排序。
2). order by 可以通过设置hive.mapred.mode参数控制执行方式，若选择strict，则order by 则需要指定limit（若有分区还有指定哪个分区）；若为nostrict，则与关系型数据库差不多。
3). sort by 基本上不受hive.mapred.mode影响，可以通过mapred.reduce.task 指定reduce个数，查询后的数据被分发到相关的reduce中。
4). sort by 的数据在进入reduce前就完成排序，如果要使用sort by 是行排序，并且设置map.reduce.tasks>1,则sort by 才能保证每个reducer输出有序，不能保证全局数据有序。
5). distributeby 采集hash算法，在map端将查询的结果中hash值相同的结果分发到对应的reduce文件中。
6). distributeby 可以使用length方法会根据string类型的长度划分到不同的reduce中，最终输出到不同的文件中。 length 是内建函数，也可以指定其他的函数或这使用自定义函数。
7). cluster by 除了distribute by 的功能外，还会对该字段进行排序，但是排序只能是升序排序，不能指定排序规则为ASC或者DESC，所以cluster by = distribute by +sort by 。

2.请简述以下sql 的执行顺序是什么？
select
catid,
count(orderid) as sales
from t_tab
where catid <> “c666”
group by catid
having count(orderid) > 10
order by count(orderid) desc
limit 100

答：
from -> where -> group by ->having -> select -> order by -> limit

3.问：
（1）两条语句的执行结果是否一样？为什么？
（2）假设，数据量很大的情况下，您会选择哪种语句执行？也可以自行开发

–sql 语句 1
select
t1.id,t1.xxx,t2.xxx
from t1 left join t2
on t1.id = t2.id and t1.id < 10

–sql 语句 2
select
t1.id,t1.xxx,t2.xxx
from t1 left join t2
on t1.id = t2.id
where t1.id < 10

答：1）由于left join,right join,full join的特殊性，不管on上的条件是否为真都会返回left或right表中的记录，full则具有left和right的特性的并集。
sql 语句 1 中采用的是left join,所以 on 里的 t1.id <10 对左表 t1 不起作用，结果还是会返回t1 表的所有数据

       sql 2 则是先 通过 on 上的条件，将两表关联，在最终关联好的表上，在进行过滤，所以只会返回t1.id < 10 的所有数据
     2) 当数据量很大的情况下，基于上述情况我会选择 sql 2 ，但是性能不高,可以采用以下查询
       select
         tmp_t1.id,tmp_t1.xxx,t2.xxx
       from
       (
          select * from t1 where t1.id < 10
       ) tmp_t1 left join t2
       on tmp_t1.id = t2.id

4.count(distinct user_id) 和 group by user_id 之后求 count 两者有什么区别？
首先要清楚，count(distinct) 的原理机制，首先他是将数据通过map端发往一个reduce，之后reduce接收到数据之后，会将数据放入到 hashset中去重，之后cleanUp() 方法，在执行最后的逻辑，比如:计算hashset的size等。
这里就出现了一些问题，
1）数据都发往一个reduce会造成数据倾斜，
2）程序从分布式变成单机程序，影响效率
3）程序执行过程中，只产生一个job
但也不是绝对的，当数据量很小的时候，此时我们并不需要采分布式执行，一个job运行足矣，但是，当数据量比较大的时候，这时count(distinct) 就暴露除了大大的弊端，所以，此时，不应该采用此法来实现去重
group() by count() 当数据量比较大的时候，采用此法，先分组，这时已经在map端实现了去重机制，之后数据发往reduce 数据量已经变得很小了，并且此法涉及到shuffle ，所以reduce的压力不会集中在某个上，并且会产生多个job。
1.1 group() by count() 一定比count(distinct) 性能要好吗？
不一定，当数据量比较大的时候采用group() by count() 会比count(distinct) 要好，但是在数据量比较小的时候，一个job就可以处理，没必要用两个job，也没必要shuffle，所以调优看情况而定

vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
百度地图迁徙大数据深度解析与实战指南
百度地图迁徙大数据深度解析与实战指南在数字化时代，人口流动数据已成为洞察社会经济活动的关键指标。百度地图依托海量位置数据和AI算法打造的"迁徙大数据"平台，为城市规划、交通管理、商业选址等领域提供了重要决策支持。本文将系统性解析百度地图迁徙大数据的查看方法、核心功能及实战应用场景，帮助读者快速掌握这一数据驱动的决策工具。一、迁徙大数据的核心价值迁徙大数据通过聚合手机用户的定位信息，构建全国范围的人
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
智慧城市大脑解决方案
智慧城市大脑背景与意义智慧城市大脑作为城市管理的创新模式，通过集成大数据、人工智能等技术，实现了对城市运行的全面感知与智能决策。它不仅提升了城市管理效率，还为市民带来了更加便捷、安全的生活体验。智慧城市大脑建设历程某城市作为智慧城市大脑的创新策源地，自2016年起便与阿里巴巴集团深度合作，投入巨资自主研发城市数据大脑“交通小脑”平台。该平台成功接入了大量视频和数据，实现了对道路和时间资源的再分配，
智慧城市大脑：城市治理的新引擎 Fulima_cloud 智慧城市人工智能
在科技日新月异的今天，智慧城市的概念已经深入人心。而智慧城市大脑，作为智慧城市的中枢神经系统，运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系，正逐步成为提升城市治理能力、优化城市服务、推动城市可持续发展的重要力量。智慧城市大脑是什么，简而言之，是运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系。它如同城市的“智慧中枢”，通过对城市全域运行数据的
KaiwuDB X 济南大数据局：构建城市级重点车辆智慧监管中枢数据库
项目背景2022年2月14日，交通运输部联合多部门对《道路运输车辆动态监督管理办法》进行重要修订。新规突出"科技强监"理念，明确要求各级管理机构依托智能监管平台构建常态化监管机制：一方面强化对重点营运车辆的动态监测，另一方面建立事故预防预警体系。这一政策不仅为城市重点车辆监管提供了权威的政策指引，更在全国范围内掀起了监管平台智能化升级的热潮。作为城市治理的中枢部门，济南市大数据局肩负着重点车辆监管
Docker容器如何实现分布式微服务：从0到1的深度解析 cda2024 docker 分布式微服务
在当今云计算和大数据时代，企业面临的最大挑战之一是如何快速、稳定地部署和管理复杂的软件应用。传统的单体架构已难以满足现代互联网应用的需求，而分布式微服务架构成为了解决这一难题的关键。但问题随之而来：如何高效地构建和管理分布式微服务？Docker容器技术的出现为这个问题带来了新的曙光。它不仅简化了应用程序的打包和部署过程，还为微服务架构提供了强大的支持。本文将深入探讨Docker容器如何实现分布式微
2025年7月-9月广深地区学术会议征稿邀稿 | 2025年7-9月广州学术会议、深圳学术会议参会投稿 | 广深参会 EI 检索会议推荐 | 期待在广东与您相见，共襄学术盛举！
会议名称【点击会议名称查看详情】会议时间会议地点第四届能源与电力系统国际学术会议(ICEEPS2025)2025年7月17-19日广州第七届电子与通信，网络与计算机技术国际学术会议（ECNCT2025）2025年7月18-20日广州2025年人工智能与基础模型国际学术会议（AIFM2025）2025年7月18-20日广州第六届经济管理与大数据应用国际学术会议(ICEMBDA2025)2025年7月
Python爬企查查网站数据的爬虫代码如何写？ cda2024 python 爬虫开发语言
在大数据时代，数据的获取与分析变得尤为重要。企业信息查询平台“企查查”作为国内领先的企业信用信息查询工具，提供了丰富的企业数据资源。对于数据科学家和工程师而言，能够从这些平台高效地抓取数据，无疑是一项重要的技能。本文将详细介绍如何使用Python编写爬虫代码，从企查查网站抓取企业数据，并探讨其中的技术难点和解决方案。为什么选择Python？Python是一门广泛应用于数据科学和网络爬虫开发的语言，
如何利用AWS Lambda作为Serverless数据库进行大数据处理 AI天才研究院 AI人工智能与大数据自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术Serverless数据库一直是构建数据分析应用的主要选择之一。它能帮助客户节省运行服务所需的服务器成本、快速弹性扩展和自动伸缩能力，并且能提升整体性能，有效减少运维和开发资源投入。但是，在实际生产环境中，它们也面临着很多技术上的挑战，比如如何让Serverless数据库服务可以像传统数据库一样，做到高并发处理、实时计算等。而AWSLambda为Serverless数据
大数据领域数据产品的零售行业应用创新模式大数据洞察大数据与AI人工智能大数据零售单例模式 ai
大数据领域数据产品的零售行业应用创新模式关键词：大数据、零售行业、数据产品、应用创新、客户洞察、智能决策、数字化转型摘要：本文深入探讨了大数据技术在零售行业中的应用创新模式。我们将从零售行业数字化转型的背景出发，分析大数据产品如何重塑零售价值链，包括客户洞察、供应链优化、精准营销和智能决策等方面。文章将详细介绍相关技术原理、算法实现和实际应用案例，为零售企业提供可操作的大数据应用框架和创新思路。1
大数据如何助力企业文化“软实力”升级？深挖数据背后的文化密码 Echo_Wish 大数据高阶实战秘籍大数据
大数据如何助力企业文化“软实力”升级？深挖数据背后的文化密码今天我们聊一个听起来很“软”的话题——企业文化，但从一个不太“软”的角度来看：大数据如何参与企业文化的建设与提升。企业文化往往被看作无形资产，是团队凝聚力、创新力的源泉。但传统“喊口号”式的文化建设常常效果有限。大数据技术的兴起，给我们提供了洞察员工心理、量化文化影响的新思路，让文化建设从“感性”走向“理性”，从“盲目”变得“精准”。一、
Docker快速部署Hive服务长路 ㅤ 运维 Docker配置 Hive环境大数据远程调试
文章目录前言Docker快速配置hive环境资料获取前言博主介绍：✌目前全网粉丝4W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)CSDN搜索：长路视频平台：b站-Coder长路Docker快速配置hive环境Ap
从UI设计到数字孪生实战：构建智慧教育的个性化学习平台
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：数字孪生重构智慧教育的技术范式在教育数字化转型加速推进的背景下，传统在线教育正面临"个性化不足、学习体验单一、效果评估滞后"的瓶颈。教育部数据显示，采用数字孪生技术的智慧教育平台，学生学习效率平均提升35
每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户_用户每日登陆脉脉会访问app不同的模块,现有两个表表1记录了每日脉脉活跃用户的ui(1)
文章目录每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户每日语录第25题：1.需求列表1.初级题:每日活跃用户思路分析(1)创建表(2)思路答案获取加技术群讨论附表文末SQL小技巧后记每天一道大厂SQL题【Day25】脉脉真题实战(一)每日活跃用户大家好，我是Maynor。相信大家和我一样，都有一个大厂梦，作为一名资深大数据选手，深知SQL重要性，接下来我准备用100天时间，基于大
Spring Boot 项目启动时按需初始化加载数据我叫晨曦啊 spring boot spring boot java 后端
1、新建类，类上添加注解@Component，该类用于在项目启动时处理数据加载任务；2、该类实现ApplicationRunner接口，并重写run方法；3、在重写的run方法里处理数据加载任务；注意：有定时加载数据需求的话，添加定时任务即可；一次性加载大数据量时可能内存溢出；同一个项目中，可以定义多个ApplicationRunner的实现类；存在多个ApplicationRunner的实现类时
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Apache SeaTunnel × Hive 深度集成指南：原理、配置与实践数据库
在大数据处理的复杂生态中，数据的高效流转与整合是实现数据价值的关键。ApacheSeaTunnel作为一款高性能、分布式、易扩展的数据集成框架，能够快速实现海量数据的实时采集、转换和加载；而ApacheHive作为经典的数据仓库工具，为结构化数据的存储、查询和分析提供了坚实的基础。将ApacheSeaTunnel与Hive进行集成，能够充分发挥两者的优势，构建起高效的数据处理链路，满足企业多样化的
大数据平台之ranger与ldap集成，同步用户和组无级程序员大数据大数据 hadoop
ranger可以通过ranger-usersync与linux系统同步用户，但是，还有个问题，就是我们的hiveserver一般是集群，可以是多台服务器，那么我们空间同步哪一台呢，而且如果用户多了，如何管理用户登录密码呢，所以，还是要用ldap比较合理。首先是安装openldap:yum-yinstallopenldapcompat-openldapopenldap-clientsopenldap
vue-scrollto实现页面组件锚点定位长路 ㅤ 前端 vue.js 前端 javascript
文章目录前言背景操作指南安装及配置步骤vue组件中使用参考文章前言博主介绍：✌目前全网粉丝3W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)视频平台：b站-Coder长路背景vue中在hash模式下，页面的动态渲染
SQL Server 临时表、表变量与WITH语句的用法与区别 Favor_Yang SQL调优及高级SQL语法编写数据库 sql sqlserver
引言在SQLServer数据处理中，临时表、表变量和WITH语句（CTE）是关键的中间结果集管理工具。临时表适合大数据量操作，表变量优化小数据量场景，而CTE则简化复杂查询逻辑。三者选择需综合考量数据量级、事务需求及代码可读性。本文将深入解析其工作机制，通过实测对比指导场景化选型。1.临时表（TemporaryTables）定义与创建通过#（本地）或##（全局）前缀创建物理表：--本地临时表CRE
从0到1：Vue.js与D3.js搭建AI大数据动态看板
一、引言在当今AI和大数据盛行的时代，数据如同企业的“石油”，蕴含着巨大的价值。随着数据量呈指数级增长，如何从海量数据中快速提取有价值的信息，并以直观、易懂的方式呈现出来，成为了数据分析领域的关键挑战。数据看板作为一种强大的数据可视化工具，能够将复杂的数据转化为直观的图表、图形和指标，帮助用户快速理解数据背后的含义，做出更明智的决策。无论是企业的管理层、业务分析师还是数据科学家，都可以通过数据看板
Flink ClickHouse 连接器：实现 Flink 与 ClickHouse 无缝对接 Edingbrugh.南空大数据 flink flink clickhouse 大数据
引言在大数据处理领域，ApacheFlink是一款强大的流处理和批处理框架，而ClickHouse则是一个高性能的列式数据库，专为在线分析处理（OLAP）场景设计。FlinkClickHouse连接器为这两者之间搭建了一座桥梁，使得用户能够在Flink中方便地与ClickHouse数据库进行交互，实现数据的读写操作。本文将详细介绍FlinkClickHouse连接器的相关内容，包括其特点、使用方法
【前端开发】Uniapp分页器：新增输入框跳转功能
基于UniApp官方扩展组件库uni-ui中的uni-pagination分页器组件，针对大数据量场景进行优化主要优化以下内容：新增输入框跳转功能：在原有分页器基础上，新增了一个输入框区域，允许用户直接输入目标页码进行跳转双向页码绑定优化：实现了输入框与当前页码的双向绑定机制。当用户通过其他方式（如点击上一页、下一页、页码按钮）切换页面时，输入框会自动更新显示当前页码。同时，当用户在输入框中输入页
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
如何在YashanDB中实现多级缓存策略数据库
随着大数据时代的到来，数据存储和访问的效率要求越来越高。数据库技术在面对海量数据、高并发访问时，性能瓶颈逐渐凸显，尤其是响应时间和系统吞吐量成为开发者和DBA关注的重点。为了解决这些问题，缓存策略被引入作为一种有效的解决方案。然而，不同类型的缓存（如内存缓存、磁盘缓存等）之间需要协调工作，以达到最佳性能。在此背景下，YashanDB作为一个云原生数据库，支持多级缓存策略，为数据访问提供了灵活的加速
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

大数据面试

适合应届生的大数据面试题

一、 java基础

二、 数据结构与算法

三、 数据库大汇总

四、 框架