一个互联网+大数据的问题

现在我们在用的主要有Springboot,eureka,zuul,disconf,elasticsearch,docker,kafka,rocketMQ,mysql,HaProxy,redis,ELK,zookeeper这些。都是一些很常见的东西,无非就是有时一些大数据量的处理起来麻烦些

譬如我有一个表,里面数据大概百万条,里面包含了地址信息,我需要根据地址信息去百度或者高德地图等可扩展,去获取经纬度,并存入数据库。

希望能尽量利用好服务器资源,譬如我可以随时动态扩展,加一个docker,再加一个docker

然后他们能并行处理,而不是做重复的记录

百度和高德加上网络请求获取经纬度是比较慢的,一秒一个线程也就三四条,百万数据都得几个小时去了,希望能迅速到能接收的地步。服务器资源是无限的,我可以给你这个服务临时开N个docker容器来跑。你怎么处理他们并行的问题

这是一个小功能,但是东西挺多的。百度和高德对api请求是有限制的

来了就是干这种活的,完成这个系统的一些模块开发

你说的docker相当于多个tomcat支撑得jar包嘛

一个docker容器,等于一个tomcat实例吧,可以这么理解

注意,他是可以动态添加的,所以你不能让第一个docker读1万个,第二个读2万个是不行的。需要的是能动态增删任何一个实例,可以临时把服务器资源都给你,跑完数据,我再把docker停掉就好了

一个互联网+大数据的问题_第1张图片

你可能感兴趣的:(一个互联网+大数据的问题)