假期永远的不足,一转眼春节假期的最后一天了。这个假期叫Holiday,千万别跟Vacation弄混了,Holiday来源于圣经,本身Holy也是神圣的意思,而且据圣经记载,上帝前六日造世间万物,第七天休息。对于国人来讲这么神圣的一天就应该叫Holiday。感觉假期里也没干什么正经事,倒是花了点时间研究了一下MC20,MC=Maserati Corse,玛莎拉蒂的赛车制造部门,这意大利人造车,做服装,玩时尚,东方人很难比的上。因为这些事DNA里面的东西。这家伙一身的高科技,几千小时的风动和CFD测试(CFD是个参数用来预测涡凹风险来运转每个打开角度和工作条件)2.9秒破百,整个就是一个贴地飞行。而且不在使用法拉利的发动机,直接改用F1的平民版....
迫不及待打开招商银行网银(话说这个月活过亿,装机过亿的App真的好用),然后迅速坐回到电脑前,写点明天要干的事情,并告诉自己避免贪嗔痴(这都是修行之大忌,贪念需要用不净观对应对;一念嗔心起,百万障门开,用好自己的慈悲观;痴念,要用因果观。)做好当下的工作,让自己充满价值感。
2021年很重要的一项工作就是公司的资产信息化,为啥不说数字化,害怕跟区块链和数字货币搭上关系。公司的资产非常多,其中最具价值的一部分就是客户信息。分析客户的留存数据,就是以新客获取,老客转化为目的,顺带看看自己的公司那里没做好,用的是销售漏斗还是销售有漏洞。大多数公司跟客户的触达方式,无非就是主动和被动。所谓的主动就是通过各种营销工具(小程序,微信,App,公众号等),所谓被动,应管理要求而由销售人员进行的CRM数据录入,当然做风控,贷后呀,客服呀里面都会有触点数据。假设,我们的系统结构如下:
因为基本上用的都是以InnoDB为存储引擎的Mysql,而且都是Row Based BinLog作为业务系统的事务型数据库,所以我们也选用了Canal,来完成数据的同步。还是简单提一句,关于这个阿里开源的项目,的确很方便,网上这张图解释了所有关于Canal。
但是canal的数据同步不是全量的,而是增量。是基于binary log增量订阅和消费,以前用过都是当作数据库镜像或备份来用,而且恢复起来很方便。为啥是个增量同步,看看Canal的Event Parser就知道。
本身Canal的内部结构如下图:
我们的老朋友ZK依然出现在各种场景中,Zk在这里就是做了HA,另外保证了Canal Client的节点有序性,同时通过Watcher的机制减少对主库的Dump的访问次数。
然后就是配置Kafka与Canal的链接。
canal.serverMode=kafka
canal.mq.servers = 192.168.1.105:9092
canal.instance.master.address=192.168.1.105:3306
然后自己实现一下你的Producer,Consumer。当然,你可以选择使用Flume这种代理的形式,或者使用Spark Streaming直接写代码,也是可以的,网上太多例子了。当然,在这个过程中,要仔细分析业务场景,比如说,CRM里面的数据,需要做相应的清洗,因为没有人会愿意把数据填写非常仔细,会有很多录入型的错误(“张先生,李小姐,高女士”,这还不说,电话都是“138000000”,录了意义也不大,但是由于流量池的销售线索属于销售自己,如果销售线索本身属于公司,还是可以进行要求的),CRM里面属于线索型数据,用来做营销指引或获客后的快速响应反馈效果还是不错的。业务系统中的数据,一般就是订单的数据,这是RFM的好原料;当然,在做用户信息化的过程,一定是梳理公司销售线,运营线,技术线的过程。需要SOP支撑,需要奖惩机制,需要SLA定义,需要后续强有力的客服服务体系。不论什么行业,都能找到高ARPU值的用户(是每用户平均收入 - Average Revenue Per User;ARPU注重的是一个时间段内运营商从每个用户所得到的利润)。风控系统的数据一般作为营销补充以及我们风控模型完善的内容。最后就是从Hive中拿到我们想要的数据,你必须做好你的指标体系中的数据定义,meta data, Principle Data,otherwise you will be lost very soon.
Hive这个Hadoop生态的老家伙,好用的不得了。屏蔽了繁琐的HDFS操作,Map-Reduce任务,给我们提供了非常优雅的API。这API简单到所有用Java 的都会:
val con: Connection = DriverManager.getConnection("jdbc:hive2://192.168.1.102/mytest")
val stmt: Statement = con.createStatement()
val res: ResultSet = stmt.executeQuery("show tables")
while (res.next()) {
println(res.getString(1))
}
你还以用Spark的方式去操作Hive,也非常简单:
import java.io.File
import org.apache.spark.sql.{Row, SaveMode, SparkSession}
case class Record(key: Int, value: String)
val spark = SparkSession
.builder()
.appName("Spark Hive Example")
.config("spark.sql.warehouse.dir", new File("spark-warehouse").getAbsolutePath)
.enableHiveSupport()
.getOrCreate()
import spark.implicits._
import spark.sql
// You can just do anything as you did in RDBMS
sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING) USING hive")
sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv.txt' INTO TABLE src")
// Queries are expressed in HiveQL
sql("SELECT * FROM src").show()
Hive的工作原理:
其实,所有的分布式数据库的工作原理也都差不多,等有空好好总结一下Hive, TiDB, ClickHouse。一定记住,不要让Hive充当另一个Mysql,不是说Mysql里面表结构是什么样,Hive里就要什么样。充分利用好Hive 里的数据模型:DB、Table,External Table,Partition,Bucket。由于本身Hive更倾向于数据仓库,找准自己公司对用户信息的要求,用户信息化一定帮你做好分层和用户的分类,如前文讲到的。积累半年,一定会有所不同。我们程序员也许做不到左老板说的难而正确的事儿,但做好该干的事情还是很有必要的。新的一年,对自己要有个交代。