第106课: Spark Streaming电商广告点击综合案例黑名单过滤实现

第106课:  Spark Streaming电商广告点击综合案例黑名单过滤实现

/*王家林老师授课http://weibo.com/ilovepains  每天晚上20:00YY频道现场授课频道68917580*/

 识别黑名单用户比在线机器学习退而求其次的做法如下
 例如,一段时间内,同一个IP(MAC地址)有多个用户的账户访问
 例如,可以统计一天一个用户点击广告的次数,如果一天点击同样的广告操作50的 话,列入黑名单。黑名单有一个重要的特征,动态生成,要考虑时间的因素。所以每 一个batch duration都要考虑是否有新的黑名单加入。此时黑名单需要存储上,可以 存储在数据库/redis里面即可;例如邮件系统中的黑名单,可以采用spark streaming不断监控每个用户的操作,如果用户发送邮件的频率过高,暂时把用户列入黑名单,阻止用户过度频繁发生邮件。

 


public class AdClickedSteamingStatus {

	public static void main(String[] args) {
	//第106课: Spark Streaming电商广告点击综合案例黑名单过滤实现
	* 广告点击的基本数据格式:timestamp,ip,userID,adID,province,city
时间、ip、用户ID、广告ID,点击广告所在的省、所在的城市
	* 至少2条线程,一条线程接受数据,一条处理数据
	*每个executor 一般分配 多少core?5个core最佳的 分配为奇数个core表现最佳 3个 5个 7个
	*
	*/	
	SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("SparkStreamingWordCountOnline");
 
	
	JavaStreamingContext js

你可能感兴趣的:(Hadoop)