bluedraam_pp

presto- top N、前 N 天销售额计算

场景描述

统计前 N 天的销售额的平均值。
统计 TOP N 商品
随机分组

统计前 N 天的销售额的平均值

基础知识

我们本次使用到的 sql 都是在 presto 上跑的，如果想在 hive 或者其他平台上跑的话，
请自行将 sql 转成对应的 sql 。

首先看一下，array_agg() over() 函数。

select leader , employee , array_agg(employee) over(partition by leader order by employee)
  from (
          select 'A' as leader , 'E1' as employee
union all select 'A' as leader , 'E2' as employee
union all select 'A' as leader , 'E3' as employee
union all select 'B' as leader , 'E4' as employee
union all select 'B' as leader , 'E5' as employee
union all select 'B' as leader , 'E6' as employee
  ) as a

计算结果如下所示：

leader	employee	array_agg
B	E4	[E4]
B	E5	[E4, E5]
B	E6	[E4, E5, E6]
A	E1	[E1]
A	E2	[E1, E2]
A	E3	[E1, E2, E3]

接下来是几个简单的函数：

reverse，按照字典顺序或者数字的顺序对数字排序
slice：取出数组的子集，例如， slice(array,start_index, end_index)

为了更加形象的说明问题，我们使用的下面的例子进行说明。

select sale_date , shop_id , array_agg(ARRAY[sale_date , shop_id , cast(sale_amt as varchar)]) over(partition by shop_id order by sale_date)
  from (
            select '2019-06-06' as sale_date , 'shop1' as shop_id , 10 as sale_amt
  union all select '2019-06-05' as sale_date , 'shop1' as shop_id , 14 as sale_amt
  union all select '2019-06-03' as sale_date , 'shop1' as shop_id , 17 as sale_amt
  union all select '2019-06-02' as sale_date , 'shop1' as shop_id , 18 as sale_amt 
  union all select '2019-06-01' as sale_date , 'shop1' as shop_id , 13 as sale_amt 
  union all
            select '2019-06-06' as sale_date , 'shop2' as shop_id , 11 as sale_amt
  union all select '2019-06-05' as sale_date , 'shop2' as shop_id , 15 as sale_amt
  union all select '2019-06-03' as sale_date , 'shop2' as shop_id , 18 as sale_amt
  union all select '2019-06-02' as sale_date , 'shop2' as shop_id , 19 as sale_amt 
  union all select '2019-06-01' as sale_date , 'shop2' as shop_id , 16 as sale_amt
  ) as a

上面这段 sql 的结果如下所示：

sale_date	shop_id	sale_index
2019-06-01	shop1	[[2019-06-01, shop1, 13]]
2019-06-02	shop1	[[2019-06-01, shop1, 13], [2019-06-02, shop1, 18], [2019-06-03, shop1, 17]]
2019-06-03	shop1	[[2019-06-01, shop1, 13], [2019-06-02, shop1, 18], [2019-06-03, shop1, 17], [2019-06-05, shop1, 14]]
2019-06-04	shop1	[[2019-06-01, shop1, 13], [2019-06-02, shop1, 18], [2019-06-03, shop1, 17], [2019-06-05, shop1, 14], [2019-06-06, shop1, 10]]
2019-06-01	shop2	[[2019-06-01, shop2, 16]]
2019-06-02	shop2	[[2019-06-01, shop2, 16], [2019-06-02, shop2, 19]]
2019-06-03	shop2	[[2019-06-01, shop2, 16], [2019-06-02, shop2, 19], [2019-06-03, shop2, 18]]
2019-06-05	shop2	[[2019-06-01, shop2, 16], [2019-06-02, shop2, 19], [2019-06-03, shop2, 18], [2019-06-05, shop2, 15]]
2019-06-06	shop2	[[2019-06-01, shop2, 16], [2019-06-02, shop2, 19], [2019-06-03, shop2, 18], [2019-06-05, shop2, 15], [2019-06-06, shop2, 11]]

请注意观察数组里面的数字。我们可以观察到已经是排好序了。但是我们需要的是倒序。这是个问题。
另外，我只想取出前 3 天的数据汇总，所以我们需要取 array 的子集。这是个问题。
然后我们还会遇到一个问题，如果日期不连续的话，例如，shop2 在 2019-06-04 没有数据，所以我们需要对数组里面的元素进行过滤。
过滤之后我们需要单独把数组里的销售额拿出来相加。

排序我们可以使用 reverse 函数，slice 函数取数组的子集，filter(array, lamabda) 过滤出我们需要的元素，然后使用 reduce 把销售额加起来。

这里使用到的 reduce 在官网上没有讲到，reduce(array,cast(ROW(0,0.00) as ROW(cnt int,amt doubel)), (x,y) ->cast( as ROW(cnt int , amt double)) , s -> s )

这些都是在数组上的操作详细的可以查看：https://prestodb.github.io/docs/current/functions/array.html

这里先弄清楚 filter 和 reduce 的功能特性。

select cast(reduce(filter(ARRAY[1,2,3,4,5],x -> x >= 4),cast(ROW(0) as ROW(cnt int)), (x,y) ->cast( ROW(y + x.cnt) as ROW(cnt int ) ), x -> x ) as json) as rs

其中, filter(array,filterFunction(x)): 第一个参数的是要操作的数组，第二个是 filter 的条件，这里是一个正则表达式。
reduce(array,initialState , inputFunction(S, T, S), outputFunction(S, R))

最终的结果

在了解完 array 的几个函数以后，我可以得到如下所示的结果

最终的结果为：

select sale_date 
     , shop_id 
     , sale_pre3
     , json_array_get(cast(reduce(filter(array_amt,x -> x[1] >= sale_pre3),cast(ROW(0) as ROW(cnt int)), (x,y) ->cast( ROW(cast(y[3] as integer) + x.cnt) as ROW(cnt int ) ), x -> x ) as json),0) as rs
  from (
select sale_date 
     , shop_id 
     , cast(date_add('day',-2,date(sale_date)) as varchar) as sale_pre3
     , array_agg(ARRAY[sale_date , shop_id , cast(sale_amt as varchar)]) over(partition by shop_id order by sale_date) as array_amt
  from (
            select '2019-06-06' as sale_date , 'shop1' as shop_id , 10 as sale_amt
  union all select '2019-06-05' as sale_date , 'shop1' as shop_id , 14 as sale_amt
  union all select '2019-06-03' as sale_date , 'shop1' as shop_id , 17 as sale_amt
  union all select '2019-06-02' as sale_date , 'shop1' as shop_id , 18 as sale_amt 
  union all select '2019-06-01' as sale_date , 'shop1' as shop_id , 13 as sale_amt 
  union all
            select '2019-06-06' as sale_date , 'shop2' as shop_id , 11 as sale_amt
  union all select '2019-06-05' as sale_date , 'shop2' as shop_id , 15 as sale_amt
  union all select '2019-06-03' as sale_date , 'shop2' as shop_id , 18 as sale_amt
  union all select '2019-06-02' as sale_date , 'shop2' as shop_id , 19 as sale_amt 
  union all select '2019-06-01' as sale_date , 'shop2' as shop_id , 16 as sale_amt
  ) as a
 ) as b

其中，json_array_get(json_str,index) 函数是将 json_str 转成 json_object,然后取出第一个数组。

其实我们也可以使用 lag 或者 leader 函数来实现这个功能。最终的解决结果如下所示：

select   sale_date 
       , shop_id
       , (
          sale_amt
          +if(_last_3_day < last_1_day,last_1_amt,0)
          +if(_last_3_day < last_2_day,last_1_amt,0)
          +if(_last_3_day < last_3_day,last_1_amt,0)          
          ) as last_3_amt_sum
  from (
    select sale_date 
         , shop_id 
         , sale_amt
         , cast(date(date_add('day' , cast(-3 as bigint) , cast (sale_date as timestamp))) as varchar) as _last_3_day
         , lag(sale_amt,1) over(partition by shop_id order by sale_date) as last_1_amt
         , lag(sale_date,1) over(partition by shop_id order by sale_date) as last_1_day
         , lag(sale_amt,2) over(partition by shop_id order by sale_date) as last_2_amt
         , lag(sale_date,2) over(partition by shop_id order by sale_date) as last_2_day
         , lag(sale_amt,3) over(partition by shop_id order by sale_date) as last_3_amt
         , lag(sale_date,3) over(partition by shop_id order by sale_date) as last_3_day
      from (
                select '2019-06-06' as sale_date , 'shop1' as shop_id , 10 as sale_amt
          union all select '2019-06-05' as sale_date , 'shop1' as shop_id , 14 as sale_amt
          union all select '2019-06-03' as sale_date , 'shop1' as shop_id , 17 as sale_amt
          union all select '2019-06-02' as sale_date , 'shop1' as shop_id , 18 as sale_amt 
          union all select '2019-06-01' as sale_date , 'shop1' as shop_id , 13 as sale_amt 
          union all
                    select '2019-06-06' as sale_date , 'shop2' as shop_id , 11 as sale_amt
          union all select '2019-06-05' as sale_date , 'shop2' as shop_id , 15 as sale_amt
          union all select '2019-06-03' as sale_date , 'shop2' as shop_id , 18 as sale_amt
          union all select '2019-06-02' as sale_date , 'shop2' as shop_id , 19 as sale_amt 
          union all select '2019-06-01' as sale_date , 'shop2' as shop_id , 16 as sale_amt
      ) as a
) as aa

动态 TOP N

先说动态 TOP N 问题之前我们先了认识一下 TOP N 。 TOP N 是什么呢？让我们先闪回到学生时代，那时在期末考试结束后
伟大的校长说学生们辛苦了，要有奖励，于是就有了奖励。教务处的老师们经过一番思考之后，制定了一系列的奖励政策，其中之一是
每个班级总成绩前 10 名的学生发一本《三体》回去研读。如果你是教务处的老师，应该取出这批学生呢? 其实有点 SQL 基础的人
我们都应该有一些思路了。如下所示：

select stu_name
      , class
      , score
  from (
    select  stu_name
          , class
          , score
          , row_number() over(partition by class order by score desc) as student_ranking
      from (
                      select 'a' as stu_name, 'C1' as class 213 as score
            union all select 'b' as stu_name, 'C1' as class 223 as score
            union all select 'c' as stu_name, 'C1' as class 223 as score
            union all select 'd' as stu_name, 'C1' as class 223 as score
            union all select 'e' as stu_name, 'C1' as class 223 as score
    
            union all select 'g' as stu_name, 'C2' as class 213 as score
            union all select 'h' as stu_name, 'C2' as class 223 as score
            union all select 'm' as stu_name, 'C2' as class 223 as score
            union all select 'n' as stu_name, 'C2' as class 223 as score
            union all select 'i' as stu_name, 'C2' as class 223 as score
    ) as school_report_card
) as school_report_card1
where student_ranking <= 10

但是呢，有的班主任提出了不同的观点，有的我们人多，只奖励 10 个人太少了，要按照每个班级人数的 10% 奖励。好像还挺有道理的。
那么这有改怎么写呢？

借用周星驰的经典台词“你让我打狗，总得给我一个棒子啊”，我们首先要知道每个班的总人数。

          select 'C1' as class , 40 as population
union all select 'C2' as class , 50 as population

那么我们的 SQL 重新写成：

select stu_name
      , class
      , score
      , student_ranking
  from (
    select  stu_name
          , class
          , score
          , row_number() over(partition by class order by score desc) as student_ranking
      from (
                      select 'a' as stu_name, 'C1' as class ,213 as score
            union all select 'b' as stu_name, 'C1' as class ,223 as score
            union all select 'c' as stu_name, 'C1' as class ,223 as score
            union all select 'd' as stu_name, 'C1' as class ,223 as score
            union all select 'e' as stu_name, 'C1' as class ,223 as score
    
            union all select 'g' as stu_name, 'C2' as class ,213 as score
            union all select 'h' as stu_name, 'C2' as class ,223 as score
            union all select 'm' as stu_name, 'C2' as class ,223 as score
            union all select 'n' as stu_name, 'C2' as class ,223 as score
            union all select 'i' as stu_name, 'C2' as class ,223 as score
          ) as school_report_card
   ) as school_report_card1
left join (
          select 'C1' as class , 40 as population
union all select 'C2' as class , 50 as population
) as class_population
on school_report_card1.class = class_population.class
where student_ranking <= population*0.1

上面使用到的数组，那么我们能不能也使用数组呢？答案是肯定的

不知道，你使用过没有 clickhouse ，下面来结束一下如何使用 clickhouse 做动态 TOP N 。
clickhouse 没有像 presto 那样开窗函数，所以只能使用数组进行处理了。

首先，来看看关于数组的几个基本的函数

select  class
      , groupArray(4)([stu_name , cast(score as String)])
  from (
        select 'a' as stu_name, 'C1' as class ,213 as score
union all select 'b' as stu_name, 'C1' as class ,223 as score
union all select 'c' as stu_name, 'C1' as class ,212 as score
union all select 'd' as stu_name, 'C1' as class ,877 as score
union all select 'e' as stu_name, 'C1' as class ,665 as score

union all select 'g' as stu_name, 'C2' as class ,6564 as score
union all select 'h' as stu_name, 'C2' as class ,444 as score
union all select 'm' as stu_name, 'C2' as class ,111 as score
union all select 'n' as stu_name, 'C2' as class ,222 as score
union all select 'i' as stu_name, 'C2' as class ,333 as score  
)
group by class

结果如下所示：

class	array_group
C1	b,223,a,213,e,665,c,212
C2	m,111,g,6564,h,444,n,222

由上面的结果可以看到 groupArray(record element) 的功能是和 presto 的 array_agg() 的
功能差不多。就是把分组内的每个元素汇总放到一个数组里面。

接下来看一下，看下一个重要的函数：arrayResize 。

select class , arrayResize(a.array_group , b.population) as resized_array_group
  from (
    select  class
          , groupArray(4)([stu_name , cast(score as String)]) as array_group
      from (
            select 'a' as stu_name, 'C1' as class ,213 as score
    union all select 'b' as stu_name, 'C1' as class ,223 as score
    union all select 'c' as stu_name, 'C1' as class ,212 as score
    union all select 'd' as stu_name, 'C1' as class ,877 as score
    union all select 'e' as stu_name, 'C1' as class ,665 as score
    
    union all select 'g' as stu_name, 'C2' as class ,6564 as score
    union all select 'h' as stu_name, 'C2' as class ,444 as score
    union all select 'm' as stu_name, 'C2' as class ,111 as score
    union all select 'n' as stu_name, 'C2' as class ,222 as score
    union all select 'i' as stu_name, 'C2' as class ,333 as score  
    )
    group by class 
) as a all
left join (
          select 'C1' as class , 4 as population
union all select 'C2' as class , 3 as population
) as b 
  on a.class = b.class

结果为:

class	resized_array_group
C1	a,213,c,212,b,223,d,877
C2	g,6564,m,111,i,333

由例子我们知道 resize(array,new_size) 的功能就是重新设置数组的大小，如果 new_size > old_size 那么可以 ‘’ 或者 0 填充数组。
如果 new_size < old_size 则会将尾部的几个元素删除掉。

然后是 arrayJoin 此函数和 arrayConcat 看起来一样，但是其实差别特别的大。
arrayJoin 是将数组中的元素 split 放到列上，功能有点类似 hive 的 LATERAL VIEW 函数。
还有一个函数 indexOf(element,array),这个函数是将 element 在 array 中的位置返回，这样我们就可以得到成绩的排名。

select aa.class
      ,arrayConcat(joined_array ,[toString(element_index)] )
  from (
        select   class 
               , arrayJoin(arrayResize(a.array_group , b.population)) as joined_array
               , indexOf(arrayResize(a.array_group , b.population) ,arrayJoin(arrayResize(a.array_group , b.population))) as element_index
          from (
            select  class
                  , groupArray(4)([stu_name , cast(score as String)]) as array_group
              from (
                select * 
                  from (
                        select 'a' as stu_name, 'C1' as class ,213 as score
                union all select 'b' as stu_name, 'C1' as class ,223 as score
                union all select 'c' as stu_name, 'C1' as class ,212 as score
                union all select 'd' as stu_name, 'C1' as class ,877 as score
                union all select 'e' as stu_name, 'C1' as class ,665 as score
                
                union all select 'g' as stu_name, 'C2' as class ,6564 as score
                union all select 'h' as stu_name, 'C2' as class ,444 as score
                union all select 'm' as stu_name, 'C2' as class ,111 as score
                union all select 'n' as stu_name, 'C2' as class ,222 as score
                union all select 'i' as stu_name, 'C2' as class ,333 as score  
                ) as aa
                order by  class , score desc 
            )
            group by class 
        ) as a all
        left join (
                  select 'C1' as class , 4 as population
        union all select 'C2' as class , 3 as population
        ) as b 
          on a.class = b.class
) as aa

class	array
C1	d,877,1
C1	e,665,2
C1	b,223,3
C1	a,213,4
C2	g,6564,1
C2	h,444,2
C2	i,333,3

后面就好说吧，使用 arrayJoin 展开使用数组的下标展示出不同的字段就可以了。
所以最后的结果是：

select  class
       ,arry[1] as stu_name
       ,arry[2] as score
       ,arry[3] as student_ranking       
 from (
    select aa.class
          ,arrayConcat(joined_array ,[toString(element_index)] ) as arry
      from (
    select   class 
           , arrayJoin(arrayResize(a.array_group , b.population)) as joined_array
           , indexOf(arrayResize(a.array_group , b.population) ,arrayJoin(arrayResize(a.array_group , b.population))) as element_index
      from (
        select  class
              , groupArray(4)([stu_name , cast(score as String)]) as array_group
          from (
            select * 
              from (
                    select 'a' as stu_name, 'C1' as class ,213 as score
            union all select 'b' as stu_name, 'C1' as class ,223 as score
            union all select 'c' as stu_name, 'C1' as class ,212 as score
            union all select 'd' as stu_name, 'C1' as class ,877 as score
            union all select 'e' as stu_name, 'C1' as class ,665 as score
            
            union all select 'g' as stu_name, 'C2' as class ,6564 as score
            union all select 'h' as stu_name, 'C2' as class ,444 as score
            union all select 'm' as stu_name, 'C2' as class ,111 as score
            union all select 'n' as stu_name, 'C2' as class ,222 as score
            union all select 'i' as stu_name, 'C2' as class ,333 as score  
            ) as aa
            order by  class , score desc 
        )
        group by class 
    ) as a all
    left join (
              select 'C1' as class , 4 as population
    union all select 'C2' as class , 3 as population
    ) as b 
      on a.class = b.class
    ) as aa  
) as aaa

结果为：

header 1	header 2
row 1 col 1	row 1 col 2
row 2 col 1	row 2 col 2

class	stu_name	score	student_ranking
C1	d	877	1
C1	e	665	2
C1	b	223	3
C1	a	213	4
C2	g	6564	1
C2	h	444	2
C2	i	333	3

随机分组

随机分组的问题是这样的，如果我们 100 名学生成绩都差不多，那么我们可以随机的分到两个班级里面去。

select 	stu_name
       ,case when group_index = 1 
             then 'C1'
             when group_index = 2
             then 'C2'
             else 'none' end as class 
 from (
	  select stu_name
	      ,(index + max_index/2 -1)/(max_index/2) as group_index
	  from (
	select stu_name
	      ,index
	      ,(max(index) over()) as max_index
	  from ( 
	   select *     
	    from (
			    select  stu_name
			           ,row_number() over() as index
			      from (
			        select 'a' as stu_name
			        union all select 'b' as stu_name
			        union all select 'c' as stu_name
			        union all select 'd' as stu_name
			        union all select 'e' as stu_name
			        union all select 'f' as stu_name				        
			      )
	     ) as a  
	   ) as aa 
	  ) as aaa  
) as aaaa

需要注意的是我们这个例子对于总人数是偶数的时候是有效的，但是奇数的时候就会有问题，那些人特殊处理一下就可以了

例如,

a、b、c、d、e

做取商操作的时候，得到 (1 + 2 -1)/2 = 1 、 (2 + 2 -1)/2 = 1、 (2 + 3 -1)/2 = 2、 (2 + 4 -1)/2 = 2、 (2 + 5 -1)/2 = 3
我们发现，5 会分到 3 里面，所以如果总人数是奇数的时候，需要对余出来的几行记录做一下特殊处理。

还可以使用取模的办法来分组。请看下面的公式。

group=index%goup_size

% 是取于操作，举个例子，

1,2,3,4,5,6,7,8,9,10

2 取模后：

1,0,1,0,1,0,1,0,1,0

3 取模后：

1,2,0,1,2,0,1,2,0,1

所以 sql 可以改造成：

select stu_name 
      ,index
      ,index%3
      ,substring('ABC',1+index%3,1) as group_index
  from(
	    select  stu_name
	           ,row_number() over() as index
	      from (
	        select 'a' as stu_name
	        union all select 'b' as stu_name
	        union all select 'c' as stu_name
	        union all select 'd' as stu_name
	        union all select 'e' as stu_name
	        union all select 'f' as stu_name        
      )	
 )
 order by index

结果：

stu_name	index	group_index	group_name
b	1	1	B
c	2	2	C
d	3	0	A
e	4	1	B
f	5	2	C
a	6	0	A

如何形成周期性的序列

其中，interval = 7 ，每隔 7 个数字的分成了一个组。

select (index + interval -1 )/interval
      , index
  from (
    select dim_date_id
           ,max(index) over() as max_index
           ,index
      from (
        select dim_date_id 
              ,row_number() over() as index 
          from dim.dim_date
         where dim_date_id between '20190701' and '20190721'
    )
)

喜爱购有什么新消息？如何打造百城万店氧惠好物
自2020年10月起，西安喜爱购商贸商贸股份有限公司全力打造的“百城万店”新零售商业模式应运而生。在探索新零售的道路上,通过互联网、大数据、云计算、人工智能等新技术,重构“人、货、场”商业元素,秉持“舍利差赚服务”经营理念,在全国至少一百个城市的“一千户以上的中高端社区”,打造至少两万家“一区一店”社区生活超市。大家好！我是氧惠最大团队&联合创始人氧惠达人导师。氧惠佣金更高，模式更好，终端用户不流
305李03days作业#裂变实验室# 李_d891
A账号大数据里加的人B账号精筛选一遍的客户C账号vip客户深度信任客户今天事情有点多，没有好好学习，明天重新写一个补到新作业里。
Apache Ignite 的并发控制：实现高性能事务处理的关键 AI天才研究院 AI实战 AI人工智能与大数据 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着大数据时代的到来，数据量的增长和计算能力的提升使得传统的数据库和计算模型已经无法满足业务需求。为了应对这些挑战，分布式计算和存储技术得到了广泛的研究和应用。ApacheIgnite是一款高性能的分布式数据库和计算平台，它可以提供实时性能和高可用性，同时支持事务处理和并发控制。在这篇文章中，我们将深入探讨ApacheIgnite的并发控制机制，以及如何实现高性能事务处理。我们将从以下
DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业？ DolphinScheduler社区 spark 大数据分布式
DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统，能高效地执行和管理大数据流程。用户可以在DolphinSchedulerWeb界面轻松创建、编辑和调度云原生数据仓库AnalyticDBMySQL版的Spark作业。前提条件AnalyticDBforMySQL集群的产品系列为企业版、基础版或湖仓版。AnalyticDBforMySQL集群中已创建Job型资源组
10分钟搞定 MinIO 单节点多磁盘部署！打造稳定高可用对象存储【二】
MinIO是一个**高性能、开源的对象存储系统**，主要用于存储非结构化数据（如图片、视频、文档、备份等），与AmazonS3完全兼容。它被广泛用于云原生应用、大数据分析、AI模型存储、容器平台（如Kubernetes）等场景。MinIO支持多种部署模式，其中：单节点单磁盘（Single-NodeSingle-Drive）模式适用于开发测试、小规模应用或资源受限的场景。它的部署简单，不依赖集群、分
时序数据库在数据库领域的应用前景数据库管理艺术数据库时序数据库 struts ai
时序数据库在数据库领域的应用前景关键词：时序数据库、时间序列数据、物联网、监控系统、金融分析、大数据、实时分析摘要：本文深入探讨了时序数据库在现代数据管理中的关键作用和应用前景。我们将从时序数据的基本特性出发，分析时序数据库的核心架构和设计原理，比较主流时序数据库产品的技术特点，并通过实际案例展示其在物联网、金融科技、运维监控等领域的应用价值。文章还将提供时序数据库选型指南，探讨未来技术发展趋势，
【软考速通笔记】系统架构设计师⑱——大数据架构设计理论与实践小康师兄系统架构设计师笔记系统架构大数据 Lanbda Kappa 数据湖批处理
文章目录一、前言二、传统数据库遇到的问题2.1问题的根源2.2传统解决方法三、大数据基础3.1大数据处理技术3.2大数据利用过程3.3大数据处理系统面临的挑战3.4大数据具有的属性和特征四、Lanbda架构4.1批处理层4.2加速层4.3服务层五、Kappa架构5.1实时层5.2服务层六、Lambda和Kappa对比七、其他一、前言笔记目录大纲请查阅：【软考速通笔记】系统架构设计师——导读关注【小
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
大模型软件的多租户架构设计 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型软件的多租户架构设计关键词：大模型软件、多租户架构、设计、性能优化、安全性摘要：随着大数据和人工智能技术的迅猛发展，大模型软件在各个领域得到了广泛应用。然而，如何在大模型软件中实现高效的多租户架构设计，成为当前技术领域的一个关键挑战。本文将深入探讨大模型软件的多租户架构设计，包括其背景、核心概念、算法原理、系统架构、项目实战以及最佳实践等，旨在为开发者提供一套系统化、全面化的设计指南。设计过
【原创文集】如果时光会说话 7a82ff5fbe9b
大数据工程学院21计科本2王玉艳1528662159515286621595.如果时光会说话，它会不会知道未来发生的事情然后跟人类讲呢？从2006年的非典到2019年的新冠疫情，发生了太多太多的让人类遭遇苦难的病毒。如果时光会说话，它是否会将即将发生的事与我们一说，让人类避免所遭遇的一切呢？如果时光会说话，不知道它看见这些在它身体里所发生的一切，它会不会感到悲哀呢？如果时光会说话，我会问问它新冠疫
深入解析 Spark：关键问题与答案汇总 ※尘 sql hive spark
在大数据处理领域，Spark凭借其高效的计算能力和丰富的功能，成为了众多开发者和企业的首选框架。然而，在使用Spark的过程中，我们会遇到各种各样的问题，从性能优化到算子使用等。本文将围绕Spark的一些核心问题进行详细解答，帮助大家更好地理解和运用Spark。Spark性能优化策略Spark性能优化是提升作业执行效率的关键，主要可以从以下几个方面入手：首先，资源配置优化至关重要。合理设置Exec
大数据领域如何用好 Eureka 实现服务治理大数据洞察大数据 eureka 云原生 ai
大数据领域Eureka服务治理实践：架构适配与最佳实践元数据框架标题大数据领域Eureka服务治理实践：架构适配、实现机制与最佳实践关键词Eureka；服务治理；大数据分布式系统；服务发现；负载均衡；故障恢复；云原生适配摘要Eureka作为Netflix开源的AP型服务发现组件，以其高可用性、动态适配性和轻量级特性，成为微服务架构的核心工具。然而，大数据领域的超大规模分布式、高并发数据流动、动态资
Eureka在大数据推荐系统中的服务治理实践大数据洞察 eureka 大数据云原生 ai
Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析元数据框架标题：Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析关键词：Eureka；服务治理；大数据推荐系统；分布式架构；服务发现；高可用性；动态扩展摘要：本文结合Eureka的核心特性与大数据推荐系统的需求，从第一性原理推导、架构设计、实现机制到实际应用，全面解析Eureka在推荐系统中的服务治理实践。通过
Eureka 为大数据领域服务治理带来的新思路大数据洞察大数据AI应用大数据与AI人工智能 eureka 大数据云原生 ai
Eureka为大数据领域服务治理带来的新思路关键词：Eureka，大数据，服务治理，分布式系统，微服务摘要：本文深入探讨了Eureka为大数据领域服务治理带来的新思路。首先介绍了大数据领域服务治理的背景和现状，阐述了Eureka的核心概念与工作原理。接着详细分析了Eureka核心算法原理，结合Python代码进行说明，并给出相关数学模型和公式。通过项目实战案例，展示了Eureka在大数据服务治理中
新能源汽车大数据画像：从零到一实现K-means用户分群新能源汽车研发＆测试入门指南学习笔记新星杯+王者杯汽车大数据 kmeans
基于大数据分析的新能源汽车画像研究全攻略：从原理到实战前言在"软件定义汽车"的时代浪潮下，新能源汽车正经历着从交通工具向智能移动终端的进化。本文将带你深入探索如何通过大数据技术构建精准的用户与产品画像，揭秘车企数字化转型的核心技术。全文涵盖完整的技术链路和实战案例，助你快速掌握这一前沿领域。关键词：新能源汽车；用户画像挖掘；大数据分析；K-means聚类目录一、大数据分析技术基石二、新能源汽车画像
Flink在物联网实时大数据处理中的最佳实践大数据洞察大数据AI应用大数据与AI人工智能 flink 物联网 struts ai
Flink在物联网实时大数据处理中的最佳实践关键词：Flink、物联网、实时大数据处理、最佳实践、数据流摘要：本文围绕Flink在物联网实时大数据处理中的最佳实践展开。首先介绍了相关背景知识，接着深入浅出地解释了Flink、物联网和实时大数据处理的核心概念以及它们之间的关系。然后详细阐述了Flink处理物联网数据的核心算法原理、数学模型和公式。通过实际项目案例，展示了开发环境搭建、代码实现和解读。
信小易官网查询入口：信小易大数据信用检测平台！无忧达人
信小易一个全能型的信用软件，信小易在一几年就上线的大数据信用平台，有着专业的大数据信用行业经验，从个人信用到企业信用，车辆大数据信小易全都有涉足，是一个非常完善的平台。信小易官网查询入口，对于想使用信小易的人来说，第一步我们需要找到信小易的查询入口，然后就可以进行大数据信用的查询服务了，可以查询自己的信用情况，查询结果也是非常准确。信小易查询入口放在文末了，划到文章结尾就可以看到查询入口信小易是一
【学术会议投稿】Vue.js组件开发实战：从零构建高效可复用组件小周不想卷艾思科蓝学术会议投稿 vue.js
【IEEE出版|会后3-4个月EI检索】第三届云计算、大数据应用与软件工程国际学术会议(CBASE2024）_艾思科蓝_学术一站式服务平台更多学术会议请看：https://ais.cn/u/nuyAF3目录引言一、Vue.js组件开发基础二、构建高效可复用组件三、Vue.js组件的高级特性四、Vue.js的优点与缺点Vue.js的优点Vue.js的缺点引言在现代前端开发中，Vue.js凭借其简洁的
时序数据库的工业级对决：对比 Apache IoTDB 和 InfluxDB 时序数据说时序数据库 apache iotdb 数据库大数据开源
在数字化浪潮中，物联网（IoT）与工业大数据领域蓬勃发展，时序数据呈爆发式增长。时序数据库作为管理这类数据的核心工具，其性能、功能和适应性直接影响到整个系统的运行效率与价值实现。ApacheIoTDB和InfluxDB作为时序数据库领域的佼佼者，被广泛应用于各类场景。深入剖析二者区别，对开发者、企业架构师和数据管理者而言，不仅能为项目选型提供科学依据，还能助力挖掘数据的最大价值。一、诞生背景与社区
时序数据库IoTDB与OpenTSDB的对比分析时序数据说时序数据库 iotdb opentsdb 数据库大数据
在物联网与大数据场景下，时序数据库的选择对于系统性能、数据存储与分析能力至关重要。本文将围绕ApacheIoTDB与OpenTSDB这两款开源时序数据库进行对比分析，从分布式架构、部署易用性、分析与计算能力、性能表现以及产品迭代与维护情况五个关键维度展开，旨在为面临海量设备接入和实时数据分析需求的物联网架构师提供客观的技术选型参考。一、分布式架构‌ApacheIoTDB‌：IoTDB原生支持分布式
女性职业新趋势：揭秘未来高薪热门行业氧惠爱高省
女生在职业选择上拥有广阔的空间，尤其是在当前快速发展的社会背景下，一些行业不仅成为了高薪热门，还提供了多样化的职业路径。以下是一些可能成为女生高薪热门选择的行业：➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。科技与互联网行业人工智能与大数据：随着人工智能和大数据技术的广泛应用，相
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
深入解析Hadoop RPC：技术细节与推广应用码字的字节 hadoop布道师 Hadoop RPC
HadoopRPC框架概述在分布式系统的核心架构中，远程过程调用（RPC）机制如同神经网络般连接着各个计算节点。Hadoop作为大数据处理的基石，其自主研发的RPC框架不仅支撑着内部组件的协同运作，更以独特的工程哲学诠释了分布式通信的本质。透明性：隐形的通信桥梁HadoopRPC最显著的特征是其对通信细节的完美封装。当NameNode接收DataNode的心跳检测，或ResourceManager
深入解析Hadoop：大数据处理的基石学习的锅 hadoop 大数据分布式
随着信息技术的快速发展和互联网的普及，数据的产生速度极具增加。面对如此海量的数据，传统的数据处理工具显得力不从心。在这种背景下，诞生了一系列用于处理大数据的框架与工具，而ApacheHadoop便是其中最为知名和应用最广泛的一个。本文将深入解析Hadoop的基本原理、架构及其在大数据处理中的重要性。1.Hadoop的起源与发展Hadoop起源于Google公司的三篇奠基性论文：GoogleFile
大数据技术关键技术组件
大数据技术是一组用于处理、分析和管理大规模数据集的复杂方法和技术。这些数据集的特点是容量大、增长速度快，且结构多样化，包括结构化、半结构化和非结构化数据。传统数据库管理和分析工具在处理此类数据时效率低下或无法胜任，因此需要专门的大数据技术栈来支持高效的数据处理和智能决策。大数据技术的关键组件通常包括：分布式存储系统：HadoopDistributedFileSystem(HDFS)：一个高度可扩展
大数据领域HDFS的集群资源管理优化大数据洞察大数据与AI人工智能大数据AI应用大数据 hdfs hadoop ai
大数据领域HDFS的集群资源管理优化关键词：HDFS；集群资源管理；存储优化；性能调优；副本策略；负载均衡；NameNode优化摘要：HDFS（Hadoop分布式文件系统）作为大数据领域的基石，承载着海量数据的存储与管理重任。随着数据规模爆炸式增长和业务复杂度提升，HDFS集群的资源管理面临着"存不下、跑不快、管不好"的三重挑战：存储资源浪费与不足并存、计算与存储资源匹配失衡、集群运维效率低下。本
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
防不胜防!第六届研究所老姜（姜新宁）算力3.0亏损被骗曝光,巨额损失真相令人胆寒心惊！大盛律道
数字经济十选五投资诈骗套路频出，投资者股民的“钱袋子”多有损失，以投资理财获取大数据数字经济投资算法为由，将投资者的积蓄收入囊中，成为不法分子常用的诈骗手段之一。为守护好投资者的“钱袋子”，小编持续开展曝光数字经济诈骗行动，维护“投资者”合法权益。近年来，股市波动不断，投资者们无不渴望找到稳健的投资途径。而一些不法分子趁机利用第六届研究所荐股群的手段，设下重重陷阱，致使投资者损失惨重。骗子冒充姜新
大数据领域 Kafka 入门指南：从安装到基础使用大数据洞察大数据与AI人工智能大数据 kafka linq ai
大数据领域Kafka入门指南：从安装到基础使用关键词：Kafka、消息队列、分布式系统、大数据处理、实时数据流、生产者消费者模型、ZooKeeper摘要：本文是一篇全面介绍ApacheKafka的入门指南，从基本概念到实际应用。我们将详细讲解Kafka的核心架构、工作原理，并提供从安装配置到基础使用的完整实践指导。文章包含Kafka的生产者-消费者模型实现、集群部署策略、性能优化技巧，以及在大数据
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文