不会Hive的啊扬

ods层如何保证和Mysql镜像一致

1.分层机制及分区字段

如何分层：

数仓在ods层之前有一层ods_binlog层，存放所有Mysql同步过来的binlog按天为分区放入表中，其中的数据和Ods层合并后以ctime的日期作为分区字段，动态分区发往指定分区的ods，保证每天的ods层数据始终和mysql截止到昨日24点数据始终一致

如何分区：

为什么要以ctime作为分区字段？因为对于大多数表而言，还是新增变化比较少的，而不经常改变历史数据，也就代表着以ctime作为分区，可以在合并逻辑时取的分区数据量就小，合并的速度就快

那什么时候可以以utime作为分区字段吗？当变化量大时，比如每天都会改变很多不同时间的历史数据，是不是以utime作为分区字段合适？其实并不是，因为昨天刚改了一部分历史，分到了昨天的分区，结果今天又改了，今天不仅改了昨天的还改了很多昨天以前的，其实还是基本上吧整个表的数据全拿了过来，我们要清楚我们分区的目的是为了什么，为了合并的时候尽量取少部分数据对吧，你不管按ctime还是utime，他都是取了基本全部数据，显然不能按这两种方式分区

那对于这类表应该如何分区？要看改变的是近一年新增的数据还是近几个月，假如改变的都是近几个月的数据，或者近几年的数据，那么我们是不是按照月的ctime或者按年作为分区更合适

那如果改变毫无规律怎么办？如果毫无规律而且有大量变化，那不妨我们干脆就不分区了，既然达不到分区的目的，就没必要死板的使用分区机制了对吧

2.合并sql

select 
id,userid,patientid,doctorid,diseaseid,commitidentity,type,deletetype,admincomment,realname,showattach,showrealname4doctor,agree,status,attitude,skill,tag,committime,ctime,utime,ver,dt 
from 
(
    select 
    binlog_type,id,userid,patientid,doctorid,diseaseid,commitidentity,type,deletetype,admincomment,realname,showattach,showrealname4doctor,agree,status,attitude,skill,tag,committime,ctime,utime,ver,dt,
    row_number() over(partition by id order by utime desc,binlog_type desc) rn
    --这里先按utime倒序，再按type倒序，为什么？
    --因为我首先是要取最新的那一份数据，对于新增数据，如果历史同步过来一份，新增同步也过来一份，此时我肯定只要一份，故我需要比对类型
    from 
    (
        select 
        case get_json_object(content,'$.type')
            when 'insert' then 1
            when 'bootstrap-insert' then 1
            --对于新增数据，且没有删除或修改，则不管取历史同步的那一份或insert的那一份都可以故都给值1
            when 'update' then 2
            --对于新增数据，且之后修改了，只看utime就拿到最新了？这里为什么我们还要给他一个值2呢？
            --因为如果刚插入就立马更新，可能utime并不会改变，所以此时我们要去类型为update的
            --注意这里其实埋了一个坑在里边，会不会有一种可能同一个utime发生了两次变化，那时候我们该怎么办？
            when 'delete' then 3
            --对于新增数据且插入后删除，我们则给值3，为什么是3而不是和上面的2位置替换一下呢？
            --因为考虑到了新增数据之后修改再删除的情况，所以给3就可以兼容这多种可能了
        end as binlog_type,
        cast(get_json_object(get_json_object(content,'$.data'),'$.id') as bigint) id,
        --强转为ods层需要的类型，get_json方法拿出来的数据都是string类型故需要强转
        cast(get_json_object(get_json_object(content,'$.data'),'$.userid') as bigint) userid,
        cast(get_json_object(get_json_object(content,'$.data'),'$.patientid') as bigint) patientid,
        cast(get_json_object(get_json_object(content,'$.data'),'$.doctorid') as bigint) doctorid,
        cast(get_json_object(get_json_object(content,'$.data'),'$.diseaseid') as bigint) diseaseid,
        cast(get_json_object(get_json_object(content,'$.data'),'$.commitidentity') as string) commitidentity,
        cast(get_json_object(get_json_object(content,'$.data'),'$.type') as string) type,
        cast(get_json_object(get_json_object(content,'$.data'),'$.deletetype') as tinyint) deletetype,
        cast(get_json_object(get_json_object(content,'$.data'),'$.admincomment') as string) admincomment,
        cast(get_json_object(get_json_object(content,'$.data'),'$.realname') as string) realname,
        cast(get_json_object(get_json_object(content,'$.data'),'$.showattach') as tinyint) showattach,
        cast(get_json_object(get_json_object(content,'$.data'),'$.showrealname4doctor') as tinyint) showrealname4doctor,
        cast(get_json_object(get_json_object(content,'$.data'),'$.agree') as int) agree,
        cast(get_json_object(get_json_object(content,'$.data'),'$.status') as tinyint) status,
        cast(get_json_object(get_json_object(content,'$.data'),'$.attitude') as tinyint) attitude,
        cast(get_json_object(get_json_object(content,'$.data'),'$.skill') as tinyint) skill,
        cast(get_json_object(get_json_object(content,'$.data'),'$.tag') as string) tag,
        case when get_json_object(content,'$.type') != 'bootstrap-insert' 
        then from_unixtime(unix_timestamp(get_json_object(get_json_object(content,'$.data'),'$.committime'))+28800,'yyyy-MM-dd HH:mm:ss') 
        else get_json_object(get_json_object(content,'$.data'),'$.committime') 
        end as committime,
        --这里为什么要判断是否为boot类型,不是的时候加八小时呢？
        --因为在mysql中如果时间类型是timestamp，那么除了历史同步boot外，其余的时间都有问题，需要加八个小时
        --timestamp不是时间戳吗？在mysql中的时间戳和datetime标准日期格式一致
        --那Mysql那边如果是时间戳格式呢还需要这么做吗？mysql那边timestamp只会是日期格式，要知道我们平时所说的整型时间戳是unix时间戳
        --如果是时间戳格式无法保存在timestamp中，它会存储成int或bigint等类型，到时候不用加八小时
        --那kudu那边如何处理这个？只要是日期格式，utime_unix就置为0，只要是unix时间戳格式就置为1，不管它是int还是什么
        --总的来说只要源数据是timestamp，非Boot,这里就需要加8小时
        case when get_json_object(content,'$.type') != 'bootstrap-insert' 
        then from_unixtime(unix_timestamp(get_json_object(get_json_object(content,'$.data'),'$.ctime'))+28800,'yyyy-MM-dd HH:mm:ss') 
        else get_json_object(get_json_object(content,'$.data'),'$.ctime') 
        end as ctime,
        case when get_json_object(content,'$.type') != 'bootstrap-insert' 
        then from_unixtime(unix_timestamp(get_json_object(get_json_object(content,'$.data'),'$.utime'))+28800,'yyyy-MM-dd HH:mm:ss') 
        else get_json_object(get_json_object(content,'$.data'),'$.utime') 
        end as utime,
        cast(get_json_object(get_json_object(content,'$.data'),'$.ver') as int) ver,
        substr(case when get_json_object(content,'$.type') != 'bootstrap-insert'
                    then from_unixtime(unix_timestamp(get_json_object(get_json_object(content,'$.data'),'$.ctime'))+28800,'yyyy-MM-dd HH:mm:ss')
                    else get_json_object(get_json_object(content,'$.data'),'$.ctime')
                    end,1,10) dt
        from ods_binlog.ods_binlog_basiccomment_avatar_comments_di
        where dt >= date_add(current_date,-1)
        --控制binlog分区>=昨天，只取昨天分区即可Impala测试时current_date需要替换成now
        and get_json_object(content,'$.type') != 'bootstrap-insert'
        and from_unixtime(cast(get_json_object(content,'$.ts') as bigint),'yyyy-MM-dd HH:mm:ss') >= date_add(current_date,-1)
        and from_unixtime(cast(get_json_object(content,'$.ts') as bigint),'yyyy-MM-dd HH:mm:ss') < date_add(current_date,0)
        --这三个and条件并不是一定要加的，什么时候可以不加呢？
        --1,如果今天刚历史同步过来的表第一次合并，没必要加and，为什么，这几个条件是控制时间漂移的，控制我只会取到昨日分区里和今日分区里，真正为昨日新增变化的那些binlog
        --而第一次同步，分区里只会有今天的binlog，直接全拿来合并就完事了，甚至连控制dt那行都不需要
        --但如果是第一次同步，非要加这几个条件的话，第一个and一定不要加，因为你直接吧boot过滤掉显然并不合适，
        --这个条件主要是为了方便历史同步后，当天晚上再做同步时，不再拿历史数据再做一次排序而已
        --2,如果历史同步后，当天晚上再做同步时，最好加上第一个and条件，但第二个and和where可以不用加，因为昨天刚历史同步的不会有前天的binlog，也不会有小于昨天的dt
        --但如果后天再做同步时，第一个and就可以省略了，因为今天就不可能再有boot数据了，这个条件可有可无，但其余两个and是一定要有的
        --其实总结一下最通用的方法，首次合并，不要这三个and，第二次合并加上这三个and

        union all
        --binlog和ods同一个分区dt的数据做合并，其实也就是同一个ctime取哪条留下来的问题
        --为什么不用union？因为union要比对，要去重，效率慢，而我通过排序123反而会快
        --但如果首次合并，其实union all下面这么多行都不需要，因为ods表里什么也没有

        select 1 binlog_type,
        --其实这里给小于3的任何一个整数都可以，因为这里肯定是旧数据，目的就是为了不让其在最外层被过滤掉
        id,userid,patientid,doctorid,diseaseid,commitidentity,type,deletetype,admincomment,realname,showattach,showrealname4doctor,agree,status,attitude,skill,tag,committime,ctime,utime,ver,dt 
        from ods.ods_basiccomment_avatar_comments_dic 
        where dt in (
            select 
            distinct substr(
                case when get_json_object(content,'$.type') != 'bootstrap-insert'
                        then from_unixtime(unix_timestamp(get_json_object(get_json_object(content,'$.data'),'$.ctime'))+28800,'yyyy-MM-dd HH:mm:ss')
                        else get_json_object(get_json_object(content,'$.data'),'$.ctime')
                        end,1,10) dt
            --对查出来的有变化的dt分区进行去重方便比对效率
            from ods_binlog.ods_binlog_basiccomment_avatar_comments_di t1
            where dt >= date_add(current_date,-1)
            and get_json_object(content,'$.type') != 'bootstrap-insert'
            and from_unixtime(cast(get_json_object(content,'$.ts') as bigint),'yyyy-MM-dd HH:mm:ss') >= date_add(current_date,-1)
            and from_unixtime(cast(get_json_object(content,'$.ts') as bigint),'yyyy-MM-dd HH:mm:ss') < date_add(current_date,0)
            --这里的过滤条件原因同上，而这部分数据也刚好是有变化的数据，所以可以用来确定产生变化的分区
            --但由于如果首次合并，其实连union all下面这么多行都不需要，所以这里一旦需要用上，就一定不是第一次合并了，这些条件都要有
        )
        --这里不要手贱加表名，他不是表，只是where in()的右括号
    ) t
) tt
where tt.rn = 1 and tt.binlog_type != 3
--我们要的是最新的数据，也就是倒序后排名为1的数据，但如果老数据或新数据被删除我们是需要将其过滤掉的

3.时间漂移问题

首先什么叫时间漂移？时间漂移通俗来讲，就是我昨天的数据结果到来的时候已经超过今天0点了，但他其实属于昨天的新增或变化

那为什么要处理时间漂移呢？因为如果放着不管，我们只合并昨天0点之前的数据，而不管这部分漂移，会导致，昨天该删的数据，我在数仓使用时，他依然存在，昨天变化的数据，我用的时候不是最新的状态

那么如何处理时间漂移呢？我们的合并sql其实内部就已经通过sql的逻辑解决了时间漂移这个问题

首次合并：

where dt >= date_add(current_date,-1)

确定分区大于等于昨天的Binlog分区，我可以拿出什么数据呢？昨天没有分区，那就是今天的分区，其中包括历史数据和合并开始那一刻产生的新增数据

为什么不做时间漂移呢？无所谓时间戳解决时间漂移，因为我首日就是为了检验数据量的准确性，和暂时勉强的使用，卡好昨天ctime即可，今天的数据没必要单独做漂移处理，我明天处理好就可以了

为什么叫暂时勉强的使用呢？因为要知道，昨天之前新增的数据结果今天在我今天合并前删除，那这部分数据我是无论如何都取不到的，所以叫勉强使用，因为正常情况下，我想要的肯定还是截止到昨日24点的全部数据

之后合并：

where dt >= date_add(current_date,-1)

确定分区大于等于昨天的Binlog分区，我可以拿出什么数据呢？我可以拿出昨天的数据和今天截止我调度时间的binlog

这部分数据都包含什么呢？包含：昨日分区：（1前天的漂移数据，2昨天的数据），今日分区：（3昨天漂移的数据，4今天的多余数据）

我要的是什么呢？2和3，所以我就要通过时间戳ts，过滤掉1和4

and from_unixtime(cast(get_json_object(content,'$.ts') as bigint),'yyyy-MM-dd

HH:mm:ss') >= date_add(current_date,-1)

该条件为了过滤1前天的漂移数据，虽然前天漂移的数据我今天再合并也无所谓，但没必要，反而会影响执行速度

and from_unixtime(cast(get_json_object(content,'$.ts') as bigint),'yyyy-MM-dd

HH:mm:ss') < date_add(current_date,0)

该条件为了过滤4今天的多余数据，如果没有这个过滤执行了漂移数据有什么危害呢？一是合并浪费时间，二是明天还要再合一次反而ods多了一部分数据来排序，但最重要的是T+1出问题

4.怎么对数？

首次同步检测时最后合并后数据量可能会多于mysql那边，原因是开始合并到查数这个过程中，有数据删除了，但是有时候差几条，你并不知道差这几条是否都是删除的，无法确定是不是合并出问题了

首先先对历史数据：

看maxwell拉取历史数据的条数，进度（process/ total），以Process的为准，和binlog中的bootstrap条数做对比

REFRESH ods_binlog.ods_binlog_healthpal_avatar_vip_healthservicerecords_di;
select count(*) from ods_binlog.ods_binlog_healthpal_avatar_vip_healthservicerecords_di 
where get_json_object(content,'$.type') = 'bootstrap-insert';

为什么process有时候要多于total？total是你开启历史同步时的条数，在同步的过程中可能有新增数据，他一起给拉过来了

那process会比total小吗？比如过程中删除了数据？不会，删除的binlog直接记录在maxwell新增同步里，所以我们才要先同步新增再同步历史

这样数据不是会重复一部分吗？重复无所谓可以合并，但我们的数据不可以丢失

其次再对合并后数据：

取ods中max(ctime), 求ods和mysql端小于等于这个时间的条数，然后取ods_binlog中type为delete且时间刚好大于这个时间的count数，去看这个delete数是否刚好为两者差值来判断数据量是否一致

原理：最大ctime之前插入修改或删除数据，两边一致，ctime之后插入数据，由于我统计的是ctime之前的，虽然此刻mysql肯定会比Ods的多，但我没有算上这部分数据，所以并没有影响，而之后修改数据，由于卡的是ctime，无论怎么改，ctime不会变，因此两边该是几条还是几条，所以这时候我统计的就只有最大ctime之后删除的数据差异了，因为最大ctime后删除，ods的数据条数还是那么多，因为合并已经结束，但mysql那边小于等于该ctime的count是没有计这条的

为什么取max？因为这样可以吧所有数都对上，如果大于这个值，有些数据还没合并过来，不准确，如果小于这个值，有些数据漏了，也不准确

为什么要以ctime而不是utime?因为我不知道合并开始时间是什么时候，只能做取舍，ctime有多少条，合并前就有多少条，除非之后delete，不然不会变；而如果我使用utime的话，如果在这之后更改了数据呢，ods中的条数就会多于mysql在此时间之前的，删除数据两边都没有了，倒是方便没有差异，但如果是修改呢，utime就会变化，一变化，ods这边就比mysql多了，虽然也可以去binlog里过滤update查条数，但是update数据量会比delete多，显然不好控制，而且数据只可能delete一次，但可以update无数次，你怎么控制呢？

REFRESH ods.ods_healthpal_avatar_vip_healthservicerecords_dic;
select max(ctime) from ods.ods_healthpal_avatar_vip_healthservicerecords_dic;
select count(*) from ods.ods_healthpal_avatar_vip_healthservicerecords_dic;
select count(*) from healthpal_avatar.vip_healthservicerecords where ctime <= '2022-08-26 14:54:58'; --mysql中
select count(*) from ods_binlog.ods_binlog_db_vip_healthservicerecords_di where get_json_object(content,'$.type') = 'delete' 
and case when get_json_object(content,'$.type') != 'bootstrap-insert' 
then from_unixtime(unix_timestamp(get_json_object(get_json_object(content,'$.data'),'$.ctime'))+28800,'yyyy-MM-dd HH:mm:ss') 
else get_json_object(get_json_object(content,'$.data'),'$.ctime') 
end <= '2022-08-26 14:54:58'
and from_unixtime(cast(get_json_object(content,'$.ts') as bigint),'yyyy-MM-dd HH:mm:ss') > '2022-08-26 14:54:58

直接对比前两个count相减是否等于最后一个count即可

5. 加入调度需要注意的问题

第一天手动执行，binlog中只有当天分区，其中包括历史数据和截止那一刻的数据，会把这部分数据合并排序后放入ods，这样操作大多数时候只是为了检验数据合并情况，其实完全可以直接第二天手动执行，不过需要注意别过滤掉boot同时控制漂移

第二天如果手动执行，binlog中有昨天和今天的分区，其中包括历史数据和昨天的binlog，如果之前是kudu表可能还包括昨天漂移的binlog，虽然数据量大，但白天跑不怎么会占用资源

第二天如果不手动执行，选择凌晨调度执行和上述同理，数据量大，所以晚上可能跑不成功

第三天调度执行，binlog中有昨天分区和昨天漂移的数据，数据量很小，就没有问题

综上，第一天手动执行检验数据，第一天不执行直接第二天手动为了避免数据大晚上跑不动，第二天将其加入到调度任务，第三天正常调度执行即可

但如果数据量过小，我们只需要首天手动执行检测，然后就加入执行计划，第二天就开始调度执行即可

当然就算数据量大，我们也可以选择这么做，首天手动执行检测，然后就加入执行计划，但要过滤boot，第二天直接开始调度执行即可，不过此时最稳妥的方式还是，首日不要加入调度，因为就算首日检测通过了，然后你也过滤boot了，但直接加入调度，你心里没底，不知道给的内存够不够，还是最好第二天手动跑一下最合适，然后再加入调度

总结一句话：首日合并检测后第二天手动合并且过滤boot后没问题了再加入调度任务

6.合并数据时spark任务失败怎么办？

logs1:Caused by: java.net.SocketTimeoutException:Read timed out

logs2:Caused by: org.apache.hadoop.mapred.InvalidInputException: Input path

does not exist: hdfs://HDFSNS/Data/d1/hive/warehouse/ods.db/ods_db_Hdf_userlogintime_dic/dt=2018-06-16

第一次失败因为时间超时，第二次原因是找不到分区目录，这就很奇怪，分区和分区目录都是它自己创建的凭什么找不到？

超时原因是涉及到历史分区过多，需要创建多个分区，超过了大约1000的限制导致任务失败，不妨先去查一下最小的ctime也就是最小的分区是多少，最大的肯定就是今天了

select min(get_json_object(get_json_object(content, '$.data'), '$.ctime')) 
from ods_binlog.ods_binlog_db_hdf_userlogintime_di
where get_json_object(content,'$.type') = 'bootstrap-insert';

查询原因发现跨ctime太多需要动态创建并插入多个分区，验证了我们的猜想，当然直接show partition也是可以的

那为什么第二次尝试报错输入路径找不到呢？原因是第一次超时的时候，会回退，会把所有目录包括下面的文件都删除掉，但元数据里那个分区已经创建好了依然是有的，我们删除所有分区可以解决该问题，但分区太多太麻烦这里可以直接删表重建

由于该表是个外部表，我们不仅要drop删其元数据，还应该将整个表文件删除

如何解决？我把历史数据按ctime分开区间批次导入即可，例如：

通过该sql查询一下ctime的年份或月份分布情况，决定是两年还是三年甚至是某四年共用一个spark任务

select substr(get_json_object(get_json_object(content,'$.data'),'$.ctime'),1,4) as `year`, count(*) from ods_binlog.ods_binlog_baseflow_avatar_baseflows_di group by `year`;

7.批次合并少数据问题

我使用分任务批次合并出现了一个问题，ods的登录表数据量少，和mysql那边对不上，少了四万多

排查方法：和kudu表联查，也就是left join并过滤右表为空，并对日期截取分组求count

结果：刚好少2019和2021年1月1号这两天的数据，也就是我们分的区间边界值

暴力解决：暂时先将这两天也分批次合并进去ods

原因：其实还是非boot的8小时差异在搞鬼，在划分子任务的时候不能只简单的划分日期，因为会牵扯非boot加八小时的问题，会文件覆盖导致少数据，设想一种情况，小于2019年的任务，在执行任务的时候，是不是会对原本加8小时，也就是2019年1月1日8点之前的数据进行写分区文件，把这部分数据写入2019-01-01的分区内，但是大于2019年的任务，又将2019年1月1日8点之后的数据写了一次该分区，那么一个分区重复写了两次，两个任务会相互覆盖文件，最后的结果就是要么少8点之前的数据，要么少8点之后的数据

解决方法一：过滤出boot，最后再合并一次

解决方法二：不过滤boot，划分日期也区分出非boot加八小时

where dt >= date_add(current_date,-1) 
and case when get_json_object(content,'$.type') != 'bootstrap-insert' 
then from_unixtime(unix_timestamp(get_json_object(get_json_object(content,'$.data'),'$.ctime'))+28800,'yyyy-MM-dd HH:mm:ss') 
else get_json_object(get_json_object(content,'$.data'),'$.ctime') 
end  > '2019' 
and case when get_json_object(content,'$.type') != 'bootstrap-insert' 
then from_unixtime(unix_timestamp(get_json_object(get_json_object(content,'$.data'),'$.ctime'))+28800,'yyyy-MM-dd HH:mm:ss') 
else get_json_object(get_json_object(content,'$.data'),'$.ctime') 
end < '2021'

8.合并少数据问题(kafka分区相关)

问题：ods的servicecards数据量少，和mysql那边对不上，少了2

排查方法：利用二分法卡ctime将binlog端的boot和mysql端的对数，观察少了哪部分数据

结果：在临近max ctime的九秒内少了两条数据，且时间交错

原因分析：合并时有一部分binlog在kafka的其他分区，有一定延时，没有及时的拿到这部分数据

9.少数据一定是kafka拉取延迟吗？

问题：第二次合并对数据的时候发现数据量对不上，这时候可能存在两个原因

设想原因：

1.ts延迟，此时缺失数据的类型为insert的binlog中ts比ctime大

2.kafka分区拉取延迟，可能是拉取的时候有个别分区没有拉取到就开始合并操作，此时缺失数据靠近24点

先二分法确定少数据的区间，再找出binlog中该区间内的数据和Mysql对比看是少哪条

select * from ods_binlog_baseflow_avatar_baseflows_di
where get_json_object(content,'$.type') != 'bootstrap-insert' 
--控制非boot，因为boot加八小时会干扰结果，而且我们也用不上
and from_unixtime(cast(get_json_object(content,'$.ts') as bigint),'yyyy-MM-dd HH:mm:ss') >= '2022-09-13'        
and from_unixtime(cast(get_json_object(content,'$.ts') as bigint),'yyyy-MM-dd HH:mm:ss') < '2022-09-14'
--控制时间漂移日期，因为不想之后的binlog对其干扰
and from_unixtime(unix_timestamp(get_json_object(get_json_object(content,'$.data'),'$.ctime'))+28800,'yyyy-MM-dd HH:mm:ss')  > '2022-09-13 23:59:00'         
and from_unixtime(unix_timestamp(get_json_object(get_json_object(content,'$.data'),'$.ctime'))+28800,'yyyy-MM-dd HH:mm:ss') <= '2022-09-14 00:00:00';
--控制少数据的ctime区间

观察这个数据最早的ts和其binlog中的ctime，判断是ts延迟了还是streaming拉取kafka分区没把他拉上去

select * from ods_binlog_baseflow_avatar_baseflows_di
where get_json_object(get_json_object(content,'$.data'),'$.id') = '6498536239'
order by get_json_object(content,'$.ts');

发现果然是ts竟然大于ctime一秒，也就是说ctime还是23:59:59但ts为第二天的0点

解决方法：合并时候让ts多漂移1秒，也就是取到0点

10.如果Kudu里已经有的表，想要在ods层再导入一份

首先我们每个表的新增数据是存在kafka里的一个主题内的，只要同步好schema后，maxwell就会采集到此刻开始的binlog，发往kafka的新增主题内

新增主题内的数据主要发往两个方向：1通过sparkstraming每五分钟一批次拉取存入ods_binlog下，2通过sparkstraimg每十分钟一批次拉取存入kudu表

所以kudu是不依赖于ods_binlog表的，他随时消费十分钟的数据给合并进dwb层了，由于没有建odsbinlog的表，就没有文件映射关系，所以每天的数据会在凌晨删除不会保留

所以我们如果要在同步一次，不仅需要建ods的表，还需要建ods_binlog层的表，完成这个映射，一天一次进行合并

由于ods不仅要消费历史主题还要消费新增Binlog主题，历史和新增谁先谁后的时间顺序无所谓，反正最后都要排序并取最新

但Kudu不是，kudu已经存在有一定的历史数据了，再消费一次历史主题的话可能会产生问题，因为在拉取历史数据的过程中，数据仍然在发生变化

只有在先拉了历史，然后发生了变化，但变化却比历史先到kudu的情况下，然后还没等历史过来，又立马把变化合并了，会发生这样的问题

例如update了一条数据到kudu了，但之后又bootstrap-insert了一条数据，本来这条数据应该更改了，但由于历史链路速度慢又重新insert一个旧的数据，所以Kudu里的数据并没有被更新

所以如果要导Ods，需要将kudu的历史主题链路关闭，将onlybinlog参数置为1，防止出现上述特殊情况造成数据不准确

但反过来先有ods表，再有kudu表，就不用关闭ods历史链路，因为kudu是十分钟就合一次，而ods是一天合一次，最后的排序不存在这种问题，他已经保证好了所有的数据都已经拿过来了

11.如何查看历史数据boot导入完毕？

首先看maxwell拉取历史数据的条数，进度（process /total），这里是maxwell历史数据作为生产者存进kafka历史主题的进度

也可以看kafka历史主题bi_table_init下的数据积压有没有继续增加，s_bi_ods_binlog是ods的消费者组，s_bi_table_init_new是kudu的消费者组

打开相应的消费者组查看待消费的积压数据Topic Summary还有多少，因为这里没有新增及变化，因为不是新增主题，所以如果还在增加说明maxwell还在拉取数据

然后可以看TableInitToOdsBinlog任务，它为sparkstreaming，不关闭，也就是Ods的消费者组进程，它通过每一分钟消费一次历史数据，将kafka历史主题下的数据分发到相应的binlog表目录下

如果在没有其他表历史同步的情况下，其records重新变为0（最靠谱），则代表streaming消费完毕数据，当kafka中待消费数据为0时也说明streming消费完毕

12.关于kafka在这里边的应用

生产者即部署在每个实例节点上的maxwell，收集不同表的Binlog一起发往相应的历史主题或新增主题

为什么历史主题和新增主题要分开？如果不分开，如何控制关闭kudu的历史链路？

为什么不每个表搞一个sparkstraimg作为消费者？没有必要，浪费资源，一个消费者组进行分发是更好地选择

为什么说他是一个消费者组？因为他的每个executor是一个消费者，通过hash取模后取相应数据进行消费，然后判断发往指定表的目录下，并将offset记录在一个特殊的topic中

为什么不每个表搞一个主题？如果每个表一个主题，首先管理维护起来麻烦，主题太多，其次每个主题都得有它的消费者组，还是需要很多个消费者组，就又回到了刚刚的问题

那就不可以一个消费者组消费不同主题吗？可以，但用在这里显然并不合适

13.是否要重启消费任务以及streaming的背压机制

streaming任务有背压机制，运行开始时会先拉取少部分数据进行消费，再依次增多，当拉取的数据量规定时间内消费不完时，会减少下批次拉取，是一个动态增长的方式

当多批次都卡在内存中，占满内存时则会报内存错误，此时需要去job里查看报错信息

对于streaming任务，rate参数代表每秒拉取每个分区的数据量，duration代表多久一批次，因此每次拉取的数据量用rate乘kafka主题分区数乘duration，

启动maxwelltokudu等任务时，可以观察一下前两批消费数据的速率，如果过慢要kill掉重新启动，因为可能分配的excutor在性能不太好的机器上，会影响后期的消费峰值

14.streming报错

org.apache.spark.scheduler.cluster.YarnClusterScheduler -Lost executor 2 on cdh7.bi.prod.idc1: Containermarked as failed:container e02 1660014269451 7532 01 000003 on host: cdh7.bi.prod.idc1. Exit status: 143.

说明spark执行在yarn上executor内存不足异常ERROR ，重启即可解决，它从断点开始继续消费

注：报错之后有可能出现一种情况就是，streming失败时已经写了文件，但还没有及时的更改offset，就会导致重复消费一部分数据，binlog的boot和mysql端对数对不上，但并不影响最后合并结果

15.如果binlog某天分区内数据有误怎么办？

删除binlog分区目录并不能导致元数据删除，还需删除分区，或者采用另一种方式，直接删除分区目录内的文件，而不是删除目录，相当于分区还存在，只是里面数据没有了

ALTER table ods_binlog.ods_binlog_db_hdf_userlogintime_di drop partition(dt = '2022-08-25');
show PARTITIONS ods_binlog.ods_binlog_db_hdf_userlogintime_di;

你可能感兴趣的:(数据仓库,hive)

Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
第二十九篇数据仓库与商务智能：技术演进与前沿趋势深度解析随缘而动，随遇而安数据库数据仓库大数据数据库架构数据库开发
声明：文章内容仅供参考，需仔细甄别。文中技术名称属相关方商标，仅作技术描述；代码示例为交流学习用途，部分参考开源文档（Apache2.0/GPLv3）；案例数据已脱敏，技术推荐保持中立；法规解读仅供参考，请以《网络安全法》《数据安全法》官方解释为准。目录一、核心差异：技术定位与实现路径1.1核心能力矩阵二、协同关系：现代数据供应链的双引擎2.1数据价值链协同2.2典型技术栈集成三、前沿技术动态（2
Hive 实际应用场景及对应SQL示例小技工丨大数据随笔 hive sql hadoop 大数据数据仓库
Hive实际应用场景及对应SQL示例一、‌日志分析场景‌**场景说明‌：**处理大规模日志数据（如Web访问日志），分析用户行为或系统运行状态。SQL示例‌：--统计每日UV（用户访问量）SELECTdate,COUNT(DISTINCTuser_id)ASdaily_uvFROMweb_logsWHEREevent_type='page_view'GROUPBYdate;技术要点‌：使用DIST
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
hive 使用oracle数据库 sardtass hadoop hive 开源项目
hive使用oracle作为数据源，导入数据使用sqoop或kettle或自己写代码（淘宝的开源项目中有一个xdata就是淘宝自己写的）。感觉sqoop比kettle快多了，淘宝的xdata没用过。hive默认使用derby作为存储表信息的数据库，默认在哪启动就在哪建一个metadata_db文件放数据，可以在conf下的hive-site.xml中配置为一个固定的位置，这样不论在哪启动都可以了。
HiveMetastore 的架构简析 houzhizhen hive hive
HiveMetastore的架构简析HiveMetastore是Hive元数据管理的服务。可以把元数据存储在数据库中。对外通过api访问。hive_metastore.thrift对外提供的Thrift接口定义在文件standalone-metastore/src/main/thrift/hive_metastore.thrift中。内容包括用到的结构体和枚举，和常量，和rpcService。如分
高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库牧码文数据仓库 hive 数据仓库数据挖掘数据库
内容目录高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库一、高级管理人员信息系统和数据仓库二、外部数据/非结构化数据与数据仓库高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库一、高级管理人员信息系统和数据仓库EIS-高级管理人员信息系统-计算机饿最有效形式之一。EIS处理，处于帮助高级管理人员制定决策的目的而设计的。比较典型的用途：趋势分析和发现关键比例指示器度
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
Hive与Spark的UDF：数据处理利器的对比与实践窝窝和牛牛 hive spark hadoop
文章目录Hive与Spark的UDF：数据处理利器的对比与实践一、UDF概述二、HiveUDF解析实现原理代码示例业务应用三、SparkUDF剖析-JDBC方式使用SparkThriftServer设置通过JDBC使用UDFSparkUDF的Java实现（用于JDBC方式）通过beeline客户端连接使用业务应用场景四、Hive与SparkUDF在JDBC模式下的对比五、实际部署与最佳实践六、总结
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
如果企业数据仓库全部使用 Couchbase Analytics 服务，可能会面临哪些问题？ PersistDZ 数据存储数据仓库
如果企业数据仓库全部使用CouchbaseAnalytics服务，可能会面临哪些问题？一、概述CouchbaseAnalytics服务是一项强大的工具，旨在为NoSQL数据提供近实时的分析能力。然而，如果企业的数据仓库全部依赖于CouchbaseAnalytics服务，可能会遇到一些问题和挑战。以下将从多个角度详细分析这些可能的问题。二、可能的问题和挑战资源消耗和成本高资源需求：Couchbase
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
qt-5.15.2 源码编译 Linux weixin_40857106 服务器运维
QT官方源码下载地址：https://download.qt.io/archive/qt/5.15/5.15.12/single/qt-everywhere-opensource-src-5.15.12.tar.xz安装Qt所需的依赖：sudoaptinstallbuild-essentiallibgl1-mesa-devlibxkbcommon-devlibnss3-devlibdbus-1-d
鸿蒙HarmonyOS开发：应用程序静态包-HAR 让开，我要吃人了鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为移动开发前端 html 开发语言鸿蒙
HAR（HarmonyArchive）是静态共享包，可以包含代码、C++库、资源和配置文件。通过HAR可以实现多个模块或多个工程共享ArkUI组件、资源等相关代码。使用场景作为二方库，发布到OHPM私仓，供公司内部其他应用使用。作为三方库，发布到OHPM中心仓，供其他应用使用。约束限制HAR不支持在设备上单独安装/运行，只能作为应用模块的依赖项被引用。HAR不支持在配置文件中声明UIAbility
flutter 使用xcodebuild 命令打包ipa 肥肥呀呀呀 flutter
苹果打ipa包(注意苹果打包需要连接真机)方式一、1.先执行flutterbuildios生成framework2.执行命令xcodebuild-exportArchive-archivePathbuild/ios/Runner.xcarchive-exportOptionsPlistexportOptions.plist-exportPathbuild/ios/ipaexportOptions.
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
oracle cdc logminer与oracle xstream 24k小善 java 大数据 flink
以下为OracleCDC技术中XStream与LogMiner的核心差异解析，结合技术背景、实现原理、性能表现等维度进行系统化对比。一、技术背景与定位差异LogMiner：官方日志分析工具的非正式应用最初设计用于数据库管理员（DBA）审计和分析历史日志，非专为CDC场景优化[1][9][16]。通过解析归档日志（ArchiveLog）或在线日志（OnlineRedoLog）提取变更记录，采用轮询机
csv转为utf8编码_中文的csv文件的编码改成utf8的方法 John Sheppard csv转为utf8编码
直奔主题：把包含中文的csv文件的编码改成utf-8的方法：啰嗦几句：在用pandas读取hive导出的csv文件时，经常会遇到类似UnicodeDecodeError:'gbk'codeccan'tdecodebyte0xa3inposition12这样的问题，这种问题是因为导出的csv文件包含中文，且这些中文的编码不是gbk，直接用excel打开这些文件还会出现乱码，但用记事本打开这些csv则
企业信息化整体架构图 weixin_33937913 系统架构
今天无意间发现一张企业信息化的图，放在这里以后参考。CollaboraticeCommerce转载于:https://www.cnblogs.com/Masterpiece/archive/2004/12/29/83696.html
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
dcm4che jamie_zhengmin dcm4che archive jboss 工具服务器
dcm4che工具包DICOMtoolkitDICOM工具包dcm4chee归档服务器器IHE影像管理器和影像归档执行器（dcm4jbossarchive影像归档器，影像扫描检查和报告的管理）dcm4che2重架构dcm4che的重架构实现
将Hive数据导出为CSV和Excel格式的方法翠绿探寻 hive excel hadoop 编程
将Hive数据导出为CSV和Excel格式的方法在Hive中存储和处理大规模数据是一项常见的任务。有时候，我们需要将Hive中的数据导出为CSV或Excel格式，以便进行进一步的分析或与其他工具进行集成。本文将介绍如何使用编程的方式将Hive数据导出为CSV和Excel格式，并提供相应的源代码。Hive数据导出为CSV格式要将Hive数据导出为CSV格式，我们可以使用Hive的内置函数INSERT
debian11安装MongoDB 韩搏 Linux基础 mongodb 数据库
debian11bit64安装MongoDB6.0安装必要的包sudoaptinstallgnupgcurl导入MongoDB公钥curl-fsSLhttps://www.mongodb.org/static/pgp/server-6.0.asc|sudogpg--dearmor-o/usr/share/keyrings/mongodb-archive-keyring.gpg创建MongoDB源列
linux 安装anaconda与jupyter notebook配置土豆土豆，我是洋芋 python
一、anaconda安装在官网或清华镜像下载anaconda在载前看一下自己的系统版本，下载对应的anaconda版本。在系统中输入：cat/proc/version，如下图所示##下载地址1）官网：https://www.anaconda.com/distribution/2）清华镜像：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/安
Hive 与 SparkSQL 的语法差异及性能对比自然术算 Hive hive hadoop 大数据 spark
在大数据处理领域，Hive和SparkSQL都是极为重要的工具，它们为大规模数据的存储、查询和分析提供了高效的解决方案。虽然二者都致力于处理结构化数据，并且都采用了类似SQL的语法来方便用户进行操作，但在实际使用中，它们在语法细节和性能表现上存在诸多差异。了解这些差异，对于开发者根据具体业务场景选择合适的工具至关重要。语法差异数据定义语言（DDL）表创建语法Hive：在Hive中创建表时，需要详细
Oracle V$SESSION详解雨的遐想 oracle 数据库
V$SESSION是SYS用户下面对于SYS.V_$SESSION视图的同义词。在本视图中，每一个连接到数据库实例中的session都拥有一条记录。包括用户session及后台进程如DBWR，LGWR，arcchiver等等。1.V$SESSION中的常用列V$SESSION是基础信息视图，用于找寻用户SID或SADDR，及检查用户的动态：（1）SQL_HASH_VALUE，SQL_ADDRESS
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
Redis 安装详细教程（小白版）小小鸭程序员 spring java AI编程 spring cloud redis
一、Windows系统安装Redis方法1：直接安装（推荐新手）下载RedisforWindows访问微软维护的Redis版本：https://github.com/microsoftarchive/redis/releases下载Redis-x64-3.2.100.msi（或最新版本）安装包。安装Redis双击下载的.msi文件点击下一步，勾选“AddRedisinstallationfolde
Hive SQL 精进系列：REGEXP_REPLACE 函数的用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、REGEXP_REPLACE函数基础2.1基本语法参数详解2.2简单示例三、REGEXP_REPLACE函数的应用场景3.1去除特殊字符3.2统一字符串格式四、REGEXP_REPLACE与REPLACE函数的对比4.1功能差异4.2适用场景五、REGEXP_REPLACE与REGEXP函数的对比5.1功能差异5.2适用场景六、总结一、引言字符串处理是数据处理中的常见需求，Hive
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默