小徐xfg

hive 基础笔记

 
    字符集乱码 
    ( 
    将 
    LC_ALL=c  
    修改 
    ): 
   
    locale 
   
    unset LC_ALL 
   
    参数内部调用用 
    hiveconf 
    ，外部调用用 
    hivevar,hivevar 
    内部调用会报错； 
   
    !! 
    必须有几个分区就对几个分区 
    ( 
    包括源文件分区 
    ) 
    进行范围限定，否则系统自己给补足从而导致在 
    hadoop 
    上保存为另外一份文件，由于文件不相同所以导致 
    overwrite=into 
   
     hive默认分割符为x01，替换如下 
   
     sed -e 's/\ 
    x01/\t/g' 000000_0 >000000_1 
   
    hive json 
   
     https://stackoverflow.com/questions/14705858/using-json-serde-in-hive-tables 
   
    hive location 
   
    1.上传数据到hdfs某一目录下如 
   
    aa.txt 
   
    张三 
   
    李四 
   
    hadoop fs -put aa.txt /embrace/source/data 
   
    2.创建外部表指定/embrace/source/data位置 
   
    create external table test_location (name string) row format delimited fields terminated by ' 
    \t 
    ' location  
    ' 
    /embrace/source/data 
    ' 
    ; 
   
    备注：千万不要具体到文件，否则报错，只能具体到目录。 
   
    如果有分区则需要 
   
     alter table yt50 add partition(statist_day=20170709) location '/apps/hive/warehouse/cars.db/yt50/statist_day=20170709/'; 
   
     否则仍然不显示。 
   
    http://blog.csdn.net/uckyk/article/details/50543483 
   
    进入 
    hive shell 
   
    #hive 
    或者 
    hive --service cli 
   
    Hive  
    的启动方式 
    : 
   
    hive  
    命令行模式，直接输入 
    /hive/bin/hive 
    的执行程序，或者输入  
    hive –service cli 
   
    hive web 
    界面的启动方式， 
    hive –service hwi  
   
    hive  
    远程服务  
    ( 
    端口号 
    10000)  
    启动方式， 
    hive --service hiveserver 
   
    hive  
    远程后台启动 
    ( 
    关闭终端 
    hive 
    服务不退出 
    ): nohup hive -–service hiveserver & 
   
    显示所有函数： 
   
    hive> show functions; 
   
    查看函数用法： 
   
    hive> describe function substr; 
   
    查看 
    hive 
    为某个查询使用多少个 
    MapReduce 
    作业 
   
    hive> Explain select a.id from tbname a; 
   
    -------------------------------------------------------------------------- 
   
    表结构操作： 
   
    托管表和外部表 
   
    托管表会将数据移入 
    Hive 
    的 
    warehouse 
    目录；外部表则不会。经验法则是，如果所有处理都由 
    Hive 
    完成， 
   
    应该使用托管表；但如果要用 
    Hive 
    和其它工具来处理同一个数据集，则使用外部表。 
   
    创建表 
    ( 
    通常 
    stored as textfile) 
    ： 
   
    hive> create table tbName (id int,name string) stored as textfile; 
   
    创建表并且按分割符分割行中的字段值 
    ( 
    即导入数据的时候被导入数据是以该分割符划分的，否则导入后为 
    null 
    ，缺省列为 
    null) 
    ； 
   
    hive> create table tbName (id int,name string) row format delimited fields terminated by ' 
    \t 
    '; 
   
    创建外部表 
    : 
   
    hive>create external table extbName(id int, name string); 
   
    创建表并创建单分区字段 
    ds( 
    分区表指的是在创建表时指定的 
    partition 
    的分区空间。 
    ): 
   
    清空表： 
   
    truncate table aa; 
   
    hive> create table tbName2 (id int, name string) partitioned by (ds string) 
      
    row format delimited fields terminated by ' 
    \t 
    ' stored as textfile;  
   
    创建表并创建双分区字段 
    ds: 
   
    hive> create table tbname3 (id int, content string) partitioned by (day string, hour string); 
   
    表添加一列 
    : 
   
    hive> alter table tbName add columns (new_col int); 
   
    表删除或者替换一列： 
   
    如 
    a 
    表有 
    sno,sname, 
    字段，可以使用 
   
    Create table a replace columns(sno int); 
   
    这样就会改变字段且列下数据按顺序删除并不支持定位删除，如 
   
    1 2 3 4  
    想要删除 
    1 
    ， 
    3, 
    实际保留的是 
    12,34 
    字段被删除 
   
    修改一列： 
   
    Alter table a change column id idd int comment 
    ’ 
    hehehe 
    ’ 
      
    AFTER severity;( 
    意思是 
    idd 
    放在字段 
    severity 
    后 
    ) 
   
    添加一列并增加列字段注释 
    : 
   
    hive> alter table tbName add columns (new_col2 int comment 'a comment'); 
   
    改列名和位置： 
   
    alter table student change sum sun string after id; 
   
    更改表名 
    : 
   
    hive> alter table tbName rename to tbName3; 
   
    索引创建： 
   
    hive> create index your_index on table your_table(your_column)  
   
    > as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler'  
   
    > with deferred rebuild  
   
    > IN TABLE your_index_table; 
   
    显示索引： 
   
    Show formatted index on employees; 
   
    删除索引： 
   
    Drop index if exists employees_index on table employees; 
   
    删除表 
    ( 
    删除表的元数据，如果是托管表还会删除表的数据 
    ): 
   
    hive>drop table tbName; 
   
    只删除内容 
    ( 
    只删除表的内容，而保留元数据，则删除数据文件 
    ) 
    ： 
   
    hive>dfs –rmr ‘warehouse/my-table’; 
   
    删除分区，分区的元数据和数据将被一并删除： 
   
    hive>alter table tbname2 drop partition (dt='2008-08-08', hour='09' 
    /hour>=09 
    ); 
   
    复制数据结构： 
   
    Create table a like aaa; 
   
    -------------------------------------------------------------------------- 
   
    元数据存储 
    ( 
    从 
    HDFS 
    中将数据导入到表中都是瞬时的 
    ): 
   
    将文件中的数据加载到表中 
    ( 
    文件要有后缀名，缺省列默认为 
    null): 
   
    hive> load data local inpath 'myTest.txt' overwrite into table tbName; 
   
    在已创立的表上添加单分区并指定数据： 
   
    hive> alter table tbname2 add partition (ds='20120701') location '/user/hadoop/his_trans/record/20120701'; 
   
    在已创立的表上添加双分区并指定数据： 
   
    hive> alter table tbname2 add partition (ds='2008-08-08', hour='08') location '/path/pv1.txt'; 
   
    加载本地数据，根据给定分区列信息 
    : 
   
    hive> alter table tbname2 add partition (ds='2013-12-12'); 
   
    hdfs 
    数据加载进分区表中语法 
    ( 
    当数据被加载至表中时，不会对数据进行任何转换。 
    Load 
    操作只是将数据复制至 
    Hive 
    表对应的位置 
    )[ 
    不建议使用 
    ] 
    ： 
   
    hive 
    > load data local inpath 'part.txt' overwrite into table tbName2 partition(ds='2013-12-12'); 
   
    hive> load data inpath '/user/hadoop/*' into table tbname3 partition(dt='2008-08-08', hour='08');  
   
    -------------------------------------------------------------------------- 
   
    SQL  
    操作： 
   
    复制分区表及数据： 
   
    Create table new_table like old_table;( 
    复制表结构 
    ) 
   
    用 
    hadoop fs -cp 
    命令把 
    old_table 
    对应的 
    HDFS 
    目录的文件夹全部拷贝到 
    new_table 
    对应的 
    HDFS 
    目录下 
    ; 
   
    使用 
    msck repair table new_table 
    命令修复 
    new_table 
    的分区元数据 
    ; 
   
    查看表结构： 
   
    hive> describe tbname; 
   
    hive> desc tbname; 
   
    显示所有表 
    : 
   
    hive> show tables; 
   
    按正条件（正则表达式）显示表： 
   
    hive> show tables '.*s'; 
   
    查询表数据不会做 
    mapreduce 
    操作： 
   
    hive> select * from tbName; 
   
    查询一列数据，会做 
    mapreduce 
    操作： 
   
    hive> select a.id from tbname a ; 
   
    基于分区的查询的语句： 
   
    hive> select tbname2.* from tbname2 a where a.ds='2013-12-12' ; 
   
    查看分区语句： 
   
    hive> show partitions tbname2; 
   
    函数 
    avg/sum/count/group by/order by (desc)/limit: 
   
    select logdate, count(logdate) as count from access_1 group by logdate order by count limit 5; 
   
    内连接 
    (inner join) 
    ： 
   
    hive> SELECT sales.*, things.* FROM sales JOIN things ON (sales.id = things.id); 
   
    外连接： 
   
    hive> SELECT sales.*, things.* FROM sales LEFT OUTER JOIN things ON (sales.id = things.id); 
    ( 
    左表全部显示，右表只显示与左表匹配部分 
    ) 
   
    hive> SELECT sales.*, things.* FROM sales RIGHT OUTER JOIN things ON (sales.id = things.id); 
    ( 
    右表全部显示，左表只显示与左表匹配部分 
    ) 
   
    hive> SELECT sales.*, things.* FROM sales FULL OUTER JOIN things ON (sales.id = things.id); 
    （全部显示） 
    ; 
   
    in 
    查询： 
    Hive 
    不支持，但可以使用 
    LEFT SEMI JOIN 
   
    hive> SELECT * FROM things LEFT SEMI JOIN sales ON (sales.id = things.id); 
   
    相当于 
    sql 
    语句： 
    SELECT * FROM things WHERE things.id IN (SELECT id from sales); 
   
    Map 
    连接： 
    Hive 
    可以把较小的表放入每个 
    Mapper 
    的内存来执行连接操作 
   
    hive> SELECT /*+ MAPJOIN(things) */ sales.*, things.* FROM sales JOIN things ON (sales.id = things.id); 
   
    如果两张表相同，将其中一张表的数据插入另一张（两张表都有分区） 
   
    首先set hive.exec.dynamic.partition.mode=nonstrict; 
   
    使用 insert overwrite table yt partition(statist_day) select * from yt50 where statist_day=20170708; 
   
    如果使用 insert overwrite table yt partition(statist_day=20170708) select * from yt50 where statist_day=20170708;会报错查询列和已有列不同。 
   
    INSERT OVERWRITE TABLE ..SELECT 
    ：新表预先存在 
   
    hive> FROM records2 
   
    > INSERT OVERWRITE TABLE stations_by_year SELECT year, COUNT(DISTINCT station) GROUP BY year  
   
    > INSERT OVERWRITE TABLE records_by_year SELECT year, COUNT(1) GROUP BY year 
   
    > INSERT OVERWRITE TABLE good_records_by_year SELECT year, COUNT(1) WHERE temperature != 9999 AND  
   
    (quality = 0 OR quality = 1 OR quality = 4 OR quality = 5 OR quality = 9) GROUP BY year;  
   
    CREATE TABLE ... AS SELECT 
    ：新表表预先不存在 
   
    hive>CREATE TABLE target AS SELECT col1,col2 FROM source; 
   
    创建视图： 
   
    hive> CREATE VIEW valid_records AS SELECT * FROM records2 WHERE temperature !=9999; 
   
    查看视图详细信息： 
   
    hive> DESCRIBE EXTENDED valid_records; 
   
    -------------------------------------------------------------------------- 
   
    将查询数据输出至目录 
   
    hive> insert overwrite directory '/tmp/hdfs_out' select a.* from tbname2 a where a.ds='2013-12-12'; 
   
    将查询结果输出至本地目录 
   
    hive> insert overwrite local directory '/tmp/local_out' select ds,count(1) from tbname group by ds; 
   
    hive> insert overwrite table events select a.* from tbname a where a.id < 100; 
   
    hive> insert overwrite local directory '/tmp/sum' select sum(a.pc) from tbpc a ; 
   
    将一个表的统计结果插入另一个表中 
   
    hive> from tbname a insert overwrite table events select a.bar,count(1) where a.foo > 0 group by a.bar; 
   
    hive> insert overwrite table events select a.bar,count(1) from tbname a where a.foo > 0 group by a.bar; 
   
    JOIN: 
   
    hive> from tbname t1 join tbname2 t2 on (t1.id = t2.id) insert overwrite table events select t1.id,t1.name,t2,ds; 
   
    将多表数据插入到同一表中 
   
    FROM src 
   
    INSERT OVERWRITE TABLE dest1 SELECT src.* WHERE src.key < 100 
   
    INSERT OVERWRITE TABLE dest2 SELECT src.key, src.value WHERE src.key >= 100 and src.key < 200 
   
    INSERT OVERWRITE TABLE dest3 PARTITION(ds='2008-04-08', hr='12') SELECT src.key WHERE src.key >= 200 and src.key < 300 
   
    INSERT OVERWRITE LOCAL DIRECTORY '/tmp/dest4.out' SELECT src.value WHERE src.key >= 300; 
   
    将文件流直接插入文件 
   
    hive> FROM invites a INSERT OVERWRITE TABLE events SELECT TRANSFORM(a.foo, a.bar) AS (oof, rab) USING '/bin/cat' WHERE a.ds > '2008-08-09'; 
   
    This streams the data in the map phase through the script /bin/cat (like hadoop streaming). Similarly - streaming can be used on the reduce  
   
    side (please see the Hive Tutorial or examples)  
   
    -------------------------------------------------------------------------- 
   
    ###  
    错误信息  
    ###  
   
    问题： 
    load 
    数据全部为 
    null  
   
    原因：数据分隔符的问题，反序列化数据的时候出错了，定义表的时候需要定义数据分隔符。 
   
    解决： 
    row format delimited fields terminated by ',' stored as textfile; 
   
    create table mytable(key int , value string ) row format delimited fields terminated by ',' escaped by '\\' stored as textfile; 
   
    [row format delimited] 
    是用来设置创建的表在加载数据的时候，支持的列分隔符，如以 
    ',' 
    为分隔符； 
    row format delimited fields terminated by ','; 
   
    [terminated by] 
    分隔符：意思是以什么字符作为分隔符，默认情况下是 
    tab 
    字符（ 
    \t 
    ） 
      
    [enclosed by] 
    字段括起字符 
   
    [escaped by] 
    转义字符 
   
    使用 
    "\" 
    符号转义或者写作 
    :ALTER TABLE splitchar SET SERDEPROPERTIES ('escape.delim' = '\\'); 
   
    [stored as file_format]: 
    是用来设置加载数据的数据类型。 
    Hive 
    本身支持的文件格式只有： 
    Text File 
    ， 
    Sequence File 
    。 
   
    如果文件数据是纯文本，可以使用 
     [stored as textfile] 
    。 
   
    如果数据需要压缩，使用 
     [stored as sequence]  
    通常情况，只要不需要保存序列化的对象，我们默认采用 
    [STORED AS TEXTFILE] 
    。 
   
    将 
    CSV 
    中数据导入表中： 
   
    add jar /home/hadoop/csv-serde-1.1.2.jar;// 
    引用了这个 
    jar 
    包，关于这个表的所有操作都要引入这个 
    jar 
    。 
   
    row format serde 'com.bizo.hive.serde.csv.CSVSerde' 
   
    eg 
    ： 
    create external table trans_data 
   
    ( 
   
    id int, 
   
    name string 
   
    ) 
   
    partitioned by (pdate string)  
   
    row format serde 'com.bizo.hive.serde.csv.CSVSerde' stored as textfile; 
   
    alter table trans_data add partition (pdate='20120701') location '/user/hadoop/his_trans/record/20120701'; 
   
    -------------------------------------------------------------------------- 
   
    ###  
    错误信息  
    ###  
   
    问题： 
    java.lang.OutOfMemoryError: Java heap space 
   
    解决：检查 
    hiveserver 
    服务是否开启 
   
    -------------------------------------------------------------------------- 
   
    ###  
    错误信息  
    ### 
   
    java.lang.NoSuchMethodError: com.facebook.fb303.FacebookService 
   
    由于 
    hadoop 
    与 
    hive 
    版本不兼容导致 
    (hadoop-0.20.2+320) 
   
    解决方法： 
    mv $HADOOP_HOME/lib/libfb303.jar $HADOOP_HOME/lib/libfb303.jar_backup && ln -s $HIVE_HOME/lib/libfb303.jar $HADOOP_HOME/lib/libfb303.jar 
   
    心得部分： 
   
    0.count 
    （ 
    * 
    ）和 
    count 
    （列）比较 
   
    谁更快，不好说，列建索引会很快否则不会有什么区别 
   
    1.create table logs(ts int,line string) 
   
    ROW FORMAT DELIMITED 
   
    FIELDS TERMINATED BY '\t' 
   
    LINES TERMINATED BY '\n' 
   
    partitioned by (dt String,country String); 
   
    2.load data local inpath '/jboss/ttest/aa.txt' into table logs partition (dt='20010101',country='GB'); 
   
    3.show partitions logs; 
   
    4.alter table aa add columns(im int comment 'aaa'); 
   
    5.show create table aa 
    ；查看 
    aa 
    在 
    hdfs 
    上的存储位置 
   
    —————————————————————————————————————————————————————————— 
   
    insert overwrite table aa select bb.id,dd.age,bb.name from beer.bb left join deer.dd on(bb.id=dd.id); 
   
    insert into (table) aa select bb.id,dd.age,bb.name from beer.bb left join deer.dd on(bb.id=dd.id); 
   
    区别： 
    into 
    后可以加 
    table 
    或者不加都支持， 
    overwrite 
    必须有 
    table 
   
    —————————————————————————————————————————————————————————— 
   
    6.hive 
    存储格式有三种 
    :TEXTFILE 
    、 
    SEQUENCEFILE 
    、 
    RFCFILE 
   
    （ 
    1 
    ）、 
    TEXTFILE 
    能耗较大，不支持压缩 
   
    （ 
    2 
    ）、 
    SEQUENCEFILE 
    ， 
    hadoopAPI 
    提供的一种二进制文件支持，具有使用方便、可分割、可压缩的特点 
   
    （ 
    3 
    ）、 
    RFCFILE 
    ，一种行列相结合的存储方式。 
   
    相比于前两者， 
    RFCFILE 
    由于是列式存储方式，数据加载时性能消耗较大，但是具有较好的压缩比和查询响应。数据仓库的特点是一次写入、多次读取，因此，整体来看， 
    RFCFILE 
    相比其余两种格式具有明显的优势。 
   
    7.hive 
    内部表和外部表 
   
    如果数据仅仅只有 
    hive 
    使用，可以使用内部表也就是托管表或者管理表，如果数据需要多个数据库使用，建议使用外部表。 
   
    8. 
    查询 
    hive 
    下不同数据库下的表的联合 
   
    select * from user.student a join default.teacher b on (a.id=b.id); 
   
    9. 
    表的详细信息查看 
   
    desc extended aaa; 
   
    HIVE 
    问题： 
   
    一、截取 
    url 
    中的 
    host 
    值 
   
    select parse_url(a.url, 'HOST') from social_time_2016 a limit 10; 
   
    附 
    ： 
    URL 
    解析函数： 
    parse_url 
   
    语法 
    : parse_url(string urlString, string partToExtract [, stringkeyToExtract]) 
   
    返回值 
    : string 
   
    说明：返回 
    URL 
    中指定的部分。 
    partToExtract 
    的有效值为： 
    HOST, PATH, QUERY, REF, PROTOCOL, AUTHORITY, FILE, and USERINFO. 
   
    二、 
    修改分区表的分区名称 
      
    alter table partition_biao1 partition(date='2016-12-06',province='beijing') rename to partition( date='20161206',province='beijing'); 
   
    三 
      
    、删除表分区 
   
    alter table d_moc.mocdb_gps_date_all drop partition(dt='20161207') 
   
    四 
      
    、清空表数据 
   
    Truncate table xxxx 
   
    五、  
    添加列 
   
    alter 
      
    table 
     test  
    add 
     columns(age  
    int 
    );  
   
    六、 
    collect_set 
    （）函数的使用 
   
    COLLECT_SET 
    ，对于多列的 
    group by 
    操作时， 
   
    如果你想得到这样的结果： 
   
    appid app_name app_url 
   
    1  
    应用汇  
    www.test1.com 
   
    1  
    阿拉工具  
    www.test2.com 
   
    2  
    小星星  
    www.test3.com 
   
    3  
    小生  
    www.test4.com 
   
    3  
    小明  
    www.test5.com 
   
    希望得到这样的结果： 
   
    appid app_name app_url 
   
    1  
    应用汇  
    www.test1.com 
   
    2  
    小星星  
    www.test3.com 
   
    3  
    小生  
    www.test4.com 
   
    由于不能使用 
     multi-distinct 
    ， 故可以使用如下方式得到： 
   
    hive 
    > 
   
    select 
     appid 
    , 
      
    collect_set 
    ( 
    app_name 
    )[ 
    0 
    ], 
   
    collect_set 
    ( 
    app_url 
    )[ 
    0 
    ] 
   
    from 
      
    your_table 
   
    group  
    by 
      
    appid 
    ; 
   
    ------------------------------------------------------------ 
   
    另一种做法：可以考虑使用 
    min 
    , 
     max 
   
    select 
     appid 
    , 
   
    max 
    ( 
    app_name 
    ), 
   
    max 
    ( 
    app_url 
    ) 
   
    from 
   
    your_table 
   
    group  
    by 
      
    appid 
    ; 
   
    详解： 
   
          array 
        
          collect_set(col) 
        
          Returns a set of objects with duplicate elements eliminated 
        
    collect_set: 返回去重的元素数组。 
   
    七． 
    左链接实现 
    not in 
    （由于 
    not in  
    不支持子查询 所以不能用 
    not in 
    ）注意：数据量特别大的时候不合适 
   
    select distinct a.lps_did,a.os_version as osversion, 
   
    a.device_model as model,a.manufacturer from (select distinct lps_did,os_version,device_model,manufacturer 
   
    from d_moc.rps__h_date_partition_log_4jd37oe7g8x9 where p_event_date='${dt}') a 
   
    left outer join(select distinct(lps_did) from d_moc.rps__h_date_partition_log_4jd37oe7g8x9 where p_event_date<'${dt}') b 
   
    on a.lps_did=b.lps_did where b.lps_did is null; 
   
    八、hive 
    实现增量更新数据 
   
    1.  
    通过创建主表的临时表 然后左链接 
   
    2. 
   
    九、 
    非空函数： 
   
    2.   
    非空查找函数 
    : COALESCE 
   
    语法 
    : COALESCE(T v1, T v2, …) 
   
    返回值 
    : T 
   
    说明 
    :  
    返回参数中的第一个非空值；如果所有值都为 
    NULL 
    ，那么返回 
    NULL 
   
    举例： 
   
    hive> select COALESCE(null,'100','50′) from lxw_dual; 
   
    十、 
    取消 
    hive 
    表中为空的方法 
   
    第一 
     is not null 
   
    第二 
     length 
    （字段） 
    >0 
   
    select * from 
   
    (select distinct case when param1_key = 'company_id' then param1_value when param1_key = 'p1_companyId' 
   
    then param1_value end as companyid, 
   
    lps_did as did,os_version as osversion,device_model as model,manufacturer as manufacturer 
   
    from d_moc.rps__h_date_partition_log_4jd37oe7g8x9 WHERE p_event_date='2016-12-12' and param1_value is not null) t 
   
    where length(t.companyid)>0 
   
    我这个语句中碰到的问题只能用第二种 
   
    十一、 
    n 
    个字段的一个表 按天分区 第 
    n 
    个字段是次数 每天和之前的所有数据对比 当前面所有字段完全相等时 将第 
    n 
    个字段和之前数据的第 
    n 
    个字段累加 请问这个怎么做？ 
    hive 
    中（通过 
    join 
    ） 
   
    select a.companyid,a.did,a.province,a.city, 
   
    case when b.num is null then a.num 
   
    when b.num is not null then a.num+b.num end as num 
   
    from 
   
    (select companyid,did,province,city,count(1) as num from d_moc.gps_route_data_all where dt='2016-12-27' 
   
    group by companyid,did,province,city)a  
   
    left join 
   
    (select companyid,did,province,city,count(1) as num from d_moc.gps_route_data_all where dt<'2016-12-27' 
   
    group by companyid,did,province,city)b on a.companyid=b.companyid and a.did=b.did and a.province=b.province and 
   
    a.city=b.city  
    where b.companyid is null or b.companyid is not null 
     order by a.companyid 
   
    十一、hive 
    行列转换： 
   
    一、行转列的使用 
   
    １、问题 
   
    hive如何将 
   
    a b 1 
   
    a b 2 
   
    a b 3 
   
    c d 4 
   
    c d 5 
   
    c d 6 
   
    变为： 
   
    a b 1,2,3 
   
    c d 4,5,6 
   
    ２、数据 
   
    test.txt 
   
    a b 1  
   
    a b 2  
   
    a b 3  
   
    c d 4  
   
    c d 5  
   
    c d 6 
   
    ３、答案 
   
    1.建表 
   
    drop table tmp_jiangzl_test; 
   
    create table tmp_jiangzl_test 
   
    ( 
   
    col1 string, 
   
    col2 string, 
   
    col3 string 
   
    ) 
   
    row format delimited fields terminated by '\t' 
   
    stored as textfile; 
   
    load data local inpath '/home/jiangzl/shell/test.txt' into table tmp_jiangzl_test; 
   
    2.处理 
   
    select col1,col2,concat_ws(',',collect_set(col3))  
   
    from tmp_jiangzl_test  
   
    group by col1,col2; 
   
    二、列转行 
   
    １、问题 
   
    hive如何将 
   
    a b 1,2,3 
   
    c d 4,5,6 
   
    变为： 
   
    a b 1 
   
    a b 2 
   
    a b 3 
   
    c d 4 
   
    c d 5 
   
    c d 6 
   
    2、答案 
   
    1.建表 
   
    drop table tmp_jiangzl_test; 
   
    create table tmp_jiangzl_test 
   
    ( 
   
    col1 string, 
   
    col2 string, 
   
    col3 string 
   
    ) 
   
    row format delimited fields terminated by '\t' 
   
    stored as textfile; 
   
    处理： 
   
    select col1, col2, col5 
   
    from tmp_jiangzl_test a  
   
    lateral view  
    explode(split(col3,',')) b AS col5 
   
    Teacher 
    数据多 
   
    Student 
    数据少 
   
    想要查出 
    select * from teacher t left join student s where s.idd != t.idd 
    ，结果出发笛卡尔积失败，所以使用下面办法 
      
    select * from teacher t left join student s on s.idd = t.idd where s.idd is null; 
   
    Hive开发中使用变量的两种方法 
   
    2013/09/13 by  
    Crazyant 
      
    暂无评论 
      
    在使用 
    hive 
    开发数据分析代码时，经常会遇到需要改变运行参数的情况，比如 
    select 
    语句中对日期字段值的设定，可能不同时间想要看不同日期的数据，这就需要能动态改变日期的值。如果开发量较大、参数多的话，使用变量来替代原来的字面值非常有必要，本文总结了几种可以向 
    hive 
    的 
    SQL 
    中传入参数的方法，以满足类似的需要。 
   
    准备测试表和测试数据 
   
    第一步先准备测试表和测试数据用于后续测试： 
   
    hive> create database test; 
   
    OK 
   
    Time taken: 2.606 seconds 
   
          1 2 3 
        
          hive> create database test; OK Time taken: 2.606 seconds 
        
    然后执行建表和导入数据的 
    sql 
    文件： 
   
          1 2 3 4 5 6 7 8 9 10 11 
        
          [[email protected] testHivePara]$ hive -f student.sql Hive history file=/tmp/crazyant.net/hive_job_log_czt_201309131615_1720869864.txt OK Time taken: 2.131 seconds OK Time taken: 0.878 seconds Copying data from file:/home/users/czt/testdata_student Copying file: file:/home/users/czt/testdata_student Loading data to table test.student OK Time taken: 1.76 seconds 
        
    其中 
    student.sql 
    内容如下： 
   
          1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 
        
          use test; ---学生信息表 create table IF NOT EXISTS student( sno bigint comment '学号' , sname string comment '姓名' , sage bigint comment '年龄' , pdate string comment '入学日期' ) COMMENT '学生信息表' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS TEXTFILE; LOAD DATA LOCAL INPATH '/home/users/czt/testdata_student' INTO TABLE student; 
        
    testdata_student 
    测试数据文件内容如下： 
   
          1 2 3 4 5 6 7 8 9 10 11 12 13 
        
          1 name1 21 20130901 2 name2 22 20130901 3 name3 23 20130901 4 name4 24 20130901 5 name5 25 20130902 6 name6 26 20130902 7 name7 27 20130902 8 name8 28 20130902 9 name9 29 20130903 10 name10 30 20130903 11 name11 31 20130903 12 name12 32 20130904 13 name13 33 20130904 
        
    方法 
    1：shell中设置变量，hive -e中直接使用 
   
    测试的 
    shell 
    文件名： 
   
          1 2 3 4 5 
        
          #!/bin/bash tablename="student" limitcount="8" hive -S -e "use test; select * from ${tablename} limit ${limitcount};" 
        
    运行结果： 
   
          1 2 3 4 5 6 7 8 9 10 11 12 
        
          [[email protected] testHivePara]$ sh -x shellhive.sh + tablename=student + limitcount=8 + hive -S -e 'use test; select * from student limit 8;' 1 name1 21 20130901 2 name2 22 20130901 3 name3 23 20130901 4 name4 24 20130901 5 name5 25 20130902 6 name6 26 20130902 7 name7 27 20130902 8 name8 28 20130902 
        
    由于 
    hive 
    自身是类 
    SQL 
    语言，缺乏 
    shell 
    的灵活性和对过程的控制能力，所以采用 
    shell+hive 
    的开发模式非常常见，在 
    shell 
    中直接定义变量，在 
    hive -e 
    语句中就可以直接引用； 
   
    注意：使用 
    -hiveconf定义，在hive -e中是不能使用的 
   
    修改一下刚才的 
    shell 
    文件，采用 
    -hiveconf 
    的方法定义日期参数： 
   
          1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
        
          #!/bin/bash tablename="student" limitcount="8" hive -S \ -hiveconf enter_school_date="20130902" \ -hiveconf min_age="26" \ -e \ " use test; \ select * from ${tablename} \ where \ pdate='${hiveconf:enter_school_date}' \ and \ sage>'${hiveconf:min_age}' \ limit ${limitcount};" 
        
    运行会失败，因为该脚本在 
    shell 
    环境中运行的，于是 
    shell 
    试图去解析 
    ${hiveconf:enter_school_date} 
    和 
    ${hiveconf:min_age} 
    变量，但是这两个 
    SHELL 
    变量并没有定义，所以会以空字符串放在这个位置。 
   
    运行时该 
    SQL 
    语句会被解析成下面这个样子： 
   
          1 
        
          + hive -S -hiveconf enter_school_date=20130902 -hiveconf min_age=26 -e 'use test; explain select * from student where pdate='\'''\'' and sage>'\'''\'' limit 8;' 
        
    方法 
    2：使用-hiveconf定义，在SQL文件中使用 
   
    因为换行什么的很不方便， 
    hive -e 
    只适合写少量的 
    SQL 
    代码，所以一般都会写很多 
    hql 
    文件，然后使用 
    hive –f 
    的方法来调用，这时候可以通过 
    -hiveconf 
    定义一些变量，然后在 
    SQL 
    中直接使用。 
   
    先编写调用的 
    SHELL 
    文件： 
   
          1 2 3 
        
          #!/bin/bash hive -hiveconf enter_school_date="20130902" -hiveconf min_ag="26" -f testvar.sql 
        
    被调用的 
    testvar.sql 
    文件内容： 
   
          1 2 3 4 5 6 7 8 
        
          use test; select * from student where pdate='${hiveconf:enter_school_date}' and sage > '${hiveconf:min_ag}' limit 8; 
        
    执行过程： 
   
          1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 
        
          [[email protected] testHivePara]$ sh -x shellhive.sh + hive -hiveconf enter_school_date=20130902 -hiveconf min_ag=26 -f testvar.sql Hive history file=/tmp/czt/hive_job_log_czt_201309131651_2035045625.txt OK Time taken: 2.143 seconds Total MapReduce jobs = 1 Launching Job 1 out of 1 Number of reduce tasks is set to 0 since there's no reduce operator Kill Command = hadoop job -kill job_20130911213659_42303 2013-09-13 16:52:00,300 Stage-1 map = 0%, reduce = 0% 2013-09-13 16:52:14,609 Stage-1 map = 28%, reduce = 0% 2013-09-13 16:52:24,642 Stage-1 map = 71%, reduce = 0% 2013-09-13 16:52:34,639 Stage-1 map = 98%, reduce = 0% Ended Job = job_20130911213659_42303 OK 7 name7 27 20130902 8 name8 28 20130902 Time taken: 54.268 seconds 
        
    总结 
   
    本文主要阐述了两种在 
    hive 
    中使用变量的方法，第一种是在 
    shell 
    中定义变量然后在 
    hive -e 
    的 
    SQL 
    语句中直接用 
    ${var_name} 
    的方法调用；第二种是使用 
    hive –hiveconf key=value –f run.sql 
    模式使用 
    -hiveconf 
    来设置变量，然后在 
    SQL 
    文件中使用 
    ${hiveconf:varname} 
    的方法调用。用这两种方法可以满足开发的时候向 
    hive 
    传递参数的需求，会很好的提升开发效率和代码质量。

你可能感兴趣的:(hive)

解决方案架构手册第三版（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/767f6c16a82c581ed50af87f92c3fe8f译者：飞龙协议：CCBY-NC-SA4.0第五章：5云原生架构设计模式在数字化转型快速发展的时代，企业越来越多地转向云平台，提供可扩展、具备弹性且具成本效益的解决方案。采用云原生架构正成为寻求敏捷性、创新和运营效率的组织的战略必需。本章将引导您设计和实施云原生架构的旅程，重点介绍架构模
Jenkins集成Gitlab流水线大唐雷恋
参考这篇文章就够了https://www.zxblinux.com/archives/665另外，备注下流水线的配置：pipeline{agentanystages{stage('GitPull'){steps{echo'Updatesourcefromgitlab...'checkout([$class:'GitSCM',branches:[[name:'*/develop']],doGener
instantiate 卡顿严重_利用缓存池解决Instantiate慢的问题 weixin_39958100 instantiate 卡顿严重
Unity3D做项目有三个地方处理不好游戏整体就会出现卡顿的问题。1.NGUI直接打开界面卡，建议看看这一篇文章http://www.xuanyusong.com/archives/2799(本文就不赘述了)2.角色放技能的时候卡尤其是放群体攻击技能时，因为每个人身上都要产生一个技能特效。技能都是用粒子特效做的，虽然Unity中粒子特效也是一个GameObject.但是ParticleSystem
数据库和数据仓库区别 hhhecker Hadoop学习数据仓库数据库 hive
HIve与Mysql对比HiveMysql数据存储位置HDFS本地磁盘数据格式用户定义系统决定数据更新不支持（不支持修改和删除）支持（支持增删改查）索引有，但较弱，一般很少用有，经常使用的执行MapReduceExecutor执行延迟高低可扩展性高低数据规模大小数据库与数据仓库对比数据库：传统的关系型数据库主要应用在基本的事务处理，例如银行交易之类的场景数据库支持增删改查这些常见的操作。数据仓库：
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
required archivelog files for a guaranteed restore point 查找GRP需要的归档文件 jnrjian oracle sql
Appliesto:OracleDatabase-EnterpriseEdition-Version11.2.0.2andlaterInformationinthisdocumentappliestoanyplatform.GoalHowcanyoudeterminetherequiredarchivelogfilesneededforaguaranteedrestorepointbeforeru
Python 应用无监督学习（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
datasophon下dolphinscheduler执行脚本出错无级程序员大数据 hive 硬件架构 hadoop
执行hive脚本出错：错误消息：FAILED:RuntimeExceptionErrorloadinghooks(hive.exec.post.hooks):java.lang.ClassNotFoundException:org.apache.atlas.hive.hook.HiveHookatjava.net.URLClassLoader.findClass(URLClassLoader.ja
hive 分区表select全部数据_hive分区表 Xenophon Tony hive 分区表select全部数据
内部表和外部表内部表：createtable，copy数据到warehouse,删除表时数据也会删除外部表：createexternaltable，不copy数据到warehouse,删除表时数据不会删除表的分区分区的好处：如果不建立分区的话，则会全表扫描数据通过目录划分分区，分区字段是特殊字段目录结构：/pub/{dt}/{customer_id}/添加分区：ALTERTABLEfsADDPAT
hive底层原理 sql执行过程_Hive原理总结（完整版）
目录课程大纲(HIVE增强)31.Hive基本概念41.1Hive简介41.1.1什么是Hive41.1.2为什么使用Hive41.1.3Hive的特点41.2Hive架构51.2.1架构图51.2.2基本组成51.2.3各组件的基本功能51.3Hive与Hadoop的关系61.4Hive与传统数据库对比61.5Hive的数据存储62.Hive基本操作72.1DDL操作72.1.1创建表72.1.
hive的sql优化思路-明白底层运行逻辑 ycllycll hive sql hadoop
一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的，因为hive的性能瓶颈基本在内存，具体参考以下他人优秀文章：1.HiveSQL底层执行过程详细剖析2.HiveJOIN性能调优二是要明白hive对应的sql它底层的mapreduce的过程中sql字段的执行顺序，来理解map的key、value会填充什么值，才能深刻理解怎么一步一步的
python连接数据库的方法,Python 连接数据库的多种方法 AI MIU python连接数据库的方法
JZGKCHINAPython是一种计算机程序设计语言，它是一种动态的、面向对象的脚本语言。它是一种跨平台的，可以运行在Windows，Mac和Linux/Unix系统上。在日常使用中需要对大量数据进行数据分析，那么就必然用到数据库，我们常用的数据库有SQLServer,MySQL,Oracle,DB2,SQLite，Hive，PostgreSQL,MongoDB还有其他常用的MicrosoftA
Linux教程（4）----[hive数据仓库工具] .房东的猫 Linux教程（完善中~~）linux
Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高
flink sql读hive catalog数据，将string类型的时间戳数据排序后写入kafka，如何保障写入kafka的数据是有序的 fzip Flink flink sql hive
在FlinkSQL中，要确保从Hive读取的STRING类型时间戳数据排序后有序写入Kafka，需要结合批处理模式、时间类型转换、单分区写入和Kafka生产者配置。以下是完整解决方案：一、核心解决方案1.批处理模式+全局排序将作业设置为批处理模式，并对字符串时间戳进行类型转换后排序：--设置为批处理模式（关键！）SET'execution.runtime-mode'='batch';--从Hive
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
flink sql如何对hive string类型的时间戳进行排序
在FlinkSQL中对Hive表的STRING类型时间戳进行排序，需要先将字符串转换为时间类型，再基于时间类型排序。以下是具体方法和示例：一、核心解决方案1.字符串转TIMESTAMP后排序若Hive中的时间戳格式为'yyyy-MM-ddHH:mm:ss'（如'2024-01-0112:00:00'），可直接转为TIMESTAMP排序：SELECT*FROMhive_tableORDERBYTO_
Python 生物信息学秘籍第三版（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/9694cf42f7d741c69225ff1cf52b0efe译者：飞龙协议：CCBY-NC-SA4.0第十一章：生物信息学中的机器学习机器学习在许多不同的领域中都有应用，计算生物学也不例外。机器学习在该领域有着无数的应用，最古老且最为人熟知的应用之一就是使用主成分分析（PCA）通过基因组学研究种群结构。随着该领域的蓬勃发展，还有许多其他潜在的应
cdh6.3.2的hive使用apache paimon格式只能创建不能写报错的问题明天,今天,此时 hive paimon
前言根据官网paimon安装教程，看上去简单，实则报错阻碍使用的信心。解决方法原带的jars下的zstd开头的包旧了，重新下载zstd较新的包单独放到每个节点的hive/lib下; 然后将hdfsyarn用户下的mr-framework.tar.gz中的zstdjar包替换成新的版本。重启就可以了总结国外软件问题，尽量使用英文搜索，特别是google.。方法来源：http
ROS1/Linux——linux虚拟机主ip地址：网络信息不可用 eagle_Annie 网络 linux tcp/ip
ROS1/Linux——linux虚拟机主ip地址：网络信息不可用文章目录ROS1/Linux——linux虚拟机主ip地址：网络信息不可用参考亿点链接问题描述最终解决方案参考亿点链接Unabletofetchsomearchives,mayberunapt-getupdateortrywith–fix-missinglinux虚拟机主ip地址：网络信息不可用（没IP）【问题解决】VMWare虚拟
React-Python项目安装与使用指南
React-Python项目安装与使用指南一、项目目录结构及介绍通常情况下，在克隆了https://github.com/facebookarchive/react-python.git仓库之后，你会看到以下的目录结构：├──README.md#项目的说明文档├──src#源码目录│├──components#React组件存放位置│├──App.py#应用主入口文件│└──index.js#引入
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
AWS Terraform 架构指南（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/8b2d222956a050c7632b9eee086dadcf译者：飞龙协议：CCBY-NC-SA4.0第七章：7在项目中实现Terraform您准备好开始使用Terraform开发您的AWS基础设施了吗？在本章中，您将学习Terraform的基础知识，并了解如何在AWS中部署您的第一个模板。我们将介绍选择合适的AWS提供商和选择满足您项目需求的
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
精益敏捷之道（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0b2addbef6e2afb0ce49d44d7300959a译者：飞龙协议：CCBY-NC-SA4.0前言“精益敏捷之道：通过价值流管理释放企业潜力”一书源于首席作者塞西尔·‘加里’·鲁普与尊敬的同事理查德·克纳斯特、史蒂夫·佩雷拉和艾尔·沙洛韦的合作努力。他们的目标是为IT专家、商业专业人士以及各行业和组织的领域专家提供一本关于现代精益敏捷和
Python DevOps 实用指南（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0228db3442938136abc9262d5596d201译者：飞龙协议：CCBY-NC-SA4.0序言欢迎阅读本书！让我们来谈谈本书的内容以及你将从中学到的东西。本书涉及两件事：DevOps和Python。它讲述了这两者是如何相互作用的——无论你称它们为实体、哲学、框架，或者其他任何名称。本书将帮助你在技术层面上理解Python，同时也在概
Python 取证学习指南第二版（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0前言在编写《学习Python取证》一书时，我们有一个目标：以一种方式教授Python在取证中的应用，使得没有编程经验的读者可以立即跟随并开发出可以用于案件工作中的实用代码。但这并不意味着本书仅适合Python新手；在整个过程中，我们会逐步让读者
Python 取证学习指南第二版（三）
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0第七章：模糊哈希哈希是DFIR中最常见的处理过程之一。这个过程允许我们总结文件内容，并分配一个代表文件内容的独特且可重复的签名。我们通常使用MD5、SHA1和SHA256等算法对文件和内容进行哈希。这些哈希算法非常有价值，因为我们可以用它们进行
低版本hive(1.2.1)UDF实现清除历史分区数据 ༺水墨石༻ hive hive UDF hive hadoop 数据仓库
目标：通过UDF实现对表历史数据清除入参：表名、保留天数N一、pom文件4.0.0com.examplehive-udf-example1.0-SNAPSHOTjarhive-udf-exampleHiveUDFfordeletingpartitionsbydateUTF-81.81.8org.apache.hivehive-exec1.2.1org.apache.hivehive-metasto
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul