冰河

Hive之——整合MySQL存储元数据信息及基本操作示例

转载请注明出处：http://blog.csdn.net/l1028386804/article/details/78303290

一、概述

Hive在实际工作过程中，需要一个统一的存储媒介来存储元数据信息，这个存储媒介通常可以是MySQL数据，那么如何将Hive的元数据信息存储到MySQL中呢，今天，就带着大家一起学习大数据入门系列的Hive篇——整合MySQL存储元数据信息。

二、环境整合

1、安装MySQL数据库

大家可以参考博文《MySQL之——CentOS6.5 编译安装MySQL5.6.16》或者《MySQL之——RPM方式安装MySQL5.6》

2、安装Hadoop

(1) 伪分布式安装

请参考博文：《Hadoop之——Hadoop2.4.1伪分布搭建》

(2) 集群安装

请参考博文《Hadoop之——CentOS + hadoop2.5.2分布式环境配置》

(3) 高可用集群安装

请参考博文《Hadoop之——Hadoop2.5.2 HA高可靠性集群搭建(Hadoop+Zookeeper)前期准备》和《Hadoop之——Hadoop2.5.2 HA高可靠性集群搭建(Hadoop+Zookeeper)》

3、安装Hive

这里我用的hive版本是hive-0.12.0.tar.gz，也可以使用其他版本的Hive.

1.1上传并解压

tar -zxvf hive-0.12.0.tar.gz

1.2 修改配置文件

进入到HIVE_HOME的conf目录下，修改文件hive-default.xml.template文件名称为hive-site.xml并编辑里面的内容如下：














	javax.jdo.option.ConnectionURL
	jdbc:mysql://127.0.0.1:3306/hive?createDatabaseIfNotExist=true


	javax.jdo.option.ConnectionDriverName
	com.mysql.jdbc.Driver


	javax.jdo.option.ConnectionUserName
	root


	javax.jdo.option.ConnectionPassword
	root

并将MySQL驱动Jar包放到HIVE_HOME的lib目录下。

配置好后启动hive即可。

三、Hive基本操作示例

1、在hive当中创建两张表

create table trade_detail (id bigint, account string, income double, expenses double, time string) row format delimited fields terminated by '\t';
create table user_info (id bigint, account string, name  string, age int) row format delimited fields terminated by '\t';

2、将mysq当中的数据直接导入到hive当中

sqoop import --connect jdbc:mysql://192.168.1.10:3306/lyz --username root --password 123 --table trade_detail --hive-import --hive-overwrite --hive-table trade_detail --fields-terminated-by '\t'
sqoop import --connect jdbc:mysql://192.168.1.10:3306/lyz --username root --password 123 --table user_info --hive-import --hive-overwrite --hive-table user_info --fields-terminated-by '\t'

3、创建一个result表保存前一个sql执行的结果

create table result row format delimited fields terminated by '\t' as select t2.account, t2.name, t1.income, t1.expenses, t1.surplus from user_info t2 join (select account, sum(income) as income, sum(expenses) as expenses, sum(income-expenses) as surplus from trade_detail group by account) t1 on (t1.account = t2.account);

4、将本地文件系统上的数据导入到HIVE当中

create table user (id int, name string) row format delimited fields terminated by '\t'
load data local inpath '/root/user.txt' into table user;

5、创建外部表

Hive内部表和外部表的区别是，当Hive删除表的时候，内部表会将所有相关的数据库/表文件删除，外部表则不会删除；外部表用关键字external标识。

create external table stubak (id int, name string) row format delimited fields terminated by '\t' location '/stubak';

6、创建分区表

普通表和分区表区别：有大量数据增加的需要建分区表

create table book (id bigint, name string) partitioned by (pubdate string) row format delimited fields terminated by '\t';

7、分区表加载数据

load data local inpath './book.txt' overwrite into table book partition (pubdate='2017-10-21');

四、其他各种操作示例

set hive.cli.print.header=true;

CREATE TABLE page_view(viewTime INT, userid BIGINT,
     page_url STRING, referrer_url STRING,
     ip STRING COMMENT 'IP Address of the User')
 COMMENT 'This is the page view table'
 PARTITIONED BY(dt STRING, country STRING)
 ROW FORMAT DELIMITED
   FIELDS TERMINATED BY '\001'
STORED AS SEQUENCEFILE;

//sequencefile
create table tab_ip_seq(id int,name string,ip string,country string) 
    row format delimited
    fields terminated by ','
    stored as sequencefile;
    
//使用select语句来批量插入数据
insert overwrite table tab_ip_seq select * from tab_ext;


//create & load
create table tab_ip(id int,name string,ip string,country string) 
    row format delimited
    fields terminated by ','
    stored as textfile;
    
//从本地导入数据到hive的表中（实质就是将文件上传到hdfs中hive管理目录下）
load data local inpath '/home/hadoop/ip.txt' into table tab_ext;

//从hdfs上导入数据到hive表中（实质就是将文件从原始目录移动到hive管理的目录下）
load data inpath 'hdfs://ns1/aa/bb/data.log' into table tab_user;


//external外部表
CREATE EXTERNAL TABLE tab_ip_ext(id int, name string,
     ip STRING,
     country STRING)
 ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
 STORED AS TEXTFILE
 LOCATION '/external/user';
 

// CTAS  根据select语句建表结构
CREATE TABLE tab_ip_ctas
   AS
SELECT id new_id, name new_name, ip new_ip,country new_country
FROM tab_ip_ext
SORT BY new_id;


//CLUSTER <--相对高级一点，你可以放在有精力的时候才去学习>
create table tab_ip_cluster(id int,name string,ip string,country string)
clustered by(id) into 3 buckets;

load data local inpath '/home/hadoop/ip.txt' overwrite into table tab_ip_cluster;
set hive.enforce.bucketing=true;
insert into table tab_ip_cluster select * from tab_ip;

select * from tab_ip_cluster tablesample(bucket 2 out of 3 on id); 



//PARTITION  分区表
create table tab_ip_part(id int,name string,ip string,country string) 
    partitioned by (year string)
    row format delimited fields terminated by ',';
    
load data local inpath '/home/hadoop/data.log' overwrite into table tab_ip_part
     partition(year='1990');
    
    
load data local inpath '/home/hadoop/data2.log' overwrite into table tab_ip_part
     partition(year='2000');

select * from tab_ip_part;

select * from tab_ip_part  where part_flag='part2';
select count(*) from tab_ip_part  where part_flag='part2';


alter table tab_ip change id id_alter string;
ALTER TABLE tab_cts ADD PARTITION (partCol = 'dt') location '/external/hive/dt';

show partitions tab_ip_part;

//insert from select   通过select语句批量插入数据到别的表
create table tab_ip_like like tab_ip;
insert overwrite table tab_ip_like
    select * from tab_ip;
   
//write to hdfs  将结果写入到hdfs的文件中
insert overwrite local directory '/home/hadoop/hivetemp/test.txt' select * from tab_ip_part where part_flag='part1';    
insert overwrite directory '/hiveout.txt' select * from tab_ip_part where part_flag='part1';

//cli shell  通过shell执行hive的hql语句
hive -S -e 'select country,count(*) from tab_ext' > /home/hadoop/hivetemp/e.txt  

select * from tab_ext sort by id desc limit 5;

select a.ip,b.book from tab_ext a join tab_ip_book b on(a.name=b.name);


//array 
create table tab_array(a array,b array)
row format delimited
fields terminated by '\t'
collection items terminated by ',';

select a[0] from tab_array;
select * from tab_array where array_contains(b,'word');
insert into table tab_array select array(0),array(name,ip) from tab_ext t; 

//map
create table tab_map(name string,info map)
row format delimited
fields terminated by '\t'
collection items terminated by ','
map keys terminated by ':';

load data local inpath '/home/hadoop/hivetemp/tab_map.txt' overwrite into table tab_map;
insert into table tab_map select name,map('name',name,'ip',ip) from tab_ext; 

//struct
create table tab_struct(name string,info struct)
row format delimited
fields terminated by '\t'
collection items terminated by ','

load data local inpath '/home/hadoop/hivetemp/tab_st.txt' overwrite into table tab_struct;
insert into table tab_struct select name,named_struct('age',id,'tel',name,'addr',country) from tab_ext;



//UDF
select if(id=1,first,no-first),name from tab_ext;

hive>add jar /home/hadoop/myudf.jar;
hive>CREATE TEMPORARY FUNCTION fanyi AS 'cn.lyz.hive.Fanyi';
select id,name,ip,fanyi(country) from tab_ip_ext;

你可能感兴趣的:(Hive,Hadoop生态)

Hive 面试题昨夜为你摘星
什么是Hive?Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的意义（最初研发的原因）?降低程序员使用Hadoop的难度，降低学习成本Hive的内部组成模块，作用
hivePB级迁移方案我要用代码向我喜欢的女孩表白数据库 bigdata-大数据专栏 hive
1、评估磁盘空间大小、调整副本数、设置heapsize大小2、distcp-i-skipcrccheck源端到目标端，迁移3、元数据迁移，建表，替换location地址，或者导出db4、表分区修复5、配置增量T-1迁移或者T-26、校验历史分区脚本，表结构，大小，文件数7、根据ditcp不对的，进行补数脚本，删分区，重拉8、任务校验，客户跑完任务后，校验指定分区的count数和内容的md59、任务
Spring 核心技术解析【纯干货版】- XII：Spring 数据访问模块 Spring-R2dbc 模块精讲 m0_74825003 面试学习路线阿里巴巴 spring java 后端
在现代应用架构中，高并发、低延迟的需求推动了响应式编程的发展，而传统的JDBC由于其同步阻塞机制，在高吞吐场景下可能成为瓶颈。R2DBC（ReactiveRelationalDatabaseConnectivity）作为响应式关系型数据库访问标准，正是为了解决这一问题而诞生的。SpringR2DBC作为Spring生态对R2DBC的封装，提供了非阻塞、异步的数据库访问能力，并与SpringWebF
国际数字影像产业园官网：带您探寻文创产业园前沿资讯树莓集团科技创业创新
成都国际数字影像产业园位于成都市金牛区福堤路99号，是数字文创产业的一颗璀璨明珠。该产业园由金牛区政府和树莓科技集团共同打造，拥有诸多独特优势。从产业生态上看，重点发展数字影像、数字文创、数字媒体三大产业，入驻企业超200家。涵盖影视制作、动画设计、游戏开发等多个领域，形成了完整的产业链，从前端采集到后期制作，从内容创作到版权交易，各环节紧密相连。在配套设施与服务方面，商务配套齐全，会议中心、商超
Java与Spring的“甜蜜毒药”：从辉煌到疲态的技术反思步子哥 java spring python
“Java生态就像一场漫长的婚姻，Spring是那个看似完美的伴侣，但当你意识到对方的控制欲时，已经为TA背上了巨额房贷。”Java，这位曾经的企业级开发之王，如今却像一位中年危机的技术巨人，站在2023年的技术浪潮中，显露出疲态。而Spring，这个曾经被誉为“轻量级救世主”的框架，早已从灵活的工具箱变成了沉重的枷锁。今天，我们就来聊聊这对技术界的“黄金搭档”，如何从蜜月期走向了“分居边缘”。Ⅰ
python调用kafka smile__su python python kafka
先启动hadoop，zookeeper，kafka启动命令hadoop启动命令sbin/start-all.shzookeeper启动命令./bin/zkServer.shstart每台机器都要启动kafka启动命令bin/kafka-server-start.shconfig/server.properties每台机器都要启动进行以下操作的前提是将hadoop，zookeeper，kafka安装
月之暗面改进并开源了 Muon 优化算法，对行业有哪些影响？互联网之路. 知识点开源算法
互联网各领域资料分享专区(不定期更新)：Sheet正文月之暗面团队改进并开源的Muon优化算法在深度学习和大模型训练领域引发了广泛关注，其核心创新在于显著降低算力需求（相比AdamW减少48%的FLOPs）并提升训练效率，同时通过开源推动技术生态的共建。1.显著降低大模型训练成本，推动技术普惠算力需求锐减：Muon通过引入权重衰减和一致的RMS更新，解决了原始Muon在大规模训练中的稳定性问题，使
深度解析：大模型开源的真与假 rs勿忘初心 #AI大模型大模型开源闭源对比开源闭源区别
目录大模型企业开闭源策略各异开源大模型的定义与现状开源内容的局限性通常开放的内容实际未开放的关键内容法律与商业模式的约束开源许可证的重要性大模型的定制许可证及其限制性条款商业公司对开源大模型的策略和目的建立生态系统吸引开发者提升品牌形象保持竞争优势技术创新和改进技术与协助开发的挑战训练和推理过程的资源需求差异微调和衍生模型的技术实现及其局限性开源大模型在协作开发中的局限总结大模型的发展开启了AIG
Vue的单元测试和端到端测试：确保组件可靠性与应用完整性哎你看 vue vue.js 单元测试前端
引言在软件开发过程中，测试是保证代码质量和应用稳定性的关键环节。Vue.js作为流行的前端框架，提供了一套完善的测试工具和生态系统，支持开发者进行单元测试和端到端测试。本文将深入探讨如何为Vue组件编写单元测试，并讨论如何使用Cypress等工具进行端到端测试。单元测试1.单元测试的概念单元测试是针对程序中最小的可测试单元进行检查和验证的过程，通常关注函数或方法级别的测试。2.Vue组件的单元测试
Hive基本操作小肥柴呀 Apache Hive hive 数据库
Hive基本操作1.Hive常用命令1.1Hive启动1.2Hive退出1.3Hive查看历史命令1.4Hive常用交互命令2.数据库基本操作2.1创建数据库2.2创建数据库并指定hdfs存储位置2.3删除空数据库2.4强制删除非空数据库2.5查看所有数据库2.6查看数据相关信息2.7数据库切换2.8修改数据库3.数据表基本操作3.1创建表3.1.1创建表的方式3.1.2创建内部表3.1.3创建外
深入浅出 Pinia：下一代 Vue 状态管理库的核心实践与设计哲学斯~内克 vue知识点 vue.js 前端 javascript
引言：为什么需要状态管理？在现代前端开发中，随着应用复杂度提升，组件间的数据共享和状态管理成为关键挑战。传统的组件间通信（如props/emit）在跨层级组件或大型应用中显得力不从心，而Vue生态早期的Vuex虽然解决了这一问题，但随着TypeScript的普及和CompositionAPI的推出，开发者对状态管理工具提出了更高要求——这便是Pinia诞生的背景。第一部分：Pinia基础概念1.1
使用LangChain与GPT4All模型进行交互 bavDHAUO langchain 交互 python
技术背景介绍近年来，开源模型和框架在AI技术领域迅猛发展。GPT4All是一个开源的对话机器人生态系统，旨在为用户提供干净的助手数据，包括代码、故事和对话。这篇文章将介绍如何使用LangChain与GPT4All模型进行交互，以实现智能问答功能。核心原理解析GPT4All是基于大型语言模型（LLMs）的开源项目，通过训练大量干净的数据，能够生成高质量的对话和回答。LangChain是一种用于简化与
hive迁移补数脚本细粒度表名-分区唯一键我要用代码向我喜欢的女孩表白 hive hadoop 数据仓库
假设我通过对数脚本发现，这些表对不上。假设检测出来是这样的（这些表存在于源端，但不存在目标端）我们需要从源端迁移过去。diff.txtads_xx1dt=20250219ads_xx2dt=20250217ads_xx2dt=20250218ads_xx2dt=20250219ads_xx3dt=20250217ads_xx4dt=20250217bak_xx1dt=20250109bak_xx1
P8794 [蓝桥杯 2022 国 A] 环境治理小星星子算法 c++数据结构图论
P8794[蓝桥杯2022国A]环境治理-洛谷|计算机科学教育新生态(luogu.com.cn)#includeusingnamespacestd;#definelllonglongconstintN=150;constintinf=0x7fffffff;intn,q;intd[N][N],l[N][N];intt[N][N];voidfloyd(){for(intk=0;k=i+1)//如果治理
如何使用Python爬虫实时获取股票行情数据并进行分析：完整教程 Python爬虫项目 2025年爬虫实战项目爬虫 python 开发语言信息可视化 c++
前言在金融领域，股票行情的实时获取和分析是投资决策中至关重要的一环。借助Python的强大生态系统，结合爬虫技术和数据分析库，投资者可以实时获取股票行情数据，并通过各种算法和模型进行深入分析。本教程将从零开始，带你深入学习如何使用Python爬取股票行情数据并进行分析。一、爬虫技术概述爬虫是从网络上自动提取信息的程序，它可以帮助我们获取互联网数据。在股票分析中，爬虫技术的应用非常广泛，尤其是通过A
算力革新引领数字中国智能跃迁智能计算研究中心其他
内容概要算力作为数字经济的核心驱动力，正通过架构创新与场景融合加速重构技术生态。当前算力体系呈现三大演进方向：异构计算突破传统芯片性能瓶颈，实现CPU、GPU、FPGA等多元架构的协同调度；边缘计算推动工业设备、物联网终端等场景的实时响应能力提升，形成“云-边-端”三级计算网络；量子计算则在加密通信、药物研发等领域展现颠覆性潜力，其物理比特操控精度已达实用化临界点。技术方向核心特征典型应用场景异构
深入浅出 Vue.js：从基础到进阶的全面总结多年以后_ vue.js 前端 javascript
深入浅出Vue.js：从基础到进阶的全面总结Vue.js是一个用于构建用户界面的渐进式框架。它不仅易于上手，还能通过其强大的生态系统支持复杂的应用开发。本文将从基础到进阶，全面总结Vue.js的核心概念、常用技术和最佳实践，并提供代码示例以便更好地理解。目录Vue.js基础Vue实例模板语法计算属性和侦听器组件系统组件基础父子组件通信插槽VueRouter路由基础动态路由匹配嵌套路由Vuex状态管
使用DashVector作为LangChain中的VectorStore插件 dgay_hua langchain python
背景介绍DashVector是一个支持高维稠密和稀疏向量的全托管向量数据库服务，支持实时插入和过滤搜索。它能够自动扩展并适应不同的应用需求。这使得DashVector在需要高效处理和搜索向量数据的应用中非常有价值，特别是在自然语言处理和推荐系统等领域。本篇文章将展示如何在LangChain生态系统中利用DashVector。主要内容包括DashVector的安装和配置，以及其作为VectorSto
IaaS、PaaS、SaaS是什么；算力共享商业模式；吸纳零散算力，提供高价值网络连接，促使算力流通；以SRv6 SID为抓手，构建算网SaaS生态运营体系 ZhangJiQun&MXP 2024大模型以及算力 2021 论文教学人工智能网络算法
目录IaaS、PaaS、SaaS是什么1.IaaS（基础设施即服务）2.PaaS（平台即服务）3.SaaS（软件即服务）算力共享商业模式云网融合，助力“东数西算”工程吸纳零散算力，提供高价值网络连接，促使算力流通以SRv6SID为抓手，构建算网SaaS生态运营体系IaaS、PaaS、SaaS是什么IaaS（InfrastructureasaService，基础设施即服务）、PaaS（Platfor
第二十二天学习HarmonyOS的分布式软总线技术，了解跨设备通信的原理 MarkHD HarmonyOS 学习学习 harmonyos 分布式
前言在万物互联时代，跨设备协同成为智能生态系统的核心需求。HarmonyOS通过创新的分布式软总线技术，实现了设备间的高效通信与资源共享。本文将从零开始，带领开发者深入理解这项核心技术，通过代码实战演示如何构建跨设备应用。我们将从技术原理到具体实现，系统性地剖析分布式软总线的运作机制。一、分布式软总线技术概述1.1什么是分布式软总线？HarmonyOS的分布式软总线就像一条虚拟的高速公路，连接着各
京东商品信息高效抓取：利用API实现数据获取的实战指南技术猿18870278351 自动化
在当今的电商时代，数据成为了企业决策和市场分析的重要基石。对于希望深入了解京东平台商品信息、优化供应链管理、或进行市场调研的商家和开发者而言，如何高效地获取京东商品信息成为了一项关键技能。本文将引导您通过API（应用程序接口）的方式，实战学习如何快速、准确地抓取京东商品信息，为您的业务赋能。一、了解京东开放平台与API京东开放平台（JDP）是京东为第三方开发者提供的一个接入京东电商生态系统的门户，
国产唯一开源湖仓框架LakeSoul 2.0 重磅升级：支持快照回滚、Flink和Hive对接元灵数智大数据数据库 spark
首先，附上Github链接LakeSoul：https://github.com/meta-soul/LakeSoul，可搜索公众号元灵数智，在底部菜单了解我们-用户交流获取官方技术交流群二维码，进群与业内大佬进行技术交流。DMetaSoul团队于7月初发布了LakeSoul2.0版本，对1.0版本进行了多方面升级优化，提高了自身架构设计的灵活性，也更好地适应客户未来业务高速发展的需要。2.0版本
字节的豆包和Kimi 的优劣势对比 eso1983 java python 算法
字节豆包、Kimi（月之暗面）和深度求索（DeepSeek）三款AI助手的对比分析，涵盖核心技术、功能特性、优劣势及适用场景.1.核心能力对比维度豆包（字节跳动）Kimi（月之暗面）DeepSeek（深度求索）技术基础基于字节自研云雀大模型，多模态能力突出，依托抖音/头条数据生态。Moonshot自研长文本大模型，专注超长上下文理解。自研模型聚焦复杂逻辑推理与代码生成，垂直领域优化。长文本处理支持
【系统架构设计师】高分优秀论文：论基于架构的软件设计方法及应用数据知道系统架构架构系统架构设计师软考高级论文
更多内容请见：备考系统架构设计师-核心总结索引文章目录论文一摘要正文论文二摘要正文总结论文一摘要2022年4月，本人所在单位计划研发生态集装箱管理控制平台项目。该平台主要用手与现有公司生态集装箱产品做对接，达到远程控制、平台管理，为集装箱生态种植提质提效的目的。本人在项目中担任架构师，负责系统的架构设计。本文以生态集装箱管理平台项目为例，主要论述基于架构的软件设计方法在该项目中的应用。在架构需求阶
DeepSeek全栈接入指南：从零到生产环境的深度实践量子纠缠BUG DeepSeek部署 AI DeepSeek 人工智能深度学习机器学习
第一章：DeepSeek技术体系全景解析1.1认知DeepSeek技术生态DeepSeek作为新一代人工智能技术平台，构建了覆盖算法开发、模型训练、服务部署的全链路技术栈。其核心能力体现在：1.1.1多模态智能引擎自然语言处理：支持文本生成（NLG）、语义理解（NLU）、情感分析等计算机视觉：提供图像分类、目标检测、OCR识别等CV能力语音交互：包含语音识别（ASR）、语音合成（TTS）及声纹识别
PolyOS 是面向 RISC-V 架构的智能终端和 AIoT 开源操作系统（基于开源鸿蒙） skywalk8163 操作系统 risc-v harmonyos qemu
PolyOS是面向RISC-V架构的智能终端和AIoT开源操作系统官网：PolyOS|PolyOSPolyOSMobile，作为一款面向RISC-V架构的智能终端操作系统，我们希望能够构建卓越的特性和创新的生态系统来引领未来移动操作系统技术的发展。该操作系统基于开源项目OpenHarmony，旨在为RISC-V潜在的硬件和软件市场构建一个强大的移动操作系统和生态系统。当前特性与目标PolyOSMo
shell字典数组吃不到的烤鱼 shell脚本
转自:http://www.firefoxbug.com/index.php/archives/2369/#shell字典数组#!/bin/bashecho"shell定义字典"#必须先声明declare-Adicdic=([key1]="value1"[key2]="value2"[key3]="value3")#打印指定key的valueecho${dic["key1"]}#打印所有key值e
【Python爬虫(98)】从数据抓取到产业变革：爬虫技术的跨界融合与生态进化奔跑吧邓邓子 Python爬虫 python 爬虫开发语言产业融合生态
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、爬虫技术在新兴产业中的深度融合2.1智能医疗领域的应用
HTTP 协议星竹服务器 http 网络协议服务器
项目：csdn:https://blog.csdn.net/2303_76953932/article/details/142704176?spm=1001.2014.3001.5501halo:https://xingzhu.top/archives/webfu-wu-qi-xiao-xiang-mu-linux-c-epoll说明：参考学习:https://www.bilibili.com/v
【数据分析】4 商业数据分析技能模型总结 loyd3 数据分析数据分析数据挖掘
优秀的商业分析师需要具备的能力数据分析能力逻辑思维能力赢得结果能力一、数据分析能力扩展：工具链生态与进阶场景1.数据获取技术升级企业级数据源管理：数据湖架构（AWSS3/阿里云OSS）与数据仓库（Snowflake/Redshift）权限管理API自动化采集（Postman+PythonRequests模块）反爬虫策略突破（IP代理池/Selenium模拟登录）新兴数据源拓展：社交舆情数据（Twi
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他