weiqingbin

Cloudera Impala 常见问题（翻译）

Cloudera Impala 常见问题

下面是 Clouder Impala 产品常见问题的目录。

继续阅读：

Trying Impala
Impala System Requirements
Supported and Unsupported Functionality In Impala
How do I?
Impala Performance
Impala Use Cases
Questions about Impala And Hive
Impala Availability
Impala Internals
SQL
Partitioned Tables

Trying Impala

如何实验 Cloudera Impala？

想要试试 Impala 的核心特性和功能，最简便的实验 Impala 的方法就是下载 Cloudera QuickStart VM 并通过 Cloudera Manager 启动 Impala 服务，然后在终端窗口使用 impala-shell，或者在Hue web 接口中使用 Impala Query UI。

想要在集群中测试 Impala 的性能并实验管理特性，你需要超越 QuickStart VM 和它的虚拟化的单节点环境。理想情况下，下载 Cloudera Manager 软件来设置集群，然后通过 Cloudera Manager 安装 Impala。

Cloudera 是否提供演示 Impala 的 VM 环境？

Cloudera 提供演示 VM 环境 QuickStart VM，包含 VMWare, VirtualBox, KVM 三种格式。更多信息，参见 the Cloudera QuickStart VM。启动 QuickStart VM 后，其中许多服务默认是关闭的；在自动出现的 Cloudera Manager UI 中，启用 Impala 和其他你想要实验的组件

在哪里可以找到 Impala 文档

参见 Impala Documentation 了解 Impala 版本说明、关于 Impala 安装、更新、配置、以及 Impala 查询语言的信息。

在哪里可以了解到更多的 Impala 的信息？

这里有更多 Impala 产品的信息：

O'Reilly e-book: Cloudera Impala: Bringing the SQL and Hadoop Worlds Together
Blog: Cloudera Impala: Real-Time Queries in Apache Hadoop, For Real
Webinar: Introduction to Impala
Product website page: Cloudera Enterprise RTQ

在 Cloudera Announcements 论坛查看最新的 Impala 公告。

在哪里提问和提交 Impala 的反馈？

请加入 Impala discussion forum 和 Impala mailing list 来提问与反馈
使用 Impala Jira project 来记录 bug 报告和功能需求

在哪里可以下载样例数据进行测试？

你可以在 this Github repository 获得生成数据文件并设置 TPC-DS 类型基准测试环境的脚本。除了可以用于性能试验外，这些表也适用于测试 Impala SQL 的许多方面：他们包含了各种数据类型、数据分布、分区、以及适合连接查询的关系数据。

Impala System Requirements

运行 Impala 有什么软硬件方面的需求？

关于 Impala 的需求，参见 Cloudera Impala Requirements。需要注意的是，对于给定版本的 Impala，通常有一个最小支持的 Clouder Manager 版本。

需要多少内存？

尽管 Impala 不是内存数据库，当处理大的表和大的结果集时，你应当期待为 impalad 守护进程分配大量的物理内存(you should expect to dedicate a substantial portion of physical memory for the impalad daemon)。推荐 Impala 节点具有至少 128 GB 内存。Impala 操作所需的内存依赖于几个因素：

表的文件格式。相同的数据，采用不同的文件格式，数据文件个数也不同。为了分析数据，根据每个文件所采用的压缩和编码格式的不同，可能需要不同数据量的临时内存来进行解压(The compression and encoding for each file format might require a different amount of temporary memory to decompress the data for analysis)
是否为 SELECT 或 INSERT 操作。例如，查询 Parquet 表时需要相对较少的内存，因为 Impala 以 8MB /块来进行读取和解压缩数据。而向 Parquet 表插入数据则是内存密集型操作，因为每一个数据文件(最大大小为 1GB)的数据被放在内存中，直到编码、压缩并写入硬盘
表是否为分区表，并且针对分区表的查询是否可以从分区修剪(partition pruning)中受益
最终的结果集是否使用 ORDER BY 子句来排序。请记住，Impala 要求所有包含的 ORDER BY 子句的查询同时包含 LIMIT 子句，或者在语句中直接包含，或者隐式的通过 DEFAULT_ORDER_BY_LIMIT 查询选项设置来实现。每一个 Impala 节点扫描并过滤总数据的一部分，并且对他们自己那部分数据应用 LIMIT。中间结果集 (包含最大 LIMIT 行记录)都发送回协调节点，在上面执行最终的排序并对最终结果集应用 LIMIT 子句。例如，假如你执行查询：
```
select * from giant_table order by some_column limit 1000;
```
并且你的集群有 50 个节点，然后这 50 个节点每个节点将传递最多 1000 行记录给协调节点。协调节点需要足够的内存进行排序(LIMIT *集群节点数) ，尽管这时最终的结果集最多返回 1000 行。
结果集的大小。当中间结果集在节点之间传输时，传输数据的数量依赖于查询返回列的数量。例如，在结果集中只返回实际所需列的查询比总是使用 SELECT * 的查询消耗更少的内存
连接查询工作如何拆分的机制

如何 Impala 节点在处理中间结果集时超出了预留给 Impala 内存的限制，目前 Impala 不支持"溢出的硬盘(spill to disk)"。假如这对你的情况来说是个问题(例如连接两个非常大的表时)，更多内存是有益的。

参见 Hardware Requirements 了解更详细的信息以及 Impala 硬件方面的先决条件。

Cloudera 推荐哪种处理器？

Impala 使用 SSE4.2 指令。对应 Intel 的 Nehalem+ 芯片和 AMD 的 Bulldozer+ 芯片。Impala 可以在较老的机器上正常运行，但无法达到最佳性能。

Supported and Unsupported Functionality In Impala

Impala 支持下列功能：

SQL 和 HiveQL 命令的一个大的子集，包括 SELECT 、 INSERT 、joins。更多信息，参见 Impala SQL Language Reference.
使用 Cloudera Manager 管理 Impala。请使用 Cloudera Manager 4.6 及以上版本，你可以部署和管理你的 Impala 服务。在集群中使用 Impala ，使用 Cloudera Manager 是最佳入门方式。更多信息，参见 Cloudera Manager Installation Guide 中使用 Cloudera Manager 安装 Impala 的主题
使用 Hue 进行查询
通过 INSERT 语句向表中追加和插入数据。参见 How Impala Works with Hadoop File Formats 了解关于哪种文件格式的哪些操作可以支持的详细信息
ODBC: Impala 是认证支持 MicroStrategy 和 Tableau的，但是有一些限制。更多信息，参见 Configuring Impala to Work with ODBC.
在单个查询中同时查询 HDFS 和 HBase 中的数据。参见 Using Impala to Query HBase Tables 了解详细信息
并发客户端请求。每一个 Impala 守护进程可以处理多并发客户端请求。对性能的影响依赖于你特定的硬件和负载
Kerberos 认证。更多信息参见 Impala Security.
分区。在 Impala SQL 中，你可以使用 CREATE TABLE 语句创建分区表，使用 ALTER TABLE 语句添加、删除分区。Impala 同样会从之前 Hive 中的分区表。参见 Partitioning 了解详细信息

Impala 不支持下列功能：

流数据查询(Querying streaming data)
删除个别行。你可以通过覆盖整个表或分区、或删除表来批量删除数据
索引(暂不支持)。像在 Using LZO-Compressed Text Files 中描述的那样，LZO 压缩文本文件可以在 Impala 之外进行索引
文本字段的全文检索。这时候请使用 Cloudera Search 产品
自定义 Hive 序列化/反序列化(Serializer/Deserializer) 类(SerDes)。Impala 支持一组通用的本地文件格式，在 CDH 中有对应的内置的 SerDes。参见 How Impala Works with Hadoop File Formats 了解详细信息
运行中查询的故障转移。假如运行查询的任意主机失败，目前来说 Impala 是取消所运行的查询。当一个或多个主机下线，Impala 会重新路由之后的查询并只使用可用的主机，当主机重新上线时 Impala 可以检测到，并重新使用它们。因为查询可以通过任意 Impala 节点提交，所以不会出现单点故障。将来我们会为 Impala 添加额外的工作分配功能，这样即使出现主机失败也会完成整个查询
Impala 守护进程之间的加密数据传输
窗口函数(Window functions)
Hive 索引
非 Hadoop 数据源，如关系数据库

关于更详细的不支持的 HiveQL 特性列表，参见 SQL Differences Between Impala and Hive。

Impala 是否支持通用 JDBC？

Impala 支持 HiveServer2 JDBC 驱动。

是否支持 Avro？

是的，支持 Avro。Impala 可以查询 Avro 表。但目前你必须在 Hive 中创建表并加载数据。参见 Using the Avro File Format with Impala Tables 了解详细信息。

What's next for Cloudera Impala?

请看我们的博客: http://blog.cloudera.com/blog/2012/12/whats-next-for-cloudera-impala/

How do I?

如何避免用户看到 SQL 查询的内容？

关于如何设置 Impala 日志对未授权的用户不可读的介绍，参见 Securing Impala Data and Log Files.

关于web 接口对 Impala 日志文件和其他内部服务器信息的密码保护(For instructions on password-protecting the web interface to the Impala log files and other internal server information)，参见 Securing the Impala Web User Interface。

如何知道集群中有多少 Impala 节点？

Impala statestore 会跟踪当前有多少 impalad 节点可用。你可以通过 statestore 的 web 接口看到这些信息。例如，在 http://statestore_host:25010/metrics 你可以看到类似下面的行：

statestore.live-backends:3
statestore.live-backends.list:[host1:22000,host1:26000,host2:22000]

其中 impalad 节点的个数是列出的对象中使用 22000 端口的对象的个数，这里是 2 个(通常这个数值比 statestore.live-backends 报告的数值少一)。假如一个 impalad 不可用，经过停机后恢复正常，那本页报告的信息会对应的修改。

Impala Performance

查询结果是一可用就返回还是等查询完成后一次全部返回？

Impala 尽可能的一有结果就输出来。特定的 SQL 操作(聚合函数或排序操作) 需要所有的结果都准备好才可以返回。

为什么我的查询运行缓慢？

一个查询运行的慢可能有许多原因。使用下面的列表，诊断已有查询性能问题，在写新的查询时避免出现这些问题，配置新的节点，创建新的表，或者加载数据。

在查询完成之后，在 impala-shell 中立即执行 PROFILE 命令。对于指定的节点，其中 BytesRead、BytesReadLocal、BytesReadShortCircuit 的值应当一致。例如：
```
- BytesRead: 180.33 MB
- BytesReadLocal: 180.33 MB
- BytesReadShortCircuit: 180.33 MB
```
假如 BytesReadLocal 低于 BytesRead，你集群中的一些配置可能错了，例如 impalad 守护进程没有在全部数据节点上都运行。假如 BytesReadShortCircuit 低于 BytesRead，这一节点上可能没有启用 short-circuit 读；参见 Post-Installation Configuration for Impala 了解相关信息
假如表刚刚创建，或者是在 INVALIDATE METADATA 语句之后或者 impalad 守护进程刚刚重启之后第一次访问这个表，当表元数据被加载和缓存时，可能有一些延迟。请检查再次执行查询时候放缓是否消失。在进行性能对比时，考虑先对每一个表执行一个 DESCRIBE table_name 语句，以确保所有的计时都只记录了实际的查询时间而不是包含加载表元数据的一次性等待
表数据使用的是未压缩的文本格式？请使用 DESCRIBE FORMATTED table_name 语句检查。文本文件表使用下面的语句标识：
```
InputFormat: org.apache.hadoop.mapred.TextInputFormat
```
尽管对于不包含 STORED AS 子句的 CREATE TABLE 语句，默认使用未压缩的文本文件格式，但它是占用硬盘空间最大的格式，所以也是查询最慢的格式。对于查询性能很关键的数据，特别是频繁查询的表，请考虑开始或转换成紧凑的二进制文件格式，如Parquet 、Avro、RCFile、SequenceFile。详细信息，参见 How Impala Works with Hadoop File Formats
假如你的表有非常多的列，但是查询仅涉及其中少量的列，请考虑使用 Parquet 文件格式。它的数据文件被组织成面向列(column-oriented)的布局，可以让检索、过滤和汇总特定列的值的 I/O 需求量最小化。参见 Using the Parquet File Format with Impala Tables 了解详细信息
假如你的查询涉及到很多连接，这些表是正确的顺序吗，以便返回最多行的表或子查询放在最左侧(If your query involves any joins, are the tables in the query ordered so that the tables or subqueries are ordered with the ones returning the largest number of rows on the left)？这一顺序允许 Impala 优化节点之间如何分布工作，以及中间结果集如何从一个节点向另外一个节点路由。例如，其他部分都相同，下面连接顺序的查询是高效的查询：
```
select some_col from
    huge_table join big_table join medium_table join small_table
  where
    huge_table.id = big_table.id
    and big_table.id = medium_table.id
    and medium_table.id = small_table.id;
```
参见 Performance Considerations for Join Queries 了解连接查询的性能提示
同样对于连接查询，在你的连接子句中使用的表、列是否都有统计信息？列统计信息让 Impala 更好的选择如何为连接查询的各个部分分配工作。参见 How Impala Uses Statistics for Query Optimization 了解采集统计信息的详细信息
你的表是否由大量的小数据文件组成？Impala 对大数据文件更高效(Impala works most efficiently with data files in the multi-megabyte range)；Parquet 是一种专为数据仓库类的查询优化的文件格式，采用 1GB 的文件和 1GB 块大小。在 impala-shell 中使用 DESCRIBE FORMATTED table_name 语句来查看表的数据位置，并使用 hadoop fs -ls 或 hdfs dfs -ls Unix 命令查看文件以及大小。假如你有成千上万个小数据文件，这就是你应当合并成更少的大数据文件的信号。使用 INSERT ... SELECT 语句复制数据到新表，这一过程包含重组到新数据文件的部分。宁可构建大的数据文件并通过 LOAD DATA 或 CREATE EXTERNAL TABLE 语句采用批量的方式导入，也不用采用 INSERT ... VALUES 语句的方式；每一个 INSERT ... VALUES 语句创建一个单独的极小的数据文件。假如你在同一个目录下有成千上万的数据文件，但每一个有几兆大(but each one is megabytes in size,)，考虑使用分区表，以便每一个分区包含较少量的文件。请参阅下面更多的分区说明
假如你的数据易于根据时间或地理位置分组，那么你根据对应的列如年、月、和/或日分区了吗？基于特定列的分区表允许查询查询根据这些列过滤，避免读取无关年份、无关邮编等等的数据(不要分区成太细的粒度；分区构建成每个分区下都有足够的数据，以便从 multi-megabyte HDFS block size 中受益)。参见 Partitioning 了解详细信息

为什么我的 SELECT 查询会失败？

当一个 SELECT 语句失败了，原因通常是以下类别之一：

因为性能、容量、或网络问题影响了特定的节点导致的超时
连接查询的过多内存数用，这一查询的结果会自动取消
处理查询中特定的 WHERE 子句时，影响到每一节点上本地代码如何生成的底层问题。例如，特定节点上可能会生成它的处理器不支持的机器指令。假如日志中的错误信息猜测是无效指令(illegal instruction)，考虑临时关闭生成本地代码，并重试这个查询
异常的输入数据，例如包含一个巨大的长行的文本数据文件(a text data file with an enormously long line)，或者使用了没有在 CREATE TABLE 语句中 FIELDS TERMINATED BY 子句中设置的分隔符(or with a delimiter that does not match the character specified in the FIELDS TERMINATED BY clause of the CREATE TABLEstatement)

为什么我的 INSERT 查询会失败？

当 INSERT 语句失败时，通常是因为超出 Hadoop 组件的一些限制，特别是 HDFS。

由于可能会在 HDFS 并发打开许多文件和关联的进程，插入到分区表的操作是一个费力(strenuous)操作。Impala 1.1.1 包含了一些改进，以更有效的分发工作，这样每个分区使用一个节点写入值，而不是没一个节点一个单独的数据文件
INSERT 语句中 SELECT 部分的特定表达式会产生复杂的执行计划，并导致低效的 INSERT 操作。请尽量使源表和目标表中列的数据类型匹配，例如，如果必要，在源表上执行 ALTER TABLE ... REPLACE COLUMNS 语句。请尽量避免在 SELECT 位置使用 CASE 表达式，因为相比保持列不变或通过内置函数转换列，CASE 会导致结果更难预测
请做好准备提升你的 HDFS 配置设置中的一些限制，可以临时的在 INSERT 执行时，如果你频繁运行这些 INSERT 语句作为 ETL 管道的一部分，也可以永久修改
依赖于目标表的文件格式，INSERT 语句的资源使用可能会变化。插入到 Parquet 表是内存密集型操作，因为每一个分区的数据会缓存到内存里，直到它达到 1G，这时候数据文件才写入到硬盘。当执行 INSERT 语句时候，如果查询中源表的统计信息可用，Impala 可以更高效的分布工作。参见 How Impala Uses Statistics for Query Optimization 了解如何采集统计信息

当部署到集群中更多主机上时， Impala 性能会提升吗？就像 Hadoop 性能那样？

是的。Impala 性能随主机数而扩展(Impala scales with the number of hosts)。在集群中所有数据节点上安装 Impala 很重要，否则的话，一些节点必须进行远程读取以获得本地读取无法获得的数据。对于 Impala 性能来说，数据本地化(Data locality) 是一个重要的架构方面(architectural aspect)。参见 this Impala performance blog post 了解背景信息。请注意这些博客使用 Impala 1.1.1 进行的基准测试；在 Impala 1.2.x 系列中，已经添加了更多性能特性。

减少 HDFS 块大小会实现更快的查询结果吗？

不会。Impala 不会对 HDFS 或 HBase 数据集做任何修改。

默认的 Parquet 块大小已经相当的大(1GB)，并且在创建 Parquet 文件时使用 PARQUET_FILE_SIZE 查询选项可以控制块大小。

Impala 使用缓存吗？

Impala 不会缓存数据，但它缓存一些表和文件的元数据。尽管因为数据集被缓存到 OS 的缓冲区中，接下来的重复查询可能运行的更快，Impala 不会明确的控制这些。

Impala Use Cases

什么情况下适合使用 Impala 而不适合 Hive 和 MapReduce？

Impala 非常适合在大的数据集上，为交互式探索分析执行 SQL。Hive 和 MapReduce 则适合长时间运行的、批处理的任务，例如 ETL。

Impala 是否需要 MapReduce ？如果 MapReduce 停了，Impala 是否能正常工作？

Impala 根本用不到 MapReduce。

Impala 是否可以用于复杂事件处理？

例如，在工业环境中，许多客户端可能产生大量的数据。Impala 是否可用与分析这些数据，发现环境中显著的变化？

复杂事件处理(Complex Event Processing,CEP) 通常使用专门的流处理系统处理。Impala 不是流处理系统，它其实更像关系数据库。

Is Impala intended to handle real time queries in low-latency applications or is it for ad hoc queries for the purpose of data exploration?

即席查询(Ad-hoc)是 Impala 的主要使用情况。我们估计它会在许多需要低延迟的环境中使用。Impala 是否适合某个特定的情况依赖于此时的负载、数据大小和查询次数。参见 Impala Benefits 了解使用 Impala 可以获得的主要益处。

Questions about Impala And Hive

Impala 与 Hive 和 Pig 有什么异同？

Impala 与 Hive 和 Pig 不同，因为它使用自己的守护进程，跨集群分布式进行查询。因为 Impala 不依赖于 MapReduce，它避免了 MapReduce 作业的启动开销，让 Impala 能实时返回结果。

我是否可以改变或添加新功能(functionality)？

Impala 1.2 开始支持 UDFs。你可以使用 C++ 写你自己的函数，或者重用已有的基于 Java 的 Hive UDFs。支持的 UDF 包括标量函数和用户定义聚合函数(UDAs)。目前不支持用户定义表函数(UDTFs)。

Impala 目前不支持扩展序列号-反序列化(serialization-deserialization)框架(SerDes)，因此为 Impala 添加扩展功能不像 Hive 或 Pig 那么简单。

Impala 中的所有查询都可以在 Hive 中执行吗？

是的。尽管在一些查询如何处理方面有细微的差别，但是 Impala 查询也可以在 Hive 中完成。Impala SQL 是 HiveQL 的子集，有一些功能限制如变换(transforms)。关于具体的 Impala SQL 方言，参见 SQL Statements。关于 Impala 内置函数，参见 Built-in Functions。关于不支持的 HiveQL 特性，参见 SQL Differences Between Impala and Hive。

我可以用 Impala 查询已经在 Hive 和 HBase 加载的数据吗？

允许 Impala 查询 Hive 管理的表，不管它是存放在 HDFS 还是 HBase中，都不需要额外的步骤。请确保已经正确的配置 Impala 访问 Hive metastore，并且你准备好了。请记住，默认的 impalad 使用 impala 用户运行，所以你可能需要调整一些文件的权限，这取决于你目前权限多么严格。

参见 Using Impala to Query HBase Tables 了解查询 HBase 中数据的详细信息。

Impala 是否需要 Hive？

Hive metastore 服务是必需的。Impala 与 Hive 共享同一个 metastore 数据库，透明的允许 Impala 和 Hive 访问相同的表。

Hive 本身是可选的，并且不需要跟 Impala 安装在同一个节点上。相比目前 Impala 支持的写(插入)操作(的文件格式)，Impala 支持更多类型的读取(查询)操作；对于使用的特定的文件格式，你应当使用 Hive 向表里插入数据。参见 How Impala Works with Hadoop File Formats 了解详细信息。

Impala Availability

Impala 可以用于生产环境吗？

Impala 已经完成了它的测试版本发布周期，1.0 GA 版本已经为生产环境做好准备。而 1.1.x 系列包括了授权这一新增的安全特性，这是许多组织使用产品的重要需求。一些 Cloudera 客户已经为大的负载使用 Impala。

Impala 1.2.0 版本目前是测试版，因为它使用了许多仅在 CDH 5.0 测试版中可用的特性。随后的与 CDH 4 协同的 1.2.1 和 1.2.2，适用于生产环境 (相比 1.2.1，更推荐 1.2.2，因为 1.2.2 包含了许多针对连接查询的性能优化)。

如何为 Impala 配置 Hadoop 高可用性 (HA)？

你可以设置代理服务器，转发 Impala 服务器来回的请求，以实现负载均衡和高可用性。参见 Using Impala through a Proxy for High Availability 了解详细信息。

你可以为 Hive metastore 启用 HDFS HA。参见 CDH4 High Availability Guide 了解详细信息。

Impala 出现错误时都发生了什么？

Impala 中不会出现单点故障。所有的 Impala 守护进程全都可以处理所接受的查询。假如一台机器出现故障，在这台机器上有查询片段(fragments)在上面运行的查询都会失败。因为查询被期望快速返回的，当查询失败时你可以重新运行失败的查询(Because queries are expected to return quickly, you can just rerun the query if there is a failure)。参见 Impala Concepts and Architecture 了解 Impala 架构的详细信息。

完整回答：Impala 必须能够连接到 Hive metastore。Impala 积极缓存元数据，这样 metastore 主机的负载很小。Impala 依赖于 HDFS NameNode，并且在 CDH 4中你可以为 HDFS 配置 HA。Impala 同样有一个集中的软件状态(soft-state)服务，称作 statestore 和 catalog 服务，仅仅在一台主机上运行。假如 statestore 主机下线，Impala 会继续执行查询，但不会获得状态更新。例如，如果在 statestore 主机下线期间向集群添加了一台主机，运行在其他主机上的已有的 impalad 实例将不会发现这台新的主机。一当 statestore 进程重启后，所有它提供的信息会根据所有运行的 Impala 守护进程自动重建。

Impala 表中最多允许多少行？

没有限制。一些用户已经使用 Impala 查询包含上万亿记录的表。

Impala 和 MapReduce 作业可以在相同集群中运行而不会资源冲突吗？

是的。参见 Controlling Resource Usage 了解如何使用 Linux cgroup 机制控制 Impala 使用的资源，以及 Using YARN Resource Management with Impala (CDH 5 Only) 了解如何使用 Impala 和 YARN 资源管理框架。Impala 被设计为运行在 DataNode 主机上的。任何资源冲突都依赖于集群的配置和负载。

关于详细的如何配置集群在 Impala 查询和 MapReduce 作业之间共享资源的例子，参见 Setting up a Multi-tenant Cluster for Impala and MapReduce

Impala Internals

Impala 应当在哪些主机上运行？

为了更佳的性能，Cloudera 强烈推荐在每一台数据节点(DataNode)上都运行 impalad 守护进程。尽管这一拓扑结构不是硬性要求，假如有任意主机，上面包含了数据块副本但是没有 Impala 守护进程运行，那么涉及到这些数据的查询的效率将非常低下(if there are data blocks with no Impala daemons running on any of the hosts containing replicas of those blocks, queries involving that data could be very inefficient)。这时候，这些数据必须通过"远程读取"从一台主机传输到另外一台主机以进行处理，这是 Impala 应尽量避免的情况。参见 Impala Concepts and Architecture 了解关于 Impala 架构的详细信息。Impala 会尽可能的调度查询分片，以便能在存放对应数据的主机上执行查询(Impala schedules query fragments on all hosts holding data relevant to the query, if possible)。

Impala 中连接如何执行？

默认的，Impala 使用基于成本的方法，根据表的总大小和行数，自动确定最高效的表连接顺序(这是从 Impala 1.2.2 才开始具有的新特性)。使用 COMPUTE STATS 语句采集的每一个表的统计信息是高效连接的关键。Impala 连接查询在两种连接技术之间进行选择，分别是 "广播连接(broadcast joins)" 和 "分割连接(partitioned joins)"。参见 Joins 了解语法详情，参见 Performance Considerations for Join Queries 了解性能注意事项。

Impala 如何处理大表的连接查询？

Impala 采用多种策略，允许不同大小的表和结果集进行连接。当一个大表与一个小表连接时，小表中的所有数据会传输到每一节点上以进行中间处理。当连接两个大表时，其中一个表的数据被拆分成多块，每一个节点只处理其中选中的块。参见 Joins 了解连接处理的详细信息，Performance Considerations for Join Queries 了解性能注意事项，Hints 了解如何微调连接策略。

Impala 的聚合策略是什么？

Impala 目前仅支持内存中的哈希聚合(hash aggregation)。

Impala 元数据如何管理？

Impala 使用两部分的元数据：Hive metastore 中的目录信息和 NameNode 中的文件元数据。目前，当 impalad 需要元数据以产生查询的执行计划时才加载并缓存元数据(this metadata is lazily populated and cached when an impaladneeds it to plan a query)

当在 Hive 中加载新数据之后，使用 REFRESH 语句更新这个表的元数据。INVALIDATE METADATA Statement 语句刷新所有的元数据，以便 Impala 识别到 Hive 中创建的新表或其他 DDL 、DML 的修改。

在 Impala 1.2 及以上版本中，有一个单独的 catalogd 守护进程向所有节点广播 Impala 中 DDL 或 DML 语句导致的元数据变化，减少或避免了使用 REFRESH 和 INVALIDATE METADATA 语句的需求。

并发查询时 NameNode 负载如何？

Impala 产生的负载与 MapReduce 产生的非常类似。Impala 在规划阶段连接 NameNode 以获得文件元数据(仅在接收到查询的主机上执行)。每一个 impalad 将读取文件作为查询正常处理的一部分(Every impalad will read files as part of normal processing of the query)。

为何 Impala 能实现性能提升(How does Impala achieve its performance improvements)？

这是 Impala 与其他 Hadoop 组件和相关技术在性能方面不同的主要原因(These are the main factors in the performance of Impala versus that of other Hadoop components and related technologies)。

Impala 避免使用 MapReduce。尽管 MapReduce 是一种伟大的通用并行处理模型，具有许多优点，但是它不是专为执行 SQL 设计的。Impala 在这些方面避免了 MapReduce 的低效：

Impala 不会把中间结果存放到硬盘上。SQL 查询通常映射成多个包含所有中间结果集都写入到硬盘上的 MapReduce 作业(SQL queries often map to multiple MapReduce jobs with all intermediate data sets written to disk)
Impala 避免了 MapReduce 启动时间的耗费。对于交互式查询，MapReduce 启动时间变得非常醒目。Impala 以服务方式运行，实际上没有启动时间
Impala 可以更自然的分散查询计划，而不是不得不纳入 map 和 reduce 作业管道中。这使得 Impala 可以并行处理查询的多个步骤，并避免不必要的负载如排序和混洗(This enables Impala to parallelize multiple stages of a query and avoid overheads such as sort and shuffle when unnecessary)

Impala 通过利用最新机器和技术(modern hardware and technologies)，采用了一种更高效的执行引擎(Impala uses a more efficient execution engine by taking advantage of modern hardware and technologies)：

Impala 生成运行时代码。Impala 使用 LLVM 为要执行的查询生成汇编码(assembly code)。个别查询不需要为运行在可以支持各种查询的系统而支付代价(Individual queries do not have to pay the overhead of running on a system that needs to be able to execute arbitrary queries)
Impala 尽可能采用最新的硬件指令。Impala 使用最新的 SSE (SSE4.2) 指令集，某些情况下可以提供巨大的加速效果
Impala 采用更好的 I/O 调度。Impala 了解块在硬盘上的位置，并可以调度块处理的顺序，以便保证所有硬盘都繁忙
Impala 专为性能设计。Impala 采取以性能为导向的设计原则，为此花费了大量的时间，例如紧密内部循环、内联函数调用、最小分支、更好的缓存使用、以及最小内存使用等(A lot of time has been spent in designing Impala with sound performance-oriented fundamentals, such as tight inner loops, inlined function calls, minimal branching, better use of cache, and minimal memory usage)

当数据集超出可用内存时会发生什么？

目前来说，假如在某一节点上处理中间结果集所需的内存超出了这一节点上 Impala 可用的内存，查询会被取消。你可以调整每一节点上 Impala 的可用内存，也可以对你最大的查询微调连接策略来减少内存需求。我们计划在将来支持外部连接和排序。

但请记住，使用内存的大小并不是跟输入数据集的大小直接相关。对于聚合来说，使用的内存跟分组后的行数有关。对于连接来说，使用的内存与除了最大的表之外其他所有表的大小相关，并且 Impala 可以采用在每个节点之间拆分大的连接表而不是把整个表都传输到每个节点的连接策略。

哪些是内存密集型操作？

假如查询失败，错误信息是 "memory limit exceeded"，你可能怀疑有内存泄露(memory leak)。其实问题可能是因为查询构造的方式导致 Impala 分配超出你预期的内存，从而在某些节点上超出 Impala 分配的内存限制(The problem could actually be a query that is structured in a way that causes Impala to allocate more memory than you expect, exceeded the memory allocated for Impala on a particular node)。一些特别内存密集型的查询和表结构如下：

使用动态分区的 INSERT 语句，插入到包含许多分区的表中(特别是使用 Parquet 格式的表，这些表中每一个分区的数据都保存到内存中，直到它达到 1 GB 并被写入到硬盘里)。考虑把这样的操作分散成几个不同的 INSERT 语句，例如一次只加载一年的数据而不是一次加载所有年份的数据
在唯一或高基数(high-cardinality)列上的 GROUP BY 操作。Impala 为 GROUP BY 查询中每一个不同的值分配一些处理结构(handler structures)。成千上万不同的 GROUP BY 值可能超出内存限制
查询涉及到非常宽、包含上千个列的表，特别是包含许多 STRING 列的表。因为 Impala 允许 STRING 值最大不超过 32 KB，这些查询的中间结果集可能需要大量的内存分配

何时 Impala 分配(hold on to)或释放(return)内存？

Impala 使用 tcmalloc 分配内存，一款专为高并发优化的内存分频器。一当 Impala 分配了内存，它保留这些内存用于将来的查询。因此，空闲时显示 Impala 有很高的内存使用是很正常的。假如 Impala 检测到它将超过内存限制(通过 -mem_limit 启动选项或 MEM_LIMIT 查询选项定义)，它将释放当前查询不需要的所有内存。

当通过 JDBC 或 ODBC 接口执行查询，请确保在之后调用对应的关闭方法。否则，查询关联的一些内存不会释放。

SQL

是否支持 UPDATE 语句？

Impala 目前不支持 UPDATE 语句，它通常用于修改单行数据、一小组数据、或特定的列。通常 Impala 查询使用的基于 HDFS 的文件针对一次超过许多M的批量操作(bulk operations)进行了优化，这使得传统的 UPDATE 操作低效或不切实际。

你可以使用下面的技术来达到与熟悉的 UPDATE 语句相同的目标，并为之后的查询保持高效的文件布局：

使用你已经更新后并存放在其他位置的数据替换掉表或分区的全部内容，或者使用 INSERT OVERWRITE, LOAD DATA, 或者使用手工 HDFS 文件操作之后对这个表执行 REFRESH 语句。可选的，你可以在 INSERT 语句中使用内置函数和表达式来转换复制的数据，就像你通常在 UPDATE 语句中所做的那样，例如转换一个混合大小写的字符串为全部大写或全部小写
为了更新单行数据，请使用 HBase 表，并使用与原来行相同的 key 执行 INSERT ... VALUES 语句。因为 HBase 通过只返回特定键值的最新的行来处理重复的键，新插入的行有效的隐藏了之前的

Impala 可以执行用户定义函数(UDFs)吗？

Impala 1.2 及以上版本支持 UDFs 和 UDAs。你可以使用 C++ 编写本地 Impala UDFs 和 UDAs，或者重用之前用 Java 编写的 Hive 中的 UDFs (但不支持 UDAs) 。参见 User-Defined Functions 了解详细信息。

为什么我必须使用 REFRESH 和 INVALIDATE METADATA，它们做了什么？

在 Impala 1.2 或更高版本中，大大减少了使用 REFRESH 和 INVALIDATE METADATA 语句的情况：

新的 impala 目录服务，即 catalogd 守护进程，向所有 Impala 节点广播 Impala DDL 语句的结果。因此，假如你在一个 Impala 节点执行了 CREATE TABLE 语句，再通过其他节点执行查询时，不再需要执行 INVALIDATE METADATA
目录服务只识别到通过 Impala 导致的变更，因此如果你通过 Hive，或者通过在 HDFS 中操作文件加载数据，仍然必须使用 REFRESH 语句，并且如果你在 Hive 中创建、修改表、添加或删除分区、或执行其他 DDL 操作后，必须执行 INVALIDATE METADATA 语句
因为目录服务向所有节点广播 REFRESH 和 INVALIDATE METADATA 语句的结果，当你仍然需要执行这些语句的时候，你可以只在其中一个节点上运行，而不是在所有节点上运行，并且这些变化会被整个集群自动识别。这使得可以通过任意 Impala 节点执行查询而不是总使用同一个协调器节点，更方便负载均衡

为什么执行 DROP TABLE 之后空间不释放？

当你对内部表而不是外部表执行 DROP TABLE 后，Impala 删除对应的数据文件。默认的，CREATE TABLE 语句创建内部表，文件被 Impala 管理。外部表通过 CREATE EXTERNAL TABLE 语句创建，文件位置在 Impala 控制范围之外。请执行 DESCRIBE FORMATTED 语句检查表是内部表还是外部表。关键字 MANAGED_TABLE 表示是内部表，Impala 可以删除这些数据文件。关键字 EXTERNAL_TABLE 表示这是外部表，当你删除表时，Impala 将保持这些数据文件不变。

即使当你删除一个内部表并且文件已经从原来的位置移除，你可能也不会立刻得到空闲的硬盘空间。默认的，HDFS 中删除的文件放到特定的回收站(trashcan)目录，在那里过一段时间(默认是 6 小时)后被清除。关于回收站机制的背景知识，请参见 http://archive.cloudera.com/cdh4/cdh/4/hadoop/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html。更多关于在回收站清除文件的信息，参见 http://archive.cloudera.com/cdh4/cdh/4/hadoop/hadoop-project-dist/hadoop-common/FileSystemShell.html。

当 Impala 删除文件，并且那些文件被移动到 HDFS 回收站，他们存放在属于 impala 用户的 HDFS 目录中。假如 impala 用户没有 HDFS home 目录，在这里回收站会被创建，基于安全的考虑，这些文件不会被删除和移动。假如你执行了 DROP TABLE 语句，然后发现表的数据文件仍然在原来的位置，请先创建 HDFS 目录 /user/impala，属于 impala 用户，并可写。例如，你可能发现 /user/impala 属于 hdfs 用户，这时你需要切换成 hdfs 用户并执行类似的命令：

hdfs dfs -chown -R impala /user/impala

Partitioned Tables

我怎么把一个大的 CSV 文件加载到分区表里?

为了向分区表里加载数据文件，当数据文件包含类似 year,month, 等等对应着分区键的列时，使用两步处理。首先，使用 LOAD DATA 或 CREATE EXTERNAL TABLE 语句加载数据到未分区的表里。然后使用 INSERT ... SELECT 语句从未分区的表向分区表复制数据。在 INSERT 语句中包含 PARTITION 子句指定分区键列。对每一个分区，这一 INSERT 操作把数据拆分成单独的数据文件。例如，参见 Partitioning 中的例子。关于如何把数据加载到分区 Parquet 表(大批量数据的热门选择)的详细信息，参见 Loading Data into Parquet Tables。

我可以执行 INSERT ... SELECT *加载数据到分区表吗？

当你使用 INSERT ... SELECT * 语法复制数据到分区表时，对应分区键的列必须出现在 SELECT * 所返回列的最后。你可以把分区键定义放在最后来创建表。或者，你可以使用 CREATE VIEW 语句创建一个记录这些列：把分区键列放在最后，然后使用 INSERT ... SELECT * from the view。

你可能感兴趣的:(Cloudera Impala 常见问题（翻译）)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
简介Shell、zsh、bash zhaosuningsn Shell zsh bash shell linux bash
Shell是Linux和Unix的外壳，类似衣服，负责外界与Linux和Unix内核的交互联系。例如接收终端用户及各种应用程序的命令，把接收的命令翻译成内核能理解的语言，传递给内核，并把内核处理接收的命令的结果返回给外界，即Shell是外界和内核沟通的桥梁或大门。Linux和Unix提供了多种Shell，其中有种bash，当然还有其他好多种。Mac电脑中不但有bash，还有一个zsh，预装的，据说
Shell、Bash、Zsh这都是啥啊小白码上飞 bash linux 开发语言
Zsh和Bash都是我们常用的Shell，那先搞明白啥是shell吧。Shell作为一个单词，他是“壳”的意思，蛋壳坚果壳。之所以叫壳，是为了和计算机的“核”来区分，用它表示“为使用者提供的操作界面”。所以这个命名其实很形象，翻译成中文，直译过来叫“壳层”。个人认为这个叫法很奇怪，意译貌似也没有什么好的词汇来匹配。就还是叫shell吧。维基百科给的定义是：Incomputing,ashellisa
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
可以赚钱的app，你们都在用哪些？配音新手圈
1.七猫免费小说2.有柿3.番茄小说兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。4.速读免费小说5.得间免费小说6.快手7.快手极速8.抖音火山版（可提0.2，可能我懒赚的慢，但真不推荐）9.拼多多10.淘宝11.点淘12.美
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
简单说说关于shell中zsh和bash的选择秋刀prince MacOS 小猿们的开发日常 bash
希望文章能给到你启发和灵感～如果觉得文章对你有帮助的话，点赞+关注+收藏支持一下博主吧～阅读指南开篇说明一、基础环境说明1.1硬件环境1.2软件环境二、什么是shell、bash、zsh?2.1bash2.2zsh三、选择Bash还是Zsh？四、一些常见问题开篇说明本篇主要简单说明一下，shell中bash和zsh的区别和选择；我们经常会把这两个搞混，不知道什么时候用哪一个，以及怎么使用；一、基础
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
python老是报参数未定义_Python函数默认参数常见问题及解决方案 weixin_39935571 python老是报参数未定义
一、默认参数python为了简化函数的调用，提供了默认参数机制：这样在调用pow函数时，就可以省略最后一个参数不写：在定义有默认参数的函数时，需要注意以下：必选参数必须在前面，默认参数在后；设置何种参数为默认参数？一般来说，将参数值变化小的设置为默认参数。python标准库实践python内建函数：函数签名可以看出，使用print('hellopython')这样的简单调用的打印语句，实际上传入了
浅评《记忆像铁轨一样长》中的修辞手法后会定无期
《记忆像铁轨一样长》是已逝世的余光中先生在一九八四年创作的一篇散文，后成为其代表作之一。余光中先生作为著名的作家、诗人和翻译家，素有文坛“璀璨五彩笔”、“诗文双绝”和“诗坛最后的守夜人”等美誉。《记忆像铁轨一样长》这篇散文也继承了作者一贯的风格，全文语言优美隽永，结构清晰紧凑，节奏张弛有度，想象天马行空，感情细腻真挚。其中运用了大量的修辞手法，或新颖巧妙，或生动有趣，用词准确灵活，给读者留下了深刻
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
上班族怎么赚钱搞副业，每月让你多挣几千元的方法配音就业圈
适合上班族的副业有哪些?1、投稿赚在线贡献，节省邮费，但也很快，一篇手稿也可以投资于许多手稿。文章不会写，找别人的改变，拼凑在一起，非常简单方便。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。如果你不能写软文章，请去软文章网络学
后端开发刷题 | 把数字翻译成字符串（动态规划） jingling555 笔试题目动态规划 java 算法数据结构后端
描述有一种将字母编码成数字的方式：'a'->1,'b->2',...,'z->26'。现在给一串数字，返回有多少种可能的译码结果数据范围：字符串长度满足0=10&&num<=26){if(i==1){dp[i]+=1;}else{dp[i]+=dp[i-2];}}}returndp[nums.length()-1];}}
基于STM32的简易RTOS分析-预备知识騏威嵌入式
写下这篇文章的主要目的是对自己学习RTOS的历程做一个记录和总结，方便以后回忆翻看。以下内容主要来自宋岩先生翻译的《Cortex-M3权威指南》。目录一、Cortex-M3寄存器简介二、堆栈操作简介三、汇编指令简介LDR和STR指令STMDB和LDMIA指令B、BX、BL、BLX指令MRS和MSR指令四、中断简介中断响应过程简介SVC和PensSV中断简介软件中断五、汇编基础一、Cortex-M3
女孩子下班后可以做的兼职是什么，女生下班后可以做的事情有哪些配音就业圈
一、女孩子下班后的兼职推荐女孩子下班后可以考虑一些灵活的兼职方式来增加收入。一种推荐的兼职是线上销售，兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。可以通过社交媒体或电商平台开店，销售自己喜欢的产品。另外，可以考虑做代理，代理一
【仿RabbitMQ消息队列项目day2】使用muduo库中基于protobuf的应用层协议进行通信月夜星辉雪 rabbitmq 网络分布式 c++后端服务器 linux
一.什么是muduo?muduo库是⼀个基于非阻塞IO和事件驱动的C++高并发TCP网络编程库。简单来理解，它就是对原生的TCP套接字的封装，是一个比socket编程接口更好用的编程库。二.使用muduo库完成一个英译汉翻译服务TranslateServer.hpp:#pragmaonce#include#include#include#include#include"muduo/net/TcpC
【日本鲫鱼钓】浮游矶钓不同目标鱼不同钓法，日本专业矶钓书籍夏说钓鱼
夏说钓鱼，聊海外钓鱼，助钓友钓技！浮游矶钓不同目标鱼不同钓法，翻译来自《日本図解釣り入門基礎から始める海のウキ釣り入門》说到浮钓，由于它的目标鱼类多种多样，因此针对不同类型的目标也会有不同的浮钓方式。下面介绍一下同种类的浮钓方法和目标鱼类。【伸缩竿的小型钓法】用4.5～5.3米的伸缩竿的钓鱼方法。与矶钓竿相比，这种钓鱼竿更加轻便，连儿童也可以使用。目标鱼类有鲰虎鱼、海鲫、沙氏下鱲、竹荚鱼、鲪鱼、小
抖音开始怎么吸粉（可以试试这几种办法）配音新手圈
如何在抖音短视频平台上快速积累人气和粉丝，抖音短视频平台已成为“我们媒体”和全媒体矩阵，是客户获取、推广和收入的重要平台之一。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。但对于初学者来说，如何在抖音上建立自己的品牌，积累粉丝，
骑文探古访百村（5）：里水镇孔西村钮海津
祝孔后再辉煌口钮海津2012年12月21的报网消息云，“广东省民间遗产抢救工程这股暖风昨天吹到了孔西村，让这个历史悠久、民风淳朴的村落洋溢着冬日的暖意”。孔西村古建筑群，听说过，在佛山市南海区里水镇。找个时间去看看。看看还有没有这句“子曰”：君子谋道不谋食。耕也，馁在其中矣；学也，禄在其中矣。君子忧道不忧贫。翻译过来就是，老孔对地位高的人说：君子用心谋求大道而不费心思去谋求衣食。即使你亲自去耕田种
解决：java.lang.IllegalStateException: Invalid host: lb://xxx_xxx_xxx 方九九 java 开发语言
在项目了配置了服务名gateway网关也配置了完全没有问题同时nacos这边也能发现服务但就是访问的时候状态码500报错java.lang.IllegalStateException:Invalidhost:lb://…翻译的一下大概是无效的主机解决办法：看自己的服务名是不是xxx_xxx(这种下滑线格式的)，是的话去掉下划线或改成”-“就可以了。
陕西省家庭教育指导师，家庭教育指导师的薪资待遇配音新手圈
一、陕西省家庭教育指导师的薪资待遇陕西省家庭教育指导师的薪资待遇多种多样，主要取决于个人经验、技能、知识背景及所在机构的规模和地理位置。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。一般来说，初级家庭教育指导师的月薪在2000-
Spring Cloud: Hystrix请求队列线程不足 MeazZa
在SpringCloud中，Feign可以实现本地化的微服务API调用，Hystrix可以实现调用失败时的fallback处理。问题描述：在实际生产环境中使用时，我们遇到了这样一个错误："...,stacktrace:[com.netflix.hystrix.exception.HystrixRuntimeException:QueryNodeImpalaBdService#getQueryRes
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
小红书怎么直播（小红书直播条件）配音新手圈
小红书直播开通条件：1)身份证实名认证;2)年满18周岁;兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。3)绑定手机号;4)完成创作者认证(需满足实名认证、粉丝数不少于5千、近半年自然阅读量2千以上的原创合规笔记数不小于10篇)
麦克白读后感学号叁拾
最光明的天使也会堕落，可是天使总是光明的；虽然小人全都貌似忠良，可是忠良的一定仍然不失他的本色。倏落秋零之际，黄叶正自凋残。看了辜正坤翻译的麦克白，全文采用了诗歌的形式，文字优美，语句漂亮，只是脑海中一边想着舞台剧一边读这种词总感觉别扭。麦克白作为苏格兰的骁勇大将，在战争大获全胜之后偶遇了三个女巫，女巫预言他会成为韦尔多王爵，又会成为国王。麦克白应该是很开心的吧，在封爵成功之后就告诉了自己的夫人这
前端使用react-intl-universal进行国际化 Stephy_Yy #调研 reactjs javascript css
一、国际化/i18n目前国际化，就是开发者写对象，一个key关联若干语种的翻译。相比于浏览器自带的翻译功能，语义更加准确。“国际化”的简称：i18n（其来源是英文单词internationalization的首末字符i和n，18为中间的字符数）二、react项目国际化react-intl是业界最受欢迎的软件包之一：React-intl是雅虎的语言国际化开源项目FormatJS的一部分，通过其提供的
golang-101-hacks(3)——包 _羊羽_
注：本文是对golang-101-hacks中文翻译,原文地址在“Go”中，包分为两种类型:(1)main包:用于生成可执行的二进制文件，main函数是程序的入口点。下面以helllo.go为例:packagemainimport"greet"funcmain(){greet.Greet()}(2)其他类型的包也可以在细分成两类:库文件包:用来生成可以被其他人重用的目标文件。如greet.go这个
学期复盘高wen鑫
1我的大学生活之大学英语学习1）在这个学期的大学英语学习中，我的GPS[Gains]在这个学期的英语学习中我的听力能力提高了；多于长句的理解翻译能力也增加了；对于英语的文化背景的了解也增加了[Problems]听力能力提升空间还很大；对于语法还有很多不懂；词汇量也比较少[Suggestions]多背单词；多联系听力并适应英英互译2）在这个学期的复盘日志中，我的收获是：对于短语、句式的积累变多；英语
戏感大爆发台词，配音温柔的文案长文声优配音圈
一、戏感大爆发台词戏剧作品中，戏感大爆发的台词常常令人深受震撼。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。那些犀利而有力的台词，能够通过真实的表达，将人物内心的情感和冲突完美呈现。这些台词在剧情高潮的时刻，将观众带入紧张激动
【OCPP】ocpp1.6协议第5.17 TriggerMessage章节的介绍及翻译 "啦啦啦" ocpp1.6协议开源协议学习
目录5.17TriggerMessage-概述主要内容1.概要2.操作流程3.参数说明4.示例4.1.TriggerMessage请求示例4.2.TriggerMessage响应示例5.应用场景实际应用结论5.17TriggerMessage-原文译文5.17TriggerMessage-概述在OCPP1.6协议中，第5.17章节描述了TriggerMessage操作。这个操作允许中央系统（Cen
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {