weixin_34159110

如何将日志文件和二进制文件快速导入HDFS？

日志数据在应用程序中一直很常见，Hadoop能够处理生产系统生成的大量日志数据，比如网络设备、操作系统、Web服务器和应用程序的日志数据。这些日志文件提供了对系统和应用程序运行以及使用的见解，统一日志文件的原因是它们往往采用文本形式和面向行的方式，因此易于处理。

在《Hadoop从入门到精通》大型专题的上一章节中，我们介绍了可用于将数据复制到Hadoop的低级方法。本节不使用这些方法构建数据移动工具，而是介绍一些更高级别的工具，简化将日志和二进制数据移动到Hadoop的过程。类似Flume，Sqoop和Oozie这样的工具提供了定期(或连续)将数据从各种数据源(如文件，关系数据库和消息传递系统)移动到Hadoop的机制，并逐渐解决了整个过程中的诸多难题，让我们看看Flume如何将日志文件移入HDFS。

（注：本文为《Hadoop从入门到精通》大型专题的第五章内容，其他文章见文末链接，专题的上半部也将于不久之后与大家见面，请持续关注本专题！）

首选数据移动方法

如果在旧版Hadoop环境中运行，我们可能需要一些工具来移动数据，这些工具都会在本章介绍。如果使用Kafka作为数据传输机制，则允许将生产者与消费者分离，同时使多个消费者能够以不同的方式对数据进行操作。在这种情况下，我们可以使用Kafka在Hadoop上存储数据，并为实时数据流系统(如Storm或Spark Streaming)提供数据，然后使用它执行近实时计算。比如，Lambda架构允许以小增量实时计算聚合数据，并使用批处理层执行纠错和添加新数据点等，从而发挥实时和批处理系统的优势。

实践：使用Flume将系统日志消息推送到HDFS

面对跨多个服务器的多个应用程序和系统生成的一堆日志文件，我们可能手忙脚乱。毫无疑问，从这些日志中可以挖掘出有价值的信息，但第一大挑战是将这些日志移动到Hadoop集群以便可以执行某些分析。

版本注意事项

此处的Flume使用版本1.4。与所有软件一样，不保证此处介绍的技术，代码和配置可以使用不同版本的Flume开箱即用。此外，Flume 1.4需要一些更新才能使其与Hadoop 2一起使用。

问题

希望将所有生产服务器的系统日志文件推送到HDFS。

解决方案

使用Flume(一种数据收集系统)将Linux日志文件推送到HDFS。

讨论

Flume的核心是日志文件收集和分发，收集系统日志并传输到HDFS。此技术的第一步涉及捕获附加到/var/log/messages的所有数据并将其传输到HDFS。我们将运行一个Flume agent(稍后详细介绍)，这将完成所有工作。

Flume agent需要配置文件指明该做什么，以下代码为用例定义了一个：

要让示例起作用，需要确保正在使用可以访问Hadoop集群的主机，以及 HADOOP_HOME配置正确，还需要下载并安装Flume并将FLUME_HOME设置为指向安装目录。

使用文件名tail-hdfspart1.conf将前面的文件复制到Flume conf目录中。完成后，就可以启动Flume agent实例了：

这应该会产生很多输出，但最终应该看到类似于以下的输出，表明一切都好了：

此时，应该看到HDFS中出现的一些数据：

.tmp后缀表示Flume打开文件并继续写入。一旦完成，这将重命名文件并删除后缀：

可以捕获此文件以检查其内容，内容应与tail/var/log/messages对齐。

到目前为止，我们已经用Flume完成了第一次数据移动!

解析Flume agent

让我们回过头来检查一下做了什么。主要有两个部分：定义Flume配置文件，以及运行Flume agent。Flume配置文件包含有关源，通道和接收器的详细信息，这些都是影响Flume数据流不同部分的概念。图5.4显示了Flume agent中的这些概念。

让我们逐步介绍这些概念，包括用途以及工作原理。

Sources

Flume sources负责从外部客户端或其他Flume接收器读取数据。Flume中的数据单元被定义为一个事件，本质上是一个有效载荷和可选元数据集。Flume源将这些事件发送到一个或多个Flume通道，这些通道处理存储和缓冲。

图5.4 agent上下文中的Flume组件说明

Flume有一组广泛的内置源，包括HTTP，JMS和RPC。让我们来看看你设置的特定于源的配置属性：

exec source允许执行Unix命令，标准输出中发出的每一行都被捕获为事件(默认情况下会忽略常见错误)。在前面的示例中，tail -F命令用于在生成系统消息时捕获它们。如果可以更好地控制文件(例如，如果可以在完成所有写入后将它们移动到目录中)，考虑使用Flume的假脱机目录源(称为spooldir)，因为它提供了exec source无法获得的可靠性语义。

仅使用tail进行测试

不鼓励使用tail进行测试以外的任何操作。

此配置中突出显示的另一个功能是拦截器，它允许向事件添加元数据。回想一下，HDFS中的数据是根据时间戳组织的：第一部分是日期，第二部分是时间：

之所以能这样做，是因为使用时间戳拦截器修改了每个事件，时间戳拦截器将源处理事件的时间(以毫秒为单位)插入到事件头。然后，Flume HDFS接收器使用此时间戳来确定事件写入位置。

为了总结Flume sources，让我们介绍一下其提供的功能：

事务语义，允许以至少一次语义可靠地移动数据，并非所有数据源都支持此功能。
拦截器，提供修改或删除事件的功能。对于使用主机，时间和唯一标识符来注释事件非常有用，这对于重复数据删除非常有用。
选择器，允许以各种方式扇出或多路复用事件，可以通过将事件复制到多个通道来扇出事件，也可以根据事件头将事件路由到不同通道。

通道

Flume通道在agent内部提供数据存储设施。源将事件添加到通道，并从通道中删除事件。Flume内部的通道提供高可用性，可以根据应用所需的容量和吞吐量选择。

Flume捆绑了三个通道：

内存通道将事件存储在内存队列中。这对于高吞吐数据流非常有用，但其没有持久性保证，这意味着如果agent发生故障，用户将丢失数据。
文件通道将事件持久保存到磁盘。该实现使用高效的日志并具有强大的持久性。
JDBC通道将事件存储在数据库中。这提供了最强的可用性和可恢复性，但是以性能为代价。

在前面的示例中，我们使用了内存通道，并将其存储事件数限制为100,000。一旦内存通道达到最大事件数，将开始拒绝来自源的其他请求以添加更多事件。根据源的类型，这意味着源将重试或删除事件(exec源将丢弃事件)：

Sinks

Flume接收器从一个或多个Flume通道中接收事件，并将这些事件转发到另一个Flume源(在多hop流程中)，或以特定于接收器的方式处理事件。Flume内置了许多接收器，包括HDFS，HBase，Solr和Elasticsearch。

在前面的示例中，我们将流配置为使用HDFS接收器：

我们将接收器配置为根据时间戳写入文件(请注意%y和其他时间戳别名)。我们可以这样做，因为使用exec源中的时间戳拦截器标记事件。实际上，可以使用任何header值来确定事件输出位置(例如，可以添加主机拦截器，然后根据生成事件的主机来写入文件)。

可以通过各种方式配置HDFS接收器，以确定文件的滚动方式。当接收器读取第一个事件时，它将打开一个新文件(如果尚未打开)并写入该文件。默认情况下，接收器将继续保持文件打开并将事件写入其中，大约需要30秒，之后文件将被关闭，可以使用表5.5中的属性更改滚动行为。

表5.5 Flume HDFS接收器的rollover属性

默认HDFS接收器设置不应在生产中使用，因为它们会导致大量可能很小的文件。建议升级value或使用下游压缩作业来合并这些小文件。

HDFS接收器允许指定在写入文件时如何序列化事件。默认情况下，它们以文本格式序列化，没有拦截器添加任何header。例如，如果要在Avro中写入数据(也包括事件头)，则可以使用序列化程序配置来执行此操作。这样做时，还可以指定Avro内部用于压缩数据的Hadoop压缩编解码器：

总结

Flume中的可靠性取决于使用的通道类型，数据源是否具有重新传输事件的能力，以及是否将事件多路复用到多个源以减轻不可恢复的节点故障。在该技术中，使用了存储器通道和执行器源，但是在面对故障时都不提供可靠性。添加可靠性的一种方法是用假脱机目录源替换exec源，并用磁盘通道替换内存通道。

我们可以使用单个源，通道和接收器运行单个agent的单台计算机上使用Flume，但Flume可以支持完全分布式设置，可以在多个主机上运行agent，在源和最终目标之间有多个agent hop。图5.5显示了Flume如何在分布式环境中运行。

此技术的目标是将数据移动到HDFS中。但是，Flume可以支持各种数据接收器，包括HBase，文件roll，Elasticsearch和Solr。使用Flume写入Elasticsearch或Solr可实现强大的近实时索引。

因此，Flume是一个非常强大的数据移动工具，可以轻松支持将数据移动到HDFS以及许多其他位置。它可以持续移动数据并支持各种级别的弹性，以解决系统故障，这是一个只需简单配置就可运行的系统。

图5.5 使用负载平衡和 fan-in将log4j日志移动到HDFS的Flume设置

Flume没有真正优化的是使用二进制数据。它可以支持移动二进制数据，但会将整个二进制事件加载到内存中，因此移动大小为GB或更大的文件将无法正常工作。

实践：一种将文件复制到HDFS的自动机制

你可能已经学会了如何使用像Flume这样的日志收集工具自动将数据移动到HDFS中。但是，这些工具不支持使用半结构化或二进制数据输出。在该实践中，我们将了解如何自动将这些文件移动到HDFS中。

企业实际生产环境通常具有网络孤岛，Hadoop集群可以远离其他生产应用程序进行细分。在这种情况下，Hadoop集群可能无法从其他数据源提取数据，因此无需将数据推送到Hadoop。

需要一种机制来自动化将任何格式的文件复制到HDFS的过程，类似于Linux工具rsync。该机制应该能够压缩用HDFS编写的文件，并提供一种动态确定HDFS目的地的方法以进行数据分区。

现有的文件传输机制，如Flume，Scribe和Chukwa，都是为了支持日志文件。如果文件格式不同，例如semistructured或binary，该怎么办?如果文件以Hadoop从属节点无法直接访问的方式被孤立，那么也无法使用Oozie来帮助进行文件输入。

问题

需要自动执行将远程服务器上的文件复制到HDFS的过程。

解决方案

开源HDFS File Slurper项目可以将任何格式的文件复制到HDFS或从中复制出来。该技术涵盖了如何配置和使用它来将数据复制到HDFS中。

讨论

可以使用HDFS File Slurper来帮助实现自动化(https://github.com/alexholmes/hdfs-file-slurper)。HDFS File Slurper是一个简单的实用程序，支持将文件从本地目录复制到HDFS，反之亦然。

图5.6提供了Slurper的高级概述，以及如何使用它来复制文件的示例。Slurper读取源目录中存在的所有文件，并可选择查询脚本以确定目标目录中的文件位置。然后，它将文件写入目标，之后有一个可选的验证步骤。在成功完成所有步骤后，Slurper将源文件移动到对应文件夹。

图5.6 用于复制文件的HDFS File Slurper数据流

使用这种技术，需要确保解决以下几个挑战：

如何有效地将写入分区到HDFS，以便不将所有内容整合到一个目录?
如何确定HDFS中的数据是否已准备好进行处理(以避免读取中间复制的文件)?
如何自动定期执行实用程序?

第一步是从https://github.com/alexholmes/hdfs-file-slurper/releases下载最新的HDFS File Slurper tarball，并将其安装在可以访问Hadoop集群和本地Hadoop安装的主机上：

组件

在运行代码之前，需要编辑/usr/local/hdfs-slurper/conf/slurper-env.sh并设置hadoop脚本的位置。以下代码是slurper-eng.sh文件的示例，如果遵循Hadoop安装说明：

Slurper捆绑了/usr/local/hdfs-slurper/conf/slurper.conf文件，其中包含源和目标目录的详细信息以及其他选项。该文件包含以下默认设置，你可以更改：

让我们仔细看看这些设置：

DATASOURCE_NAME—指定要传输的数据名称。当通过Linux init守护程序管理系统启动时，该名称用于日志文件名。
SRC_DIR—指定源目录。移动到此处的任何文件都会自动复制到目标目录(使用中间hop到目标目录)。
WORK_DIR—这是工作目录。在复制到目标之前，源目录中的文件将移动到此处。
COMPLETE_DIR—指定完整目录。复制完成后，文件将从工作目录移动到此目录中。或者，可以使用--remove-after-copy选项删除源文件，在这种情况下，不应提供--complete-dir选项。
ERROR_DIR—这是错误目录。复制期间遇到的任何错误都会导致源文件移动到此目录中。
DEST_DIR—设置源文件的最终目标目录。
DEST_STAGING_DIR—指定目标目录。首先将文件复制到此目录中，一旦复制成功，Slurper就会将副本移动到目标位置，以避免目标目录包含部分写入文件(如果发生故障)。

你会注意到所有目录名称都是HDFS URI。HDFS以这种方式区分不同的文件系统。file:/URI本地文件系统上的路径，hdfs:/URI表示HDFS中的路径。事实上，只要正确配置Hadoop，Slurper就支持任何Hadoop文件系统。

运行

创建一个名为/tmp/slurper/in的本地目录，在其中写入一个空文件，然后运行Slurper：

Slurper设计的一个关键特性是不能与部分写入文件一起使用。文件必须以原子方式移动到源目录中(Linux和HDFS文件系统中的文件移动都是原子的)。或者，可以写入以句点(.)开头的文件名，Slurper会忽略该文件名，文件写入完成后，可以将文件重命名为不带句点前缀的名称。

请注意，复制具有相同文件名的多个文件将导致目标被覆盖，用户有责任确保文件是唯一的，以防止这种情况发生。

动态目标路由

如果每天将少量文件移动到HDFS中，则上一种方法很有效。但是，如果正在处理大量文件，你会想到将它们分成不同的目录。这样做的好处是可以对MapReduce作业的输入数据进行更细粒度的控制，并有助于在文件系统中整体组织数据(如果不希望计算机上的所有文件都在单个目录)。

如何对目标目录和Slurper使用的文件名进行更多动态控制?Slurper配置文件具有SCRIPT选项(与DEST_DIR选项互斥)，可以在其中指定一个脚本，该脚本提供源文件到目标文件的动态映射。

假设正在使用的文件包含文件名中的日期，并且已决定要按日期在HDFS中组织数据。那么，可以编写脚本来执行此映射活动。以下示例是执行此操作的Python脚本：

现在可以更新/usr/local/hdfs-slurper/conf/slurper.conf，设置SCRIPT，并注释掉DEST_DIR，这会在文件中生成以下条目：

如果再次运行Slurper，会注意到目标路径现在由Python脚本按日期分区：

数据压缩和验证

如果要在HDFS中压缩输出文件并验证副本是否正确，该怎么办?需要使用COMPRESSION_CODEC选项，其值是实现CompressionCodec接口的类。如果压缩编解码器是LZO或LZOP，还可以添加CREATE_LZO_INDEX选项，以便创建LZOP索引。 (具体内容请阅读第四章，链接见文末)

验证功能会在复制完成后重新读取目标文件，并确保目标文件的校验和与源文件匹配。这导致处理时间更长，但增加了复制成功的额外保证。

以下配置片段显示了LZOP编解码器，LZO索引和启用的文件验证：

让我们再次运行Slurper：

连续运转

现在，你已经掌握了基本机制，最后一步是将该工具作为守护程序运行，以便不断查找要传输的文件。为此，可以使用名为bin/slurper-inittab.sh的脚本，该脚本旨在与inittab respawn一起使用。

此脚本不会创建PID文件或执行nohup-在respawn的上下文中都没有意义，因为inittab正在管理进程。使用DATASOURCE_NAME配置值来创建日志文件名，这意味着可以使用记录到不同日志文件的不同配置文件来启动多个Slurper实例。

总结

Slurper是一个很方便的工具，用于从本地文件系统到HDFS的数据输入，还通过从HDFS复制到本地文件系统来支持数据输出。在MapReduce无法访问文件系统并且正在传输的文件形式不适用于Flume等工具的情况下，它非常有用。

实践：使用Oozie安排定期数据提取

如果数据位于文件系统、Web服务器或可从Hadoop集群访问的任何其他系统上，我们将需要一种定期将该数据提取到Hadoop的方法。目前，有一些推送日志文件和从数据库中提取的工具可供选择，但如果需要与其他系统进行交互，则可能需要自己处理数据输入过程。

此技术使用Oozie 4.0.0版。

此数据入口分为两部分：将数据从另一系统导入Hadoop以及定期进行数据传输。

问题

自动执行每日任务，以将内容从HTTP服务器下载到HDFS。

解决方案

Oozie可用于将数据移动到HDFS，还可用于执行发布，例如启动MapReduce作业以处理获取的数据。Oozie现在是Apache项目，管理数据处理活动的Hadoop工作流引擎。Oozie还有一个协调器引擎，可以根据数据和时间触发器启动工作流程。

讨论

在此实践中，我们将每24小时从多个URL执行下载，使用Oozie管理工作流程和日程安排。该技术的流程如图5.7所示，我们将使用Oozie触发功能每24小时启动一次MapReduce作业。

图5.7 Oozie技术的数据流

第一步是查看协调器XML配置文件。Oozie的协调引擎使用此文件来确定何时应启动工作流程。Oozie使用模板引擎和表达式语言来执行参数化，如下代码所示。使用以下内容创建名为coordinator.xml的文件：

代码5.1 使用模板引擎通过Oozie执行参数化

Oozie调度可能会让人困惑的是，开始和结束时间与作业执行的实际时间无关。相反，它们指的是每个工作流程执行创建的日期，这在定期生成数据并且希望能够及时返回某个点并对该数据执行某些操作的情况下非常有用。在这个例子中，你希望每24小时执行一份工作。所以，你可以将开始日期设置为昨天，将结束日期设置为将来的某个日期。

接下来，我们需要定义实际工作流程，该工作流程将在每个固定时间间隔执行，并且在到达间隔时继续执行。为此，创建一个名为workflow.xml的文件，其中包含下一个代码中显示的内容。

代码5.2 使用Oozie协调器定义工作流程

Oozie希望map和reduce类使用“旧的”MapReduce API。如果要使用“新”API，则需要指定其他属性：

最后一步是定义属性文件，该文件指定如何获取HDFS，MapReduce以及之前在HDFS中标识的两个XML文件的位置。创建一个名为job.properties的文件，如以下代码所示：

不同Hadoop版本的JobTracker属性

如果使用Hadoop 1.X版本，则应使用jobTracker属性中的JobTracker RPC端口(默认值为8021)。否则使用YARN ResourceManager RPC端口(默认为8032)。

在上一个代码段中，HDFS中的位置指示本章前面编写的coordinator.xml和workflow.xml文件的位置。现在，需要将XML文件，输入文件和包含MapReduce代码的JAR文件复制到HDFS中：

最后，在Oozie中运行作业：

可以使用作业ID获取有关作业的一些信息：

此输出导致作业的一次运行，可以看到运行时间。整体状态为RUNNING，这意味着作业正在等待下一个间隔发生。当整个作业完成时(到结束日期之后)，状态将转换为SUCCEEDED。

可以确认HDFS中的输出目录对应于具体日期：

只要作业正在运行，它将继续执行直到日期结束，在此示例中已将其设置为2026年。如果要停止作业，请使用-suspend选项：

Oozie还可以分别使用-resume和-kill选项恢复暂停的作业以及杀死工作流程。

总结

我展示了使用Oozie协调器的一个示例，它提供了类似cron的功能来启动定期Oozie工作流程。Oozie协调器还可用于根据数据可用性触发工作流(如果没有可用数据，则不会触发工作流)。例如，如果有一个外部流程，甚至MapReduce定期生成数据，就可以使用Oozie的数据驱动协调器来触发工作流，该工作流可以聚合或处理数据。

本节，我们介绍了三种可用于数据导入的自动机制。第一种是Flume，用于将日志数据传输到Hadoop的强大工具，第二种是HDFS File Slurper，它可以自动化将数据推送到HDFS。最后研究了Oozie如何用于定期启动MapReduce作业以将数据导入HDFS或MapReduce。

在探索数据输入上，我们研究了推送日志文件，从常规文件系统推送文件以及从Web服务器中提取文件。大多数企业都会感兴趣的一大数据源是位于OLTP数据库中的关系数据。在本章接下来的几篇文章中，我将分享如何访问关系数据。

你可能感兴趣的:(大数据,数据库,python)

scanpy保存图片的常用方法汇总 Bio Coder 空间转录组 &单细胞 scanpy 保存图片汇总
在使用Scanpy（一个用于单细胞RNA测序数据分析的Python库）时，保存图片（如可视化结果）是常见的操作。Scanpy的绘图功能主要基于Matplotlib和Seaborn，保存图片的方法也与这些库的保存机制一致。以下是Scanpy保存图片的详细方法及注意事项：1.基本保存图片的方法Scanpy的绘图函数（如sc.pl.umap、sc.pl.tsne、sc.pl.pca等）通常会返回Matp
spring-data-jpa+spring+hibernate+druid配置
参考链接：http://doc.okbase.net/liuyitian/archive/109276.htmlhttp://my.oschina.net/u/1859292/blog/312188最新公司的web项目需要用到spring-data-jpa作为JPA的实现框架，同时使用阿里巴巴的开源数据库连接池druid。关于这两种框架的介绍我在这里就不多赘述。直接进入配置页面：spring的配置
MCP Streamable HTTP 样例（qbit） pythonagent
前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
掌握变量命名与Python继承机制
掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
识花APP：一键识别，开启植物探索之旅
在大自然的怀抱中，我们常常会被各种各样的花草所吸引，却不知道它们的名字和习性。识花APP正是这样一款能够帮助我们快速识别植物、了解植物知识的神奇工具。由上海原来信息科技有限公司研发的这款植物识别软件，以其强大的功能、简单的操作和丰富的植物数据库，成为了植物爱好者和自然探索者的得力助手。软件优势·拍照识花：1秒就能知道植物的名字和故事·分享美图：一键生成有诗词花语的植物美图·花语壁纸：精美壁纸天天上
python进程线程协程区别_Python：线程、进程与协程(1)——概念 weixin_39989159 python进程线程协程区别
最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
【SpringBoot】Spring Boot 高并发优化终极指南，涵盖线程模型、JVM 调优、数据库访问、缓存策略等 15+ 核心模块夜雨hiyeyu.com java spring boot jvm spring java 后端性能优化系统架构
SpringBoot高并发优化终极指南，涵盖线程模型、JVM调优、数据库访问、缓存策略等15+核心模块一、线程模型深度调优（核心瓶颈突破）1.Tomcat线程池原子级配置2.异步任务线程池隔离策略二、JVM层终极调参（G1GC深度优化）1.内存分配策略2.GC日志分析技巧三、缓存策略原子级优化1.三级缓存架构实现2.缓存穿透/雪崩防护四、数据库访问极致优化1.连接池死亡参数配置2.分页查询深度优化
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
达梦数据库linux环境实时主备搭建过程张晓杰^.^ 数据库服务器网络
一.数据准备：1.安装单机1.1创建用户和组groupadd-g12349dinstalluseradd-u12345-gdinstall-m-d/home/dmdba-s/bin/bashdmdbapasswddmdba1.2创建文件dmsoft:存放DMInstall.bin和key/home/dmdba/dmdbms：存放数据库的安装目录/data:实例目录/data/dmarch:存放归档
[达梦数据库]达梦单节点安装
1环境配置1.1查看软硬件信息查看cpu信息：[root@localhost~]#lscpu[root@localhost~]#cat/proc/cpuinfo注意：特别是国产cpu，龙芯、飞腾查看内存信息：[root@localhost~]#free-m注意：数据库内存要至少1G，linuxswap分区一般是物理内存的1.5倍查看硬盘、分区信息[root@localhost~]#fdisk-l[
Python Selenium 使用指南
Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA
麒麟V10安装部署达梦数据库（单机版）熊娜丽莎的微笑数据库运维开发 linux
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言1.单机部署过程1.1部署规划1.2数据库软件安装及环境配置1.2.1操作系统配置1.2.2数据库软件安装1.3使用dminit工具初始化实例1.4注册服务并启动实例1.5登录数据库1.6归档配置1.7定制备份策略1.8数据库参数优化1.9配置sql日志1.10迁移信息统计查询总结前言麒麟V10安装部署达梦数据库单机安装的
CentOS 7系统设置MYSQL每天定时备份 AMING20220827 MySQL mysql 数据库 centos
目录一、MySQL定时备份数据设置定时定时任务脚本如果出现问题："mysqldump:commandnotfound"备份MySQL数据库步骤二、连接MySQL一、MySQL定时备份数据设置定时定时任务脚本1.修改/etc/my.cnf文件#vim/etc/my.cnf增加本机、用户名、密码vim/etc/my.cnf[client]host=localhostuser=你的数据库用户passwo
达梦数据库（集群）使用命令行开启定时备份：除祢以外 java 数据库 servlet
声明：仅供技术参考非官方专业指导，如操作导致数据问题概不负责！！！达梦数据库（集群）使用命令行开启定时备份：登录需要自动备份的数据库进行备份任务创建（分为全量备份和增量备份）（1）定时自动全量备份初始化代理环境SP_INIT_JOB_SYS(1);每天全量备份callSP_CREATE_JOB('db_bak',1,0,'',0,0,'',0,'');callSP_JOB_CONFIG_START
【Python进阶】Python网络协议与套接字编程：构建客户端和服务器
1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处
Softhub软件下载站实战开发（四）：代码生成器设计与实现叹一曲当时只道是寻常 softHub python 低代码 mysql
文章目录Softhub软件下载站实战开发（四）：代码生成器设计与实现1.前言2.技术选型3.架构概览️3.1架构概览3.2工作流程详解4.核心功能实现⏳4.1配置管理系统4.2数据库表结构解析4.3模板渲染引擎4.4智能类型转换4.5动态文件生成4.6智能覆盖策略4.7运行5.附录ℹ️5.1生成器代码5.2后端模板5.3前端模板Softhub软件下载站实战开发（四）：代码生成器设计与实现1.前言在
Softhub软件下载站实战开发（十四）：软件收藏集设计叹一曲当时只道是寻常 softHub 前端 golang
文章目录Softhub软件下载站实战开发（十四）：软件收藏集设计引言：为什么我们需要收藏集功能？收藏集功能的核心价值1.资源整合与分类管理技术架构设计数据库设计核心接口设计后端实现详解1.收藏集服务层2.列表查询实现3.添加软件实现前端实现详解1.收藏集列表页面2.软件管理弹窗组件3.软件选择与添加逻辑Softhub软件下载站实战开发（十四）：软件收藏集设计前面几篇我们讲了软件管理相关实现，本篇我
Java程序设计（二十七）：基于SSM框架的OA办公自动化管理平台的设计与实现人工智能_SYBH 2025年java程序设计 java 数据挖掘开发语言 vue.js 后端人工智能 spring boot
1.项目概述办公自动化（OA，OfficeAutomation）管理平台是企业实现内部管理信息化的重要工具。本文提出并实现了一个基于Java的OA办公自动化管理平台。该平台基于SSM架构（Spring+SpringMVC+MyBatis），数据库采用MySQL，并通过HTML、CSS、JavaScript等技术实现用户界面。1.1平台功能简介平台提供了管理员、普通用户和部门三类角色，分别具有不同的
AI驱动的个人工作革命：基于DeepSeek构建全场景智能工作助理（含源代码+多应用场景） AI_DL_CODE DeepSeek深度应用人工智能 DeepSeek 个人智能助理 LangChain 任务自动化知识管理大模型应用
摘要：本文详细阐述基于DeepSeek大模型构建个人工作助理的完整技术方案，通过LangChain实现任务分解、知识检索与工具调用的智能协同。方案融合向量数据库、多模态交互与个性化学习算法，构建涵盖邮件处理、会议管理、文档生成等15大核心工作场景的自动化系统。文中提供可运行代码、完整部署指南及效能测试数据，实现邮件处理效率提升13倍、会议纪要生成时间缩短100%、任务安排错误率降低83%的显著优化
Python 网络爬虫的基本流程及 robots 协议详解女码农的重启 python 网络爬虫 JAVA 开发语言
数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H
python中的pydantic是什么？ John Song Python python 前端开发语言 pydantic
Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En
vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
构建安全密码存储策略：核心原则与最佳实践 weixin_47233946 信息安全安全
密码是用户身份认证的第一道防线，其存储安全性直接关系到用户隐私和企业信誉。近年来频发的数据泄露事件揭示了密码管理的关键性。本文将深入探讨从加密算法到系统性防护的完整密码存储方案，帮助开发者构建企业级安全防御体系。一、密码存储基本准则绝对禁止明文存储：即使采用数据库加密措施，直接存储用户原始密码仍存在不可逆泄露风险。运维人员权限滥用或备份文件泄露都可能成为突破口。加密≠安全：AES等对称加密存在密钥
python汇率_用Python抓取汇率
抓取的是中行的数据:网址代码#-*-coding:utf-8-*-importreimporturllib.requesturl='http://www.boc.cn/sourcedb/whpj/index.html'#网址req=urllib.request.Request(url)response=urllib.request.urlopen(req)the_page=response.rea
python抓取汇率_09 使用Python爬取中国银行网站选择汇率最坑的一天
爬取2018年8月27日~9月2日的欧元汇率。先说结论：如果是现汇卖出价，可以选择2018-08-3109:19:26，现钞卖出价805.28。我刚问了报销过的人她说任选都行，可以不是中行折算价。最近出差，学校可以以人民币的形式报销路费、住宿费，汇率，可以任选出差期间的任何一天任何时候的中国银行的汇率，中国银行网站上的汇率长这样：如果想要合理利用规则，多回一点本，不妨选择汇率最坑的一天(默默给财务
爬虫小结 Crescent_P python小项目 python 数据分析
python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l