Tybyqi

如何使用Avro文件

本文介绍了如何使用ApacheSqoop实用程序将数据从Oracle数据库传输到S3。数据将以Avro数据格式存储。

数据传输采用了以下技术：

Apache Sqoop 1.4.7
Oracle 12c
Amazon EMR 5.16.0(Hadoop发行版2.8.4)

Sqoop命令以Avro格式存储数据

ApacheSqoop1.4.7支持Avro数据文件。要以Avro格式存储数据，应将以下参数添加到Sqoop命令中：

--as-avrodatafile # imports data to Avro data files

--compression-codec snappy # use Hadoop codec (in this case - snappy)

Sqoop命令的模板如下：

sqoop import \

  --bindir ./ \

  --connect 'dbc:oracle:thin:/password@:/' \

      # 'jdbc:sqlserver://:;databasename=' \ # SQL Server 2008 and higher

      # 'jdbc:jtds:sqlserver://:/' \ - #SQL Server 2000 \

  --username  \

  --driver  # manually specify JDBC driver class to use

                          # example: --driver net.sourceforge.jtds.jdbc.Driver

  --connection-manager # Specify connection manager class to use

                       # example: --connection-manager org.apache.sqoop.manager.SQLServerManager

  --password  \

  --num-mappers  \

  --fields-terminated-by '\t' \ # sets the field separator character

  --lines-terminated-by '\n' \  # sets the end-of-line character

  --as-avrodatafile \           # imports data to Avro data files

  --compression-codec snappy \  # use Hadoop codec (in this case - snappy)

  --options-file  \

  --split-by  \ # only used if number of mappers > 1

  --target-dir s3:// \

      # example for HDFS: --target-dir hdfs:///

  --null-string '' \

  --null-non-string ''

  --boundary-query # if used then --split-by should also be present

Oracle将数据转储到S3的Sqoop命令示例：

sqoop import \

  -Dmapreduce.job.user.classpath.first=true \

  --connect "jdbc:oracle:thin:user/password@host_address.com:1521/orcl" \

  --num-mappers 1 \

  --query 'select * from employee where $CONDITIONS' \

  --target-dir s3://my-bucket/staging/employee \

  --as-avrodatafile \

  --compression-codec snappy \

  --null-string '' \

  --null-non-string ''

请注意，当您运行该命令时，目标目录不存在，否则Sqoop命令将失败。

您可以使用一个简单的AWSCLI命令来删除目标目录：

aws s3 rm s3://my-bucket/staging/employee --recursive

Oracle将数据转储到Hadoop的Sqoop命令示例：

sqoop import \

  -Dmapreduce.job.user.classpath.first=true \

  --connect "jdbc:oracle:thin:user/password@host_address.com:1521/orcl" \

  --num-mappers 1 \

  --query 'select * from employee where $CONDITIONS' \

  --delete-target-dir

  --target-dir /user/hive/warehouse/employee \

  --as-avrodatafile \

  --compression-codec snappy \

  --null-string '' \

  --null-non-string ''

注意，有一个参数， -删除-目标-dir,在删除目标目录的命令中，只有当目标目录位于HDFS中时才能使用。

Sqoop可以将数据传输到Hadoop(HDFS)或AWS(S3)。要查询传输的数据，需要在物理文件之上创建表。如果数据被传输到Hadoop，您可以创建Hive表。如果数据被传输到S3，则可以创建Hive表或AmazonAthena表。在这两种情况下，您都需要一个可以从物理文件中检索的表模式。从1.4.7版(EMR5.14.0)开始，Hadoop发行版：Amazon2.8.3 Sqoop自动检索表模式并将其存储在AutoGeneratedSchema.avsc文件在同一个文件夹中。如果使用Sqoop版本1.4.6(EMR 5.13.0的一部分)或更低版本，则可以手动检索表模式。

如果数据的目的地是HDFS，则可以使用以下命令检索表架构：

hadoop jar avro-tools-1.8.1.jar getschema /user/hive/warehouse/employee/part-m-00000.avro > employee.avsc

如果数据的目标是S3，则需要将Avro数据文件复制到本地文件系统，然后检索架构：

java -jar avro-tools-1.8.1.jar getschema part-m-00000.avro > employee.avsc

Avro-tools-1.8.1.jar是Avro工具的一部分，它提供用于处理Avro文件的CLI接口。

在检索表模式之后，可以使用它来进一步创建表。

在蜂巢中创建Avro表

要在Hive中创建Avro表(在Hadoop集群上或在EMR上)，您必须提供从Avro数据文件中检索到的表模式位置：

CREATE TABLE employee

STORED AS AVRO

LOCATION '/user/hive/warehouse/employee'

TBLPROPERTIES('avro.schema.url'='hdfs:///user/hive/warehouse/avsc/employee.avsc');

还可以在S3：中指定表位置：

CREATE TABLE employee

STORED AS AVRO

location 's3://my-bucket/staging/employee'

TBLPROPERTIES ('avro.schema.url'='hdfs:///user/hive/warehouse/avsc/employee.avsc');

您甚至可以在S3中保留一个表模式：

CREATE EXTERNAL TABLE employee

STORED AS AVRO

location 's3:/my-bucket/staging/employee'

TBLPROPERTIES ('avro.schema.url'='s3://my-bucket/staging/avsc/employee.avsc');

Employee表的Avro架构如下所示：

      "type" : "record",

      "name" : "AutoGeneratedSchema",

      "doc" : "Sqoop import of QueryResult",

      "fields" : [ {

        "name" : "ID",

        "type" : [ "null", "string" ],

        "default" : null,

        "columnName" : "ID",

        "sqlType" : "2"

      }, {

        "name" : "NAME",

        "type" : [ "null", "string" ],

        "default" : null,

        "columnName" : "NAME",

        "sqlType" : "12"

      }, {

        "name" : "AGE",

        "type" : [ "null", "string" ],

        "default" : null,

        "columnName" : "AGE",

        "sqlType" : "2"

      }, {

        "name" : "GEN",

        "type" : [ "null", "string" ],

        "default" : null,

        "columnName" : "GEN",

        "sqlType" : "12"

      }, {

        "name" : "CREATE_DATE",

        "type" : [ "null", "long" ],

        "default" : null,

        "columnName" : "CREATE_DATE",

        "sqlType" : "93"

      }, {

        "name" : "PROCESS_NAME",

        "type" : [ "null", "string" ],

        "default" : null,

        "columnName" : "PROCESS_NAME",

        "sqlType" : "12"

      }, {

        "name" : "UPDATE_DATE",

        "type" : [ "null", "long" ],

        "default" : null,

        "columnName" : "UPDATE_DATE",

        "sqlType" : "93"

      } ],

      "tableName" : "QueryResult"

注意，所有时间戳列都定义为短的.

重要*在蜂巢中创建的所有表都使用创建表语句是托管表。这意味着，如果删除表，HDFS或S3中的相应目录也将被删除。要保留数据为HDFS或S3，应将表创建为外部表：

CREATE EXTERNAL TABLE employee

在这种情况下，即使外部表被删除，HDFS或S3中的物理文件也将保持不变。

在AmazonAthena中创建一个Avro表

AmazonAthena不支持table属性。avro.schema.url-模式需要显式地添加在avro.schema.literal:

    CREATE EXTERNAL TABLE employee

      ID string,

      NAME string,

      AGE string,

      GEN string,

      CREATE_DATE bigint,

      PROCESS_NAME string,

      UPDATE_DATE bigint

    STORED AS AVRO

    LOCATION 's3://my-bucket/staging/employees'

    TBLPROPERTIES (

    'avro.schema.literal'='

        "type" : "record",

        "name" : "AutoGeneratedSchema",

        "doc" : "Sqoop import of QueryResult",

        "fields" : [ {

          "name" : "ID",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "ID",

          "sqlType" : "2"

        }, {

          "name" : "NAME",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "NAME",

          "sqlType" : "12"

        }, {

          "name" : "AGE",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "AGE",

          "sqlType" : "2"

        }, {

          "name" : "GEN",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "GEN",

          "sqlType" : "12"

        }, {

          "name" : "CREATE_DATE",

          "type" : [ "null", "long" ],

          "default" : null,

          "columnName" : "CREATE_DATE",

          "sqlType" : "93"

        }, {

          "name" : "PROCESS_NAME",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "PROCESS_NAME",

          "sqlType" : "12"

        }, {

          "name" : "UPDATE_DATE",

          "type" : [ "null", "long" ],

          "default" : null,

          "columnName" : "UPDATE_DATE",

          "sqlType" : "93"

        } ],

        "tableName" : "QueryResult"

');

注意，表定义中的所有时间戳列都定义为比金.对此的解释如下。

使用Avro中的时间戳

当Sqoop将数据从Oracle导入到Avro时(使用-as-avrodatafile)它以unix时间格式存储所有“时间戳”值。(时代)，即短的.

在蜂巢

在Hive中创建Avro表时不会发生任何更改：

CREATE TABLE employee

STORED AS AVRO

LOCATION '/user/hive/warehouse/employee'

TBLPROPERTIES ('avro.schema.url'='hdfs:///user/hive/warehouse/avsc/employee.avsc');

查询数据时，只需将毫秒转换为弦:

from_unixtime( div 1000)

不使用时间戳转换的结果数据集如下所示：

hive> select id, name, age, gen, create_date, process_name, update_date

    > from employee limit 2;

OK

id  name    age  gen  create_date    process_name  update_date

--  ----    ---  ---  -----------    ------------  -----------

2   John    30   M    1538265652000  BACKFILL      1538269659000

3   Jennie  25   F    1538265652000  BACKFILL      1538269659000

使用时间戳转换生成的数据集如下所示：

hive> select

    >     id, name, age, gen,

    >     from_unixtime(create_date div 1000) as create_date,

    >     process_name,

    >     from_unixtime(update_date div 1000) as update_date

    > from employee limit 2;

OK

id  name    age  gen  create_date          process_name  update_date

--  ----    ---  ---  -----------          ------------  -----------

2   John    30   M    2018-09-30 00:00:52  BACKFILL      2018-09-30 01:07:39

3   Jennie  25   F    2018-09-30 00:00:52  BACKFILL      2018-09-30 01:07:39

重要*在蜂巢中，如果保留字用作列名(如时间戳)您需要使用反引号来转义它们：

select from_unixtime(`timestamp` div 1000) as time_stamp

from employee;

在亚马逊雅典娜

创建雅典娜表时，所有短的字段应创建为比金在创建表中语句(在Avro模式中不存在！)：

    CREATE EXTERNAL TABLE employee

      ID string,

      NAME string,

      AGE string,

      GEN string,

      CREATE_DATE bigint,

      PROCESS_NAME string,

      UPDATE_DATE bigint

    STORED AS AVRO

    LOCATION 's3://my-bucket/staging/employee'

    TBLPROPERTIES (

    'avro.schema.literal'='

        "type" : "record",

        "name" : "AutoGeneratedSchema",

        "doc" : "Sqoop import of QueryResult",

        "fields" : [ {

          "name" : "ID",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "ID",

          "sqlType" : "2"

        }, {

          "name" : "NAME",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "NAME",

          "sqlType" : "12"

        }, {

          "name" : "AGE",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "AGE",

          "sqlType" : "2"

        }, {

          "name" : "GEN",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "GEN",

          "sqlType" : "12"

        }, {

          "name" : "CREATE_DATE",

          "type" : [ "null", "long" ],

          "default" : null,

          "columnName" : "CREATE_DATE",

          "sqlType" : "93"

        }, {

          "name" : "PROCESS_NAME",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "PROCESS_NAME",

          "sqlType" : "12"

        }, {

          "name" : "UPDATE_DATE",

          "type" : [ "null", "long" ],

          "default" : null,

          "columnName" : "UPDATE_DATE",

          "sqlType" : "93"

        } ],

        "tableName" : "QueryResult"

');

查询数据时，只需将毫秒转换为弦:

from_unixtime( / 1000)

不使用时间戳转换的结果数据集如下所示：

select id, name, age, gen, create_date, process_name, update_date

from employee limit 2;

id  name    age  gen  create_date    process_name  update_date

--  ----    ---  ---  -----------    ------------  -----------

2   John    30 M    1538265652000  BACKFILL      1538269659000

3   Jennie  25 F    1538265652000  BACKFILL      1538269659000

使用时间戳转换生成的数据集如下所示：

select id, name, age, gen,

  from_unixtime(create_date / 1000) as create_date,

  process_name,

  from_unixtime(update_date / 1000) as update_date

from employee limit 2;

id  name    age  gen  create_date              process_name  update_date

--  ----    ---  ---  -----------              ------------  -----------

2   John    30   M    2018-09-30 00:00:52.000  BACKFILL      2018-09-30 01:07:39.000

3   Jennie  25   F    2018-09-30 00:00:52.000  BACKFILL      2018-09-30 01:07:39.000

将时间戳存储为文本

如果您不希望每次运行查询时都从Unix时间转换时间戳，则可以通过向Sqoop添加以下参数将时间戳值存储为文本：

--map-column-java CREATE_DATE=String,UPDATE_DATE=String

在应用此参数并运行Sqoop之后，表模式如下所示：

      "type" : "record",

      "name" : "AutoGeneratedSchema",

      "doc" : "Sqoop import of QueryResult",

      "fields" : [ {

        "name" : "ID",

        "type" : [ "null", "string" ],

        "default" : null,

        "columnName" : "ID",

        "sqlType" : "2"

      }, {

        "name" : "NAME",

        "type" : [ "null", "string" ],

        "default" : null,

        "columnName" : "NAME",

        "sqlType" : "12"

      }, {

        "name" : "AGE",

        "type" : [ "null", "string" ],

        "default" : null,

        "columnName" : "AGE",

        "sqlType" : "2"

      }, {

        "name" : "GEN",

        "type" : [ "null", "string" ],

        "default" : null,

        "columnName" : "GEN",

        "sqlType" : "12"

      }, {

        "name" : "CREATE_DATE",

        "type" : [ "null", "string" ],

        "default" : null,

        "columnName" : "CREATE_DATE",

        "sqlType" : "93"

      }, {

        "name" : "PROCESS_NAME",

        "type" : [ "null", "string" ],

        "default" : null,

        "columnName" : "PROCESS_NAME",

        "sqlType" : "12"

      }, {

        "name" : "UPDATE_DATE",

        "type" : [ "null", "string" ],

        "default" : null,

        "columnName" : "UPDATE_DATE",

        "sqlType" : "93"

      } ],

      "tableName" : "QueryResult"

注意，表架构中的时间戳列定义为弦.

用于以字符串格式存储时间戳字段的Sqoop命令：

sqoop import \

  -Dmapreduce.job.user.classpath.first=true \

  --connect "jdbc:oracle:thin:user/password@host_address.com:1521/orcl" \

  --num-mappers 1 \

  --query 'select * from employee where $CONDITIONS' \

  --target-dir s3://my-bucket/staging/employee_ts_str \

  --as-avrodatafile \

  --compression-codec snappy \

  --null-string '' \

  --null-non-string '' \

  --map-column-java CREATE_DATE=String,UPDATE_DATE=String

对于将数据转储到HDFS，Sqoop命令将与-目标-DIR参数：

--target-dir hdfs:.///user/hive/warehouse/employee_ts_str

在蜂巢

使用新表模式在Hive中创建一个新表：

CREATE TABLE employee_ts_str

STORED AS AVRO

LOCATION '/user/hive/warehouse/employee_ts_str'

TBLPROPERTIES('avro.schema.url'='hdfs:///user/hive/warehouse/avsc/employee_ts_str.avsc');

选择不使用时间戳转换的数据：

hive> select id, name, age, gen, create_date, process_name, update_date

    > from employee_ts_str limit 2;

OK

id  name   age  gen  create_date          process_name  update_date

--  ----   ---  ---  -----------          ------------  -----------

2  John    30   M    2018-09-30 00:00:52  BACKFILL      2018-09-30 01:07:39

3  Jennie  25   F    2018-09-30 00:00:52  BACKFILL      2018-09-30 01:07:39

在亚马逊雅典娜

使用新的表模式在AmazonAthena中创建一个新表：

    CREATE EXTERNAL TABLE employee_ts_str

      ID string,

      NAME string,

      AGE string,

      GEN string,

      CREATE_DATE string,

      PROCESS_NAME string,

      UPDATE_DATE string

    STORED AS AVRO

    LOCATION 's3://my-bucket/staging/employee_ts_str'

    TBLPROPERTIES (

    'avro.schema.literal'='

        "type" : "record",

        "name" : "AutoGeneratedSchema",

        "doc" : "Sqoop import of QueryResult",

        "fields" : [ {

          "name" : "ID",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "ID",

          "sqlType" : "2"

        }, {

          "name" : "NAME",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "NAME",

          "sqlType" : "12"

        }, {

          "name" : "AGE",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "AGE",

          "sqlType" : "2"

        }, {

          "name" : "GEN",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "GEN",

          "sqlType" : "12"

        }, {

          "name" : "CREATE_DATE",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "CREATE_DATE",

          "sqlType" : "93"

        }, {

          "name" : "PROCESS_NAME",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "PROCESS_NAME",

          "sqlType" : "12"

        }, {

          "name" : "UPDATE_DATE",

          "type" : [ "null", "string" ],

          "default" : null,

          "columnName" : "UPDATE_DATE",

          "sqlType" : "93"

        } ],

        "tableName" : "QueryResult"

');

注意，表定义中的时间戳列定义为弦.

选择不使用时间戳转换的数据：

select id, name, age, gen, create_date, process_name, update_date

from employee_ts_str limit 2;

id  name    age gen  create_date          process_name  update_date

--  ----   ---  ---  -----------          ------------  -----------

2   John    30  M    2018-09-30 00:00:52  BACKFILL      2018-09-30 01:07:39

3   Jennie  25  F    2018-09-30 00:00:52  BACKFILL      2018-09-30 01:07:39

Avro文件连接

如果有多个输出文件(有多个映射器)，并且希望将它们组合成一个文件，则可以使用级联：

hadoop jar avro-tools-1.8.1.jar part-m-00000.avro part-m-00001.avro cons_file.avro

文件可以是本地文件，也可以是S3文件：

hadoop jar avro-tools-1.8.1.jar concat s3://my-bucket/staging/employee/part-m-00000.avro s3://my-bucket/staging/employee/part-m-00001.avro s3://my-bucket/staging/employee/employee_final.avro

摘要

本文解释了如何将数据从关系数据库(Oracle)传输到S3或HDFS，并使用ApacheSqoop将其存储在Avro数据文件中。本文还演示了如何使用Avro表模式，以及如何处理Avro中的时间戳字段(使它们保持在Unix Time(Epoch Time)或转换为弦数据类型)。

你可能感兴趣的:(软件工程)

软件工程简答题整理 ~进无止境~ 软件工程软件工程简答题
软件工程考试简答题整理瀑布模型是软件工程中应用最广泛的过程模型，试述采用瀑布模型进行软件开发的基本过程，该过程有何特点？答:1.基本过程:瀑布模型规定了各项软件工程活动，包括需求分析、规格说明、设计、编码、测试和维护，并规定了它们自上而下、相互衔接的固定次序，如同瀑布流水，逐级而下。2.特点阶段间具有顺序性和依赖性；清楚区分逻辑设计和物理设计，尽可能推迟程序的物理实现；每个阶段都必须完成规定的文档
双一流软件工程大二听闻 Java 前景堪忧，是否该转C++或人工智能或者读研？程序员yt java c++人工智能
今天给大家分享的是一位粉丝的提问，双一流软件工程大二听闻Java前景堪忧，是否该转C++或人工智能或者读研？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：yt老师好，我是双一流软件工程的大二学生，一直在学习java方向，目前掌握了数据库，spring框架等内容，大一暑假在老家一个小公司找了段实习，有蓝桥杯java组b组国一，专业排名前2（保研名
软件工程简答 Ruannn（努力版）软件工程
什么是软件工程软件工程：将系统化的、规范的、可量化的方法应用于软件的开发、运行和维护，即将工程化方法应用于软件。支持软件工程的根基在于质量关注点。软件工程的基础是过程层，将各个技术层次结合在一起。方法层为构建软件提供技术上的解决方法。工具层为过程和方法提供自动化或半自动化的支持。通用过程模型的定义内容通⽤过程框架定义了5种框架活动——沟通、策划、建模、构建以及部署。⼀系列普适性活动——项⽬跟踪控制
软件工程（数据字典） Rain:) 软件工程数据分析软件开发
数据字典数据字典是关于数据的信息的集合，也就是对数据流图中包含的所有元素的定义的集合。任何字典最主要的用这都是供人查阅对不了解的条目的解释，数据字典的作用也正是在软件分析和设计的过程中给人提供关于数据的描述信息。数据流图和数据字典共同构成系统的逻辑模型，没有数据字典，数据流图就不严格，然而没有数据流图，数据字典也难于发挥作用。只有数据流图和对数据流图中每个元素的精确定义放在一起，才能共同构成系统的
[软件工程] 数据字典枪枪枪 Software Engineering
======================================================================= 学习过程中很容易忘记绘图的符号、图的定义，为避免重新翻书查定义，还是整理整理放博客上，方便查看吧。基本上都是书上的内容，在这里集合一下。参考资料：软件工程（张海藩、吕云翔）=========================================
软件工程：数据字典愚戏师软件工程软件工程数据库
一、数据字典的核心作用定位：数据字典是数据流图（DFD）的补充说明文档，与DFD共同构成系统的逻辑模型。核心价值：消除二义性：明确数据流、存储、元素的定义，避免理解偏差。设计依据：为数据库设计、代码开发提供数据规范。团队协作：作为开发团队的共享词汇表，确保术语一致性。二、数据字典的四大组成要素1.数据流（DataFlow）定义：数据在系统中的流动路径。描述内容：来源与去向：起点（外部实体/处理）、
耦合与解耦：软件工程中的核心矛盾与破局之道以恒1 软件工程
耦合与解耦：软件工程中的核心矛盾与破局之道在软件开发领域，耦合与解耦是贯穿始终的核心矛盾。它们如同硬币的两面，既相互对立又紧密依存。本文将从概念解析、类型分类、解耦策略到实际应用，全面剖析这对矛盾体的本质与破局之道。一、耦合的本质：依赖关系的多维透视耦合（Coupling）指软件系统中不同模块、组件或服务之间的相互依赖程度。这种依赖可能表现为数据传递、控制流交互或资源共享。根据耦合强度，可分为七种
需求分析与问题定义原理与代码实战案例讲解 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
需求分析与问题定义原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在软件工程领域，需求分析与问题定义是至关重要的环节。它们决定了软件项目的成功与否，直接影响着软件的质量、成本和交付时间。随着软件项目的复杂性和规模日益增加，对需求分析与问题定义的要求也越来越高。本文将深入探讨需求分析与问题定义的原理，并
MDX语言的软件工程苏墨瀚包罗万象 golang 开发语言后端
MDX语言的软件工程引言在现代软件开发中，技术的进步不断推动着开发流程的变化与优化。MDX（MultidimensionalExpressions）语言作为一种用于查询和操作多维数据集的表达式语言，已在数据分析、商业智能等领域得到了广泛应用。本文将探讨MDX语言在软件工程中的应用，包括其基本概念、工作原理、最佳实践以及在数据分析系统中的具体案例。1.MDX语言概述MDX最初由微软开发，通常用于访问
信息系统运行管理员教程4--信息系统软件运维 LRX_198927 信息系统运行管理运维数据库
第四章信息系统软件运维信息系统软件是信息系统运行的核心，其运维的目的是保证信息系统软件能正常而可靠地运行，并能使系统不断得到改善和提高，以充分发挥作用。第1节信息系统软件运维概述1.信息系统软件运维的概念信息系统软件运维是指信息系统软件在开发完后投入使用后，对信息系统软件进行的改正性维护、适应性维护、完善性维护、预防性维护等软件工程活动。2.信息系统软件的可维护性及维护类型软件可维护性的度量可以从
Redis查看所有key的命令 abckingaa Bee DB redis 数据库 database
Redis查看所有key的命令keys*启动了Redis服务器和客户端,在客户端输入keys*即可(若需要密码登录,先输入密码)Bee，互联网新时代的JavaORM工具，更快、更简单、更自动，开发速度快，运行快，更智能！Bee让程序员/软件工程师，从手工编码中解放出来，Bee更适合智能软件制造时代！十分钟即可入门!立志做最懂用户的软件!
【从零开始学习计算机科学】软件工程（四）结构化需求分析与面向对象需求分析贫苦游商学习软件工程需求分析 ER图 DFD 数据字典数据流图
【从零开始学习计算机科学】软件工程（四）结构化需求分析与面向对象需求分析结构化需求分析数据模型E-R图基于E-R图的建模过程功能模型分层DFD简介基于DFD的建模原则DFD建模流程DFD的建模中的核心过程分层DFD的改进DFD建模中的注意事项行为模型STD建模的过程数据字典结构化分析总结面向对象需求分析OOAOA的过程时序图状态图面向对象需求建模总结结构化需求分析结构化分析（SA，Structur
C语言的软件工程苏墨瀚包罗万象 golang 开发语言后端
C语言的软件工程引言C语言作为一种历史悠久、功能强大的编程语言，在软件工程领域有着广泛的应用。自1972年由DennisRitchie开发以来，C语言凭借其高效性能、灵活性以及可移植性，成为了操作系统、嵌入式系统及高性能应用程序开发的首选语言之一。在软件工程的过程中，成熟的软件开发模型、工具及方法论是保障软件质量的关键因素。本文将从软件工程的基本概念入手，探讨C语言在软件工程中的应用与实践，包括软
开发规范与编码标准原理与代码实战案例讲解 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
开发规范与编码标准原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming/TextGenWebUILLM开发规范与编码标准原理与代码实战案例讲解1.背景介绍1.1问题的由来随着软件工程的快速发展，尤其是在大型团队协作下开发复杂系统时，一致性、可读性、维护性成为影响代码质量的关键因素。不一致的开发风格、冗余的代码模式以及缺乏标准化的命名
探索Python中的访问者模式：设计模式的灵活应用杨哥带你写代码 python 访问者模式设计模式
标题：探索Python中的访问者模式：设计模式的灵活应用在软件工程中，访问者模式（VisitorPattern）是一种允许在不修改对象结构的前提下，添加新操作的设计方案。它通过将算法从对象结构中分离出来，使对象结构扩展更为灵活。本文将深入探讨Python中访问者模式的实现原理、应用场景，并提供详细的代码示例。访问者模式概述访问者模式是一种行为设计模式，它使你可以在不改变对象类的前提下，为这些对象添
系分 02 软件工程一越王超软考系统分析师软件工程
软件工程本身涵盖内容很广，从系统规划到分析……到维护都属于软件工程，但是我们将会在其他章节讨论相关内容，本节我们主要内容如下：系统规划软件工程信息系统生命周期（★）软件开发模型（★★★★）逆向工程（★★）净室软件工程（★）需求工程系统设计系统测试与维护基础知识软件工程是指应用计算机科学、数学及管理科学等原理，以工程化的原则和方法来解决软件问题的工程，其目的是提高软件生产率、提高软件质量、减低软件成
【从零开始学习计算机科学】软件工程（三）需求工程贫苦游商学习软件工程需求分析软件需求需求文档软件开发敏捷编程
【从零开始学习计算机科学】软件工程（三）需求工程需求工程好的需求应具备的特征：需求工程（RequirementEngineering,RE）起始导出需求讨论会头脑风暴调查问卷场景分析法实地考察原型法精化协商规格说明确认需求管理需求工程设计和开发一个计算机软件时，如果软件解决的问题不对，那么再精巧的软件也满足不了任何人的要求。理解问题的需求是软件工程师所面对的最困难的任务之一。困难的原因有二：客户不
【从零开始学习计算机科学】软件工程（五）软件设计贫苦游商学习软件工程软件开发软件设计敏捷开发极限编程软件需求
【从零开始学习计算机科学】软件工程（五）软件设计软件设计概述良好的设计具有三大特性设计主要包含的方面设计中的一些概念设计的方法与策略体系结构设计体系结构设计的基本问题：体系结构的设计模式体系结构设计的过程构建级设计面向对象构件设计用户接口设计用户接口设计原则：用户接口分析的目标：设计的评审软件设计概述软件的分析偏重于问题域，描述软件要做什么，而设计则偏重于解决方案，描述软件究竟要如何做。设计创建了
【从零开始学习计算机科学】软件工程（二）软件工程方法学贫苦游商学习软件工程 hadoop 面向过程面向对象软件开发敏捷开发
【从零开始学习计算机科学】软件工程（二）软件工程方法学软件工程方法学结构化/面向过程结构化编程结构化设计结构化分析结构化方法的常见问题面向对象软件工程方法学我们通常把在软件生命周期全过程中使用的一整套技术方法的集合称为方法学(methodology)，也称为范型(paradigm)。软件工程中有许多方法：结构化/面向过程对于结构化方法，其又被称为传统方法学，也称为生命周期方法学或结构化范型。它采用
【从零开始学习计算机科学】软件工程（一）软件工程中的过程模型贫苦游商学习软件工程过程模型瀑布模型敏捷开发极限编程 V模型
【从零开始学习计算机科学】软件工程（一）软件工程中的过程模型软件与软件工程软件工程具有以下核心要素软件工程中的过程模型惯用过程模型瀑布模型V模型增量过程模型演化过程模型原型模型螺旋模型协同开发模型喷泉模型专用过程模型构件组装模型统一过程模型（RUP）统一过程模型的起源与发展面向对象UMLRUP有9个工作流：敏捷模型敏捷开发的立场极限编程工业级极限编程（IXP）ScrumScrum中有三种角色：Sc
36、弱电网络技术之TCP协议灵魂 12 问，总会用得到 BinaryStarXin 网络工程师提升之路 tcp/ip 网络 java
TCP作为传输层的协议，是一个软件工程师素养的体现，也是面试中经常被问到的知识点。在此，我将TCP核心的一些问题梳理了一下，希望能帮到各位。001.能不能说一说TCP和UDP的区别？首先概括一下基本的区别:TCP是一个面向连接的、可靠的、基于字节流的传输层协议。而UDP是一个面向无连接的传输层协议。(就这么简单，其它TCP的特性也就没有了)。具体来分析，和UDP相比，TCP有三大核心特性:面向连接
C++耦合：代码设计的“黏合剂”与模块化架构的解耦艺术福鸦 c++c++架构开发语言
C++耦合：代码设计的“黏合剂”与模块化架构的解耦艺术开篇故事：乐高城堡的“模块化危机”想象你正在用乐高积木搭建一座宏伟的城堡：高耦合设计：所有积木用强力胶水粘死，一旦想更换一扇窗户，必须拆毁整面墙。低耦合设计：积木通过标准接口拼接，可随时替换任意部件，甚至将城堡改装成太空站。软件工程中的**耦合（Coupling）**正如同这些积木的连接方式——它决定了代码模块之间的依赖程度。本文将深入探讨耦合
JavaEE系统架构师学习路线(基础篇) 淘小五
大纲：第1阶段(Java程序员)-Java语言基础第2阶段(Java初级软件工程师)-JSP、Servlet、HTML、CSS、JS、Bootstrap、XML、AJAX、MySQL、SQLServer、Oracle第3阶段(Java中级软件工程师)-Struts2、Spring、Hibernate、SpringMVC、Mybatis、Shiro、JVM第4阶段(Java高级软件工程师)-WebS
性能2-科学计算中的日志记录：调试、性能与信任李星星BruceL 自动化测试 python pandas numpy 算法
目录科学计算中的日志记录：调试、性能与信任你已经运行了科学模型的批处理程序，经过数小时的计算后，它输出了一个结果。然而，结果是错误的。你怀疑计算中存在错误，但不确定具体是什么问题，而缓慢的反馈循环使得调试变得更加困难。如果能不花费数天时间运行程序就能调试并加速它，那该多好？虽然我不是科学家，而是一名软件工程师，但我曾在科学计算领域工作了一年半。我想提供一个解决这类问题的潜在方案：日志记录，特别是我
软考高级《系统架构设计师》知识点（十三） Ritchie里其系统架构
系统架构设计软件架构的概念一个程序和计算系统软件体系结构是指系统的一个或者多个结构。结构中包括软件的构件，构件的外部可见属性以及它们之间的相互关系。体系结构并非可运行软件。确切地说，它是一种表达，使软件工程师能够：分析设计在满足所规定的需求方面的有效性：在设计变更相对容易的阶段，考虑体系结构可能的选择方案；降低与软件构造相关联的风险。软件构件简单到可以是程序模块或者面向对象的类，也可以扩充到包含数
面向对象三大特性：封装、继承、多态深度解析 KBkongbaiKB java
〇、引言：为什么需要理解OOP三大特性？在软件工程领域，封装、继承、多态被称为面向对象编程（OOP）的三大基石。掌握它们不仅能写出更优雅的代码，更是构建复杂系统的关键能力。本文将通过理论解析+代码实战+设计思维，带您彻底吃透这三个核心概念。一、封装（Encapsulation）1.1核心思想将数据与操作数据的方法绑定，对外隐藏实现细节。就像电视机用外壳包裹内部电路，用户只需通过按钮操作。1.2实现
C#中的设计模式：构建更加优雅的代码 Envyᥫᩣᩚ c#开发语言
C#在面向对象编程（OOP）方面的强大支持，我们可以探讨“C#中的设计模式”。这不仅有助于理解如何更好地组织代码，还能提高代码的可维护性和可扩展性。引言设计模式是软件工程中经过实践验证的解决方案模板，它们提供了一种标准化的方法来解决常见的开发问题。对于使用C#进行开发的程序员来说，理解和应用这些模式可以帮助创建结构良好、易于维护和扩展的应用程序。本文将介绍几种常用的设计模式，并展示如何用C#实现它
Java全栈开发学习路线：从基础到实战，掌握前后端与数据库，成为全栈软件工程师软件职业规划 java java
1.Java基础Java语法：变量、数据类型、运算符、控制流程（if、switch、循环等）面向对象编程（OOP）：类与对象、继承、多态、封装、抽象类、接口异常处理：try-catch-finally、自定义异常集合框架：List、Set、Map、ArrayList、LinkedList、HashMap等泛型：泛型类、泛型方法、泛型接口IO流：文件读写、字节流、字符流多线程：线程创建、同步、锁、线
系统架构设计师【第5章】: 软件工程基础知识 (核心总结) 数据知道系统架构软件工程软考高级系统架构设计师软件工程基础
文章目录5.1软件工程5.1.1软件工程定义5.1.2软件过程模型5.1.3敏捷模型5.1.4统一过程模型（RUP）5.1.5软件能力成熟度模型5.2需求工程5.2.1需求获取5.2.2需求变更5.2.3需求追踪5.3系统分析与设计5.3.1结构化方法5.3.2面向对象方法5.4软件测试5.4.1测试方法5.4.2测试阶段5.5净室软件工程5.5.1理论基础5.5.2技术手段5.5.3应用与缺点5
软件工程师的招聘天黑了g 开发团队管理软件工程团队开发
要建设良好的开发团队，首先得招聘到合适的人才。合适的团队成员能够事半功倍，管理也会省心省力。本次要说的主要内容是关于普通软件开发工程师的招聘目标、面试过程和新人试用期阶段。招聘的岗位职责和技术要求一般是比较容易确定的，但在能力程度上就得好好考虑，是要招初级、中级还是高级？初级程序员主要作为辅助，写一些简单业务的类和方法，干一些杂货，一般工作经验不超过1年。中级工程师能够单独开发常规业务模块或完整的
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR