swg321321

Parquet文件格式定义和数据写入

文章目录

前言
一、定义Parquet数据格式
- 1. 基础数据类型如下
- 2. Group数据类型
- 3. 定义Parquet数据类型代码
- 4. 测试示例
二、将数据转为Parquet输出格式
- 1.转输出数据
总结

前言

Parquet文件存储的时候是以列存储的，数据格式支持List，Map，Struct，Decimal、基础数据类型(PrimitiveTypeInfo)。

pom.xml文件引入

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-mapreduce-client-core</artifactId>
    <version>3.2.0</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-mapreduce-client-jobclient</artifactId>
    <version>3.2.0</version>
</dependency>
<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-jdbc</artifactId>
    <version>3.1.2</version>
</dependency>
<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-exec</artifactId>
    <version>3.1.2</version>
</dependency>

一、定义Parquet数据格式

Parquet数据类型分为基础数据类型和Group数据类型

1. 基础数据类型如下

void、boolean、int、bigint、string、char、varchar、float、double、tinyint、smallint、date、timestamp、interval_year_month、interval_day_time、binary、decimal。

2. Group数据类型

List、Map、Struct

3. 定义Parquet数据类型代码

详细实现和数据类型见 private static Type convertType(final String name, final TypeInfo typeInfo, final Repetition repetition)方法

package com.study.spark.mr.utils;

import org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe;
import org.apache.hadoop.hive.serde.serdeConstants;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.typeinfo.*;
import org.apache.parquet.schema.*;
import org.apache.parquet.schema.PrimitiveType.PrimitiveTypeName;
import org.apache.parquet.schema.Type.Repetition;

import java.util.ArrayList;
import java.util.List;

/**
 * 定义Parquet Schema格式
 * GroupType是Type的子类
 */
public class ParquetDataSchema {

    public static MessageType convert(final List<String> columnNames, final List<TypeInfo> columnTypes) {
        final MessageType schema = new MessageType("hive_schema", convertTypes(columnNames, columnTypes));
        return schema;
    }

    private static Type[] convertTypes(final List<String> columnNames, final List<TypeInfo> columnTypes) {
        if (columnNames.size() != columnTypes.size()) {
            throw new IllegalStateException("Mismatched Hive columns and types. Hive columns names" +
                    " found : " + columnNames + " . And Hive types found : " + columnTypes);
        }
        final Type[] types = new Type[columnNames.size()];
        for (int i = 0; i < columnNames.size(); ++i) {
            types[i] = convertType(columnNames.get(i), columnTypes.get(i));
        }
        return types;
    }

    private static Type convertType(final String name, final TypeInfo typeInfo) {
        return convertType(name, typeInfo, Repetition.OPTIONAL);
    }

    private static Type convertType(final String name, final TypeInfo typeInfo, final Repetition repetition) {
        //是否是基础数据类型
        if (typeInfo.getCategory().equals(ObjectInspector.Category.PRIMITIVE)) {
            if (typeInfo.equals(TypeInfoFactory.stringTypeInfo)) {
                return Types.primitive(PrimitiveTypeName.BINARY, repetition).as(OriginalType.UTF8)
                        .named(name);
            } else if (typeInfo.equals(TypeInfoFactory.intTypeInfo)) {
                return Types.primitive(PrimitiveTypeName.INT32, repetition).named(name);
            } else if (typeInfo.equals(TypeInfoFactory.shortTypeInfo)) {
                return Types.primitive(PrimitiveTypeName.INT32, repetition)
                        .as(OriginalType.INT_16).named(name);
            } else if (typeInfo.equals(TypeInfoFactory.byteTypeInfo)) {
                return Types.primitive(PrimitiveTypeName.INT32, repetition)
                        .as(OriginalType.INT_8).named(name);
            } else if (typeInfo.equals(TypeInfoFactory.longTypeInfo)) {
                return Types.primitive(PrimitiveTypeName.INT64, repetition).named(name);
            } else if (typeInfo.equals(TypeInfoFactory.doubleTypeInfo)) {
                return Types.primitive(PrimitiveTypeName.DOUBLE, repetition).named(name);
            } else if (typeInfo.equals(TypeInfoFactory.floatTypeInfo)) {
                return Types.primitive(PrimitiveTypeName.FLOAT, repetition).named(name);
            } else if (typeInfo.equals(TypeInfoFactory.booleanTypeInfo)) {
                return Types.primitive(PrimitiveTypeName.BOOLEAN, repetition).named(name);
            } else if (typeInfo.equals(TypeInfoFactory.binaryTypeInfo)) {
                return Types.primitive(PrimitiveTypeName.BINARY, repetition).named(name);
            } else if (typeInfo.equals(TypeInfoFactory.timestampTypeInfo)) {
                return Types.primitive(PrimitiveTypeName.INT96, repetition).named(name);
            } else if (typeInfo.equals(TypeInfoFactory.voidTypeInfo)) {
                throw new UnsupportedOperationException("Void type not implemented");
            } else if (typeInfo.getTypeName().toLowerCase().startsWith(
                    serdeConstants.CHAR_TYPE_NAME)) {
                return Types.optional(PrimitiveTypeName.BINARY).as(OriginalType.UTF8)
                        .named(name);
            } else if (typeInfo.getTypeName().toLowerCase().startsWith(
                    serdeConstants.VARCHAR_TYPE_NAME)) {
                return Types.optional(PrimitiveTypeName.BINARY).as(OriginalType.UTF8)
                        .named(name);
            } else if (typeInfo instanceof DecimalTypeInfo) {
                DecimalTypeInfo decimalTypeInfo = (DecimalTypeInfo) typeInfo;
                int prec = decimalTypeInfo.precision();
                int scale = decimalTypeInfo.scale();
                int bytes = ParquetHiveSerDe.PRECISION_TO_BYTE_COUNT[prec - 1];
                return Types.optional(PrimitiveTypeName.FIXED_LEN_BYTE_ARRAY).length(bytes).as(OriginalType.DECIMAL).
                        scale(scale).precision(prec).named(name);
            } else if (typeInfo.equals(TypeInfoFactory.dateTypeInfo)) {
                return Types.primitive(PrimitiveTypeName.INT32, repetition).as(OriginalType.DATE).named
                        (name);
            } else if (typeInfo.equals(TypeInfoFactory.unknownTypeInfo)) {
                throw new UnsupportedOperationException("Unknown type not implemented");
            } else {
                throw new IllegalArgumentException("Unknown type: " + typeInfo);
            }
        } else if (typeInfo.getCategory().equals(ObjectInspector.Category.LIST)) {
            return convertArrayType(name, (ListTypeInfo) typeInfo);
        } else if (typeInfo.getCategory().equals(ObjectInspector.Category.STRUCT)) {
            return convertStructType(name, (StructTypeInfo) typeInfo);
        } else if (typeInfo.getCategory().equals(ObjectInspector.Category.MAP)) {
            return convertMapType(name, (MapTypeInfo) typeInfo);
        } else if (typeInfo.getCategory().equals(ObjectInspector.Category.UNION)) {
            throw new UnsupportedOperationException("Union type not implemented");
        } else {
            throw new IllegalArgumentException("Unknown type: " + typeInfo);
        }
    }

    // An optional group containing a repeated anonymous group "bag", containing
    // 1 anonymous element "array_element"
    @SuppressWarnings("deprecation")
    private static GroupType convertArrayType(final String name, final ListTypeInfo typeInfo) {
        final TypeInfo subType = typeInfo.getListElementTypeInfo();
        return new GroupType(Repetition.OPTIONAL, name, OriginalType.LIST, new GroupType(Repetition.REPEATED,
                ParquetHiveSerDe.ARRAY.toString(), convertType("array_element", subType)));
    }

    // An optional group containing multiple elements
    private static GroupType convertStructType(final String name, final StructTypeInfo typeInfo) {
        final List<String> columnNames = typeInfo.getAllStructFieldNames();
        final List<TypeInfo> columnTypes = typeInfo.getAllStructFieldTypeInfos();
        return new GroupType(Repetition.OPTIONAL, name, convertTypes(columnNames, columnTypes));

    }

    // An optional group containing a repeated anonymous group "map", containing
    // 2 elements: "key", "value"
    private static GroupType convertMapType(final String name, final MapTypeInfo typeInfo) {
        final Type keyType = convertType(ParquetHiveSerDe.MAP_KEY.toString(),
                typeInfo.getMapKeyTypeInfo(), Repetition.REQUIRED);
        final Type valueType = convertType(ParquetHiveSerDe.MAP_VALUE.toString(),
                typeInfo.getMapValueTypeInfo());
        return ConversionPatterns.mapType(Repetition.OPTIONAL, name, keyType, valueType);
    }
}

4. 测试示例

示例代码

package com.study.spark.mr.utils;

import org.apache.hadoop.hive.serde2.typeinfo.*;
import org.apache.hadoop.security.UserGroupInformation;
import org.apache.parquet.example.data.simple.SimpleGroupFactory;
import org.apache.parquet.schema.GroupType;
import org.apache.parquet.schema.MessageType;
import org.apache.parquet.schema.PrimitiveType;
import org.apache.parquet.schema.Type;
import org.apache.spark.sql.hive.orc.OrcOutputWriter;

import java.util.ArrayList;
import java.util.List;

public class ParquetSchemaTest {

    public static void main(String[] args){
        ParquetSchemaTest test = new ParquetSchemaTest();

        test.messageType();
    }
    
    public void messageType(){
        MessageType messageType = parquetSchema();
        System.out.println("schema string = "+messageType.toString());
        println(messageType.getFields());

    }

    public void println(List<Type> types){
        for (Type type : types){
            System.out.println("type name = "+ type.getName());
            System.out.println("repetition type = "+ type.getRepetition().name());
            if(type.getOriginalType() != null){
                System.out.println("original type = " + type.getOriginalType().name());
            }
            //是否基础类型
           boolean primitive =  type.isPrimitive();
           if(primitive){
               System.out.println("primitive type name = "+type.asPrimitiveType().getName());
           }else {
              GroupType groupType = type.asGroupType();

              println(groupType.getFields());
           }
        }
    }

    public MessageType parquetSchema(){
        List<String> columnNames = new ArrayList<>();
        List<TypeInfo> columnTypes = new ArrayList<>();
        columnNames.add("name");
        columnTypes.add(TypeInfoFactory.stringTypeInfo);

        columnNames.add("age");
        columnTypes.add(TypeInfoFactory.intTypeInfo);

        columnNames.add("toatal");
        columnTypes.add(new DecimalTypeInfo(22,2));

        StructTypeInfo structTypeInfo = new StructTypeInfo();
        structTypeInfo.setAllStructFieldNames(new ArrayList<>(columnNames));
        structTypeInfo.setAllStructFieldTypeInfos(new ArrayList<>(columnTypes));
        columnNames.add("struct_test");
        columnTypes.add(structTypeInfo);

        MapTypeInfo mapTypeInfo = new MapTypeInfo();
        mapTypeInfo.setMapKeyTypeInfo(TypeInfoFactory.stringTypeInfo);
        mapTypeInfo.setMapValueTypeInfo(TypeInfoFactory.floatTypeInfo);
        columnNames.add("map_test");
        columnTypes.add(mapTypeInfo);

        ListTypeInfo listTypeInfo = new ListTypeInfo();
        listTypeInfo.setListElementTypeInfo(TypeInfoFactory.stringTypeInfo);
        columnNames.add("list_test");
        columnTypes.add(listTypeInfo);

        MessageType messageType = ParquetDataSchema.convert(columnNames,columnTypes);
        return messageType;
    }
}

测试结果

schema string = message hive_schema {
  optional binary name (UTF8);
  optional int32 age;
  optional fixed_len_byte_array(10) toatal (DECIMAL(22,2));
  optional group struct_test {
    optional binary name (UTF8);
    optional int32 age;
    optional fixed_len_byte_array(10) toatal (DECIMAL(22,2));
  }
  optional group map_test (MAP) {
    repeated group map (MAP_KEY_VALUE) {
      required binary key (UTF8);
      optional float value;
    }
  }
  optional group list_test (LIST) {
    repeated group bag {
      optional binary array_element (UTF8);
    }
  }
}

type name = name
repetition type = OPTIONAL
original type = UTF8
primitive type name = name
type name = age
repetition type = OPTIONAL
primitive type name = age
type name = toatal
repetition type = OPTIONAL
original type = DECIMAL
primitive type name = toatal
type name = struct_test
repetition type = OPTIONAL
type name = name
repetition type = OPTIONAL
original type = UTF8
primitive type name = name
type name = age
repetition type = OPTIONAL
primitive type name = age
type name = toatal
repetition type = OPTIONAL
original type = DECIMAL
primitive type name = toatal
type name = map_test
repetition type = OPTIONAL
original type = MAP
type name = map
repetition type = REPEATED
original type = MAP_KEY_VALUE
type name = key
repetition type = REQUIRED
original type = UTF8
primitive type name = key
type name = value
repetition type = OPTIONAL
primitive type name = value
type name = list_test
repetition type = OPTIONAL
original type = LIST
type name = bag
repetition type = REPEATED
type name = array_element
repetition type = OPTIONAL
original type = UTF8
primitive type name = array_element

二、将数据转为Parquet输出格式

1.转输出数据

package com.study.spark.mr.utils;

import org.apache.hadoop.hive.common.type.HiveDecimal;
import org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe;
import org.apache.hadoop.hive.ql.io.parquet.timestamp.NanoTimeUtils;
import org.apache.hadoop.hive.serde2.io.DateWritable;
import org.apache.parquet.example.data.Group;
import org.apache.parquet.io.api.Binary;
import org.apache.parquet.schema.MessageType;

import java.awt.*;
import java.sql.Date;
import java.sql.Timestamp;
import java.util.Iterator;
import java.util.List;
import java.util.Map;

public class ParquetDataWrite {

    public static Boolean booleanDataWriter(Boolean val) {
        return val;
    }

    public static Integer byteDataWriter(byte val) {
        return new Integer(val);

    }

    public static Integer shortDataWriter(Short val) {
        return new Integer(val);
    }

    public static Integer intWriter(Integer val) {
        return val;
    }

    public static Long longWriter(Long val) {
        return val;
    }

    public static Float floatWriter(Float val) {
        return val;
    }

    public static Double doubleDataWriter(Double val) {
        return val;
    }

    public static Binary stringWriter(String val) {
        return Binary.fromString(val);
    }

    public static Binary varcharWriter(String val) {
        return Binary.fromString(val);
    }

    /**
     * 将byte[]数据转为Binary，用于写入
     */
    public static Binary binaryWrite(byte[] bytes) {
        return Binary.fromByteArray(bytes);
    }

    /**
     * 将时间戳Timestamp转为Binary，用于写入
     */
    public static Binary timestampWrite(Timestamp ts) {
        return NanoTimeUtils.getNanoTime(ts, false).toBinary();
    }

    /**
     * 将字符串Decimal数据转为Binary，用于写入使用
     *
     * @param val   数据值
     * @param prec  定义Decimal中的数据长度
     * @param scale 定义Decimal中小数点后面位数
     */
    public static Binary decimalWrite(String val, int prec, int scale) {
        HiveDecimal hiveDecimal = HiveDecimal.create(val);
        byte[] decimalBytes = hiveDecimal.bigIntegerBytesScaled(scale);

        // Estimated number of bytes needed.
        int precToBytes = ParquetHiveSerDe.PRECISION_TO_BYTE_COUNT[prec - 1];
        if (precToBytes == decimalBytes.length) {
            // No padding needed.
            return Binary.fromByteArray(decimalBytes);
        }

        byte[] tgt = new byte[precToBytes];
        if (hiveDecimal.signum() == -1) {
            // For negative number, initializing bits to 1
            for (int i = 0; i < precToBytes; i++) {
                tgt[i] |= 0xFF;
            }
        }

        System.arraycopy(decimalBytes, 0, tgt, precToBytes - decimalBytes.length, decimalBytes.length); // Padding leading zeroes/ones.
        return Binary.fromByteArray(tgt);
    }

    /**
     * 将Date数据类型转为Int
     */
    public static Integer dateWrite(Date date) {
        return Integer.valueOf(DateWritable.dateToDays(date));
    }

    /**
     * list 数据类型转为Group
     * @param group  主结构体
     * @param index 为当前数据在结构体中的位置，也可以传入字段名称
     * @param values  数组中的值，这里String只是示例，具体根据List立民安数据类型写入
     * @return
     */
    public static Group listWrite(Group group, int index,List<String> values){
        Group listGroup = group.addGroup(index);
        for(String v : values){
            Group bagGroup = listGroup.addGroup(0);
            bagGroup.add(0,v);
        }
        return group;
    }
    /**
     * map 数据类型转为Group
     * @param group  主结构体
     * @param index 为当前数据在结构体中的位置，也可以传入字段名称
     * @param values  map中Key和value只是示例，具体根据定义Map结构传入
     */
    public static Group mapWrite(Group group, int index, Map<String,String> values){
        Group mapGroup = group.addGroup(index);
        Iterator<String> iterable =  values.keySet().iterator();
        while (iterable.hasNext()){
            String key = iterable.next();
            String value = values.get(key);
           Group dataGroup =  mapGroup.addGroup(0);
           dataGroup.add("key",key);
           dataGroup.add("value",value);
        }
        return group;
    }

    /**
     * Struct 结构转为Group
     * @param group 主结构体
     * @param index 为当前数据在结构体中的位置，也可以传入字段名称
     * @param values 这里为示例，具体根据定义结构传入
     * @return
     */
    public static Group structWrite(Group group, int index,String[] values){
        Group structGroup =group.addGroup(index);
        for(int i = 0; i < values.length; i++){
            structGroup.add(i,values[i]);
        }
        return group;

    }

}

总结

在写入数据的时候Group数据类型中，传入参数只是一个示例。在这里面数据类型需要和定义的数据类型匹配。

基于改进ISODATA算法的负荷场景曲线聚类（matlab代码）电力程序小学童聚类 matlab ISODATA算法风电光伏
目录1主要内容聚类中心选取步骤核方法2部分代码3程序结果4程序链接1主要内容程序复现文献《基于机器学习的短期电力负荷预测和负荷曲线聚类研究》第三章《基于改进ISODATA算法的负荷场景曲线聚类》模型，该方法不止适用于负荷聚类，同样适用于风光等可再生能源聚类，只需要改变聚类的数据即可，该方法的通用性和可创新性强。该代码实现一种基于改进ISODATA算法的负荷场景曲线聚类方法，代码中，主要做了四种聚类
《基于机器学习的负荷曲线聚类算法对比与改进：K-L-isodata的创新性研究》 TWHiwhjig 机器学习算法聚类
基于机器学习的负荷曲线聚类包括kmeansisodata和改进的L-isodata以及在其基础上再次进行改进的K-L-isodata(有创新性)，四者通过评价指标进行了对比精品代码可修改性极高有参考文献ID:93150688324967700自律的电气人基于机器学习的负荷曲线聚类是一种基于数据分析和模式识别的技术，它可以帮助我们对系统的负荷变化进行分类和理解。在负荷曲线聚类的研究中，K-means
利用DataX从文本文件读取数据并写入MySQL数据库，但是老是报用户密码错误，但是密码是正确的。 2301_81122542 数据库 mysql
这里很有可能是'root'@'master'对应的密码错误，可以修改一下'root'@'master'的密码。代码为：SETPASSWORDFOR'root'@'master'=PASSWORD('newpassword');FLUSHPRIVILEGES;
机器学习Pandas_learn4 XW-ABAP 机器学习机器学习 pandas 人工智能
importpandasaspddefcalculate_goods_covariance():#定义商品销售数据字典goods_sales_data={"时期":["一期","二期","三期","四期"],"苹果":[15,16,3,2],"橘子":[12,14,16,18],"石榴":[11,8,7,1]}#将字典转换为DataFrame对象goods_dataframe=pd.DataFra
python中使用单例模式在整个程序中只创建一个数据库连接，节省资源背太阳的牧羊人 python 数据库数据库 python 单例模式
示例代码：fromloguruimportloggerfrompymongoimportMongoClientfrompymongo.errorsimportConnectionFailurefromllm_engineering.settingsimportsettingsclassMongoDatabaseConnector:_instance:MongoClient|None=Nonedef
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
goldengate sqlserver mysql_使用 Oracle GoldenGate 在 Microsoft SQL Server 和 Oracle Database 之间复制事务... weixin_39907713 goldengate sqlserver mysql
大多数关注数据复制的Oracle技术专家都熟悉OracleStreams。在2009年之前，Streams一直是推荐使用的最流行的Oracle数据分发技术。2009年7月，Oracle收购了GoldenGate这一数据库复制软件供应商。Oracle现在鼓励客户使用OracleGoldenGate(Oracle融合中间件系列的组成部分)来满足新应用中的数据复制需求。Oracle关于OracleStr
Java高级常用类星星不打輰 Java java 开发语言
LocalDateTime，StringBuilder，BigDecimalLocalDateTime使用（通过这个类创建一个日期时间的实例对象）//LocalDate-->日期//LocalTime-->时间//LocalDateTime-->日期和时间对于日期时间进行格式化输出：DateTimeFormatter.ofPattern(“指定的格式”)y表示年份，M表示月份，d表示日期，H表示小
dcm4che jamie_zhengmin dcm4che archive jboss 工具服务器
dcm4che工具包DICOMtoolkitDICOM工具包dcm4chee归档服务器器IHE影像管理器和影像归档执行器（dcm4jbossarchive影像归档器，影像扫描检查和报告的管理）dcm4che2重架构dcm4che的重架构实现
将Hive数据导出为CSV和Excel格式的方法翠绿探寻 hive excel hadoop 编程
将Hive数据导出为CSV和Excel格式的方法在Hive中存储和处理大规模数据是一项常见的任务。有时候，我们需要将Hive中的数据导出为CSV或Excel格式，以便进行进一步的分析或与其他工具进行集成。本文将介绍如何使用编程的方式将Hive数据导出为CSV和Excel格式，并提供相应的源代码。Hive数据导出为CSV格式要将Hive数据导出为CSV格式，我们可以使用Hive的内置函数INSERT
「栈与队列全攻略：FILO vs FIFO，内存管理与动态操作的核心法则」 ℡残城碎梦数据结构顺序栈链式栈循环队列链式队列
1.栈：叠盘子的「FILO哲学」小白困惑：栈的“先进后出”到底怎么用？顺序栈和链式栈如何选择？生活类比：顺序栈≈固定大小的盘子架（需预判最大容量）链式栈≈无限叠放的盘子（动态扩展，但需手动管理指针）入栈（Push）≈放新盘子到顶部出栈（Pop）≈从顶部取盘子代码对比：顺序栈（数组实现）：typedefstruct{int*data;//盘子架inttop;//当前顶部盘子位置intcapacity
Mysql数据库分表实现微笑的曙光（StevenLi）数据库 mysql 分表性能优化 merge
本次主要采用MERGE分表法、对表进行水平拆分；第一步：创建数据库DROPTABLEIFEXISTSstudents;CREATETABLEstudents(idbigint(20)NOTNULLAUTO_INCREMENT,namevarchar(20)DEFAULTNULL,numvarchar(20)DEFAULTNULL,PRIMARYKEY(id))ENGINE=MyISAMAUTO_I
MongoDB数据库使用及常见问题微笑的曙光（StevenLi）数据库数据库 mongodb
MongoDB数据库之所以备受青睐，关键在于其独特的优势满足了现代应用的需求。它采用文档型存储，数据结构灵活，无需事先定义表结构，非常适合处理复杂且多变的数据。MongoDB具备高性能和可扩展性，能够轻松应对大数据量和高并发的访问，通过分片技术实现水平扩展，确保系统稳定运行。同时，它提供了强大的数据一致性和可靠性保障，支持多种复制和故障转移机制，确保数据的高可用性和持久性。此外，MongoDB拥有
智慧社区2.0 陈陈爱java java
项目亮点1.技术架构层面✅多数据源整合（MySQL+Redis+HDFS+OSS）核心亮点：不仅仅是单一数据库，而是根据数据特性使用MySQL（结构化数据）+Redis（缓存）+HDFS（大数据存储）+OSS（对象存储），提高了系统的数据存储效率和查询速度。面试时可以强调：Redis作为缓存，加速社区热点数据访问，减少MySQL压力。HDFS存储海量日志和AI任务数据，支持后续分析。OSS解决图片
Pandas与PySpark混合计算实战：突破单机极限的智能数据处理方案 Eqwaak00 Pandas pandas 学习 python 科技开发语言
引言：大数据时代的混合计算革命当数据规模突破十亿级时，传统单机Pandas面临内存溢出、计算缓慢等瓶颈。PySpark虽能处理PB级数据，但在开发效率和局部计算灵活性上存在不足。本文将揭示如何构建Pandas+PySpark混合计算管道，在保留Pandas便捷性的同时，借助Spark分布式引擎实现百倍性能提升，并通过真实电商用户画像案例演示全流程实现。一、混合架构设计原理1.1技术栈优势分析维度P
数据结构——二叉树的层序遍历 s.wy 数据结构队列二叉树数据结构 c语言
算法设计二叉树的层序遍历用到的是队列，创建二叉树时用的是递归的方法。在层序遍历时用队列来存储结点。层序遍历二叉树：首先，让根结点入队，然后执行一个循环，条件是：队列不为空。也就是队列不为空时，令一个结点出队，然后输出该结点的data中的数据，并判断该结点的左右孩子是否存在，若存在，则将它们分别入队。再次执行该循环，直到队列为空，结束。代码：#include"stdio.h"#include"std
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
【Redis】什么是缓存穿透、击穿、雪崩？如何解决？熏鱼的小迷弟Liu Redis 缓存 redis 数据库
1.缓存穿透定义:缓存穿透是指查询一个不存在的数据，由于缓存中没有该数据，请求会直接落到数据库上。如果大量这样的请求同时发生，数据库可能会被压垮。原因：恶意攻击：攻击者故意请求大量不存在的数据。业务逻辑问题：某些查询条件本身就不存在有效数据。解决方案：1.缓存空值：如果查询结果为空，扔将空值缓存起来，并设置一个较短的过期时间。if(data==null){cache.put(key,"NULL",
goweb中文件上传和文件下载 Villiam_AY xcode macos ide golang
文件上传文件上传:客户端把上传文件转换为二进制流后发送给服务器,服务器对二进制流进行解析HTML表单(form)enctype(EncodeType)属性控制表单在提交数据到服务器时数据的编码类型enctype=“application/x-www-form-urlencoded”默认值,表单数据会被编码为名称/值形式。oenctype="multipart/form-data”编码成消息,每个控
python_学习爬虫遇到的第二个问题_urllib获取baidu搜索后网页源代码 KJDETL python_爬虫 python 学习爬虫
第二天学习爬虫，学习的是通过urllib.request和urllib.parse获取baidu搜索后网页源代码。importurllib.requestimporturllib.parse#请求网址url='https://www.baidu.com/s?'#想要搜索的内容data={'wd':'周杰伦'}#通过urllib.parse.urlencode将data进行url编码new_data
【保姆级视频教程（一）】YOLOv12环境配置：从零到一，手把手保姆级教程！| 小白也能轻松玩转目标检测！一只云卷云舒 YOLOv12保姆级通关教程 YOLO YOLOv12 flash attention GPU 计算能力算力
【2025全站首发】YOLOv12环境配置：从零到一，手把手保姆级教程！|小白也能轻松玩转目标检测！文章目录1.FlashAttentionWindows端WHL包下载1.1简介1.2下载链接1.3国内镜像站1.4安装方法2.NVIDIAGPU计算能力概述2.1简介2.2计算能力版本与GPU型号对照表2.2.1CUDA-EnabledDatacenterProducts2.2.2CUDA-Enab
yolov8的第一次实验报告算法宇宙 YOLO 人工智能计算机视觉
1.实验概述实验名称:占道经营目标检测模型实验目标:提高模型的精确率（Precision）和召回率（Recall），使其接近1。实验日期:[2025-01-16]2.数据集数据集名称:[datasets]数据集大小:[2.68Gb]数据集描述:[数据集主要分两个类别：zdjy_ld,zdjy_gd]注释：占道经营流动，占道经营固定3.模型配置3.1基础配置·模型类型:YOLOv8·预训练模型:YO
java redis pipeline,redis pipeline简介神奇激光世界 java redis pipeline
java中redis的pipelinepipeline方式执行redis操作：Listresults=this.getRedisTemplate().executePipelined(newRedisCallback(){@OverridepublicObjectdoInRedis(RedisConnectionconnection)throwsDataAccessException{RedisS
html中单选框怎么取消选中,radio单选框的选中与取消你这人真狗 html中单选框怎么取消选中
需求：单选框可重复点击选中和取消；背景：单选框只可以选中，取消需要点击其他单选框。解决方案：单选按钮取消选中$(function(){$('input:radio').click(function(){vardomName=$(this).attr('name');var$radio=$(this);//ifthiswaspreviouslycheckedif($radio.data('wasch
spring data redis使用pipline 南熏门前一只喵 redis spring-boot spring data redis spring
使用stringRedisTemplate.executePipelined可以向redis批量提交一批命令，进行命令批处理。效率比遍历的方式执行单条语句要高。‘springdataredis使用pipline的两种方式。redisTemplate.executePipelined(newRedisCallback(){@OverridepublicLongdoInRedis(RedisConne
基于oracle linux的 DBI/DBD 标准化安装文档(一) linux
一、安装DBIDBI(DatabaseInterface)是perl连接数据库的接口。其是perl连接数据库的最优方法，他支持包括Orcale,Sybase,mysql,db2等绝大多数的数据库，下面将简要介绍其安装方法。1.1解压tar-zxvfDBI-1.616_901.tar.gz1.2安装依赖yuminstallperl-ExtUtils-CBuilderperl-ExtUtils-Mak
智能汽车：驶向未来的革命智能设备
一、引言汽车，作为现代文明的标志，正经历着一场前所未有的变革。人工智能、大数据、云计算等技术的飞速发展，正推动着汽车从单纯的交通工具向智能移动空间转变。智能汽车，作为这场变革的主角，正悄然改变着我们的出行方式和生活方式。二、智能汽车的定义与发展现状智能汽车，是指搭载先进传感器、控制器、执行器等装置，并融合现代通信与网络技术，实现车与X（人、车、路、云端等）智能信息交换、共享，具备复杂环境感知、智能
unity资源加载 qmladm unity unity 游戏引擎
unity资源加载打包的资源Android所有资源打包在unityLibrary\src\main\assets\bin\Data\data.unity3d场景存放在level[n]共享资源存放在sharedassets[n].assetResources文件夹下的资源存放在resources.assetiOS场景存放在Data\level[n]共享资源存放在sharedassets[0].ass
介绍 Apache Spark 的基本概念和在大数据分析中的应用佛渡红尘 apache
ApacheSpark是一个开源的集群计算框架，最初由加州大学伯克利分校的AMPLab开发，用于大规模数据处理和分析。相比于传统的MapReduce框架，Spark具有更快的数据处理速度和更强大的计算能力。ApacheSpark的基本概念包括：弹性分布式数据集（RDD）：是Spark中基本的数据抽象，是一个可并行操作的分区记录集合。RDD可以在集群中的节点间进行分布式计算。转换（Transform
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1