一瓢一瓢的饮 alanchan

10、HDFS小文件解决方案--Archive

Hadoop系列文章目录

1、hadoop3.1.4简单介绍及部署、简单验证
2、HDFS操作 - shell客户端
3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等）-java
4、HDFS-java操作类HDFSUtil及junit测试（HDFS的常见操作以及HA环境的配置）
5、HDFS API的RESTful风格–WebHDFS
6、HDFS的HttpFS-代理服务
7、大数据中常见的文件存储格式以及hadoop中支持的压缩算法
8、HDFS内存存储策略支持和“冷热温”存储
9、hadoop高可用HA集群部署及三种方式验证
10、HDFS小文件解决方案–Archive
11、hadoop环境下的Sequence File的读写与合并
12、HDFS Trash垃圾桶回收介绍与示例
13、HDFS Snapshot快照
14、HDFS 透明加密KMS
15、MapReduce介绍及wordcount
16、MapReduce的基本用法示例-自定义序列化、排序、分区、分组和topN
17、MapReduce的分区Partition介绍
18、MapReduce的计数器与通过MapReduce读取/写入数据库示例
19、Join操作map side join 和 reduce side join
20、MapReduce 工作流介绍
21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件
22、MapReduce使用Gzip压缩、Snappy压缩和Lzo压缩算法写文件和读取相应的文件
23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化

目录

Hadoop系列文章目录
一、Hadoop Archive介绍
- 1、Archive概述
- 2、创建Archive
二、使用示例
- 1、查看/test/test2目录下的文件情况
- 2、归档小文件
- 3、查看Archive--查看归档之后的内容
- 4、查看Archive--查看归档之前的样子
- 5、提取Archive
- 6、Archive使用注意事项

本文介绍hdfs在使用过程中产生小文件的处理方式。
本文使用Archive来合并hdfs的小文件。
本文分为2个部分，即Archive介绍及使用示例。
本文依赖前提：hadoop集群可以正常使用，且相关的文件提前已经准备好。

一、Hadoop Archive介绍

HDFS并不推荐使用大量小文件进行存储，因为每个文件最少一个block，每个block的元数据都会在NameNode占用内存，如果存在大量的小文件，它们会占用NameNode节点的大量内存。

1、Archive概述

Hadoop Archives可以有效的处理以上问题，它可以把多个文件归档成为一个文件，归档成一个文件后还可以透明的访问每一个文件。

2、创建Archive

# 语法
Usage: hadoop archive -archiveName name -p <parent> <src>* <dest>
# 说明
           -archiveName 指要创建的存档的名称。扩展名应该是*.har。
           -p 指定文件档案文件src的相对路径。
# 示例
# hadoop archive -archiveName -p /foo/bar a/b/c e/f/g
# 这里的/foo/bar是a/b/c与e/f/g的父路径，所以完整路径为/foo/bar/a/b/c与/foo/bar/e/f/g。

二、使用示例

归档一个目录/smallfile下的所有文件

hadoop archive -archiveName test.har -p /test/test2 /testarchive

这样就会在/testarchive目录下创建一个名为test.har的存档文件。
注意：Archive归档是通过MapReduce程序完成的，需要启动YARN集群。

1、查看/test/test2目录下的文件情况

# 1、查看/test/test2目录下的文件情况
[alanchan@server2 dn-tmpfs]$ hadoop fs -ls -R /test/test2
2022-09-09 16:13:13,123 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
-rw-r--r--   3 alanchan supergroup          2 2022-09-09 16:12 /test/test2/1.txt
-rw-r--r--   3 alanchan supergroup          2 2022-09-09 16:12 /test/test2/2.txt
-rw-r--r--   3 alanchan supergroup          2 2022-09-09 16:12 /test/test2/3.txt

2、归档小文件

归档后的文件名称是test.har，放在testarchive目录下

[alanchan@server2 dn-tmpfs]$ hadoop archive -archiveName test.har -p /test/test2 /testarchive
2022-09-09 16:49:51,514 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
2022-09-09 16:49:52,886 INFO mapreduce.JobResourceUploader: Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/alanchan/.staging/job_1662713304286_0001
2022-09-09 16:49:53,262 INFO mapreduce.JobSubmitter: number of splits:1
2022-09-09 16:49:53,470 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1662713304286_0001
2022-09-09 16:49:53,471 INFO mapreduce.JobSubmitter: Executing with tokens: []
2022-09-09 16:49:53,614 INFO conf.Configuration: resource-types.xml not found
2022-09-09 16:49:53,614 INFO resource.ResourceUtils: Unable to find 'resource-types.xml'.
2022-09-09 16:49:53,785 INFO impl.YarnClientImpl: Submitted application application_1662713304286_0001
2022-09-09 16:49:53,827 INFO mapreduce.Job: The url to track the job: http://server1:8088/proxy/application_1662713304286_0001/
2022-09-09 16:49:53,828 INFO mapreduce.Job: Running job: job_1662713304286_0001
2022-09-09 16:50:00,906 INFO mapreduce.Job: Job job_1662713304286_0001 running in uber mode : false
2022-09-09 16:50:00,908 INFO mapreduce.Job:  map 0% reduce 0%
2022-09-09 16:50:04,945 INFO mapreduce.Job:  map 100% reduce 0%
2022-09-09 16:50:10,971 INFO mapreduce.Job:  map 100% reduce 100%
2022-09-09 16:50:11,980 INFO mapreduce.Job: Job job_1662713304286_0001 completed successfully
2022-09-09 16:50:12,060 INFO mapreduce.Job: Counters: 53
        File System Counters
                FILE: Number of bytes read=291
                FILE: Number of bytes written=455261
                FILE: Number of read operations=0
                FILE: Number of large read operations=0
                FILE: Number of write operations=0
                HDFS: Number of bytes read=447
                HDFS: Number of bytes written=290
                HDFS: Number of read operations=21
                HDFS: Number of large read operations=0
                HDFS: Number of write operations=12
        Job Counters 
                Launched map tasks=1
                Launched reduce tasks=1
                Other local map tasks=1
                Total time spent by all maps in occupied slots (ms)=2149
                Total time spent by all reduces in occupied slots (ms)=3166
                Total time spent by all map tasks (ms)=2149
                Total time spent by all reduce tasks (ms)=3166
                Total vcore-milliseconds taken by all map tasks=2149
                Total vcore-milliseconds taken by all reduce tasks=3166
                Total megabyte-milliseconds taken by all map tasks=2200576
                Total megabyte-milliseconds taken by all reduce tasks=3241984
        Map-Reduce Framework
                Map input records=4
                Map output records=4
                Map output bytes=277
                Map output materialized bytes=291
                Input split bytes=120
                Combine input records=0
                Combine output records=0
                Reduce input groups=4
                Reduce shuffle bytes=291
                Reduce input records=4
                Reduce output records=0
                Spilled Records=8
                Shuffled Maps =1
                Failed Shuffles=0
                Merged Map outputs=1
                GC time elapsed (ms)=71
                CPU time spent (ms)=1360
                Physical memory (bytes) snapshot=507871232
                Virtual memory (bytes) snapshot=5569048576
                Total committed heap usage (bytes)=386400256
                Peak Map Physical memory (bytes)=305491968
                Peak Map Virtual memory (bytes)=2791231488
                Peak Reduce Physical memory (bytes)=202379264
                Peak Reduce Virtual memory (bytes)=2777817088
        Shuffle Errors
                BAD_ID=0
                CONNECTION=0
                IO_ERROR=0
                WRONG_LENGTH=0
                WRONG_MAP=0
                WRONG_REDUCE=0
        File Input Format Counters 
                Bytes Read=321
        File Output Format Counters 
                Bytes Written=0

3、查看Archive–查看归档之后的内容

hadoop fs -ls /testarchive/test.har

[alanchan@server2 dn-tmpfs]$ hadoop fs -ls /testarchive/test.har
2022-09-09 16:55:00,806 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 4 items
-rw-r--r--   3 alanchan supergroup          0 2022-09-09 16:50 /testarchive/test.har/_SUCCESS
-rw-r--r--   3 alanchan supergroup        261 2022-09-09 16:50 /testarchive/test.har/_index
-rw-r--r--   3 alanchan supergroup         23 2022-09-09 16:50 /testarchive/test.har/_masterindex
-rw-r--r--   3 alanchan supergroup          6 2022-09-09 16:50 /testarchive/test.har/part-0

[alanchan@server2 dn-tmpfs]$ hadoop fs -cat /testarchive/test.har/part-0
2022-09-09 16:58:00,105 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
111213

通过查看内容发现，test.har将文件内容合并成一个文件，且三个文件的内容全部显示出来了。

这里可以看到har文件包括：两个索引文件，多个part文件（本例只有一个）以及一个标识成功与否的文件。part文件是多个原文件的集合，通过index文件可以去找到原文件。

例如上述的三个小文件1.txt 2.txt 3.txt内容分别为11，12，13。进行archive操作之后，三个小文件就归档到test.har里的part-0一个文件里

4、查看Archive–查看归档之前的样子

在查看har文件的时候，如果没有指定访问协议，默认使用的就是hdfs://，此时所能看到的就是归档之后的样子。
此外，Archive还提供了自己的har uri访问协议。如果用har uri去访问的话，索引、标识等文件就会隐藏起来，只显示创建档案之前的原文件：

# Hadoop Archives的URI语法
har://scheme-hostname:port/archivepath/fileinarchive  
# scheme-hostname格式为hdfs-域名:端口

hadoop fs -ls har://server1:8020/testarchive/test.har

[alanchan@server2 dn-tmpfs]$ hadoop fs -ls har://hdfs-server1:8020/testarchive/test.har
2022-09-09 17:06:42,484 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 4 items
-rw-r--r--   3 alanchan supergroup          2 2022-09-09 16:12 har://hdfs-server1:8020/testarchive/test.har/1.txt
-rw-r--r--   3 alanchan supergroup          2 2022-09-09 16:12 har://hdfs-server1:8020/testarchive/test.har/2.txt
-rw-r--r--   3 alanchan supergroup          2 2022-09-09 16:12 har://hdfs-server1:8020/testarchive/test.har/3.txt
-rw-r--r--   3 alanchan supergroup      14815 2022-09-09 17:01 har://hdfs-server1:8020/testarchive/test.har/健康承诺书.docx

hadoop fs -ls har:///testarchive/test.har

[alanchan@server2 dn-tmpfs]$ hadoop fs -ls har:///testarchive/test.har
2022-09-09 17:09:46,680 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 4 items
-rw-r--r--   3 alanchan supergroup          2 2022-09-09 16:12 har:///testarchive/test.har/1.txt
-rw-r--r--   3 alanchan supergroup          2 2022-09-09 16:12 har:///testarchive/test.har/2.txt
-rw-r--r--   3 alanchan supergroup          2 2022-09-09 16:12 har:///testarchive/test.har/3.txt
-rw-r--r--   3 alanchan supergroup      14815 2022-09-09 17:01 har:///testarchive/test.har/健康承诺书.docx

hadoop fs -cat har:///testarchive/test.har/1.txt

[alanchan@server2 dn-tmpfs]$ hadoop fs -cat har:///testarchive/test.har/1.txt
2022-09-09 17:08:21,525 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
11

5、提取Archive

# 按顺序解压存档（串行）：
hadoop fs -cp har:///outputdir/test.har/* /smallfile1
# 要并行解压存档，请使用DistCp,对应大的归档文件可以提高效率：
hadoop distcp har:///outputdir/test.har/* /smallfile2

按顺序解压存档（串行）
hadoop fs -mkdir /testarchive2
hadoop fs -ls /testarchive2
hadoop fs -cp har:///testarchive/test.har/* /testarchive2
hadoop fs -ls /testarchive2

[alanchan@server2 dn-tmpfs]$ hadoop fs -mkdir /testarchive2
[alanchan@server2 dn-tmpfs]$ hadoop fs -ls /testarchive2

[alanchan@server2 dn-tmpfs]$ hadoop fs -cp har:///testarchive/test.har/* /testarchive2
[alanchan@server2 dn-tmpfs]$ hadoop fs -ls /testarchive2
Found 4 items
-rw-r--r--   3 alanchan supergroup          2 2022-09-09 17:15 /testarchive2/1.txt
-rw-r--r--   3 alanchan supergroup          2 2022-09-09 17:15 /testarchive2/2.txt
-rw-r--r--   3 alanchan supergroup          2 2022-09-09 17:15 /testarchive2/3.txt
-rw-r--r--   3 alanchan supergroup      14815 2022-09-09 17:15 /testarchive2/健康承诺书.docx

6、Archive使用注意事项

Hadoop archive是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。archive的扩展名是*.har
创建archives本质是运行一个Map/Reduce任务，所以应该在Hadoop集群上运行创建档案的命令
创建archive文件要消耗和原文件一样多的硬盘空间
archive文件不支持压缩，尽管archive文件看起来像已经被压缩过
archive文件一旦创建就无法改变，要修改的话，需要创建新的archive文件。事实上，一般不会再对存档后的文件进行修改，因为它们是定期存档的，比如每周或每日
当创建archive时，源文件不会被更改或删除

你可能感兴趣的:(#,hadoop专栏,hdfs,hadoop,大数据,bigdata,mapreduce)

【华为OD机试真题E卷】 27、计算最大乘积 | 机试真题+思路参考+代码解析（C++、Java、Py） KFickle Java Py）华为od c++java 华为OD机试真题计算最大乘积
文章目录一、题目题目描述输入输出样例1二、代码与思路参考C++代码Java代码Python代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题D、E卷，每题都使用C++，Java，Python语言进行解答，每个题目的思路分析都非常详细，持续更新，支持在线OJ刷题，订阅后评论获取权限，有代码问题随时解答，代码仅供学习参考一、题目题目描述给定一个元素类型
使用宝塔大家Java项目遇到的问题 LOVE_DDZ JAVA Spring-Boot java spring boot 开发语言
记录一下使用宝塔大家Java项目遇到的问题：1.没有那个文件或目录/var/tmp/springboot/vhost/scripts/system-service.sh:没有那个文件或目录Feb2811:13:01hadoop05spring_system-service:/bin/bash:/var/tmp/springboot/vhost/scripts/system-service.sh:没
Java基于SpringBoot的校园心声墙小程序（附源码，文档） stormjun 小程序毕业设计 java spring boot 小程序校园心声墙小程序
基于SpringBoot的校园心声墙小程序博主介绍：✌stormjun、8年大厂程序员经历。全网粉丝15w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟Java项目精品实战案例《100套》Java微信小程序项目实战《100套》Python项目实战《100套》感兴趣的可以先收藏起来，还有大家
基于web在线餐饮网站的设计与实现——蛋糕甜品店铺(HTML+CSS+JavaScript) html网页制作网页设计前端 javascript html dreamweaver网页设计 web网页设计期末课程大作业
‍静态网站的编写主要是用HTMLDIV+CSSJS等来完成页面的排版设计‍,常用的网页设计软件有Dreamweaver、EditPlus、HBuilderX、VScode、Webstorm、Animate等等，用的最多的还是DW，当然不同软件写出的前端Html5代码都是一致的，本网页适合修改成为各种类型的产品展示网页，比如美食、旅游、摄影、电影、音乐等等多种主题，希望对大家有所帮助。精彩专栏推荐❤
python 推荐算法库_[译] 详解个性化推荐五大最常用算法 weixin_39612733 python 推荐算法库
允中若朴编译自Stats&Bots量子位出品|公众号QbitAI推荐系统，是当今互联网背后的无名英雄。我们在某宝首页看见的商品，某条上读到的新闻，甚至在各种地方看见的广告，都有赖于它。昨天，一个名为Stats&Bots的博客详解了构建推荐系统的五种方法。量子位编译如下：现在，许多公司都在用大数据来向用户进行相关推荐，驱动收入增长。推荐算法有很多种，数据科学家需要根据业务的限制和要求选择最好的算法。
Python酷库之旅-第三方库Pandas(011) 神奇夜光杯 python pandas 开发语言标准库及第三方库基础知识学习与成长
目录一、用法精讲25、pandas.HDFStore.get函数25-1、语法25-2、参数25-3、功能25-4、返回值25-5、说明25-6、用法25-6-1、数据准备25-6-2、代码示例25-6-3、结果输出26、pandas.HDFStore.select函数26-1、语法26-2、参数26-3、功能26-4、返回值26-5、说明26-6、用法26-6-1、数据准备26-6-2、代码示例
如何使用Spark Streaming将数据写入HBase Java资深爱好者 spark hbase 大数据
在SparkStreaming中将数据写入HBase涉及到几个步骤。以下是一个基本的指南，帮助你理解如何使用SparkStreaming将数据写入HBase。1.环境准备HBase：确保HBase集群已经安装并运行。Spark：确保Spark已经安装，并且Spark版本与HBase的Hadoop版本兼容。HBaseConnectorforSpark：你需要使用HBase的SparkConnecto
项目经验之LZO压缩？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
LZO（LightweightZip/Unzip）是一种高效的压缩算法，它以快速解压缩著称，适用于需要频繁读取和处理的数据。在Hadoop生态系统中，使用LZO压缩可以显著减少存储空间，并且由于其快速的解压速度，对于大规模数据处理任务来说是非常有利的。以下是关于LZO压缩的项目经验总结、思维导图描述以及Java代码示例。项目经验之LZO压缩LZO的优势快速解压：LZO算法设计时优先考虑了解压速度，
编程小白冲Kaggle每日打卡（7）--kaggle学堂：＜Python＞布尔型和条件形 AZmax01 编程小白冲Kaggle每日打卡 python 开发语言
Kaggle课程官网链接：BooleansandConditionals本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。目录BooleansandConditionalsBooleansComparisonOperationsCombiningBooleanValuesConditionalsBooleanconversionYourTurnBooleansandConditionals
编程小白冲Kaggle每日打卡（4）--kaggle学堂：＜编程简介＞列表 AZmax01 编程小白冲Kaggle每日打卡机器学习人工智能 python
Kaggle课程官网链接：IntrotoLists本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。IntrotoLists整理您的数据，以便您能够高效地使用它。Introduction在进行数据科学研究时，您需要一种组织数据的方法，以便高效地使用它。Python有许多数据结构可用于保存数据，如列表、集合、字典和元组。在本教程中，您将学习如何使用Python列表。Motivation在“花
编程小白冲Kaggle每日打卡（5）--kaggle学堂：＜Python＞Hello,Python! AZmax01 编程小白冲Kaggle每日打卡 python 机器学习深度学习
Kaggle课程官方链接：Hello,Python本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。Hello,PythonPython语法、变量赋值和数字的快速介绍本课程涵盖了您需要的关键Python技能，以便您可以开始将Python用于数据科学。这门课程非常适合那些有一些编程经验的人，他们想把Python添加到他们的技能库中。（如果你是第一次编程，我们鼓励你查看我们的编程入门课程，该课
利用Python生成器和迭代器高效处理大数据文件清水白石008 计算机 Python题库 python python
利用Python生成器和迭代器高效处理大数据文件在Python中，处理大型数据文件时，内存管理是一个重要的考虑因素。传统的数据处理方法可能会一次性将整个文件加载到内存中，这在数据量较小时是可行的，但当数据量变得非常大时，这种方法就不再适用。幸运的是，Python提供了生成器和迭代器的概念，它们可以帮助我们在处理大型数据集时节省内存。本文将详细介绍如何使用这些工具来高效地处理大数据文件。什么是生成器
爬虫和逆向教程-专栏介绍和目录数据知道 2025年爬虫和逆向教程爬虫 python 数据采集网络爬虫逆向
文章目录一、爬虫基础和进阶二、App数据采集三、爬虫项目四、爬虫面试本专栏为爬虫初学者和进阶开发者量身定制的爬虫和逆向学习园地。为你提供全面而深入的爬虫和逆向技术指导，从入门到精通，从基础理论到高级实战，助你在数据的海洋中畅游，挖掘出有价值的信息。通过本专栏的学习，你将具备独立开发和优化爬虫程序的能力，及逆向分析能力和项目开发能力，成为爬虫领域的佼佼者。《本专栏持续更新中…（早订阅优惠仅需9.9元
KaiwuDB 智能综采应用项目获中国信通院数据库星河“典型案例” 数据库
12月18日，在中国通信标准化协会主办的2024数据资产管理大会上，中国信息通信研究院（以下简称“信通院”）、中国通信标准化协会大数据技术标准推进委员会联合颁发2024大数据“星河（Galaxy）”案例获奖证书。KaiwuDB与客户伙伴太原向明智控科技有限公司（以下简称“向明智控”）联合申报的“基于KaiwuDB的煤矿综采分析系统示范项目”从累计730余份申报材料中脱颖而出，获评数据库方向“典型”
阿里云PAI大模型RAG对话系统最佳实践阿里云云栖号云栖号技术分享阿里云云计算云原生 ai 人工智能
去年4月至9月，阿里云人工智能平台PAI团队与大数据基础工程技术团队合作，构建了基于知识库检索增强的大模型答疑对话机器人，并在阿里云官方答疑链路、研发小蜜、钉钉大数据技术服务助手等多个线上场景上线，显著提升答疑效率。相关文档：【万字长文】基于阿里云PAI搭建知识库向量检索增强的大模型对话系统上线几个月来，随着RAG技术日趋火热，我们保持对线上链路的迭代，不断加入学界业界最新的RAG优化技术（eg:
Simulink开发项1000例实战专栏--实例140：构建一个完整的机器人视觉导航系统模型 xiaoheshang_123 MATLAB 开发项目实例 1000 例专栏手把手教你学 MATLAB 专栏计算机视觉人工智能 simulink
目录基于Simulink的机器人视觉导航系统设计与仿真1.背景介绍1.1项目背景2.系统建模与仿真2.1视觉导航系统组成2.2图像采集与处理2.3路径规划2.4运动控制2.5传感器融合3.Simulink仿真模型3.1创建Simulink模型3.2添加模块3.2.1图像采集模块3.2.2图像处理模块3.2.3路径规划模块3.2.4运动控制模块3.3连接模块3.4设置仿真参数4.示例代码片段5.结束
Python将Excel中每一个sheet拆分成单独的Excel文件一晌小贪欢 Python自动化办公 excel python 开发语言
欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：一晌小贪欢的博客主页该系列文章专栏：Python办公自动化专栏文章作者技术和水平有限，如果文中出现错误，希望大家能指正❤️欢迎各位佬关注！❤️有时候我们想
ThreeJS入门（036）：THREE.RawShaderMaterial 知识详解，示例代码还是大剑师兰特 #ThreeJS中文API全解大剑师 threejs教程 threejs示例
作者：还是大剑师兰特，曾为美国某知名大学计算机专业研究生，现为国内GIS领域高级前端工程师，CSDN知名博主，深耕openlayers、leaflet、mapbox、cesium，webgl，ThreeJS，canvas，echarts等技术开发，欢迎加微信（gis-dajianshi），一起交流。查看本专栏目录-本文是第036篇入门文章文章目录构造函数常用属性示例使用统一变量使用宏定义使用扩展使
2001-2022年上市公司数字赋能指数（TF-IDF）数据：评估企业数字化转型的关键指标小王毕业啦大数据 tf-idf 大数据社科数据人工智能
上市公司数字赋能指数（TF-IDF）数据：评估企业数字化转型的关键指标上市公司数字赋能指数是一个衡量企业利用数字技术提升业务能力和效率的综合性指标。该指数通过量化分析企业在大数据、云计算、人工智能等数字技术应用方面的能力，反映企业数字化转型的深度和广度。获取数据点这里：2001年-2022年上市公司-数字赋能指数（TF-IDF）（Excel+dta）数字赋能指数的重要性数字化转型：推动企业实现数字
Simulink开发项1000例实战专栏--实例155：构建一个完整的自动驾驶汽车仿真模型 xiaoheshang_123 MATLAB 开发项目实例 1000 例专栏手把手教你学 MATLAB 专栏 simulink
目录基于Simulink的自动驾驶汽车传感器融合与路径规划仿真1.背景介绍1.1项目背景2.系统建模与仿真2.1自动驾驶汽车系统组成
精彩回顾 | KaiwuDB 携手信通院举办能源行业数据库研讨沙龙数据库
10月12日，KaiwuDB联合中国通信标准化协会大数据技术标准推进委员会、信通院数据库应用创新实验室举办的“数据库技术助力能源行业数字化转型”主题研讨沙龙在上海圆满落幕。行业专家学者、数据库技术爱好者、数据库应用企业共同到场，就能源电力行业数字化需求变化，及数据库技术在核心业务场景中的应用实践等议题展开研讨交流。中国信通院云计算与大数据研究所大数据与智能化部副主任马鹏玮发表了《数据库产业发展趋势
Stream流式输出：一种高效的数据处理方式萧鼎机器学习算法与实战 python 算法流式输出stream
在当今的大数据时代，数据量呈爆炸式增长，如何高效地处理这些海量数据成为了一个重要的问题。Stream流式输出作为一种新型的数据处理方式，能够实时处理数据，提高数据处理效率，因此受到了广泛的关注和应用。本文将介绍Stream流式输出的概念、优点、应用场景以及实现方式。一、Stream流式输出的概念Stream流式输出是一种数据处理方式，它将数据以流的形式进行传输和处理。在这种处理方式中，数据不再是集
Python从0到100（六十八）：Python OpenCV-图像边缘检测及图像融合是Dream呀 opencv python 计算机视觉
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python的并发执行（多线程详解上）（针对小白2）西瓜6 python 代码加速的思路和建议 python thread 多线程
python的并发执行（多线程详解上）（针对小白2）前言这一篇详细说下python的多线程。多线程原计划是一篇写完的，写着写着发觉内容有点多，所以决定把剩下的部分放到下一篇。（写后吐槽：感觉只需要看完简单使用和复杂理解的最前面部分就行了。）python的并发执行的专栏：https://blog.csdn.net/qq_37924224/category_9852410.html上一章：《pytho
[c语言日寄] 指针学习情况自检题目 siy2333 c语言日寄 c语言学习开发语言笔记
【作者主页】siy2333【专栏介绍】⌈c语言日寄⌋：这是一个专注于C语言刷题的专栏，精选题目，搭配详细题解、拓展算法。从基础语法到复杂算法，题目涉及的知识点全面覆盖，助力你系统提升。无论你是初学者，还是进阶开发者，这里都能满足你的需求！【食用方法】1.根据题目自行尝试2.查看基础思路完善题解3.学习拓展算法【Gitee链接】资源保存在我的Gitee仓库：https://gitee.com/siy
通义升级2.1文生视频模型彩色蚂蚁 AIGC应用 AIGC 图像生成音视频
作者公众号大数据与AI杂谈（TalkCheap），转载请标明出处年底果然各家AI视频厂商扎堆更新，昨天才写了一篇Vidu2.0版本更新的测评文章，同天通义也更新了他的文生视频模型，最新版本是2.1版和我两个月前做的测试相比，2.1版文生视频模型能力明显得到了大幅的提升，效果拔群，我总体甚至感觉这个版本可称当前（2025年1月10日）国内最强文生视频模型。那下面那我们来看看它的实际表现注：通义是阿里
文章解读与仿真程序复现思路——EI\CSCD\北大核心《计及负荷分级响应的电气化铁路“源-网-车-储”应急牵引供电策略》电网论文源程序文章解读程序
本专栏栏目提供文章与程序复现思路，具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html电网论文源程序-CSDN博客电网论文源程序擅长文章解读,论文与完整源程序,等方面的知识,电网论文源程序关注python,机器学
文章解读与仿真程序复现思路——EI\CSCD\北大核心《基于源荷两侧不确定的虚拟电厂灵活性调整建模及调度策略》电网论文源程序文章解读程序
本专栏栏目提供文章与程序复现思路，具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html电网论文源程序-CSDN博客电网论文源程序擅长文章解读,论文与完整源程序,等方面的知识,电网论文源程序关注python,机器学
中国信通院“护证计划”正式启动，合合信息入选首批技术支撑单位大模型人工智能算法
随着人工智能技术的飞速发展，AI照“骗”在各个行业泛滥成灾，数字图像的真实性面临前所未有的挑战。近日，由中国互联网协会中小企业发展工委会主办的“卓信大数据计划”2025年度会议在京召开。本次会议上，中国信通院、中国互联网协会、中国图象图形学学会以及合合信息、蚂蚁安全实验室等多家企业代表共同启动了以AI守护AI，面向可信证照的专项行动“护证计划”，合合信息成功入选“护证计划”首批技术支撑单位。图说：
【Stable Diffusion】AnimatedDiff--AI动画插件使用技巧分享；文生视频、图生视频、AI生成视频工具；乘凉~ 人工智能应用 stable diffusion 人工智能音视频
本专栏主要记录人工智能的应用方面的内容，包括chatGPT、DeepSeek、AI绘画等等；在当今AI的热潮下，不学习AI，就要被AI淘汰；所以欢迎小伙伴加入本专栏和我一起探索AI的应用，通过AI来帮助自己提升生产力；本文的目标就是让每一个读者，都能学会并掌握AnimateDiff的使用；成功用它来生成你想要的视频。AnimateDiff是StableDiffusion的一个插件，借助它，你可以实
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他