__静禅__

Hadoop --- 入门之配置参数

Hadoop参数汇总

@(hadoop)[配置]

linux参数

以下参数最好优化一下：

文件描述符ulimit -n
用户最大进程 nproc （hbase需要 hbse book）
关闭swap分区
设置合理的预读取缓冲区
Linux的内核的IO调度器

JVM参数

JVM方面的优化项Hadoop Performance Tuning Guide

Hadoop参数大全

适用版本：4.3.0

主要配置文件：

core
hdfs
yarn
mapred

core-default.xml

hadoop.common.configuration.version

配置文件的版本。
hadoop.tmp.dir=/tmp/hadoop-${user.name}

Hadoop的临时目录，其它目录会基于此路径。本地目录。

只可以设置一个值；建议设置到一个足够空间的地方，而不是默认的/tmp下
服务端参数，修改需重启
hadoop.security.authorization=false

是否开启安全服务验证。

建议不开启。认证操作比较复杂，在公司内部网络下，重要性没那么高
io.file.buffer.size=4096

在读写文件时使用的缓存大小。这个大小应该是内存Page的倍数。

建议1M
io.compression.codecs=null

压缩和解压缩编码类列表，用逗号分隔。这些类是使用Java ServiceLoader加载。
fs.defaultFS=file:///

默认文件系统的名称。URI形式。uri's的scheme需要由(fs.SCHEME.impl)指定文件系统实现类。 uri's的authority部分用来指定host, port等。默认是本地文件系统。

HA方式，这里设置服务名，例如：hdfs://mycluster1
HDFS的客户端访问HDFS需要此参数。
fs.trash.interval=0

以分钟为单位的垃圾回收时间，垃圾站中数据超过此时间，会被删除。如果是0，垃圾回收机制关闭。可以配置在服务器端和客户端。如果在服务器端配置trash无效，会检查客户端配置。如果服务器端配置有效，客户端配置会忽略。

建议开启，建议4320（3天）
垃圾回收站，如有同名文件被删除，会给文件顺序编号，例如：a.txt,a.txt(1)
fs.trash.checkpoint.interval=0

以分钟为单位的垃圾回收检查间隔。应该小于或等于fs.trash.interval。如果是0，值等同于fs.trash.interval。每次检查器运行，会创建新的检查点。

建议设置为60（1小时）
dfs.ha.fencing.methods=null

HDFS的HA功能的防脑裂方法。可以是内建的方法(例如shell和sshfence)或者用户定义的方法。建议使用sshfence(hadoop:9922)，括号内的是用户名和端口，注意，这需要NN的2台机器之间能够免密码登陆

fences是防止脑裂的方法，保证NN中仅一个是Active的，如果2者都是Active的，新的会把旧的强制Kill。
dfs.ha.fencing.ssh.private-key-files=null

使用sshfence时，SSH的私钥文件。使用了sshfence，这个必须指定
ha.zookeeper.quorum=null

Ha功能，需要一组zk地址，用逗号分隔。被ZKFailoverController使用于自动失效备援failover。
ha.zookeeper.session-timeout.ms=5000

ZK连接超时。ZKFC连接ZK时用。设置一个小值可以更快的探测到服务器崩溃（crash),但也会更频繁的触发失效备援，在传输错误或者网络不畅时。建议10s-30s
hadoop.http.staticuser.user=dr.who

在网页界面访问数据使用的用户名。默认值是一个不真实存在的用户，此用户权限很小，不能访问不同用户的数据。这保证了数据安全。也可以设置为hdfs和hadoop等具有较高权限的用户，但会导致能够登陆网页界面的人能看到其它用户数据。实际设置请综合考虑。如无特殊需求。使用默认值就好
fs.permissions.umask-mode=22

在创建文件和目录时使用此umask值（用户掩码）。类linux上的文件权限掩码。可以使用8进制数字也可以使用符号，例如："022" (8进制，等同于以符号表示的u=rwx,g=r-x,o=r-x)，或者"u=rwx,g=rwx,o="(符号法，等同于8进制的007)。注意，8进制的掩码，和实际权限设置值正好相反，建议使用符号表示法，描述更清晰
io.native.lib.available=true

是否启动Hadoop的本地库，默认启用。本地库可以加快基本操作，例如IO，压缩等。
hadoop.http.filter.initializers=org.apache.hadoop.http.lib.StaticUserWebFilter

Hadoop的Http服务中，用逗号分隔的一组过滤器类名，每个类必须扩展自org.apache.hadoop.http.FilterInitializer。这些组件被初始化，应用于全部用户的JSP和Servlet页面。列表中定义的顺序就是过滤器被调用的顺序。
hadoop.security.authentication

安全验证规则，可以是simple和kerberos。simple意味着不验证。
hadoop.security.group.mapping=org.apache.hadoop.security.JniBasedUnixGroupsMappingWithFallback

user到group的映射类。ACL用它以给定user获取group。默认实现是 org.apache.hadoop.security.JniBasedUnixGroupsMappingWithFallback, 如果JNI有效，它将发挥作用，使用Hadoop的API去获取user的groups列表。如果JNI无效，会使用另一个基于shell的实现, ShellBasedUnixGroupsMapping。这个实现是基于Linux、Unix的shell的环境。
hadoop.security.groups.cache.secs=300

user到gourp映射缓存的有效时间。如果超时，会再次调用去获取新的映射关系然后缓存起来。
hadoop.security.service.user.name.key=null

如果相同的RPC协议被多个Server实现，这个配置是用来指定在客户端进行RPC调用时，使用哪个principal name去联系服务器。不建议使用
hadoop.security.uid.cache.secs=14400

安全选项。不建议使用
hadoop.rpc.protection=authentication

rpc连接保护。可取的值有authentication（认证）, integrity（完整） and privacy（隐私）。不建议使用
hadoop.work.around.non.threadsafe.getpwuid=false

一些系统已知在调用getpwuid_r和getpwgid_r有问题，这些调用是非线程安全的。这个问题的主要表现特征是JVM崩溃。如果你的系统有这些问题，开启这个选项。默认是关闭的。
hadoop.kerberos.kinit.command=kinit

用来定期的向Hadoop提供新的Kerberos证书。所提供命令需要能够在运行Hadoop客户端的用户路径中查找到，否则，请指定绝对路径。不建议使用
hadoop.security.auth_to_local=null

映射kerberos principals（代理人）到本地用户名
io.bytes.per.checksum=512

每次进行校验和检查的字节数。一定不能大于io.file.buffer.size.
io.skip.checksum.errors=FALSE

是否跳过校验和错误，默认是否，校验和异常时会抛出错误。
io.serializations=org.apache.hadoop.io.serializer.WritableSerialization,org.apache.hadoop.io.serializer.avro.AvroSpecificSerialization,org.apache.hadoop.io.serializer.avro.AvroReflectSerialization

序列化类列表，可以被用来获取序列化器和反序列化器（serializers and deserializers）。
io.seqfile.local.dir=${hadoop.tmp.dir}/io/local

本地文件目录。sequence file在merge过程中存储内部数据的地方。可以是逗号分隔的一组目录。最好在不同磁盘以分散IO。实际不存在的目录会被忽略。
io.map.index.skip=0

跳过的索引实体数量在entry之间。默认是0。设置大于0的值可以用更少的内存打开大MapFiles。注意：MpaFile是一组Sequence文件，是排序后的，带内部索引的文件
io.map.index.interval=128

MapFile包含两个文件，数据文件和索引文件。每io.map.index.interval个记录写入数据文件，一条记录(行key，数据文件位置)写入索引文件。
fs.default.name=file:///

过时。使用(fs.defaultFS)代替
fs.AbstractFileSystem.file.impl=org.apache.hadoop.fs.local.LocalFs

文件系统实现类：file
fs.AbstractFileSystem.hdfs.impl=org.apache.hadoop.fs.Hdfs

文件系统实现类：hdfs
fs.AbstractFileSystem.viewfs.impl=org.apache.hadoop.fs.viewfs.ViewFs

文件系统实现类：viewfs (例如客户端挂载表)。

在实现federation特性时，客户端可以部署此系统，方便同时访问多个nameservice
fs.ftp.host=0.0.0.0

非Hdfs文件系统设置。暂不关注
fs.ftp.host.port=21

非Hdfs文件系统设置。暂不关注
fs.df.interval=60000

磁盘使用统计刷新间隔，以毫秒为单位
fs.s3.block.size=67108864

非Hdfs文件系统设置。暂不关注
fs.s3.buffer.dir=${hadoop.tmp.dir}/s3

非Hdfs文件系统设置。暂不关注
fs.s3.maxRetries=4

非Hdfs文件系统设置。暂不关注
fs.s3.sleepTimeSeconds=10

非Hdfs文件系统设置。暂不关注
fs.automatic.close=true

默认的，文件系统实例在程序退出时自动关闭，通过JVM shutdown hook方式。可以把此属性设置为false取消这种操作。这是一个高级选项，需要使用者特别关注关闭顺序。不要关闭
fs.s3n.block.size=67108864

非Hdfs文件系统设置。暂不关注
io.seqfile.compress.blocksize=1000000

SequenceFiles以块压缩方式压缩时，块大小大于此值时才启动压缩。
io.seqfile.lazydecompress=TRUE

懒惰解压，仅在必要时解压，仅对块压缩的SequenceFiles有效。
io.seqfile.sorter.recordlimit=1000000

在SequenceFiles.Sorter spill过程中，保存在内存中的记录数
io.mapfile.bloom.size=1048576

在BloomMapFile使用的布隆过滤器内存大小。
io.mapfile.bloom.error.rate=0.005

BloomMapFile中使用布隆过滤器失败比率. 如果减少这个值，使用的内存会成指数增长。
hadoop.util.hash.type=murmur

默认Hash算法实现. 'murmur':MurmurHash, 'jenkins':JenkinsHash.
ipc.client.idlethreshold=4000

连接数阀值，超过此值，需要进行空闲连接检查
ipc.client.kill.max=10

定义客户端最大数量，超过会被断开连接
ipc.client.connection.maxidletime=10000

毫秒，最大时间，超过后客户端会断开和服务器的连接。
ipc.client.connect.max.retries=10

客户端连接重试次数。
ipc.client.connect.max.retries.on.timeouts=45

在连接超时后，客户端连接重试次数
ipc.server.listen.queue.size=128

定义服务器端接收客户端连接的监听队列长度
ipc.server.tcpnodelay=false

在服务器端开启/关闭Nagle's算法，此算法可以延迟小数据包发送，从而达到网络流量更有效利用。但是这对小数据包是不利的。默认关闭。建议false，即开启Nagle算法
ipc.client.tcpnodelay=false

参考ipc.server.tcpnodelay，客户端参数。或许可以考虑关闭Nagle算法，增加客户端响应速度
hadoop.rpc.socket.factory.class.default=org.apache.hadoop.net.StandardSocketFactory

高级选项，暂不考虑
hadoop.rpc.socket.factory.class.ClientProtocol=null

高级选项，暂不考虑
hadoop.socks.server=null

高级选项，暂不考虑
net.topology.node.switch.mapping.impl=org.apache.hadoop.net.ScriptBasedMapping

机架感知实现类。
net.topology.script.file.name=null

配合ScriptBasedMapping使用。脚本文件。此脚本文件，输入是ip地址，输出是机架路径。
net.topology.script.number.args=100

机架感知脚本文件的参数最大数量。脚本每次运行被传递的参数，每个参数是一个ip地址
net.topology.table.file.name=null

在net.topology.script.file.name被设置为 org.apache.hadoop.net.TableMapping时，可以使用此配置。文件格式是一个有两个列的文本文件，使用空白字符分隔。第一列是DNS或IP地址，第二列是机架路径。如无指定，使用默认机架（/default-rack）
file.stream-buffer-size=4096

非hdfs文件系统，暂不关注
s3.stream-buffer-size=4096

非hdfs文件系统，暂不关注
kfs.stream-buffer-size=4096

非hdfs文件系统，暂不关注
ftp.stream-buffer-size=4096

非hdfs文件系统，暂不关注
tfile.io.chunk.size=1048576

非hdfs文件系统，暂不关注
hadoop.http.authentication.type=simple

Oozie Http终端安全验证。可选值：simple | kerberos |#AUTHENTICATION_HANDLER_CLASSNAME#

建议simple，关闭验证
hadoop.http.authentication.token.validity=36000

安全选项。暂不关注
hadoop.http.authentication.signature.secret.file=${user.home}/hadoop-http-auth-signature-secret

安全选项。暂不关注
hadoop.http.authentication.cookie.domain=null

安全选项。暂不关注
hadoop.http.authentication.simple.anonymous.allowed=TRUE

安全选项。暂不关注
hadoop.http.authentication.kerberos.principal=HTTP/_HOST@LOCALHOST

安全选项。暂不关注
hadoop.http.authentication.kerberos.keytab=${user.home}/hadoop.keytab

安全选项。暂不关注
dfs.ha.fencing.ssh.connect-timeout=30000

SSH连接超时，毫秒，仅适用于内建的sshfence fencer。
ha.zookeeper.parent-znode=/hadoop-ha

ZK失效备援功能，需要在ZK上创建节点，这里是根节点的名称。ZKFC会在这下面工作。注意，NameService ID会被写到此节点下，所以即便是开启federation功能，也仅需要指定一个值。
ha.zookeeper.acl=world:anyone:rwcda

ZKFC创建的ZK节点的访问控制权限设置。可以多个，逗号分隔。此设置和ZK的CLI使用相同的格式。
ha.zookeeper.auth=null

ZK操作时的权限验证。
hadoop.ssl.keystores.factory.class=org.apache.hadoop.security.ssl.FileBasedKeyStoresFactory

安全选项。暂不关注
hadoop.ssl.require.client.cert=FALSE

安全选项。暂不关注
hadoop.ssl.hostname.verifier=DEFAULT

安全选项。暂不关注
hadoop.ssl.server.conf=ssl-server.xml

安全选项。暂不关注
hadoop.ssl.client.conf=ssl-client.xml

安全选项。暂不关注
hadoop.ssl.enabled=FALSE

安全选项。暂不关注
hadoop.jetty.logs.serve.aliases=TRUE

是否允许在Jetty中使用别名服务。
ha.health-monitor.connect-retry-interval.ms=1000

HA功能的健康监控连接重试间隔
ha.health-monitor.check-interval.ms=1000

HA功能的健康监控连接间隔
ha.health-monitor.sleep-after-disconnect.ms=1000

HA功能的健康监控，在因网络问题失去连接后休眠多久。用于避免立即重试，此时网络问题仍在，没有意义
ha.health-monitor.rpc-timeout.ms=45000

HA功能健康监控的超时时间，毫秒
ha.failover-controller.new-active.rpc-timeout.ms=60000

FC等待新的NN变成active状态的超时时间。
ha.failover-controller.graceful-fence.rpc-timeout.ms=5000

FC等待旧的active变成standby的超时时间。
ha.failover-controller.graceful-fence.connection.retries=1

FC在做完美隔离是的连接重试次数（graceful fencing）
ha.failover-controller.cli-check.rpc-timeout.ms=20000

手动运行的FC功能（从CLI）等待健康检查、服务状态的超时时间。

hdfs-default.xml

hadoop.hdfs.configuration.version=1

配置文件的版本
dfs.datanode.address=0.0.0.0:50010

DN服务地址和端口，用于数据传输。0表示任意空闲端口。
```
 
```
1. xferPort dfs.datanode.address 50010 数据流地址数据传输
2. infoPort dfs.datanode.http.address 50075
3. ipcPort dfs.datanode.ipc.address 50020 命令
dfs.datanode.http.address=0.0.0.0:50075

DN的HTTP服务地址和端口。0表示任意空闲端口。
dfs.datanode.ipc.address=0.0.0.0:50020

DN的IPC地址和端口。0表示任意空闲端口。
dfs.namenode.rpc-address=0.0.0.0:50090

NN的RPC地址和端口
dfs.namenode.http-address=0.0.0.0:50070

NN的HTTP地址和端口。0表示任意空闲端口。
dfs.datanode.du.reserved=0

每个磁盘（volume）的保留空间，字节。要注意留足够的空间给非HDFS文件使用。建议保留磁盘容量的5%或者50G以上
dfs.namenode.name.dir.restore=FALSE

设置为true，允许NN尝试恢复之前失败的dfs.namenode.name.dir目录。在创建checkpoint是做此尝试。如果设置多个磁盘，建议允许
dfs.namenode.edits.dir=${dfs.namenode.name.dir}

本地文件，NN存放edits文件的目录。可以是逗号分隔的目录列表。edits文件会存储在每个目录，冗余安全。
dfs.namenode.shared.edits.dir=null

在多个NN中共享存储目录，用于存放edits文件。这个目录，由active写，由standby读，以保持命名空间数据一致。此目录不需要是dfs.namenode.edits.dir中列出的。在非HA集群中，它不会使用。建议使用qj方式，可以不关注这个选项
dfs.namenode.edits.journal-plugin.qjournal=org.apache.hadoop.hdfs.qjournal.client.QuorumJournalManager

qj方式共享edits。建议使用此方式
dfs.permissions.enabled=true

是否在HDFS中开启权限检查。
dfs.permissions.superusergroup=supergroup

超级用户组。仅能设置一个。
dfs.datanode.data.dir=file://${hadoop.tmp.dir}/dfs/data

本地磁盘目录，HDFS数据应该存储Block的地方。可以是逗号分隔的目录列表（典型的，每个目录在不同的磁盘）。这些目录被轮流使用，一个块存储在这个目录，下一个块存储在下一个目录，依次循环。每个块在同一个机器上仅存储一份。不存在的目录被忽略。必须创建文件夹，否则被视为不存在。
dfs.replication=3

数据块副本数。此值可以在创建文件是设定，客户端可以只有设定，也可以在命令行修改。不同文件可以有不同的副本数。默认值用于未指定时。
dfs.replication.max=512

最大块副本数，不要大于节点总数。
dfs.namenode.replication.min=1

最小块副本数。在上传文件时，达到最小副本数，就认为上传是成功的
dfs.blocksize=67108864

块大小，字节。可以使用后缀: k(kilo), m(mega), g(giga), t(tera), p(peta), e(exa)指定大小 (就像128k, 512m, 1g, 等待)。
dfs.client.block.write.retries=3

客户端写数据到DN时，最大重试次数。超过重试次数就会报出错误。
dfs.client.block.write.replace-datanode-on-failure.enable=true

在进行pipeline写数据（上传数据的方式）时，如果DN或者磁盘故障，客户端将尝试移除失败的DN，然后写到剩下的磁盘。一个结果是，pipeline中的DN减少了。这个特性是添加新的DN到pipeline。这是一个站点范围的选项。当集群规模非常小时，例如3个或者更小，集群管理者可能想要禁止掉此特性。
dfs.client.block.write.replace-datanode-on-failure.policy=DEFAULT

此属性仅在dfs.client.block.write.replace-datanode-on-failure.enable设置为true时有效。
- ALWAYS: 总是添加新的DN
  - NEVER: 从不添加新的DN
  - DEFAULT: 设r是副本数，n是要写的DN数。在r>=3并且floor(r/2)>=n或者r>n(前提是文件是hflushed/appended)时添加新的DN。
dfs.heartbeat.interval=3

DN的心跳间隔，秒
dfs.namenode.handler.count=10

NN的服务线程数。用于处理RPC请求。
dfs.namenode.safemode.threshold-pct=0.999f

数据进入安全模式阀值，百分比，float形式，数据块达到最小副本数（dfs.namenode.replication.min）的百分比。值小于等于0意味着在退出安全模式前不等待数据修复。大于1的值将导致无法离开安全模式。
dfs.namenode.safemode.extension=30000

安全模式扩展存在时间，在需要的阀值达到后，毫秒。可以设置为0，或者比较短的一个时间，例如3秒
dfs.datanode.balance.bandwidthPerSec=1048576

在做数据平衡时，每个DN最大带宽占用，每秒字节。默认值是1M。建议可以到10M
dfs.hosts=null

文件名，包含了一个host列表，允许列表内机器连到NN。必须指定完整路径。如果值为空，全部hosts都允许连入。
dfs.hosts.exclude=null

文件名，包含了一个hosts列表，不允许列表内机器连到NN。必须指定完整路径。如果值为空。没有host被禁止。如果上述2个都设置并且有重合，dfs.hosts中优先级高。
dfs.stream-buffer-size=4096

文件流缓存大小。需要是硬件page大小的整数倍。在读写操作时，数据缓存大小。注意和core-default.xml中指定文件类型的缓存是不同的，这个是dfs共用的
dfs.namenode.num.extra.edits.retained=1000000

除最小的必须的editlog之外，额外保留的editlog文件数量。这是有用的，可以用于审核目的，或者HA设置一个远程Standby节点并且有时可能离线时，都需要保留一个较长的backlog。

典型的，每个edit大约几百字节，默认的1百万editlog大约有百兆到1G。注意：早先的extra edits文件可能操作这里设置的值，因为还有其它选项，例如dfs.namenode.max.extra.edits.segments.retained

建议值：2200，约3天的
dfs.datanode.handler.count=10

DN的服务线程数。这些线程仅用于接收请求，处理业务命令
dfs.datanode.failed.volumes.tolerated=0

可以接受的卷的失败数量。默认值0表示，任一个卷失败都会导致DN关闭。

建议设置此值，避免个别磁盘问题。如果此值超过真实磁盘数，将会报错，启动失败
dfs.namenode.support.allow.format=true

NN是否允许被格式化？在生产系统，把它设置为false，阻止任何格式化操作在一个运行的DFS上。

建议初次格式化后，修改配置禁止
dfs.client.failover.max.attempts=15

专家设置。客户端失败重试次数。
dfs.client.failover.connection.retries=0

专家设置。IPC客户端失败重试次数。在网络不稳定时建议加大此值
dfs.client.failover.connection.retries.on.timeouts=0

专家设置。IPC客户端失败重试次数，此失败仅指超时失败。在网络不稳定时建议加大此值
dfs.nameservices=null

nameservices列表。逗号分隔。

我们常用的仅配置一个，启动federation功能需要配置多个
dfs.nameservice.id=null

nameservice id，如果没有配置或者配置多个，由匹配到的本地节点地址配置的IP地址决定。我们进配置一个NS的情况下，建议这里不配置
dfs.ha.namenodes.EXAMPLENAMESERVICE=null

包含一个NN列表。EXAMPLENAMESERVICE是指具体的nameservice名称，通常就是dfs.nameservices中配置的。值是预备配置的NN的ID。

ID是自己取的，不重复就可以，例如nn1,nn2
dfs.ha.namenode.id=null

NN的ID，如果没有配置，由系统决定。通过匹配本地节点地址和配置的地址。

这里设置的是本机的NN的ID（此配置仅对NN生效），由于要配置2个NN，建议没有特殊需要，这里不进行配置
dfs.ha.automatic-failover.enabled=FALSE

是否开启自动故障转移。建议开启，true
dfs.namenode.avoid.write.stale.datanode=FALSE

决定是否避开在脏DN上写数据。写操作将会避开脏DN，除非超过一个配置的比率 (dfs.namenode.write.stale.datanode.ratio)。

尝试开启
dfs.journalnode.rpc-address=0.0.0.0:8485

JournalNode RPC服务地址和端口
dfs.journalnode.http-address=0.0.0.0:8480

JournalNode的HTTP地址和端口。端口设置为0表示随机选择。
dfs.namenode.audit.loggers=default

审查日志的实现类列表，能够接收audit事件。它们需要实现 org.apache.hadoop.hdfs.server.namenode.AuditLogger接口。默认值"default"可以用于引用默认的audit logger，它使用配置的日志系统。安装客户自己的audit loggers可能影响NN的稳定性和性能。

建议default，开启
dfs.client.socket-timeout=60*1000
dfs.datanode.socket.write.timeout=8*60*1000
dfs.datanode.socket.reuse.keepalive=1000
dfs.namenode.logging.level=info

DFS的NN的日志等级。值可以是：info，dir(跟踪命名空间变动)，"block" (跟踪块的创建删除，replication变动)，或者"all".
dfs.namenode.secondary.http-address=0.0.0.0:50090

SNN的http服务地址。如果是0，服务将随机选择一个空闲端口。使用了HA后，就不再使用SNN了
dfs.https.enable=FALSE

允许HDFS支持HTTPS(SSL)。建议不支持
dfs.client.https.need-auth=FALSE

安全选项，暂不关注
dfs.https.server.keystore.resource=ssl-server.xml

安全选项，暂不关注
dfs.client.https.keystore.resource=ssl-client.xml

安全选项，暂不关注
dfs.datanode.https.address=0.0.0.0:50475

安全选项，暂不关注
dfs.namenode.https-address=0.0.0.0:50470

安全选项，暂不关注
dfs.datanode.dns.interface=default

DN汇报它的IP地址的网卡。我们给DN指定了0.0.0.0之类的地址，这个地址需要被解析成对外地址，这里指定的是网卡名，即那个网卡上绑定的IP是可以对外的IP，一般的，默认值就足够了
dfs.datanode.dns.nameserver=default

DNS的域名或者IP地址。DN用它来确定自己的域名，在对外联系和显示时调用。一般的，默认值就足够了
dfs.namenode.backup.address=0.0.0.0:50100

NN的BK节点地址和端口，0表示随机选用。使用HA，就不需要关注此选项了。建议不使用BK节点
dfs.namenode.backup.http-address=0.0.0.0:50105

使用HA，就不需要关注此选项了。建议不使用BK节点
dfs.namenode.replication.considerLoad=true

设定在选择存放目标时是否考虑负载。需要
dfs.default.chunk.view.size=32768

在浏览器中查看一个文件时，可以看到的字节数。
dfs.namenode.name.dir=file://${hadoop.tmp.dir}/dfs/name

本地磁盘目录，NN存储fsimage文件的地方。可以是按逗号分隔的目录列表，fsimage文件会存储在全部目录，冗余安全。这里多个目录设定，最好在多个磁盘，另外，如果其中一个磁盘故障，不会导致系统故障，会跳过坏磁盘。由于使用了HA，建议仅设置一个。如果特别在意安全，可以设置2个
dfs.namenode.fs-limits.max-component-length=0

路径中每个部分的最大字节长度（目录名，文件名的长度）。0表示不检查长度。长文件名影响性能
dfs.namenode.fs-limits.max-directory-items=0

设置每个目录最多拥有多少个子目录或者文件。0表示无限制。同一目录下子文件和目录多影响性能
dfs.namenode.fs-limits.min-block-size=1048576

最小的Block大小，字节。在NN创建时强制验证。避免用户设定过小的Block Size，导致过多的Block，这非常影响性能。
dfs.namenode.fs-limits.max-blocks-per-file=1048576

每个文件最大的Block数。在NN写时强制检查。用于防止创建超大文件。
dfs.block.access.token.enable=FALSE

访问DN时是否验证访问令牌。建议false，不检查
dfs.block.access.key.update.interval=600

安全选项，暂不关注
dfs.block.access.token.lifetime=600

安全选项，暂不关注
dfs.datanode.data.dir.perm=700

本地数据目录权限设定。8进制或者符号方式都可以。
dfs.blockreport.intervalMsec=21600000

数据块汇报间隔，毫秒，默认是6小时。
dfs.blockreport.initialDelay=0

第一次数据块汇报时延迟，秒。目的是减轻NN压力？
dfs.datanode.directoryscan.interval=21600

DN的数据块扫描间隔，秒。磁盘上数据和内存中数据调整一致。
dfs.datanode.directoryscan.threads=1

线程池要有多少线程用来并发的压缩磁盘的汇报数据。
dfs.namenode.safemode.min.datanodes=0

NN收到回报的DN的数量的最小值，达不到此值，NN不退出安全模式。（在系统启动时发生作用）。<=0的值表示不关心DN数量，在启动时。大于DN实际数量的值会导致无法离开安全模式。建议不设置此值
dfs.namenode.max.objects=0

DFS支持的最大文件、目录、数据块数量。0无限制。
dfs.namenode.decommission.interval=30

NN周期性检查退役是否完成的间隔，秒。
dfs.namenode.decommission.nodes.per.interval=5

NN检查退役是否完成，每dfs.namenode.decommission.interval秒检查的节点数量。
dfs.namenode.replication.interval=3

NN周期性计算DN的副本情况的频率，秒。
dfs.namenode.accesstime.precision=3600000

HDFS文件的访问时间精确到此值，默认是1小时。0表示禁用访问时间。
dfs.datanode.plugins=null

DN上的插件列表，逗号分隔。
dfs.namenode.plugins=null

NN上的插件列表，逗号分隔。
dfs.bytes-per-checksum=512

每次计算校验和的字节数。一定不能大于dfs.stream-buffer-size。
dfs.client-write-packet-size=65536

客户端写数据时的包的大小。包是块中的更小单位数据集合
dfs.client.write.exclude.nodes.cache.expiry.interval.millis=600000

最大周期去让DN保持在例外节点队列中。毫秒。操过此周期，先前被排除的DN将被移除缓存并被尝试再次申请Block。默认为10分钟。
dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary

本地文件系统中，DFS SNN应该在哪里存放临时[用于合并|合并后]（to merge）的Image。如果是逗号分隔的目录列表，Image文件存放多份。冗余备份。建议不使用SNN功能，忽略此配置
dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}

建议不使用SNN功能，忽略此配置
dfs.namenode.checkpoint.period=3600

建议不使用SNN功能，忽略此配置
dfs.namenode.checkpoint.txns=1000000

建议不使用SNN功能，忽略此配置
dfs.namenode.checkpoint.check.period=60

建议不使用SNN功能，忽略此配置
dfs.namenode.checkpoint.max-retries=3

建议不使用SNN功能，忽略此配置
dfs.namenode.num.checkpoints.retained=2
建议不使用SNN功能，忽略此配置
dfs.namenode.num.extra.edits.retained=1000000

数量限制，额外的edits事务数。
dfs.namenode.max.extra.edits.segments.retained=10000

extra edit日志文件segments的最大数量。除了用于NN重启时的最小edits文件之外。一个segments包含多个日志文件
dfs.namenode.delegation.key.update-interval=86400000

NN中更新主代理令牌的时间间隔，毫秒。安全选项，不关注
dfs.namenode.delegation.token.max-lifetime=604800000

NN中更新主代理令牌的时间间隔，毫秒。安全选项，不关注
dfs.namenode.delegation.token.renew-interval=86400000

NN中更新主代理令牌的时间间隔，毫秒。安全选项，不关注
dfs.image.compress=FALSE

Image文件要压缩吗？
dfs.image.compression.codec=org.apache.hadoop.io.compress.DefaultCodec

Image文件压缩编码。必须是在io.compression.codecs中定义的编码。
dfs.image.transfer.timeout=600000

Image文件传输时超时。HA方式使用不到，可不关注
dfs.image.transfer.bandwidthPerSec=0

Image文件传输时可以使用的最大带宽，秒字节。0表示没有限制。HA方式使用不到，可不关注
dfs.datanode.max.transfer.threads=4096

= 旧参数 dfs.datanode.max.xcievers DN上传送数据出入的最大线程数。
dfs.datanode.readahead.bytes=4193404

预读磁盘数据。如果Hadoop本地库生效，DN可以调用posix_fadvise系统获取页面数据到操作系统的缓存中。这个配置指定读取当前读取位置之前的字节数。设置为0，取消此功能。无本地库，此功能也无效。？
dfs.datanode.drop.cache.behind.reads=FALSE

在有些场景下，特别是对一些大的，并且不可能重用的数据，缓存在操作系统的缓存区是无用的。此时，DN可以配置自动清理缓存区数据，在已经发生向客户端之后。此功能自动失效，在读取小数据片时。(例如HBase的随机读写场景）。通过释放缓存，这在某些场景下可以提高性能。Hadoop本地库无效，此功能无效。看起来是一个可以尝试的特性
dfs.datanode.drop.cache.behind.writes=FALSE

同dfs.datanode.drop.cache.behind.reads相似。
dfs.datanode.sync.behind.writes=FALSE

如果是true，在写之后，DN将指示操作系统把队列中数据全部立即写磁盘。和常用的OS策略不同，它们可能在触发写磁盘之前等待30秒。Hadoop本地库无效，此功能无效。
dfs.client.failover.sleep.base.millis=500

专家设置。失败重试间的等待时间，毫秒。这里的值是个基本值，实际值会根据失败/成功次数递增/递减50%。第一次失败会立即重试。第二次将延迟至少dfs.client.failover.sleep.base.millis毫秒。依次类推。
dfs.client.failover.sleep.max.millis=15000

专家设置。失败重试见的等待时间最大值，毫秒。
dfs.ha.log-roll.period=120

StandbyNode要求Active滚动EditLog，由于StandBy只能从已经完成的Log Segments中读，所以Standby上的数据新鲜程度依赖于以如何的频率滚动日志。秒。另外，故障转移也会触发一次日志滚动，所以StandbyNode在Active之前，数据也会更新成最新的。秒，默认是2分钟。
dfs.ha.tail-edits.period=60

StandbyNode以此频率检测共享目录中最新的日志，秒。
dfs.ha.zkfc.port=8019

zkfc的rpc端口
dfs.support.append=TRUE

是否允许append。
dfs.client.use.datanode.hostname=FALSE

是否客户端应该使用DN的HostName，在连接DN时，默认是使用IP。
dfs.datanode.use.datanode.hostname=FALSE

是否DN应该使用HostName连接其它DN，在数据传输时。默认是是IP。
dfs.client.local.interfaces=null

逗号分隔的网卡列表，用于在客户端和DN之间传输数据时。当创建连接时，客户端随机选择一个并绑定它的socket到这个网卡的IP上。名字可以以网卡名(例如 "eth0"), 子网卡名 (eg "eth0:0"), 或者IP地址(which may be specified using CIDR notation to match a range of IPs)。
dfs.namenode.kerberos.internal.spnego.principal=${dfs.web.authentication.kerberos.principal}

安全选项，暂不关注
dfs.secondary.namenode.kerberos.internal.spnego.principal=${dfs.web.authentication.kerberos.principal}

安全选项，暂不关注
dfs.namenode.avoid.read.stale.datanode=FALSE

决定是否避开从脏DN上读数据。脏DN指在一个指定的时间间隔内没有收到心跳信息。脏DN将被移到可以读取节点列表的尾端。尝试开启
dfs.namenode.stale.datanode.interval=30000

标记一个DN是脏的时间间隔。例如，如果NN在此设定的时间内没有接收到来自某一个节点的心跳信息，此DN将被标记为脏的。此间隔不能太小，否则容易导致被频繁的标记为脏DN。

我们建议是1分钟
dfs.namenode.write.stale.datanode.ratio=0.5f

当全部DN被标记为脏DN的比率高于此阀值，停止不写数据到脏DN的策略，以免造成热点问题（有效的，可写的DN太少，压力太大）。
dfs.namenode.invalidate.work.pct.per.iteration=0.32f

高级属性。改变需小心。
dfs.namenode.replication.work.multiplier.per.iteration=2

高级属性。改变需小心。
dfs.webhdfs.enabled=FALSE

在NN和DN上开启WebHDFS (REST API)功能。

可以开启尝试
hadoop.fuse.connection.timeout=300

秒，在fuse_dfs中缓存libhdfs连接对象的超时时间。小值使用内存小。大值可以加快访问，通过避开创建新的连接对象。
hadoop.fuse.timer.period=5

秒
dfs.metrics.percentiles.intervals=null

Comma-delimited set of integers denoting the desired rollover intervals (in seconds) for percentile latency metrics on the Namenode and Datanode. By default, percentile latency metrics are disabled.
dfs.encrypt.data.transfer=FALSE

是否加密传输数据？仅需要配置在NN和DN。客户端可以自行判断。
dfs.encrypt.data.transfer.algorithm=null

可以设置为"3des"或"rc4"。否则使用默认的，通常是usually 3DES。3DES更安全，RC4更快。
dfs.datanode.hdfs-blocks-metadata.enabled=TRUE

布尔值，设定后台DN端是否支持DistributedFileSystem#getFileVBlockStorageLocations API。
dfs.client.file-block-storage-locations.num-threads=10

在调用DistributedFileSystem#getFileBlockStorageLocations()的并发RPC的线程数
dfs.client.file-block-storage-locations.timeout=60

Timeout (in seconds) for the parallel RPCs made in DistributedFileSystem#getFileBlockStorageLocations().
dfs.domain.socket.path=/var/run/hadoop-hdfs/dn._PORT

可选选项。socket文件路径，unix下。用来在DN和本地的HDFS客户端加快网络连接。如果字符串"_PORT"出现在路径中，它将被DN的TCP端口替换。

yarn-default.xml

yarn.app.mapreduce.am.env=null
用户为MR AM添加环境变量。例如：
1. A=foo 设置环境变量A为foo
2. B=$B:c 继承并设置TT内的B变量
yarn.app.mapreduce.am.command-opts=-Xmx1024m
MR AM的Java opts。如下符号会被替换：
- @taskid@ 被替换成当前的TaskID。其它出现的'@'不会改变。例如，为了让gc日志能够按task打印存储在/tmp目录，可以设置'value'为：-Xmx1024m -verbose:gc -Xloggc:/tmp/@[email protected]
- 如果hadoop本地库可以使用，使用-Djava.library.path参数可能造成程序的此功能无效。这个值应该被替换，设置在MR的JVM环境中LD_LIBRARY_PATH变量中，使用 mapreduce.map.env和mapreduce.reduce.env配置项。
yarn.app.mapreduce.am.resource.mb=1536

AM申请的内存
yarn.resourcemanager.address=0.0.0.0:8032

RM地址:端口
yarn.resourcemanager.scheduler.address=0.0.0.0:8030

调度器地址：端口
yarn.admin.acl=*

ACL中谁可以管理YARN集群
yarn.resourcemanager.admin.address=0.0.0.0:8033

RM管理接口地址：端口
yarn.resourcemanager.am.max-retries=1

AM重试最大次数。服务端参数。重启生效。

建议4
yarn.resourcemanager.nodes.include-path=null

存储有效节点列表的文件
yarn.resourcemanager.nodes.exclude-path=null

存储拒绝节点列表的文件。如和包含文件冲突，包含文件优先级高
yarn.resourcemanager.scheduler.class=org.apache.hadoop.yarn.server.resourcemanager.scheduler.fifo.FifoScheduler

调度器实现类。

建议使用公平调度器
yarn.scheduler.minimum-allocation-mb=1024

每个container想RM申请内存的最小大小。兆字节。内存请求小于此值，实际申请到的是此值大小。默认值偏大
yarn.scheduler.maximum-allocation-mb=8192

每个container向RM申请内存的最大大小，兆字节。申请值大于此值，将最多得到此值内存。
yarn.resourcemanager.recovery.enabled=FALSE

是否启动RM的状态恢复功能。如果true，必须指定yarn.resourcemanager.store.class。尝试启用
yarn.resourcemanager.store.class=null

用于持久存储的类。尝试开启
yarn.resourcemanager.max-completed-applications=10000

RM中保存的最大完成的app数量。内存中存储。
yarn.nodemanager.address=0.0.0.0:0

NM中的container管理器的地址：端口
yarn.nodemanager.env-whitelist=JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,YARN_HOME

container应该覆盖而不是使用NM的环境变量名单。允许container自己配置的环境变量
yarn.nodemanager.delete.debug-delay-sec=0

秒，一个app完成后，NM删除服务将删除app的本地文件目录和日志目录。为了诊断问题，把这个选项设置成足够大的值（例如，设置为10分钟），可以继续访问这些目录。设置此选项，需要重启NM。Yarn应用的工作目录根路径是yarn.nodemanager.local-dirs，Yarn应用日志目录的根路径是yarn.nodemanager.log-dirs。

调试问题时可用
yarn.nodemanager.local-dirs=${hadoop.tmp.dir}/nm-local-dir

本地文件存储目录，列表。一个应用的本地文件目录定位方式：${yarn.nodemanager.local-dirs}/usercache/${user}/appcache/application_${appid}。每个container的工作目录，是此目录的子目录，目录名是container_${contid}。

非常重要，建议配置多个磁盘，平衡IO。
yarn.nodemanager.log-dirs=${yarn.log.dir}/userlogs

存储container日志的地方。一个应用的本地日志目录定位是：${yarn.nodemanager.log-dirs}/application_${appid}。每个container的日志目录在此目录下，名字是container_{$contid}。每个container目录中包含stderr, stdin, and syslog等container产生的文件

非常重要，建议配置多个磁盘
yarn.log-aggregation-enable=FALSE

是否允许日志汇聚功能。建议开启
yarn.log-aggregation.retain-seconds=-1

保存汇聚日志时间，秒，超过会删除，-1表示不删除。注意，设置的过小，将导致NN垃圾碎片。建议3-7天 = 7 * 86400 = 604800
yarn.nodemanager.log.retain-seconds=10800

保留用户日志的时间，秒。在日志汇聚功能关闭时生效。

建议7天
yarn.nodemanager.remote-app-log-dir=/tmp/logs

汇聚日志的地方，目录路径，HDFS系统。

对于开了权限检查的系统，注意权限问题。HDFS上。
yarn.nodemanager.remote-app-log-dir-suffix=logs

汇聚日志目录路径后缀。汇聚目录创建在{yarn.nodemanager.remote-app-log-dir}/${user}/{thisParam}
yarn.nodemanager.resource.memory-mb=8192

NM上可以用于container申请的物理内存大小，MB。
yarn.nodemanager.vmem-pmem-ratio=2.1

在设置container的内存限制时，虚拟内存到物理内存的比率。Container申请的内存如果超过此物理内存，可以以此比率获取虚拟内存用于满足需求。虚拟地址的是物理地址的倍数上限。建议设置的大点，例如：4.1，8.1，此虚拟内存并非内存，而是占用的虚拟地址。
yarn.nodemanager.webapp.address=0.0.0.0:8042

NM的网页界面地址和端口。
yarn.nodemanager.log-aggregation.compression-type=none

汇聚日志的压缩类型。汇聚日志是TFile格式文件。Hadoop-3315。可以使用的值有none,lzo,gz等。

可以尝试
yarn.nodemanager.aux-services=null

请配置为：mapreduce.shuffle，在Yarn上开启MR的必须项
yarn.nodemanager.aux-services.mapreduce.shuffle.class=org.apache.hadoop.mapred.ShuffleHandler

对应参考yarn.nodemanager.aux-services
mapreduce.job.jar=null

Job客户端参数。提交的job的jar文件。
mapreduce.job.hdfs-servers=${fs.defaultFS}

Job客户端参数。
yarn.application.classpath=$HADOOP_CONF_DIR,$HADOOP_COMMON_HOME/share/hadoop/common/,$HADOOP_COMMON_HOME/share/hadoop/common/lib/,$HADOOP_HDFS_HOME/share/hadoop/hdfs/,$HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/,$YARN_HOME/share/hadoop/yarn/*,$YARN_HOME/share/hadoop/yarn/lib/*

YARN应用的CLASSPATH，逗号分隔列表。
yarn.app.mapreduce.am.job.task.listener.thread-count=30

MR AM处理RPC调用的线程数。
yarn.app.mapreduce.am.job.client.port-range=null

MR AM能够绑定使用的端口范围。例如：50000-50050,50100-50200。如果你先要全部的有用端口，可以留空（默认值null）。
yarn.app.mapreduce.am.job.committer.cancel-timeout=60000

毫秒，如果job被kill了，等待output committer取消操作的时间。
yarn.app.mapreduce.am.scheduler.heartbeat.interval-ms=1000

MR AM发送心跳到RM的时间间隔，毫秒
yarn.app.mapreduce.client-am.ipc.max-retries=3

在重新连接RM获取Application状态前，客户端重试连接AM的次数。
yarn.app.mapreduce.client.max-retries=3

客户端重连RM/HS/AM的次数。这是基于ipc接口上的规则
yarn.ipc.client.factory.class=null

创建客户端IPC类的工厂类
yarn.ipc.serializer.type=protocolbuffers

使用哪种序列化类
yarn.ipc.server.factory.class=null

创建IPC服务类的工厂类
yarn.ipc.exception.factory.class=null

创建IPC异常的工厂类
yarn.ipc.record.factory.class=null

创建序列化记录的工厂类
yarn.ipc.rpc.class=org.apache.hadoop.yarn.ipc.HadoopYarnProtoRPC

RPC类实现类
yarn.resourcemanager.client.thread-count=50

RM用来处理客户端请求的线程数
yarn.am.liveness-monitor.expiry-interval-ms=600000

AM报告间隔，毫秒。？
yarn.resourcemanager.principal=null

安全选项
yarn.resourcemanager.scheduler.client.thread-count=50

调度器用于处理请求的线程数
yarn.resourcemanager.webapp.address=0.0.0.0:8088

RM的网页接口地址：端口
yarn.resourcemanager.resource-tracker.address=0.0.0.0:8031

？
yarn.acl.enable=TRUE

开启访问控制
yarn.resourcemanager.admin.client.thread-count=1

RM管理端口处理事务的线程数
yarn.resourcemanager.amliveliness-monitor.interval-ms=1000

RM检查AM存活的间隔
yarn.resourcemanager.container.liveness-monitor.interval-ms=600000

检查container存活的时间间隔，毫秒。建议短一些，例如3分钟
yarn.resourcemanager.keytab=/etc/krb5.keytab

安全选项
yarn.nm.liveness-monitor.expiry-interval-ms=600000

RM判断NM死亡的时间间隔。
非主动检查，被动等待，不连接时间超过此值
10分钟无检查到活动，判定NM死亡
yarn.resourcemanager.nm.liveness-monitor.interval-ms=1000

RM检查NM存活的时间间隔。
yarn.resourcemanager.resource-tracker.client.thread-count=50

处理资源跟踪调用的线程数。？
yarn.resourcemanager.delayed.delegation-token.removal-interval-ms=30000

安全选项
yarn.resourcemanager.application-tokens.master-key-rolling-interval-secs=86400

安全选项
yarn.resourcemanager.container-tokens.master-key-rolling-interval-secs=86400

安全选项
yarn.nodemanager.admin-env=MALLOC_ARENA_MAX=$MALLOC_ARENA_MAX

应该从NM传送到container的环境变量
yarn.nodemanager.container-executor.class=org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor

启动containers的类。
yarn.nodemanager.container-manager.thread-count=20

用于container管理的线程数
yarn.nodemanager.delete.thread-count=4

转载自：https://blog.csdn.net/weijie0917/article/details/52620611

你可能感兴趣的:(------,Hadoop,大数据)

金融行业数据安全指南，大数据时代不容忽视的底线！后端
金融数据：数字时代的“新石油”在大数据时代，金融行业正经历着一场深刻的变革。随着信息技术的飞速发展，金融数据量呈爆炸式增长，这些数据涵盖了客户信息、交易记录、市场行情等各个方面，成为了金融机构的关键资产，也被称为数字时代的“新石油”。以银行业为例，一家中等规模的商业银行每天产生的交易数据就可达数百万条，内容包括客户的存取款、转账汇款、消费支付等。这些数据不仅记录了客户的资金流动情况，还反映了客户的
Python语法总结彧侠脚本处理 Python
Python作为一种解释型的脚本语言，无论从自动化运维、大数据处理还是人工智能都得到了广泛的应用，而且它好理解、易学习、上手快的特点也使它成为了当下最火热的开发语言之一。下面就对Python语言中的各种语法做一个总结，以备后用数据类型一、整数二、浮点数三、字符串四、布尔值五、空值print语句注释什么是变量比如：定义字符串raw字符串与多行字符串Unicode字符串字符串还有一个编码问题。整数和浮
搭建单机伪分布式Hadoop+spark+scala 啥也不会0-0 分布式 hadoop spark
目录一、准备环境包：二、创建centos7虚拟机并配置ip三、链接Xshell并上环境包四、安装JDK1.解压jdk2.设置JAVA环境变量3.执行source使设置生效：4.检查JAVA是否可用。五、免密登陆1.创建ssh秘钥，输入如下命令，生成公私密钥2.将master公钥id_dsa复制到master进行公钥认证，实现本机免密登陆，测试完exit退出六、安装Hadoop软件1.解压hadoo
Hadoop 与 Spark：大数据处理的比较王子良. 大数据经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
虚拟机VMware Workstation Pro安装集群+hadoop+spark+scala 落枫兮 hadoop spark scala
参考资料：参考视频教程链接：大数据实验虚拟机安装Hadoop和Spark_哔哩哔哩_bilibiliup主：孤独时代的硕硕namenode安装选择镜像、路径、磁盘（最好不要c盘）、内存和处理器编辑名称与位置可点击此处自定义硬盘进行设置。选择语言、时区、软件、位置和网络
大数据手写面试题Scala语言实现大全（持续更新）大模型大数据攻城狮大数据数据结构算法面试题面试宝典
在大数据领域，Scala语言因其强大的函数式编程特性和对并发处理的良好支持而成为了开发者们的热门选择。有些面试官，为了考验面试者的基本功，需要让手写一些面试题，以数据结构和算法类的居多。本文将为您提供一些常见的Scala手写面试题及参考答案，帮助您在面试或工作中更好地运用Scala。目录1.冒泡排序2.二分查找3.快速排序4.归并排序5.手写Spark-WordCount6.手写Spark程序求平
基于Python的三种主流网络爬虫技术吃肉肉335 python 爬虫开发语言
一、网络爬虫是什么网络爬虫，通常也被称为网络蜘蛛或网络机器人，是一种按照一定方法，获取网络各种信息的自动化脚本程序，也可以将其理解为一个在互联网上自动提取网页信息并进行解析抓取的程序。网络爬虫的功能不仅局限于复制网页内容、下载音视频文件，更包括自动化执行行为链以及模拟用户登录等复杂操作。在当前大数据背景下，无论是人工智能应用还是数据分析工作，均依赖于海量的数据支持。如果仅依赖人工采集这一种方式，不
PL/SQL语言的学习路线轩辕烨瑾包罗万象 golang 开发语言后端
PL/SQL语言的学习路线PL/SQL（ProceduralLanguage/StructuredQueryLanguage）是Oracle公司为其数据库系统开发的一种编程语言，它结合了SQL的强大数据处理能力和过程式编程的灵活性。PL/SQL被广泛应用于Oracle数据库开发中，能够有效地提高程序的执行效率和维护性。对于想深入学习PL/SQL的开发者来说，明确的学习路线至关重要。本文将为大家提供
Bash语言的数据库交互清妍琉璃包罗万象 golang 开发语言后端
Bash语言的数据库交互引言随着信息技术的飞速发展，数据库在各行各业中扮演着越来越重要的角色。无论是企业管理、数据分析，还是大数据处理，数据库都是基础设施的重要组成部分。对于开发者和系统管理员而言，能够高效地与数据库进行交互是一项必不可少的技能。在众多编程语言中，Bash作为一种脚本语言，以其简洁、高效和易用的特点，逐渐在数据库管理和交互中获得了一席之地。本文将深入探讨如何使用Bash进行数据库交
Java 大视界 -- Java 大数据文本分析与自然语言处理：从文本挖掘到智能对话一只蜗牛儿 java 大数据自然语言处理
在当今的信息化时代，数据成为了重要的资源。特别是文本数据，随处可见，如社交媒体、新闻网站、技术文档、客户反馈等，这些都包含着大量的潜在信息。因此，如何从海量的文本中提取有价值的信息，成为了大数据分析领域的重要课题。Java作为一种高效、灵活的编程语言，在大数据文本分析与自然语言处理（NLP）中发挥着至关重要的作用。本文将介绍如何利用Java开发大数据文本分析和自然语言处理（NLP）应用，带领你从文
Hadoop分布式文件系统-HDFS架构 Fancs2024 hadoop hadoop hdfs
一、HDFS的简介HDFS全称HadoopDistributedFileSystem，是分布式文件管理系统。主要是为了解决大数据如何存储的问题，跟一般文件系统不同的是，它可以通过扩展服务器结点来扩充存储量，可以用低成本的硬件构建出支持高吞吐量的文件系统。二、HDFS的特点高容错性：一个HDFS集群会包含非常多的结点，HDFS将文件分块存储，并且会保存多个副本到不同的机器节点上以保证数据的安全，而且
科技赋能，商贸物流新速度 —— 智慧供应链商城加速企业成长呆码科技科技
科技赋能，商贸物流新速度——智慧供应链商城加速企业成长随着科技的飞速发展，AI（人工智能）、大数据、物联网等先进技术正深刻重塑着商贸物流行业，推动其向更高效、更智能、更环保的方向迈进。这些技术的应用不仅提升了物流效率，降低了运营成本，还增强了供应链的透明度和可控性，为商贸物流行业带来了前所未有的变革。智慧供应链商城是一个集成了AI、大数据、物联网等先进技术的综合服务平台，旨在通过科技手段提升物流效
国内优秀的FPGA设计公司主要分布在哪些城市？博览鸿蒙 FPGA fpga开发
近年来，国内FPGA行业发展迅速，随着5G通信、人工智能、大数据等新兴技术的崛起，FPGA设计企业的需求也迎来了爆发式增长。很多技术人才在求职时都会考虑城市的行业分布和发展潜力。因此，国内优秀的FPGA设计公司主要分布在哪些城市？以下将对国内FPGA企业集中的城市进行梳理。北京北京在我国FPGA产业发展中有着重要地位，尤其在设计和应用领域有较大优势，形成了完整的研发和产业生态。目前，北京主要的产业
MDX语言的语法糖 ByteBlossom666 包罗万象 golang 开发语言后端
MDX语言的语法糖及其应用分析引言在当今数据驱动的时代，大数据分析和数据可视化已成为企业决策中不可或缺的一部分。MDX（MultidimensionalExpressions，多维表达式）作为一门专为分析多维数据而设计的查询语言，广泛应用于商业智能（BI）工具中。随着技术的发展，MDX语言逐渐演变，形成了其独特的语法糖，以提高开发者的效率和可读性。本文将深入探讨MDX语言的语法糖特性及其在实际应用
大数据的一些基本概念 weixin_49536779 大数据数据分析数据库 python
首先，大数据是什么？大数据是指数据集规模巨大且复杂，传统的数据处理软件无法高效处理它们。它是非常大的数据集。这种复杂性可能来自于数据的“3V”特性：体量（Volume）、多样性（Variety）和速度（Velocity）。体量（Volume）首先，什么是体量？体量指的是以PB（Petabytes）为单位的数据量，甚至是EB（Exabytes）。这种数据量远大于GB（Gigabytes）或TB（Te
TiDB 对 Hadoop 的影响：大数据时代的新选择狮歌~资深攻城狮 tidb 数据仓库数据分析数据库分布式
TiDB对Hadoop的影响：大数据时代的新选择随着大数据时代的到来，各种处理和存储海量数据的技术应运而生。Hadoop和TiDB都是这个时代的代表性技术，但它们的设计初衷、使用场景和应用方式却有所不同。那么，TiDB作为一个分布式数据库，它对传统的Hadoop生态系统产生了哪些影响呢？今天，我们就来聊聊这个话题。Hadoop简介：大数据的“老牌劲旅”首先，我们需要了解一下Hadoop的背景。Ha
MPP（Massively Parallel Processing）是什么？它的特点是什么？狮歌~资深攻城狮数据仓库数据分析数据库分布式
MPP（MassivelyParallelProcessing）是什么？它的特点是什么？在信息化、数据化的今天，处理大规模数据成为了很多行业的关键能力。我们常常听到“大数据”和“数据处理”的词汇，而MMP（MassivelyParallelProcessing，大规模并行处理）正是帮助我们解决大数据处理的利器。那么，MPP究竟有什么特点，让它能够高效处理海量数据呢？1.什么是MPP？MPP的全称是
大语言模型原理与工程实践：网页数据 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：网页数据1.背景介绍在当今信息爆炸的时代，网页数据成为了大数据的重要来源之一。网页数据不仅包含了丰富的文本信息，还包括了图像、视频、音频等多媒体内容。大语言模型（LargeLanguageModels,LLMs）作为自然语言处理（NLP）领域的前沿技术，能够从海量的网页数据中提取有价值的信息，进行文本生成、情感分析、问答系统等多种任务。大语言模型的成功离不开深度学习技术的
Flink系列-2、Flink架构体系技术武器库大数据专栏 flink 架构 jvm
版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。大数据系列文章目录官方网址：https://flink.apache.org/学习资料：https://flink-learning.org.cn/目录Flink中的重要角⾊Flink数据流编程模型Libraries支持Flink集群搭建Local本地模式（开发测试）Standalone-伪分布环境（开
【原创】大数据治理入门（5）《数据生命周期管理：从采集到归档》入门必看高赞实用精通代码大仙数据库 hadoop python 大数据数据挖掘数据治理数据库 python
数据生命周期管理：从采集到归档引言：数据生命周期的概念数据生命周期管理（DataLifecycleManagement，DLM）是指从数据的创建、使用、存储到最终归档或销毁的全过程管理。在大数据时代，企业需要通过对数据生命周期的全面管理，确保数据的可用性、安全性和合规性。本文将详细介绍数据生命周期的各个阶段，以及相应的管理策略和技术工具。各阶段介绍：采集、存储、处理、分析、归档数据采集（DataC
Java 大视界 -- Java 与大数据分布式机器学习平台搭建（58）青云交大数据新视界 Java 大视界大数据分布式机器学习 Apache Spark Hadoop Apache Flink 平台搭建架构设计
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、欢迎加入【福利社群
基于MRS-Hudi构建数据湖的典型应用场景介绍华为云技术精粹云计算华为云
一、传统数据湖存在的问题与挑战传统数据湖解决方案中，常用Hive来构建T+1级别的数据仓库，通过HDFS存储实现海量数据的存储与水平扩容，通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果，但依然存在如下现状问题：问题一：不支持事务由于传统大数据方案不支持事务，有可能会读到未写完成的数据，造成数据统计错误。为了规避该问题，通常控制读写任务顺序调用，在保证写
MySQL、HBase 和 Elasticsearch：特点与区别详解一休哥助手 mysql hbase elasticsearch
引言随着大数据和分布式计算的快速发展，数据库系统已从传统的关系型数据库（RDBMS）扩展到多种新型数据存储技术，包括NoSQL数据库和搜索引擎等。MySQL、HBase和Elasticsearch是其中三种非常常见的数据存储系统，它们在各自的领域都有着重要的应用。MySQL作为传统的关系型数据库，HBase则是一个分布式、可扩展的NoSQL数据库，而Elasticsearch则是一个分布式的搜索引
SRCA 证书免费考！2025 学习奋进，大显蛇通！数据库
社区的小伙伴们，你们的新年学习计划已开启！Rocky为你精心准备了一份特别的礼物–一个为期一个月的学习计划与免费的SRCA考证机会，助你在新的一年成为StarRocks专家，在大数据征程上大显神通。以下是本次新年学习的内容与SRCA考试获取方式：学习目标通过系统的学习，让你迅速提升StarRocks知识基础与解决实际问题的能力，为你的职业发展打下坚实基础。学习方式大家可以根据Rocky规划的课程在
深入MapReduce——引入黄雪超大数据基础 #深入MapReduce mapreduce 大数据 hadoop
引入前面我们已经深入了HDFS的设计与实现，对于分布式系统也有了不错的理解。但HDFS仅仅解决了海量数据存储和读写的问题。但要想让数据产生价值，一定是需要从数据中挖掘出价值才行，这就需要我们拥有海量数据的计算处理能力。下面我们还是老样子，来数据一下要实现海量计算处理能力，有些什么核心痛点大数据计算核心痛点量级大在稍微大一点的互联网企业，需要计算处理的数据量都开始以PB计了。而传统的计算处理模型中，
Kafka 迁移 AutoMQ 时 Flink 位点管理的挑战与解决方案 AutoMQ 云计算云原生 Kafka 消息计算大数据 AWS AutoMQ 阿里云腾讯云 GCP
编辑导读：AutoMQ是一款与ApacheKafka100%完全兼容的新一代Kafka，可以做到至多10倍的成本降低和极速的弹性。凭借其与Kafka的完全兼容性可以与用户已有的Flink等大数据基础设施进行轻松整合。Flink是重要的流处理引擎，与Kafka有着密切的关系。本文重点介绍了当用户需要将生产Kafka集群迁移到AutoMQ时，如何处理好Flink的位点来确保整体迁移的平滑过渡。引言在云
AI产品经理还不会数据挖掘❓看完这篇就够了脱泥不tony 人工智能产品经理数据挖掘 python tensorflow 开发语言 llama
前言在数字化时代的浪潮中，AI产品经理正成为推动科技与商业融合的重要力量。然而，面对海量的数据，如何从中挖掘出有价值的信息，为AI产品的开发提供有力支持？这已成为AI产品经理必须面对的挑战。今天，我们就来探讨一下数据挖掘在AI产品经理工作中的重要性，以及如何通过掌握数据挖掘方法论，打造卓越的AI产品。一、数据挖掘：AI产品经理的必备技能在AI产品的世界中，大数据是构建一切的基础。无论是算法组件、知
Presto 时间、日期及计算相关日期三生暮雨渡瀟瀟 presto big data presto
由于工作中在数据迁移，大数据平台数据查询引擎使用Presto，和传统的数据库时间函数有区别，整理一版，供大家参考，一起学习，有错误欢迎指正。1、查询当前日期selectcurrent_date;2、查询当前时间selectcurrent_timestamp;_col0---------------------------------------2022-01-0220:45:58.551Asia/
销售易CRM：引领数字化转型，助力企业智能增长人工智能程序员
在全球数字化浪潮下，企业对智能化、数字化转型的需求愈发迫切。销售易CRM作为中国领先的企业级智能CRM解决方案提供商，凭借其强大的产品能力、丰富的行业经验和卓越的服务品质，成为众多知名企业的首选合作伙伴。本文将深入分析销售易CRM的核心优势，以及其如何助力企业实现数字化转型与业务增长。一、销售易CRM的核心优势领先的技术实力销售易CRM基于自主研发的新一代智能商业引擎，将人工智能、大数据分析等前沿
销售易与Salesforce：CRM市场的龙争虎斗 crmsaas
在当今数字化时代，客户关系管理软件在企业运营中扮演着至关重要的角色。销售易和Salesforce作为两款备受瞩目的CRM软件，各自具有独特的特点和优势。销售易是连续8年成为唯一入选Gartner销售自动化魔力象限的中国CRM厂商，并且在多项能力指标上超越国际厂商。在中国，销售易在大中型企业市场占有率排名第一，它通过整合移动、社交、人工智能、大数据和物联网技术，提供了全面的业务管理解决方案，被多家5
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo