Data宁

Flink配置Yarn日志聚合、配置历史日志。

Flink配置Yarn日志聚合、配置历史日志

对于已经结束的yarn应用，flink进程已经退出无法提供webui服务。所以需要通过JobHistoryServer查看保留在yarn上的日志。
下面就给大家分享一下我在配置方面的经历吧。

1.yarn配置聚合日志

编辑：yarn-site.xml

说明：开启后任务执行 “完毕” 后，才会上传日志至hdfs

查询：yarn logs -applicationId application_1546250639760_0055

配置：


    <property>
        <name>yarn.log-aggregation.retain-secondsname>
        <value>10080value>
        <description>日志存储时间description>
    property>
    <property>
        <name>yarn.log-aggregation-enablename>
        <value>truevalue>
        <description>是否启用日志聚集功能description>
    property>
    <property>
        <name>yarn.nodemanager.remote-app-log-dirname>
        <value>/yarnvalue>
        <description>当应用程序运行结束后，日志被转移到的HDFS目录（启用日志聚集功能时有效），如此便可通过appmaster UI查看作业的运行日志。description>
    property>
    <property>
        <name>yarn.nodemanager.remote-app-log-dir-suffixname>
        <value>logsvalue>
        <description>远程日志目录子目录名称（启用日志聚集功能时有效）description>
    property>

实验1：hadoop自带的wordcount实验。

#词频统计

#1.先vim创建一个文件，里面随便写点东西
#2.put到hafs上
#2.执行命令
hadoop jar  \
/usr/local/BigData/hadoop-3.0.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0.jar wordcount \
/test1 \
/test2/o2

现象：正常。

1.配置之前：运行 yarn log xxxxxxxx 看不到运行成长产生的日志。

1.1运行：

[hdfs@bigdata1 hadoop]$ hadoop jar  /usr/local/BigData/hadoop-3.0.0/share/hadoop/mapreduce/hadoop-mapred                                                                                                                uce-examples-3.0.0.jar wordcount /test1 /test2/o3
2022-04-02 01:33:47,691 INFO client.RMProxy: Connecting to ResourceManager at bigdata1/192.168.72.31:803                                                                                                                2
2022-04-02 01:33:48,229 INFO mapreduce.JobResourceUploader: Disabling Erasure Coding for path: /tmp/hado                                                                                                                op-yarn/staging/hdfs/.staging/job_1648877577075_0001
2022-04-02 01:33:48,445 INFO input.FileInputFormat: Total input files to process : 1
2022-04-02 01:33:48,519 INFO mapreduce.JobSubmitter: number of splits:1
2022-04-02 01:33:48,556 INFO Configuration.deprecation: yarn.resourcemanager.system-metrics-publisher.en                                                                                                                abled is deprecated. Instead, use yarn.system-metrics-publisher.enabled
2022-04-02 01:33:48,659 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1648877577075_0001
2022-04-02 01:33:48,661 INFO mapreduce.JobSubmitter: Executing with tokens: []
2022-04-02 01:33:48,843 INFO conf.Configuration: resource-types.xml not found
2022-04-02 01:33:48,844 INFO resource.ResourceUtils: Unable to find 'resource-types.xml'.
2022-04-02 01:33:49,261 INFO impl.YarnClientImpl: Submitted application application_1648877577075_0001
2022-04-02 01:33:49,300 INFO mapreduce.Job: The url to track the job: http://bigdata1:8088/proxy/applica                                                                                                                tion_1648877577075_0001/
2022-04-02 01:33:49,300 INFO mapreduce.Job: Running job: job_1648877577075_0001
2022-04-02 01:33:56,416 INFO mapreduce.Job: Job job_1648877577075_0001 running in uber mode : false
2022-04-02 01:33:56,417 INFO mapreduce.Job:  map 0% reduce 0%
2022-04-02 01:34:02,490 INFO mapreduce.Job:  map 100% reduce 0%
2022-04-02 01:34:08,529 INFO mapreduce.Job:  map 100% reduce 100%
2022-04-02 01:34:08,540 INFO mapreduce.Job: Job job_1648877577075_0001 completed successfully
2022-04-02 01:34:08,633 INFO mapreduce.Job: Counters: 53
        File System Counters
                FILE: Number of bytes read=1843
                FILE: Number of bytes written=417739
                FILE: Number of read operations=0
                FILE: Number of large read operations=0
                FILE: Number of write operations=0
                HDFS: Number of bytes read=2071
                HDFS: Number of bytes written=1386
                HDFS: Number of read operations=8
                HDFS: Number of large read operations=0
                HDFS: Number of write operations=2
        Job Counters
                Launched map tasks=1
                Launched reduce tasks=1
                Rack-local map tasks=1
                Total time spent by all maps in occupied slots (ms)=13196
                Total time spent by all reduces in occupied slots (ms)=28888
                Total time spent by all map tasks (ms)=3299
                Total time spent by all reduce tasks (ms)=3611
                Total vcore-milliseconds taken by all map tasks=3299
                Total vcore-milliseconds taken by all reduce tasks=3611
                Total megabyte-milliseconds taken by all map tasks=13512704
                Total megabyte-milliseconds taken by all reduce tasks=29581312
        Map-Reduce Framework
                Map input records=50
                Map output records=167
                Map output bytes=2346
                Map output materialized bytes=1843
                Input split bytes=97
                Combine input records=167
                Combine output records=113
                Reduce input groups=113
                Reduce shuffle bytes=1843
                Reduce input records=113
                Reduce output records=113
                Spilled Records=226
                Shuffled Maps =1
                Failed Shuffles=0
                Merged Map outputs=1
                GC time elapsed (ms)=100
                CPU time spent (ms)=1440
                Physical memory (bytes) snapshot=557318144
                Virtual memory (bytes) snapshot=13850431488
                Total committed heap usage (bytes)=390070272
                Peak Map Physical memory (bytes)=331268096
                Peak Map Virtual memory (bytes)=5254959104
                Peak Reduce Physical memory (bytes)=226050048
                Peak Reduce Virtual memory (bytes)=8595472384
        Shuffle Errors
                BAD_ID=0
                CONNECTION=0
                IO_ERROR=0
                WRONG_LENGTH=0
                WRONG_MAP=0
                WRONG_REDUCE=0
        File Input Format Counters
                Bytes Read=1974
        File Output Format Counters
                Bytes Written=1386

1.2执行查询命令：

[hdfs@bigdata1 hadoop]$ yarn logs -applicationId application_1648877577075_0001
2022-04-02 01:40:46,605 INFO client.RMProxy: Connecting to ResourceManager at bigdata1/192.168.72.31:803                                                                                                                2
File /yarn/hdfs/logs/application_1648877577075_0001 does not exist.

Can not find any log file matching the pattern: [ALL] for the application: application_1648877577075_000                                                                                                                1
Can not find the logs for the application: application_1648877577075_0001 with the appOwner: hdfs
[hdfs@bigdata1 hadoop]$ yarn logs -applicationId application_1648877577075_0002
2022-04-02 01:40:57,983 INFO client.RMProxy: Connecting to ResourceManager at bigdata1/192.168.72.31:803                                                                                                                2
Unable to get ApplicationState. Attempting to fetch logs directly from the filesystem.
Can not find the appOwner. Please specify the correct appOwner
Could not locate application logs for application_1648877577075_0002

2.配置之后：可以看到完整的运行日志

2.1运行：

[hdfs@bigdata1 hadoop]$ hadoop jar  /usr/local/BigData/hadoop-3.0.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0.jar wordcount /test1 /test2/a1
2022-04-02 02:25:09,179 INFO client.RMProxy: Connecting to ResourceManager at bigdata1/192.168.72.31:8032
2022-04-02 02:25:09,718 INFO mapreduce.JobResourceUploader: Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/hdfs/.staging/job_1648879195625_0002
2022-04-02 02:25:09,936 INFO input.FileInputFormat: Total input files to process : 1
2022-04-02 02:25:10,009 INFO mapreduce.JobSubmitter: number of splits:1
2022-04-02 02:25:10,043 INFO Configuration.deprecation: yarn.resourcemanager.system-metrics-publisher.enabled is deprecated. Instead, use yarn.system-metrics-publisher.enabled
2022-04-02 02:25:10,144 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1648879195625_0002
2022-04-02 02:25:10,145 INFO mapreduce.JobSubmitter: Executing with tokens: []
2022-04-02 02:25:10,325 INFO conf.Configuration: resource-types.xml not found
2022-04-02 02:25:10,325 INFO resource.ResourceUtils: Unable to find 'resource-types.xml'.
2022-04-02 02:25:10,380 INFO impl.YarnClientImpl: Submitted application application_1648879195625_0002
2022-04-02 02:25:10,417 INFO mapreduce.Job: The url to track the job: http://bigdata1:8088/proxy/application_1648879195625_0002/
2022-04-02 02:25:10,417 INFO mapreduce.Job: Running job: job_1648879195625_0002
2022-04-02 02:25:17,508 INFO mapreduce.Job: Job job_1648879195625_0002 running in uber mode : false
2022-04-02 02:25:17,509 INFO mapreduce.Job:  map 0% reduce 0%
2022-04-02 02:25:23,575 INFO mapreduce.Job:  map 100% reduce 0%
2022-04-02 02:25:28,607 INFO mapreduce.Job:  map 100% reduce 100%
2022-04-02 02:25:28,616 INFO mapreduce.Job: Job job_1648879195625_0002 completed successfully
2022-04-02 02:25:28,707 INFO mapreduce.Job: Counters: 53
        File System Counters
                FILE: Number of bytes read=1843
                FILE: Number of bytes written=417711
                FILE: Number of read operations=0
                FILE: Number of large read operations=0
                FILE: Number of write operations=0
                HDFS: Number of bytes read=2071
                HDFS: Number of bytes written=1386
                HDFS: Number of read operations=8
                HDFS: Number of large read operations=0
                HDFS: Number of write operations=2
        Job Counters
                Launched map tasks=1
                Launched reduce tasks=1
                Data-local map tasks=1
                Total time spent by all maps in occupied slots (ms)=12876
                Total time spent by all reduces in occupied slots (ms)=21016
                Total time spent by all map tasks (ms)=3219
                Total time spent by all reduce tasks (ms)=2627
                Total vcore-milliseconds taken by all map tasks=3219
                Total vcore-milliseconds taken by all reduce tasks=2627
                Total megabyte-milliseconds taken by all map tasks=13185024
                Total megabyte-milliseconds taken by all reduce tasks=21520384
        Map-Reduce Framework
                Map input records=50
                Map output records=167
                Map output bytes=2346
                Map output materialized bytes=1843
                Input split bytes=97
                Combine input records=167
                Combine output records=113
                Reduce input groups=113
                Reduce shuffle bytes=1843
                Reduce input records=113
                Reduce output records=113
                Spilled Records=226
                Shuffled Maps =1
                Failed Shuffles=0
                Merged Map outputs=1
                GC time elapsed (ms)=97
                CPU time spent (ms)=1360
                Physical memory (bytes) snapshot=552706048
                Virtual memory (bytes) snapshot=13832036352
                Total committed heap usage (bytes)=391643136
                Peak Map Physical memory (bytes)=329871360
                Peak Map Virtual memory (bytes)=5243228160
                Peak Reduce Physical memory (bytes)=222834688
                Peak Reduce Virtual memory (bytes)=8588808192
        Shuffle Errors
                BAD_ID=0
                CONNECTION=0
                IO_ERROR=0
                WRONG_LENGTH=0
                WRONG_MAP=0
                WRONG_REDUCE=0
        File Input Format Counters
                Bytes Read=1974
        File Output Format Counters
                Bytes Written=1386

2.2执行查询命令

..................
非常多完整日志。

实验总结：

1)配置完就可以用 yarn logs -applicationId application_xxxxxxx 看到丰富的日志内容。
2)但是8088 web中的logs没法查看了，why?
	因为：没有配置历史服务，看下一节

实验2：flink on yarn 模式运行的时候，日志。

实验内容：
	flink job 消费kafka, 并且print()输出。
job配置：
	flink并行度：1

首先启动job。可以发现job运行的容器在cm2上。

接下来可以看到该job的一些日志，包括jm的和tm的。 tm的日志就是Stdout中看到的，并且刷新可以看到文件size在变大。

再根据我们在yarn 上配置的容器日志位置可以看到日志保存在什么位置。下图可见是保存在各个节点的/yarn/container-logs下。

我们到cm2的/yarn/container-logs 下看看。

这个和 flink控制台显示的一模一样。

当程序执行完毕或者cancel之后。容器日志被自动删除。为此有如下疑问1（但是聚合日志在hdfs上正常有。）

疑问1：如下配置不是设置日志在容器所在节点下的保存时间吗？

疑问2：如果job是多个并行度怎么办？

如果是多个并行度。 那么‘总日志’ = 多个容器的日志合并。 也就是日志聚合的结果。

2.2 cdh上配置聚合日志(默认配置好的)

#其中yarn.nodemanager.log-dirs 表示每个nodemanager上的容器产生的日志保存地址。
	但是日志聚合会把同一个job分散的日志进行聚合到hdfs.

2.yarn配置历史日志

学习
https://blog.csdn.net/qq_38038143/article/details/88641288

https://blog.csdn.net/qq_35440040/article/details/84233655?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~aggregatepage~first_rank_ecpm_v1~rank_v31_ecpm-1-84233655.pc_agg_new_rank&utm_term=yarn%E5%8E%86%E5%8F%B2%E6%97%A5%E5%BF%97&spm=1000.2123.3001.4430

https://blog.csdn.net/duyenson/article/details/118994693

https://www.cnblogs.com/zwgblog/p/6079361.html

配置1：mapred-site.xml

<property>
	<name>mapreduce.jobhistory.addressname>
	<value>master:10020value>
property>
<property>
	<name>mapreduce.jobhistory.webapp.addressname>
	<value>master:19888value>
property>

配置2：yarn-site.xml

	
    
    <property>
        <name>yarn.log-aggregation-enablename>
        <value>truevalue>
    property>
    
    <property>
        <name>yarn.log.server.urlname>
        <value>http://master:19888/jobhistory/logs/value>
    property>
    
    <property>
        <name>yarn.log-aggregation.retain-secondsname>
        <value>86400value>
    property>

分发

启动： mr-jobhistory-daemon.sh start historyserver

jps

查看日志：在8088端口点 id , 进去点log.

3.yarn配置历史日志plus->timelineservice

上聊天截图中大佬给的，他是hadoop 3.13,我当时是3.0.0 没配置成功。以后再继续研究吧

yarn-site




<configuration>
    <property>
        <name>yarn.nodemanager.aux-servicesname>
        <value>mapreduce_shufflevalue>
    property>
    <property>
        <name>yarn.resourcemanager.hostnamename>
        <value>bigdata1value>
    property>

    <property>
	    <name>yarn.resourcemanager.webapp.addressname>
	    <value>bigdata1:8088value>
    property>

    <property>
        <name>yarn.nodemanager.env-whitelistname>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOMEvalue>
    property>
    <property>
        <name>yarn.scheduler.minimum-allocation-mbname>
        <value>512value>
   property>
    <property>
        <name>yarn.scheduler.maximum-allocation-mbname>
        <value>4096value>
    property>
    <property>
        <name>yarn.nodemanager.resource.memory-mbname>
        <value>30720value>
    property>
	<property>
        <name>yarn.scheduler.minimum-allocation-vcoresname>
        <value>1value>
    property>
    <property>
        <name>yarn.scheduler.maximum-allocation-vcoresname>
        <value>4value>
    property>
    <property>
        <name>yarn.nodemanager.resource.cpu-vcoresname>
        <value>12value>
    property> 
    <property>
        <name>yarn.nodemanager.pmem-check-enabledname>
        <value>falsevalue>
    property>
    <property>
        <name>yarn.nodemanager.vmem-check-enabledname>
        <value>falsevalue>
    property>
    <property>
        <name>yarn.log-aggregation-enablename>
        <value>truevalue>
    property>
    <property>
        <name>yarn.log-aggregation.retain-secondsname>
        <value>86400value>
    property>

    <property>
        <name>yarn.timeline-service.enabledname>
        <value>truevalue>
    property>

    <property>
        <name>yarn.timeline-service.hostnamename>
        <value>${yarn.resourcemanager.hostname}value>
    property>

   <property>
        <name>yarn.timeline-service.addressname>
        <value>${yarn.timeline-service.hostname}:10020value>
    property>

    <property>
        <name>yarn.timeline-service.webapp.addressname>
        <value>${yarn.timeline-service.hostname}:8188value>
    property>

    <property>
        <name>yarn.log.server.urlname>
        <value>http://${yarn.timeline-service.webapp.address}/applicationhistory/logsvalue>
    property>

    <property>
        <name>yarn.timeline-service.ttl-enablename>
        <value>truevalue>
    property>

    <property>
        <name>yarn.timeline-service.ttl-msname>
        <value>86400000value>
    property>

    <property>
        <name>yarn.timeline-service.http-cross-origin.enabledname>
        <value>truevalue>
    property>

    <property>
        <name>yarn.resourcemanager.system-metrics-publisher.enabledname>
        <value>truevalue>
    property>

   <property>
        <name>yarn.timeline-service.generic-application-history.enabledname>
        <value>truevalue>
    property>

configuration>

marped-site




<configuration>
    <property>
        <name>mapreduce.framework.namename>
        <value>yarnvalue>
    property>
    <property>
        <name>mapreduce.job.emit-timeline-dataname>
        <value>truevalue>
    property>
configuration>

至此，大喊一声“优雅~”。

详解 SSL（三）：SSL 证书该如何选择？捞起月亮的渔民丁 ssl https 服务器
详解SSL（三）：SSL证书该如何选择？在上一篇《详解SSL（二）：SSL证书对网站的好处》中，我们知道了在网站部署SSL证书后，不管是对网站本身还是对网站的用户都能够带来许多好处。那么随着HTTPS的普及，市面上也出现了各种不同的SSL证书。并且由于SSL证书的多样性，很多人对于如何选择SSL证书有着很大的困惑。因此，本篇文章将从证书安全级别、域名数量、用户类型这三个方面提供合理性建议。首先，我
破界融合！北京首家AI+新材料全流程智能实验室落地沙河高教园人工智能
破界融合！北京首家AI+新材料全流程智能实验室落地沙河高教园3月21日上午，沙河高教园区AI+新材料合成校企联合实验室揭牌仪式在新元科技园区成功举办。昌平区副区长高阳，市科委、中关村管委会新材料与智能制造科技处，市经信局，未来城管委会校城融合处、沙河镇、昌发展等相关部门负责人及高校、科研院所、企业代表出席。“沙河高教园区AI+新材料合成校企联合实验室”揭牌仪式AI+新材料合成校企联合实验室位于新元
Geotrust SSL证书和SymantecSSL证书哪个好? weixin_34293246 网络
GeoTrust是全球第二大数字证书颁发机构(CA)，也是身份认证和信任认证领域的领导者，GeoTrust始终坚持低成本地部署SSL数字证书和实现各种身份认证。其在2001年到2006年占领全球市场25%的市场分额，在全球150多个国家有超过10万个用户在使用GeoTrust的安全产品，为用户的网站信息进行保驾护航。Symantec作为信息安全领域全球领先的解决方案提供商，也是全球最大的信息安全厂
github如何为开源项目作出贡献 PXM的算法星球 github 开源
就在昨天，笔者取得了第一次开源项目贡献，虽然更新的内容很小，但是也算是迈出了第一步1.选择合适的开源项目（1）兴趣优先选择自己感兴趣的项目会更有动力参与，比如你喜欢前端开发，可以关注React、Vue相关的开源项目；如果喜欢后端，可以尝试贡献Django、SpringBoot等项目。（2）关注活跃度一个活跃的开源项目通常意味着更快的反馈和更友好的开发者社区。你可以通过以下方式判断：Issue更新频
Spring AOP相关常见问题 PXM的算法星球 Java后端 spring java 数据库
前言在日常开发中，我们经常需要给方法添加一些横切关注点（Cross-CuttingConcerns），比如日志记录、事务管理、权限控制等。而SpringAOP（Aspect-OrientedProgramming，面向切面编程）提供了一种优雅的方式，让我们可以在不修改业务代码的情况下增强方法行为。1.AOP和OOP的区别是什么？许多初学者会疑惑，OOP（面向对象编程）已经很好地组织了代码，为什么还
详解 SSL：SSL 证书该如何选择？网络安全（华哥）计算机网络安全网络工程师 ssl 网络协议网络
我们知道了在网站部署SSL证书后，不管是对网站本身还是对网站的用户都能够带来许多好处。那么随着HTTPS的普及，市面上也出现了各种不同的SSL证书。并且由于SSL证书的多样性，很多人对于如何选择SSL证书有着很大的困惑。因此，本篇文章将从证书安全级别、域名数量、用户类型这三个方面提供合理性建议。首先，我们来了解下SSL证书的类型。目前市场上SSL证书的种类多样，SSL证书可以根据以下三种方式进行分
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
软件工程简答 Ruannn（努力版）软件工程
什么是软件工程软件工程：将系统化的、规范的、可量化的方法应用于软件的开发、运行和维护，即将工程化方法应用于软件。支持软件工程的根基在于质量关注点。软件工程的基础是过程层，将各个技术层次结合在一起。方法层为构建软件提供技术上的解决方法。工具层为过程和方法提供自动化或半自动化的支持。通用过程模型的定义内容通⽤过程框架定义了5种框架活动——沟通、策划、建模、构建以及部署。⼀系列普适性活动——项⽬跟踪控制
Linux骨灰级玩家修炼秘籍！从零基础到精通，收藏这篇就够了！程序员肉肉 linux 运维服务器网络学习 oracle 数据库
Linux骨灰级玩家修炼秘籍！99.99%的人已跪！Linux运维？想玩转它？那可得经历九九八十一难！咱得把这事儿分成四个阶段：新手村、进阶副本、高手进阶、以及最终的封神之路！之前爆肝半年，搞了篇云计算学习路线，新手直接起飞，从小白到大神！第一阶段：新手村新手村里，你得先把Linux这游戏的基本操作摸透。别急，一步一个脚印，咱得有个路线图。新手上路：Linux的前世今生、基本指令（比如cp、ls、
HarmonyOS Next 安全机制深度剖析 SameX-4869 harmonyos 华为
本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）的安全机制相关技术细节，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。第一章：安全体系架构一、整体架构介绍HarmonyOSNext的安全体系架构犹如一座坚固的城堡，从多个层面为系统和应用提供全方位的保护。它
全网最细！CentOS 7极速部署MySQL 8.0.23实战手册（附最佳参数模版）从不删库的DBA Mysql centos mysql linux
一、部署前准备1.1环境检查清单在进行MySQL部署前，请确认以下基础条件已满足：检查项标准要求操作系统版本CentOS6/7（推荐7.6+）内存建议≥4GB（生产环境≥16GB）磁盘空间/分区≥30GB，数据盘按需求规划网络连通性确保yum源可访问二、操作系统基础配置2.1关闭网络管理服务根据系统版本选择相应操作：▶CentOS6#serviceNetworkManagerstop停止Netwo
python实现接口自动化一只小H呀の python 自动化开发语言
代码实现自动化相关理论代码编写脚本和工具实现脚本区别是啥?代码：优点：代码灵活方便缺点：学习成本高工具：优点：易上手缺点：灵活度低，有局限性。总结：功能脚本：工具自动化脚本：代码代码接口自动化怎么做的？第一步：python+request+unittest;具体描述？第二步：封装、调用、数据驱动、日志、报告;详细举例:第三步：api\scripts\data\log\report\until…脚本
MiniMind：3小时完全从0训练一个仅有26M的小参数GPT，最低仅需2G显卡即可推理训练！哈罗·沃德 LLM gpt
MiniMind：3小时完全从0训练一个仅有26M的小参数GPT，最低仅需2G显卡即可推理训练！概述MiniMind是一个开源的微型语言模型，它的设计目标是让个人GPU用户也能够快速推理甚至训练语言模型。它的体积仅为26M，大约是GPT3的1/7000，非常适合快速部署和实验。https://github.com/user-attachments/assets/88b98128-636e-43bc
hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
初级：数组与字符串面试题深度剖析佩奇的技术笔记 Java面试小册 java
一、引言在Java开发中，数组和字符串是最常用的数据结构之一。面试官通过相关问题考察候选人对数组和字符串的理解和运用能力，以及在实际开发中解决相关问题的经验。本文将深入剖析常见的数组与字符串面试题，结合实际开发场景，帮助读者全面掌握这些知识点。二、数组面试题：如何对数组进行初始化和遍历？答案：数组的初始化可以使用直接初始化、动态初始化等方式。遍历数组可以使用传统的for循环、增强型for循环（fo
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
模型部署后的版本回滚策略，如何确保服务降级的平滑性？百态老人 neo4j
模型部署版本回滚策略与平滑服务降级技术体系（2025版）一、核心设计原则与架构模型部署回滚的平滑性需建立在版本隔离性、流量可控性、数据兼容性三大支柱上，结合2025年前沿技术实现多维保障：
关于swoole的初步了解记录 snacy swoole php 服务器
今天初步了解了一下关于swoole的相关知识，在这里记录一下。关于swoole的初步了解记录安装swoole扩展swoole扩展需要在Linux环境下安装，目前还不支持在Windows环境下安装，当前操作系统为centOS系统安装swoole需要：PHP、php-pear(这个是为了稍后可以使用pecl来安装swoole)、php-devel、gcc先执行更新操作：yumupdate(已更新过的可
Elasticsearch + Docker：实现容器化部署指南 IT成长日记 elasticsearch docker 容器化部署
Elasticsearch是一款强大的分布式搜索和分析引擎，广泛应用于日志分析、全文检索、实时数据分析等场景。而Docker作为一种轻量级的容器化技术，能够帮助开发者快速部署和管理应用。将Elasticsearch与Docker结合，不仅可以简化部署流程，还能提高资源利用率和系统可维护性。1环境准备1.1安装Docker安装操作请参考：Docker入门指南：1分钟搞定安装+常用命令，轻松入门容器化
从零到一：Redis Cluster部署配置全流程详解，轻松搞定高可用分布式缓存！ IT成长日记 #数据库技术解析与应用实践 Redis Cluster redis 缓存集群
RedisCluster是Redis官方提供的分布式解决方案，它通过数据分片（Sharding）和主从复制（Replication）来实现高可用性和横向扩展。RedisCluster能够在多个节点之间自动分配数据，并且在节点故障时自动进行故障转移，确保系统的高可用性。本文将详细介绍RedisCluster的部署和配置全流程，帮助读者快速搭建一个高可用的Redis集群。1RedisCluster概述
数据库事务：确保数据一致性的关键机制可儿·四系桜数据库 java #MySQL 数据库 java 后端
1.什么是数据库事务定义：事务（Transaction）是数据库管理系统中的一个逻辑工作单元，用于确保一组相关操作要么全部成功执行，要么全部不执行，从而维护数据的一致性和完整性。重要性：在多用户环境下，当多个事务并发执行时，为了保证数据的完整性和一致性，事务的概念变得至关重要。例如，在银行转账系统中，从一个账户扣款并给另一个账户加款这两个操作必须同时成功或者同时失败，否则就会导致资金账目混乱。2.
JAVA刷Leecode-贪心算法-分配问题-分发饼干搬砖的水鱼 leetcode 算法 java python leetcode 贪心算法
JAVA刷Leecode-贪心算法算法思想分配问题-分发饼干（135，hard)算法思想采用贪心的策略，保证每次操作都是局部最优解，从而最终的结果是全局最优。贪心算法不是对所有问题都能得到整体最优解，选择的贪心策略必须具有无后效性，即某个状态以前的过程不会影响以后的状态，只和当前的状态相关。包括分配问题（455，135）和区间问题（435）；练习：605，452，763，122，406。分配问题-
流浪地球 - 华为OD机试真题(E卷、C++) 什码情况华为od c++算法数据结构面试机试
针对刷题难，效率慢，我们提供一对一算法辅导，针对个人情况定制化的提高计划（全称1V1效率更高）。有兴趣的同学可以扫码添加我们的微信（code5bug）了解，免费试课一下。题目描述流浪地球计划在赤道上均匀部署了N个转向发动机，按位置顺序编号为0~N。1).初始状态下所有的发动机都是未启动状态;2).发动机启动的方式分为”手动启动”和”关联启动”两种方式;3).如果在时刻1一个发动机被启动，下一个时刻
在Spring Boot中实现分布式任务调度微赚淘客系统开发者 spring boot 分布式后端
在SpringBoot中实现分布式任务调度大家好，我是微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！使用SpringBoot与Quartz实现分布式任务调度1.引入依赖在SpringBoot项目中，首先需要引入Quartz和相关依赖：org.springframework.bootspring-boot-starter-quartz2.配置Quartz在SpringBoot的配
【二、DeepSeek应用场景与案例】10.农业智能化：DeepSeek如何助力精准种植与养殖？代码世界的浪客人工智能 DeepSeek
一、引言1.1农业智能化的时代背景在全球人口持续增长的大趋势下，粮食需求正以前所未有的速度攀升。据联合国相关预测，到2050年，全球人口有望突破90亿，这无疑给本就压力重重的农业生产带来了更为艰巨的挑战，保障充足的粮食供应成为了迫在眉睫的任务。与此同时，资源短缺问题日益尖锐，耕地面积因城市化进程、土地退化等因素不断缩减，水资源分布不均且浪费严重，进一步加剧了农业生产的困境。根据世界银行的数据，过去
win-服务器部署程序自启动设置 johnrui operation and maintenance win 运维
为了简化应用服务器中项目启动的操作，现对在win操作系统下服务启动设置为开机启动的相关操作，在这里做一次记录和分享。参阅了很多文章，知道win设置开机启动项方式很多，这篇文章只是其中的一种，但是经过了实践测试非常有效。设置步骤如下：1）按住Win键，再按R键(Win+R)，启动"运行"窗口;2）WindowsXP/2003/2008/2008R2输入：controluserpasswords2Wi
服务器运维---服务器假死 johnrui Java
在线上环境中，经常会出现服务卡顿，造成数据无法更新、获取的现象。对于这种现象现，个人一自身的工作经历总结如下：一、定时任务时间间隔短，造成服务卡顿，线程池爆满，线程锁无法释放，进而服务崩溃：设定的时间间隔内，程序未执行完成，又开始进行下一轮的程序执行，这样的幂等性执行最终造成线程池爆满，服务崩溃；解决办法：根据业务量计算程序执行一次耗时，科学合理设定时间间隔；二、定时任务，程序中存在HTTP请求，
网络安全-黑客攻击刘林锋blog 网络规划设计师信息安全安全网络
基本知识黑客（Hacker）、骇客（Cracker）攻击，需要进行信息收集和根据需求选择攻击方式。信息收集攻击的效果和对目标的了解程度有着直接的相关性。因此信息收集在攻击过程中占据着头等重要的位置，包括财务数据、硬件配置、人员结构、网络架构和整体利益等诸多方面。主要方式如下：网络监测。一些监测网络中计算机漏洞的工具，包括嗅探应用软件，能在计算机内部或通过网络来捕捉传输过程中的密码等数据信息。社会工
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl