西京刀客

DataX以及增量同步

第一部分：DataX

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台。

一、DataX基本知识

Alibaba DataX调研使用
https://blog.csdn.net/aWDac/article/details/80822233
[推荐]DataX实战应用
https://blog.csdn.net/u010429286/article/details/82356121
DataX使用指南
参考URL: https://yq.aliyun.com/articles/71063

DataX是由Alibaba开源的一款异构数据同步工具，可以在常见的各种数据源之间进行同步，并仅依赖Java环境，具有轻量、插件式、方便等优点，可以快速完成同步任务。一般公司的数据同步任务，基本可以满足。

DataX是一个高可用的数据同步工具，稳定性强，速度快，上手快。

参考DataX的官方说明：
User Guide
https://github.com/alibaba/DataX/blob/master/userGuid.md
DataX-Introduction
https://github.com/alibaba/DataX/blob/master/introduction.md
插件开发宝典
https://github.com/alibaba/DataX/blob/master/dataxPluginDev.md

运行原理介绍：

DataX完成单个数据同步的作业，我们称之为Job，DataX接受到一个Job之后，将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点，承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。
DataXJob启动后，会根据不同的源端切分策略，将Job切分成多个小的Task(子任务)，以便于并发执行。Task便是DataX作业的最小单元，每一个Task都会负责一部分数据的同步工作。
切分多个Task之后，DataX Job会调用Scheduler模块，根据配置的并发数据量，将拆分成的Task重新组合，组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发（可在json配置文件中配置）运行完毕分配好的所有Task，默认单个任务组的并发数量为5。
每一个Task都由TaskGroup负责启动，Task启动后，会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。
DataX作业运行起来之后， Job监控并等待多个TaskGroup模块任务完成，等待所有TaskGroup任务完成后Job成功退出。否则，异常退出。

工作流程大概就是用Reader模块从源数据库读数据，在Storage模块里将Reader模块读到的数据交换给Write模块，Write模块将数据写进目的数据库。

DoubleQueue：
设立两块空间，一个存储源数据，一个存储目标数据。在开始，空间A和空间B都是空的，loading 任务从源数据库向A空间加载数据，A空间满后再向B空间加载数据，同时dumping任务将A空间数据转储到目的数据库。A空间清空后，交换AB两者的任务，即A空间的任务换成loading，B空间的任务换成dumping。不断重复上述操作。

二、DataX应用

[推荐]DataX实战应用
https://blog.csdn.net/u010429286/article/details/82356121
基于datax的数据同步平台
参考URL: http://www.cnblogs.com/huangxiaoxue/p/9392817.html
ETL工具–DataX3.0实战
参考URL: http://blog.51cto.com/daisywei/1903085

DataX插件分为Reader和Writer两类。Reader负责从数据源端读取数据到Storage（交换空间），Writer负责将Storage中的数据写入到数据目的端。Storage可以适配不同种类的Reader和Writer，从而实现数据同步.

目前DataX版本已经提供的Reader插件如下：
1、 hdfsreader : 支持从hdfs文件系统获取数据。
2、mysqlreader: 支持从mysql数据库获取数据。
3、 sqlserverreader: 支持从sqlserver数据库获取数据。
4、 oraclereader : 支持从oracle数据库获取数据。
5、 streamreader: 支持从stream流获取数据（常用于测试）
6、httpreader : 支持从http URL获取数据。

提供的Writer插件如下：

1、 hdfswriter ：支持向hdbf写入数据。
2、 mysqlwriter ：支持向mysql写入数据。
3、 sqlserverwriter：支持向sqlserver写入数据。
4、 oraclewriter ：支持向oracle写入数据。
5、 streamwriter ：支持向stream流写入数据。（常用于测试）

DataX 3.0每一种读插件都有一种或多种切分策略，都能将作业合理切分成多个Task并行执行，单机多线程执行模型可以让DataX速度随并发成线性增长。在源端和目的端性能都足够的情况下，单个作业一定可以打满网卡。

更多实际应用结合DataX Transformer在数据同步、传输过程中，存在用户对于数据传输进行特殊定制化的需求场景，包括裁剪列、转换列等工作，可以借助ETL的T过程实现(Transformer)。DataX包含了完成的E(Extract)、T(Transformer)、L(Load)支持。

三、DataX安装测试

tar zxvf datax.tar.gz
chmod -R 755 datax

cd datax/bin
#会给你返回json模板格式
python datax.py -r mysqlreader -w mysqlwriter
#python datax.py ../job/job.json

其中，job.json是自带的一个例子配置文件，没什么具体用途。

四、DataX性能调优

DataX使用指南——ODPS to ODPS
参考URL: https://yq.aliyun.com/articles/71063

DataX调优要分成几个部分，任务机指运行Datax任务所在的机器。

网络本身的带宽等硬件因素造成的影响；
DataX本身的参数；
从源端到任务机；
从任务机到目的端；
即当觉得DataX传输速度慢时，需要从上述四个方面着手开始排查。

五、DataX源码编译问题整理

DataX源码打包编译采坑记
参考URL: https://blog.csdn.net/qq_32447301/article/details/82909326

编译根pom报错整理

报错Could not resolve dependencies for project com.alibaba.datax:odpsreader:jar:0.0.1-SNAPSHOT
这个依赖应该是阿里内部jar，外部仓库无法加载这个jar
搜索关键字 com.aliyun.odps
pom替换为
如下：换一下版本：0.20.7-public

		
			com.aliyun.odps
			odps-sdk-core
			0.20.7-public

注意这里使用odps-sdk-core关键字搜到2个pom: reader、writer都需要改。

报错Could not find artifact com.aliyun.openservices:tablestore-streamclient:jar:1.0.0-SNAPSHOT
修改pom 关键字tablestore-streamclient
此处把1.0.0-SNAPSHOT改成1.0.0

        
            com.aliyun.openservices
            tablestore-streamclient
            1.0.0

六、datax增量同步

参考URL: https://www.codercto.com/a/45069.html

Datax需要解决的另一个难题在于增量更新。

首先需要说明， Datax本身在大部分reader插件中提供了where配置项，用于做增量更新。例如mysqlerader md文件说明如下：

* **where**

	* 描述：筛选条件，MysqlReader根据指定的column、table、where条件拼接SQL，并根据这个SQL进行数据抽取。在实际业务场景中，往往会选择当天的数据进行同步，可以将where条件指定为gmt_create > $bizdate 。注意：不可以将where条件指定为limit 10，limit不是SQL的合法where子句。


          where条件可以有效地进行业务增量同步。如果不填写where语句，包括不提供where的key或者value，DataX均视作同步全量数据。

	* 必选：否 


	* 默认值：无 


* **querySql**

	* 描述：在有些业务场景下，where这一配置项不足以描述所筛选的条件，用户可以通过该配置型来自定义筛选SQL。当用户配置了这一项之后，DataX系统就会忽略table，column这些配置型，直接使用这个配置项的内容对数据进行筛选，例如需要进行多表join后同步数据，使用select a,b from table_a join table_b on table_a.id = table_b.id 


	 `当用户配置querySql时，MysqlReader直接忽略table、column、where条件的配置`，querySql优先级大于table、column、where选项。

	* 必选：否 


	* 默认值：无

有一些场景，where配置满足不了，使用querySql配置：
如在数据清洗过程中，我们通常需要去join一些维度表以便过滤脏数据。所以，我们更多时候会使用querySql配置项：
不过由于每次数据同步的增量条件是不同的，可以通过自己编写代码来动态修改job任务，以便达到增量更新。

第二部分：增量同步

一、数据库增量同步数据思路

[推荐]浅谈增量数据的四种抽取模式
参考URL: https://blog.csdn.net/mochou111/article/details/80995156
什么是数据抽取 --全量抽取、增量抽取
参考URL: https://blog.csdn.net/yangtongli2012/article/details/51725408

基于全量对比得出增量数据
增量数据即DML操作，无非I(INSERT),D(DELETE),U(UPDATE)三种，故可以拿昨天的全量数据与今天的全量数据进行对比得出昨天的增量，具体方法是通过关联表的主键，唯一键用left join，right join，inner join 等对比出增量数据
优点：因为是云上merge对比，所以对源库无影响
缺点：这个操作仅仅适合表有主键，唯一键或者数据量较小的表，不然海量数据中每条数据的每一列都进行逐一比对，很显然这种频繁的I/O操作以及复杂的比对运算会造成很大的性能开销。
基于日志文件读取增量数据
这种方式可以通过读取数据库的归档日志等得到增量数据，然后在目标库或者文档服务器里进行操作
优点：可以做到数据无误差传输，有回滚机制，有容灾备份的能力
缺点：开归档会对源端数据库的磁盘造成压力，增加储存成
基于建触发器生成增量数据
触发器的概念我们都知道，故我们可以建立IDU三种操作的触发器，并由触发器将变更的数据写到库里的临时表里，然后用ETL工具直接抽取这张临时表即可进行增量上云
优点：是数据库本身的触发器机制，契合度高，可靠性高，不会存在有增量数据未被捕获到的现象
缺点：对于源端有较大的影响，需要建立触发器机制，增加运维人员，还要建立临时表，储存临时表，增加储存成本和运维成本
基于时间字段切分增量数据
此方法依据表的某一时间字段，在etl工具里进行条件设定即可快速抽取增量数据
优点：数据处理逻辑清楚，速度较快，成本低廉，流程简单
缺点：此方法要求表的时间字段必须是随表变动而变动的不为空数据，此外由于是直接读取表数据，该方法无法获取删除类型的数据。

总结:

对于大型数据库，数据变更频率快，表数量多，对数据传输要求有备份，安全，零差数据的采用基于数据库日志的方法
对于小型数据库，且未开归档，但数据变更频率快的采用基于全量对比的方法
对于含有标准时间戳字段，且应用环境适合，表数量较少的采用基于时间字段的方法
至于触发器，由于需要源端运维成本较大，且对源端存储有压力(既然都是对存储有压力为何不用OGG)，故很少有客户选择这一种

二、数据同步工具 Otter

数据同步工具otter(二)
参考URL: https://blog.csdn.net/frog4/article/details/81613025
数据同步工具otter（一）谈谈binlog和canal
参考URL: https://blog.csdn.net/frog4/article/details/80280149

基于数据库增量日志解析，准实时同步到本机房或异地机房的mysql/oracle数据库. 一个分布式数据库同步系统；

Otter基于数据库增量日志解析，支持mysql/oracle数据库进行

otter是一个基于canal的数据同步平台，含义是水獭，主要的功能就是可以将mysql的数据同步至另外mysql或者oracle，在项目中应用场景主要是多数据中心、BI系统抽取数据、灾备。

另外也支持双向同步（即A库同步给B库，B库也同步给A库）、文件同步，
在canel的基础上做了一个mysql的同步平台（带WEB管理界面），在界面上，你可以定义相应的映射规则，otter进程就会根据你定义的规则读取binlog，并更新到目标库中去。

github的地址：https://github.com/alibaba/otter

1. Canal

原理如下：

canal模拟mysql slave的交互协议，伪装自己为mysql slave，向mysql master发送dump协议
mysql master收到dump请求，开始推送binary log给slave(也就是canal)
canal解析binary log对象(原始为byte流)

2. Otter能解决什么问题

异构库同步
Otter支持从Mysql同步到Mysql/oracle,我们可以把mysql同步到oracle
单机房同步
可以作为一主多从同步方案,对于单机房内网来说效率非常高,还可以做为数据库版本升级,数据表迁移,二级索引等这类功能
异地机房同步
异地机房同步可以说是Otter最大的亮点之一,可以解决国际化问题把数据从国内同步到国外来提供用户使用,在国内场景可以做到数据多机房容灾
双向同步
双向同步是在数据同步中最难搞的一种场景,Otter可以很好的应对这种场景,Otter有避免回环算法和数据一致性算法两种特性,保证双A机房模式下，数据保证最终一致性
文件同步
站点镜像,进行数据复制的同时，复制关联的图片，比如复制产品数据，同时复制产品图片

三、Otter与Datax区别

定位不同，datax主要是解决离线全量同步，通过select语句或者dump指令提取数据，然后同步到目标，数据仓库典型用法。

DataX不适合实时数据同步或太频繁的定时同步，因为同步都需要去读取源表，频率过大对源表会造成压力。

canal&otter，主要是解决准实时同步，通过解析数据库日志，然后同步到目标，网站前台的典型用法。

四、SymmetricDS

SymmetricDS是一个文件和数据库同步软件，开源的，支持多主复制，同步时过滤和在异构的网络环境中进行数据转换传输。它支持单向和双向上的多个订阅者，异步的数据复制。

SymmetricDS，利用数据库的触发器捕捉数据库变化来实现数据库同步，可以有两个节点或多个节点，可实现同服务器不同数据库同步或不同服务器数据库同步。

五、Otter和SymmetricDS

两者功能是差不多。

网上的一些描述如下：
otter的第三个版本是基于SymmetricDS 2.x版本发展出来，正是因为有了这层关系，两者才有一些相似。

这次开源的为otter的第四个版本，从2011年开始开发，和SymmetricDS几个不同点：

数据capture方式：otter4目前支持log-based，otter3和SymmetricDS一样，是基于trigger.
双向同步冲突处理：otter4目前已经有比较成熟的方案，而从SymmetricDS 3.x的文档中看，还处于planing中
调度模型：otter4相比于SymmetricDS，在数据传输的模型上，引入了并行化调度，提升同步tps. 而在SymmetricDS 3.x文档中暂没看到相关的描述，基本还是串行的处理，只不过多了push的功能，这点是otter4没有的

基于log-based的方案，对于数据库的影响相对较少，同时可精确提取具体变更的字段，做到按需同步，而SymmetricDS基于trigger的方式，只能提取到变更的pk，每次同步时基于pk反查源库提取到行记录。从性能上来说，按字段同步传输量和数据库载入上都有很大的优势，从数据冲突上来说，冲突粒度更小了，有利于冲突处理方案的执行。

可以说下，otter3和otter4的性能对比，基本上是一个数量级上的提升，otter3的基于trigger，然后根据pk反查的，处理tps基本只在500_{1000tps，而基于log-based，基于字段同步的可以达到5000}10000tps.

SymmetricDS有一个比较大的优势就是支持的数据库的比较多，这也是基于log-based所无法超越的，因为完成一个log-based不是那么简单的，代价很高，也就是最近1，2年才陆续有mysql的log-based出现，而oracle的log-based基本上的价格就是一个oracle的价格。

参考

Otter与你们的Datax有多大区别？
参考URL: https://www.iteye.com/topic/1131759?page=2

adb 如何导出手机的文件风继续吹.. 工具类 Uni-App adb 智能手机 uniapp sqlite
目录1.开启USB调试2.连接设备3.启动ADB4.导出文件使用adbpull命令5.可视化工具预览adb（AndroidDebugBridge）是Android开发中常用的一个工具，它允许开发者通过电脑与Android设备进行通信。如果你想通过adb导出手机上的文件，你可以按照以下步骤业务需求:前端通过使用uni-app的sqlite(关系型数据库系统),存储了大量的机密数据在手机上,直接通过代
DPO 核心理论推导：参考策略距离约束下的最优策略 + 损失函数设计 iiiiii11 机器学习人工智能论文阅读笔记语言模型深度学习
Rafailov,Rafael,etal.“Directpreferenceoptimization:Yourlanguagemodelissecretlyarewardmodel.”AdvancesinNeuralInformationProcessingSystems36(2023):53728-53741.本文整理了DPO论文中两个核心结论的推导，包括参考策略距离约束下的最优策略的形式，以及
使用Seaborn绘制水平小提琴图 YOUFDJ python 开发语言 Python
使用Seaborn绘制水平小提琴图水平小提琴图是一种常用的数据可视化工具，可以用于展示不同类别之间的分布情况。在Python中，我们可以使用Seaborn库的catplot函数来轻松地绘制水平小提琴图。本文将介绍如何使用Seaborn绘制水平小提琴图，并附带相应的源代码示例。首先，确保你已经安装了Seaborn库。如果没有安装，可以使用以下命令在命令行中安装：pipinstallseaborn安装
Linux系统之cal命令详解门前灯 linux 运维服务器 cal
cal命令详解cal是一个用于显示日历的简单工具。默认情况下，它会显示当前月份的日历，但可以通过参数和选项显示特定月份、年份或自定义格式的日历。基本语法cal[options][[[day]month]year]无参数：显示当前月份的日历。单参数：显示指定年份的日历。双参数：显示指定月份和年份的日历。三参数：显示指定日、月和年份的日历，并在终端上高亮显示该日期。常用选项选项描述-1,--one显示
cursor免费使用方法交流分享0.47*依然可用 SGG_CV 人工智能 gpt
方法：使用第三方工具仅用作交流所用，一切后果皆自负工具可以帮助您重置Cursor的试用期。可以一键重置。使用方法如下：运行工具：-Windows：运行下载的可执行文件。-macOS/Linux：在终端中运行相应的脚本。重置试用期：按照工具提示，完成重置。请注意，使用第三方工具可能存在安全风险，建议在可信的环境中使用。亲测这个目前可用。获取方式如下：在下面链接的后台回复cursor交流获取curso
springboot自定义封装线程池工具类 k&p Java spring boot java spring
1.首先配置线程池的配置文件，在此处定义线程池的核心线程数等核心参数：/***核心线程数=cpu核心数+1*/privatefinalintcore=Runtime.getRuntime().availableProcessors()+1;@AutowiredprivateThreadPoolPropertiesthreadPoolProperties;@Bean(name="threadPool
网络安全-黑客攻击刘林锋blog 网络规划设计师信息安全安全网络
基本知识黑客（Hacker）、骇客（Cracker）攻击，需要进行信息收集和根据需求选择攻击方式。信息收集攻击的效果和对目标的了解程度有着直接的相关性。因此信息收集在攻击过程中占据着头等重要的位置，包括财务数据、硬件配置、人员结构、网络架构和整体利益等诸多方面。主要方式如下：网络监测。一些监测网络中计算机漏洞的工具，包括嗅探应用软件，能在计算机内部或通过网络来捕捉传输过程中的密码等数据信息。社会工
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
springboot自定义工具 johnrui spring boot java spring
springboot自定义工具上下文工具类上下文工具类你上下文工具类，获取注册的bean。publicclassSpringContextUtilsimplementsApplicationListener{protectedstaticApplicationContextcontext;@OverridepublicvoidonApplicationEvent(ApplicationPrepar
六种方法教你将Python源代码打包成exe xuefeng_210 python 开发语言 linux
将Python源代码打包成可执行文件（exe）是一种常见的需求，它可以使我们的程序在没有安装Python解释器的环境中运行。在本文中，我们将介绍六种常用的方法来实现这个目标，并详细说明每种方法的使用过程。cx_Freezecx_Freeze是一个用于将Python脚本打包成可执行文件的工具。它可以将Python代码和依赖的库文件一起打包，并生成一个独立的可执行文件。使用cx_Freeze的步骤如下
稳定运行的以Microsoft Azure Cosmos DB数据库为数据源和目标的ETL性能变差时提高性能方法和步骤 weixin_30777913 microsoft azure 数据仓库 etl 性能优化
在以MicrosoftAzureCosmosDB数据库为数据源和目标的ETL(提取、转换、加载)过程中，性能变差时，可能有多种原因。提高以MicrosoftAzureCosmosDB为数据源和目标的ETL性能，通常涉及数据库配置、查询优化、并发执行、数据传输优化和使用CosmosDB特性等多个方面。通过以下方法和步骤，可以显著改善ETL性能：增加RU设置、优化分区策略；优化查询、使用批量操作；提高
Systemd 是 Linux 系统的 ‌核心服务管理工具‌，负责管理系统的启动、服务生命周期和资源分配潇锐killer linux 运维服务器
Systemd是Linux系统的‌核心服务管理工具‌，负责管理系统的启动、服务生命周期和资源分配。它替代了传统的SysVinit系统，提供更高效、统一的服务管理方式。以下是它的核心作用：一、核心功能‌功能‌‌作用说明‌‌服务生命周期管理‌启动、停止、重启服务（如Nginx/MySQL）‌依赖关系管理‌自动处理服务之间的依赖关系（例如：先启动数据库再启动Web服务）‌开机自启管理‌通过enable/
入门 Canvas：Web 绘图的强大工具 Hopebearer_ 前端 es6 javascript canva可画
文章目录入门Canvas：Web绘图的强大工具一、Canvas简介二、Canvas的基本用法（一）绘制基本图形（二）绘制文本三、Canvas的应用场景（一）数据可视化（二）游戏开发（三）图像编辑四、Canvas的动画效果五、Canvas的优势与局限性（一）优势（二）局限性六、总结入门Canvas：Web绘图的强大工具在Web开发的广阔天地中，为了满足用户对丰富、交互性强的体验的不断追求，前端技术持
网络安全-信息收集 One_Blanks 网络安全网络安全
声明学习视频来自B站UP主泷羽sec，如涉及侵权马上删除文章。笔记的只是方便各位师傅学习知识，以下网站只涉及学习内容，其他的都与本人无关，切莫逾越法律红线，否则后果自负。目录X一、Whois信息1.思路2.工具3.社工库二、搜索1.Google、bing、baidu三、Github四、搜索引擎FOFA：[https://fofa.info/](https://fofa.info/)360网络空间测
探索HTML5 Canvas：创造动态与交互性网页内容的强大工具 A-Kamen html5 前端 html
探索HTML5Canvas：创造动态与交互性网页内容的强大工具引言在HTML5的众多新特性中，Canvas无疑是最引人注目的元素之一。它为网页设计师和开发者提供了一个通过JavaScript和HTML直接在网页上绘制图形、图像以及进行动画处理的画布。Canvas的灵活性和强大功能，使得它成为创造动态、交互性网页内容的首选工具。本文将深入探讨HTML5Canvas的基本用法、应用场景以及如何利用它来
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
业务概念模型，你必须知道的建模分析工具 SystemEngineeringLab 统一建模语言需求分析
引言回想经历过不同的团队、不同的产品线、大量的产品需求迭代建设，在系统建设（多数是业务系统）中往往偏重于方案域求解，比如，而弱化或忽视对问题域的分析建模。这篇短文章浅谈一下“业务概念模型”，希望对大家有所帮助。什么是业务概念模型对于概念模型我们并不陌生，其本质是模型，是对某个域信息的建模，例如常见的E-R图是对数据模型的建模。多数情况下，作为技术我们更多的接触的是技术域的分析与建模。业务概念模型（
Python - 爬虫；爬虫-网页抓取数据-工具curl MinggeQingchun Python 爬虫 curl python
一、爬虫关于爬虫的合法性通用爬虫限制：Robots协议【约定协议robots.txt】robots协议：协议指明通用爬虫可以爬取网页的权限robots协议是一种约定，一般是大型公司的程序或者搜索引擎等遵守几乎每一个网站都有一个名为robots.txt的文档，当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页
Python爬虫：数据抓取工具及类库详解 2401_84692751 程序员 python 爬虫开发语言
wget也是一个利用URL语法在命令行环境下进行文件传输的工具,其基本用法为wget[URL地址][参数],如:wgethttps://www.baidu.com其常用参数如下:下面例子演示如何使用wget镜像一个网站到本地并启动:使用wget--mirror命令将整个网站的镜像下载到本地wget--mirror-p--convert-linkshttp://www.httpbin.org切换到下
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
2025年零基础入门学网络安全（详细），看这篇就够了网安大师兄 web安全安全网络网络安全密码学
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包一、自学网络安全学习的误区和陷阱1.不要试图先成为一名程序员（以编程为基础的学习）再开始学习我在之前的回答中，我都一再强调不要以编程为基础再开始学习网络安全，一般来说，学习编程不但学习周期长，而且实际向安全过渡后可用到的关键知识并不多一般人如果想要把编程学好再开始学习网络安全往往需要花费很长时间，容易半途而废。而且学习编程只是工具不是
美团-测开陈陈爱java postman
【软件测试】白盒测试与黑盒测试_白盒测试和黑盒测试-CSDN博客软件测试理论与实践：涵盖数据库、网络、自动化测试-CSDN博客对测开的理解通过技术手段来测试和优化软件，测试功能是否能正常运行，存在哪些漏洞，提高系统的稳定性。而且思维要活跃，能够构建一些测试体系。分析产品需求，参考技术方案，指定合理高效的测试方案，编写清晰的测试用例发现、定位、跟踪产品缺陷，协同开发解决问题开发高效的自动化测试工具
安卓NAS，众乐影音APP，低成本打造全能家庭存储中心 DeepSeek+NAS 安卓nas winnas AINAS nas 家用nas 小米nas 飞牛nas
在数字化时代，数据存储和共享需求日益增长，NAS设备成为家庭和办公场景中的重要工具。然而，传统NAS设备价格高昂，操作复杂，让许多用户望而却步。如今，耘想公司推出的众乐影音APP，以其创新的理念和强大的功能，彻底改变了这一局面。它不仅是一款安卓影音播放器，更是一款低成本、全功能的安卓NAS解决方案，让普通用户也能轻松享受NAS的便利。一、众乐影音APP的核心功能1.低成本NAS解决方案众乐影音AP
稳定运行的以Microsoft Azure SQL database数据库为数据源和目标的ETL性能变差时提高性能方法和步骤 weixin_30777913 etl azure etl 云计算数据库
在以MicrosoftAzureSQLDatabase为数据源和目标的ETL（Extract,Transform,Load）过程中，性能问题可能会随着数据量的增加、查询复杂度的提升或系统负载的加重而逐渐变差。提高以MicrosoftAzureSQLDatabase为数据源和目标的ETL性能需要综合考虑数据库查询优化、数据加载策略、并行处理、资源管理等方面。通过合适的索引、查询优化、批量处理、增量加
量子位招聘 | DeepSeek帮我们改的招聘启事量子位
关注前沿科技量子位未来同事，你好~这是一则招聘帖。如果你与我们志同道合，对AI大模型、具身智能、终端硬件、AI新媒体编辑感兴趣，我们正在招聘这些领域的原创作者。以下岗位均为全职，工作地点：北京中关村。岗位面向：社招、应届毕业生，所有岗位均可实习——表现出色均可转正加分项：乐于探索AI新工具，善用AI新工具；拥有解读论文的能力，能深入浅出讲解原理；有写代码能力；量子位长期读者。加入我们，你可以获得：
Linux下arm的安装与使用指南 C嘎嘎嵌入式开发 linux arm开发运维
Linux下arm的安装与使用指南在Linux下安装和使用ARM架构的操作系统或开发环境是一个重要的过程，尤其是在嵌入式开发和移动设备开发中。下面将详细介绍如何在Linux上安装ARM相关的工具链、操作系统，以及如何进行开发和调试。1.准备工作1.1硬件要求开发板：树莓派计算机：一台运行Linux的计算机，用于交叉编译和开发。1.2软件要求Linux发行版：Ubuntu交叉编译工具链：用于编译AR
PYQT5的UI转换报错：fatal python error: _pyinterpreterstate_get(): no current thread state解决办法 QX大黄蜂 python ui qt python
使用QT可视化工具设计界面，在将UI文件转换为py文件的时候报错：fatalpythonerror:_pyinterpreterstate_get():nocurrentthreadstatepythonrun原因可能是python版本与QT不兼容，具体原因不知道解决办法：使用以下配置将UI转换为py，再将py文件给其它程序调用python版本：3.7.1pyqt5版本：5.11.3pyqt5-t
linux grep命令蓝菱 linux linux grep 正则表达式
转自http://www.cnblogs.com/end/archive/2012/02/21/2360965.htm1.作用Linux系统中grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep全称是GlobalRegularExpressionPrint，表示全局正则表达式版本，它的使用权限是所有用户。2.格式grep[options]3.主要参数[o
AI工具如何改变编程学习？Trae IDE与Claude 3.5的实践案例黑金IT AI智能 AI编程 fasttify 人工智能学习 ide
在现在这个到处都是电脑和手机的时代，AI工具正在变成编程学习和开发的好帮手。今天，咱们就来好好聊聊AI工具，特别是TraeIDE和Claude3.5这两个工具，在学习FastAPI和构建知识图谱的时候有多厉害，还有它们对编程行业会有什么影响。一、AI工具：编程学习与开发的好帮手AI工具在编程学习和开发里，作用可太大了。就像TraeIDE和Claude3.5，它们能像好朋友一样，在写代码的时候帮忙检
量子化学仿真软件：ORCA_（12）.ORCA与其他软件的接口 kkchenjj 分子动力学2 仿真模拟分子动力学人工智能模拟仿真性能优化
ORCA与其他软件的接口在量子化学仿真领域，ORCA软件不仅是一个强大的独立工具，还能够与其他软件进行接口对接，以实现更复杂的功能和工作流程。本节将详细介绍ORCA如何与其他常见的量子化学软件（如Gaussian、Q-Chem等）进行接口对接，以及如何通过脚本和插件扩展ORCA的功能。1.ORCA与Gaussian的接口1.1通过文件转换实现接口ORCA与Gaussian之间最常见的接口方式是通过
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那