weixin_30322405

Kettle日常使用汇总整理

Kettle源码下载地址：

https://github.com/pentaho/pentaho-kettle

Kettle软件下载地址：

https://sourceforge.net/projects/pentaho/files/Data%20Integration

kettle-plugin源码下载地址：

https://gitee.com/nivalsoul/kettlePlugins#%E8%87%AA%E5%AE%9A%E4%B9%89%E8%BE%93%E5%85%A5%E7%B1%BB%E5%9E%8B

kettle-big-data-plugin源码下载地址：

https://github.com/pentaho/big-data-plugin

Kettle帮助文档下载地址：

https://javadoc.pentaho.com

一、如何将kettle部署到linux中去：（以root用户操作为例）

1、将window中正常使用的kettle的data-integration文件夹压缩成tar包；

2、将tar包上传到linux的指定文件夹中去；

3、利用tar命令将tar包进行解压；

4、运行./kitchen.sh命令，出现options内容，表示部署正常：

5、将连接数据库的驱动jar包换到对应的linux文件夹中，不然会连接不到数据库；

6、通过以上步骤，就可以完成对kettle在linux上的部署工作；

二、如何在Linux上登录kettle的文件资源库或数据库资源库：

说明：在window中可以通过可视化界面来登录kettle的资源库，在linux中没有可视化界面，windows中kettle的资源库信息是存储在一个配置文件中的，只需要将该配置文件上传到linux中指定文件位置即可，在执行某个转换或作业的时候，在命令中输入相应的资源库即可；

1、找到window中存储kettle资源库信息的配置文件：

2、如果是文件库资源库，那么需要修改该配置文件中文件的路径：

3、如果是数据库资源库，那么不需要修改任何内容；

4、将该配置文件上传到linux中部署kettle用户文件下隐藏的.kettle文件夹下，本人是利用root用户部署的，因此放在/root/.kettle文件夹下即可：

5、通过以上几步，可以完成kettle资源库从window迁移到linux上；

三、Window中kettle的文件资源库如何在linux中执行：

1、首先要完成kettle中作业或转换所在的资源库迁移到linux上；

2、将需要执行的转换或作业文件迁移到linux中指定的文件资源库中去；

3、如果转换中还有数据库连接，那么需要将存储有数据库连接的配置文件也上传到linux上：（.kdb格式文件就是数据库配置文件）

4、然后登录linux，进入到Kettle的data-integration文件夹下，就可以通过百度linux kettle 命令行 ktr/job进行执行了。

命令例子：

四、Window中kettle的数据库资源库如何在linux中执行：

1、首先，完成对window中登录数据库资源库配置文件上传到Linux中对应的位置；

2、然后登录linux，进入到Kettle的data-integration文件夹下，就可以通过百度linux kettle 命令行 ktr/job进行执行了。

命令例子：

五、Kettle文件资源库与数据库资源库内容如何转换：

1、文件资源库导入到数据库资源库：

（1）首先，在kettle软件中登录到数据库资源库；

（2）然后，文件---从xml文件中导入，选择自己要导入的作业或转换，然后ctrl+s保存即可；

2、数据库资源库导入到文件资源库：

（1）首先，在kettle软件中登录到数据库资源库；

（2）然后，文件---导出-----导出到xml文件即可；

六、Kettle连接不同数据库驱动jar包放置位置：

Kettle软件部署在不同操作系统中，连接各种数据库的驱动jar包防止的位置是不同的，与操作系统有关，不同的操作系统上，驱动jar包放在对应的文件夹中即可，如下图：

七、kettle实现的功能：

kettle可以实现从不同数据源（excel、数据库、文本文件等）获取数据，然后将数据进行整合、转换处理，可以再将数据输出到指定的位置（excel、数据库、文本文件）等；

通过kettle处理大量数据非常方便，如果window服务器或者Linux服务器硬件一般情况下，对于处理千万级一下的数据都是可以的；

八、Kettle作业与转换如何配合使用：

1、一个作业相当于一个主要任务项，在这个主线中可以调用其它若干个转换，每个转换中可以从作业这个主线中获取数据，然后将数据进行相应的处理操作，再将数据传递给作业主线，也可以在转换中单独获取数据------处理数据------输出数据；

2、并且如果对于需要设置变量的情况下，一般也是需要用到作业与转换的配合使用，因为变量在当前线中设置，不能再当前线中获取，需要到下一个线中才能够获取；

3、一个任务只能够有一个主作业，但是可以有多个子作业，主作业中可以调用转换，也可以调用子作业，具体是调用转换还是调用子作业，需要根据不同的需求，进行不同的定制；

九、Kettle中设置编码格式：

如果处理的数据中有中文，需要对中文设置编码格式，一般是utf8格式，彻底的修改格式的方法就是，修改spoon.bat文件中增加如下信息："-Dfile.encoding=UTF-8"；

十、Kettle中调整运行性能：

Kettle默认的性能适用于普通的一般硬件，如果自己的电脑硬件比较好（内存比较大），可以对kettle的spoon.bat中的参数进行修改，这样可以适当的提高kettle的运行性能，主要是修改-Xms、-Xmx、-XX:MaxPermSize三个参数的值：

-Xms：设置JVM初始内存；
-Xmx：设置JVM最大可用内存；
-XX:MaxPermSize：设置JVM最大允许分配内存，按需分配；

非常注意：

1、 -Xmx必须小于等于系统内存的1/4，要不然会报错，其他两个选项不大于-Xmx ；
2、当系统内存为4G时-Xmx不能大于1G，当系统内存为8G或更大时，java版本必须是64位的才能识别出来，此时-Xmx可以为2G或更高

自己配置的信息：window服务器内存8G：

-XX:MaxPermSize = -Xmx = 4096m；

-Xms = 1024m

十一、Kettle中常用的控件：

（1）作业中常用控件：

1、通用——START：作业开始；

2、通用——作业：指定某个作业循环执行；

3、通用——转换：指定某个转换，加入到作业中来；

4、通用——设置变量：设置变量，为了转换或者作业中获取变量；

5、通用——成功：作业完成操作；

6、通用——DUMMY：空操作，什么也不执行；

7、邮件——发送邮件：给指定邮箱发送邮件，发件人的账号需要开通第三方发送邮件的功能；

8、文件管理——复制/移动结果文件：复制/移动文件；

9、文件管理——创建一个目录：创建指定的目录；

10、文件管理——删除一个文件：删除指定的一个文件；

11、文件管理——复制文件：复制指定的文件；

12、文件管理——删除目录：删除指定的目录；

13、文件管理——删除多个文件：通过正则表达式批量删除文件；

14、条件——检查数据库连接：检查数据库是否能够连接通；

15、条件——检查表是否存在：检查指定的表是否存在；

16、文件传输——SFTP下载：可以通过SSH进行远程下载文件；

17、文件传输——SFTP上传：可以通过SSH进行远程上传文件；

18、文件传输——FTP删除：可以远程删除指定的文件；

（2）转换中常用控件：

1、输入——Excel输入：从excel文件中读取数据；

2、输入——文本文件输入：从文本文件中读取数据；

3、输入——生成随机数：用来生成指定类型的随机数；

4、输入——自定义数据常量：将值不变的变量存入到此处，方便管理；

5、输入——获取系统信息：可以获取系统信息（日期、命令行参数）；

6、输入——表输入：从数据库表中读取数据；

7、输出——Excle输出：注意.xls格式输出行数有限制，一般输出.xlsx最好；

8、输出——插入/更新：根据指定的匹配字段，可以检测是插入新数据，还是修改旧数据；

9、输出——文本文件输出：将结果数据输出到文本文件中去；

10、输出——表输出：将结果数据输出到某个数据库的某个表中；

11、转换——增加常量：在原数据中将常量值增加新一列；

12、转换——排序记录：对原数据按照某个字段进行排序；

13、转换——剪切字符串：对字符串进行截图；

14、转换——去重复记录：对于某个字段有重复的记录进行过滤；

15、转换——字段选择：筛选流中的字段，慎用，过滤后后面的控件将无法获取流中筛除的字段了；

16、流程——空操作：将不需要的数据放到此处，类似垃圾箱；

17、流程——过滤记录：按照条件进行过滤，类似if-else；

18、流程——Switch/Case:与java中switch/case一样；

19、脚本——java代码：执行java代码；

20、脚本——javascript代码：执行javascript代码；

21、脚本——执行SQL脚本：执行sql；

22、连接——记录集连接：类似于sql的left join/right join/inner join，但是使用前的数据必须要经过排序；

23、作业——从结果获取记录：从作业中获取数据；

24、作业——复制记录到结果：将转换中的结果数据放到作业中去；

25、作业——获取变量：从作业中获取变量；

26、作业——设置变量：设置变量，从而让作业中能够获取变量；

十二、Kettle中javascript脚本执行：

在javascript脚本中可以直接定义变量，可以直接从上一个控件中获取值，获取值的方法直接写前一个控件中某列的列明就好，定义的变量在后续的控件中都可以直接获取：

十三、Kettle中常用的功能代码：

1、javascript生成uuid的代码：

var uuid = replace(java.util.UUID.randomUUID(),"_","");

2、Javascript截取前一个控件中某个字段的长度，获取另外一个变量：

var choice = substr(tydm,0,4);

0：开始截取的角标；4：表示截取的长度；

十四、Kettle中常见的异常处理：

1、异常类型：java.lang.stackOverFlowError

原因：栈溢出，可能是在处理的数据比较大，栈默认值不够使用了；

解决方法：修改kettle中的启动项spoon.bat中的信息，添加一个Xss=1024m即可解决，如果还不够，可根据硬件来适当增加值；

2、中文输出乱码问题：

设置编码格式，具体操作上述有步骤；

3、连接不上数据库，报java.lang.NullPointerException异常：

原因：kettle中放置的连接数据库的驱动jar包版本低于要连接的数据库版本；

解决方法：首先查看自己要连接的数据库版本，然后选择驱动jar包版本要对应或者高于但要最接近于数据库版本的jar包即可解决；

4、启动kettle：Prepared statement contains too many placeholders

表输出每次提交的设置数量太高了，降低每次输出数量即可解决问题；

5、正常运行一会突然报错：Communications link failure

错误一：

java.net.SocketException: Connection reset by peer: socket write error

错误二：

com.mysql.jdbc.exceptions.MySQLNonTransientConnectionException: Communications link failure during commit(). Transaction resolution unknown.

产生上述两个错误的原因：可能是kettle默认使用的是服务端提供的statement，因为一些原因服务端可能会关闭statement，因此要对连接的数据库设置一些参数，使用kettle自身提供的statement就可以

（1）解决问题：设置参数如下：

useServerPrepStmts=false

rewriteBatchedStatements=true

useCompression=true

（2）如果使用连接池，并将连接池总的maxIDle数值设的比较大：

（3）对数据库中的net_write_timeout和net_read_timeout设置大点，即修改my.cnf配置文件中参数值的大小，如果没有该参数，自己增加即可：

如果还是报错，可能是服务器性能不好，稍等一会或者第二天再尝试，就可能好了。

（4）如果数据量多，请求有修改，可能是锁了sql了，需要将innodb_lock_wait_timeout值设置大点，如果数据量特别大，那就值更大点。就可以解决问题了。

6、运行速度慢，卡，解决方法是：增加内存：

（1）JAVAMAXMEM:为物理内存的1/4，如果物理内存在16g以上，最大可以尝试1/2；

（2）Xms和Xmx：等于JAVAMAXMEM的大小；

（3）Xmn:为xmx的3/8

（4）Xss:一般1024够了，主要是防止StackOverFlowError出现的。

7、多张表关联插入时，报：Unable to write value data to output stream，No space left on device：（临时文件输出到指定地方，该地方磁盘空间不够）

解决方法：

（1）将排序目录指定到一个磁盘比较大的位置；

（2）将排序缓存大小设置的适当小点；

（3）将临时文件进行压缩；

（4）排序目录默认的就是系统配置的kettle_home的路径，一般直接写outs就行，并在kettle_home路径下创建一个outs文件夹即可；

8、异常：java.net.SocketException: Broken pipe (Write failed):

（1）可能是kettle用的mysql-connection的jar包版本问题，换个与mysql数据库最接近的jar包版本。

（2）可能是某一个转换中用了事物，应该去掉事物的。

9、java.lang.ClassNotFoundException: org.safehaus.uuid.UUIDGenerator

原因1：kettle作业用生成UUID随机数使用的是UUID，把UUID改成UUID4就可以解决问题了。

原因2：如果是数据写入临时文件时出现这个异常，那么就需要修改Kettle的源码了，然后将编译后的.class文件放在kettle-core的jar包中对应的文件夹下进行替换即可：

10、大量数据修改出现异常：lock wait timeout exceeded

解决方法：给数据配置以下信息：

net_read_timeout=28800

net_write_timeout=28800

innodb_lock_wait_timeout=500

十五、Kettle解析XML文件获取数据：

1、核心思路:就是指定要循环读取XML的路径，并指定该路径下每个字段对应的路径，以便kettle能够循环读取XML中的数据，从而获取所有记录中不同字段的值。

2、具体步骤如下：

（1）选择XML文件路径（如果文件中各种节点路径一模一样，可以选择多个文件，也可以通过正则表达式等选择一定规则的多个文件）：

（2）指定要循环读取的XMP路径，主要是从根节点开始到哪个节点需要循环读取：

（3）指定每次读取节点下的各个字段的名称、路径（书写参照xPath意义）、属性、数据类型等属性：

（4）通过以上三步的操作，便可以完成简单的XML文件读取。

十六、使用kettle时必须要注意并且做到的几个要点：

1、检查连接数据库的驱动版本，要做到jar包的版本和数据库版本尽量接近；

2、创建数据库连接的url中必须加上以下两个参数：

?autoReconnect=true&failOverReadOnly=false

3、创建数据库连接的参数中必须加上以下三个参数：（用于增加数据写入速度）

useServerPrepStmts=false

rewriteBatchedStatements=true

useCompression=true

4、创建数据库连接，如果使用的连接池，必须设置maxIdl值较大：

5、必须根据kettle软件所在的硬件，修改spoon.bat(window)或spoon.sh(linux)的内存大小：

Window:

Linux：

6、能用控件处理的，就尽量不要写js或java等处理了：比如uuid的生成等；

7、在作业中调用的任何一个转换，都要将该转换输出到data-integration/logs文件夹下，参数设置如下：（在kettle转换和作用中，默认的当前目录就是KETTLE_HOME设定的data-integration目录下）

8、在转换中，如果用到了对记录进行排序，将排序目录设置在data-integration/outs文件夹，参数设置如下：（在kettle转换和作用中，默认的当前目录就是KETTLE_HOME设定的data-integration目录下）

9、如果用到更新的时候，一定要选择批量？跳过查询两个勾选：这样可以提高更新的速度。

10、生成随机数一定要用UUID4，否则管理平台调用会出现问题。

11、在每一个作业中，最好使用一个发邮件功能，在开始和成功中间任何一个步骤到发出一个异常流程，指向发邮件，这样如果作业中任何一个环节出现异常，就会自动给指定的邮箱进行发送邮件（非常注意：发送邮件的发送邮箱一定要开通第三方授权码，通过授权码作为密码来发送功能）

12、在每一个作业开始执行时，都要添加一个检查数据库连接控件，用来检查该作业中所有用到的数据库连接是否能够正常连接，如果连接不上，则可以通过发送邮件进行提醒，如果不检查的话，数据库因为网络通信问题连接不上，kettle作业中的异常是不会发送邮件的：

非常注意：如果检测的是多个数据库连接，那么只有所有的数据库都能连接上，才算是正确，如果有任何一个数据库连接不上，都会是异常。

13、如果用Kettle做大量数据，很多字段的更新的话，如果用简单的更新控件，更新速度非常的慢，通过经验发现，通过这样处理，可以增加更新的效率，缺点就是操作人员写作业时间较长：

（1）不是更新所有字段，而是先判断该字段是否发生变化，如果发生变化了就只更新该字段+更新时间，两个字段值；

（2）因此需要对获取的记录通过复制的方式，分发给不同字段判断的过滤条件控件；

（3）在更新控件中，一定要勾选批量更新、跳过查询，可以提高速度。

14、设置的变量作用范围：核心一点，最好就是变量的作用范围为当前作业，尤其对于费定时任务，有可能多个作业同时启动的，一定要将变量的作用范围设定在当前作业中，如果设置变量的操作是在一个转换中，然后一个作业进行调用这个转换，那么变量的作用范围就是parent-job，一般不选择整个JVM，具体情况，根据设定变量这个操作的位置不同，决定其作用范围的设置，一句话，一个作业中的变量作用范围，最好就是在该作业内有效。

十七、利用kettle实现动态迁移整个数据库：

1、主题思路：

有主作业、子作业两个作业组成这个流程，在主作业中，首先调用一个转换用来获取指定库中所有的表名、表sql等内容复制到结果记录，然后调用一个子作业，子作业中先调用一个转换用来结果记录中的信息，然后设置变量，变量有效范围为parent_job，然后子作业再调用一个转换，用来执行sql脚本创建表结构和获取源数据表中的数据再输出到对应的目标数据库中表中即可，因为字段名称是一致的，所以不需要指定字段映射；

2、实现过程截图：

3、具体作业，详情见自我总结常用功能/整库迁移中的作业

自我感悟：如果想要动态的设置变量，就需要在主作业中嵌套一个子作业，子作业中调用一个转换，转换的功能就是通过从子作业的上一步中获取结果信息，然后将信息设置成变量，变量的有效范围parent-job；

十八、Kettle寻找资源库的原理：

Kettle首先是通过KETTLE_HOME下寻找.kettle文件下的资源库，如果没有配置KETTLE_HOME那么kettle寻找资源库是通过当前登录用户下的.kettle文件寻找资源库；

十九、Kettle修改资源库登录用户密码：

Kettle资源库创建好后，有默认的admin/admin、guest/guest两个用户，修改用户登录密码操作如下图所示：

二十、Kettle大量数据迁移，跳过异常数据继续执行，输出异常数据：

1、在表输出后添加一个异常输出到excel文件的控件，输出字段自己选择，这样可以让异常数据中的信息输出到excel中；

转载于:https://www.cnblogs.com/nbjin/p/9707808.html

你可能感兴趣的:(Kettle日常使用汇总整理)

关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
2022-08-28 蔚蓝一片晴
初三暑假培训收获点滴从8月25至8月27日三天两晚的培训结束了，回到家中，该静下心来整理一下触动心灵的收获，成为成长的积淀。1.在优秀团队中快速成长与提升，做一名反思成长型教师一名专业型教师的教学指导包括了教学原理知识、案例知识、策略知识。面对教学中的遇到的有趣的情形、问题会去研究其理，寻找更好的教法学法对策。从新手到成熟型教师，再走向专业型教师，需要的是觉醒与反思，多进行案例研究，从案例中观察、
2020-8-19晨间日记：看过的电影盐大虾
今天是周三起床：6点半就寝：11点天气：晴心情：正常纪念日：周三任务清单今日完成的任务，最重要的三件事：1.整理写过的文档2.电影《电灯泡》3.这就是街舞第三季第五期改进：早睡早起习惯养成：早睡早起，看书周目标·完成进度两篇文章学习·信息·阅读电影艺术发展史相关教材健康·饮食·锻炼吃了挺多零食，还喝了果粒橙，还是得少吃，多锻炼，不然会慢慢死掉的。人际·家人·朋友淡定交流，不放在心上。工作·思考专心
好习惯和坏习惯炫舞阳光
好习惯和坏习惯文/炫舞阳光生活中有很多细节，可以体现出一个人的习惯。好的习惯让人保持清晰的头脑，坏的习惯常常让人丢东忘西，头脑混沌。生活中，我喜欢整理东西。厨房里，锅碗瓢盆各样东西我习惯各就其位。案板、勺子、铲子和刀具我习惯性的挂起来。大大小小的碗和盘子，我习惯性的立在收纳柜里。每次轮到我在家做饭时，我习惯于一边使用，一边收拾和擦拭归位。做好饭时，台面干干净净。我想把这种习惯影响和传递给家人。然而
python批量读取tiff文件_Python Pillow批量转换tif格式到jpg weixin_39557797
最近因为想要整下网站的壁纸，从网站下载了别人整理好的合集压缩包，解压之后，却发现里面的文件都是tif的，tif格式网站和电脑都不认的，根本不能作壁纸。这时候，就需要转换图片格式了，首先我找了几款转换格式的软件，发现效果都不好，要不是不支持tif格式，要不就是转换出来的图片糊的不行。最终，还是决定用Python的Pillow库来写一个脚本，完成这个任务。下面是整个的小脚本----importosim
光盘文件系统 (iso9660) 格式解析穷人小水滴光盘文件系统 iso9660 deno GNU/Linux javascript
越简单的系统,越可靠,越不容易出问题.光盘文件系统(iso9660)十分简单,只需不到200行代码,即可实现定位读取其中的文件.参考资料:https://wiki.osdev.org/ISO_9660相关文章:《光盘防水嘛?DVD+R刻录光盘泡水实验》https://blog.csdn.net/secext2022/article/details/140583910《光驱的内部结构及日常使用》ht
圣诞节后的人气又回来了？好丽友、特斯拉们的生意却不好做| 每周热点汇总饭Sir看天下
新的一年来了大家好，今天是2022年12月26日，星期一，农历十二月初四。这个月，相信我们很多人都遇到了身体不适的情况，饭Sir上周也因为发烧不得不停更了一周，这几天才刚刚恢复，好在这一切最后都能过去。疫情之外，一些好消息也逐渐到来，例如北京等多座大城市在年底的圣诞节期间又恢复了生机，一些迹象也在预示着久违的热闹春节要回来了。但另一方面，明年不确定的经济形势又带来一些不利的消息，不禁让人有些担心。
【Python搞定车载自动化测试】——Python实现车载以太网DoIP刷写（含Python源码）疯狂的机器人 Python搞定车载自动化 python DoIP UDS ISO 14229 1SO 13400 Bootloader tcp/ip
系列文章目录【Python搞定车载自动化测试】系列文章目录汇总文章目录系列文章目录前言一、环境搭建1.软件环境2.硬件环境二、目录结构三、源码展示1.DoIP诊断基础函数方法2.DoIP诊断业务函数方法3.27服务安全解锁4.DoIP自动化刷写四、测试日志1.测试日志五、完整源码链接前言随着智能电动汽车行业的发展，汽车=智能终端+四个轮子，各家车企都推出了各自的OTA升级方案，本章节主要介绍如何使
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
进销存小程序源码 PHP网络版ERP进销存管理系统全开源可二开摸鱼小号 php
可直接源码搭建部署发布后使用：一、功能模块介绍该系统模板主要有进，销，存三个主要模板功能组成，下面将介绍各模块所对应的功能；进：需要将产品采购入库，自动生成采购明细台账同时关联财务生成付款账单；销：是指对客户的销售订单记录，汇总生成产品销售明细及回款计划；存：库存的日常盘点与统计，库存下限预警、出入库台账、库存位置等。1.进购管理采购订单：采购下单审批→由上级审批通过采购入库；采购入库：货品到货>
更改npm镜像源为淘宝镜像骆小骆基于node.js
npm常用指令后缀*最近复习了一下node.js整理了一下跟node.js相关的指令后缀*--save、-S参数意思是把模块的版本信息保存到dependencies（生产环境依赖）中，即你的package.json文件的dependencies字段中；–--save-dev、-D参数意思是把模块版本信息保存到devDependencies（开发环境依赖）中，即你的package.json文件的de
阿里云服务器4核8G配置购买及价格类文章汇总（10篇）阿里云最新优惠和活动汇总
阿里云服务器4核8G配置如何购买？价格是多少？4核8G配置的阿里云服务器可以通过云服务器产品页购买也可以通过阿里云活动去下单购买，一般通过活动购买的用户比较多，但是不同实例规格的阿里云服务器价格不一样，带宽不同价格也不一样，本文为大家汇总了10篇关于阿里云服务器4核8G配置购买教程文章和价格类文章，分为购买类文章和价格类文章，以供大家参考如何购买阿里云服务器4核8G配置和最新优惠价格是多少。阿里云
2022-07-06学会放手杨晓玲乐平市第十一小学
2022年7月5日星期一晴今天结束了国培培训，上午收拾好物品，带着孩子整理心情，带着憧憬去到孩子新的学校，因为从小我有意培养孩子自己整理自己内务，孩子很认真的把自己要用的都整理好，不用的都另外装好，这一点孩子的能力还是挺强的。把自己的行李按学校提出的要求认真的整理好，我们便出发了。我们早早的来到学校，时间还早，便让她到阿姨那休息了一会儿，每去到一个新的地方，能迅速的安顿下来，这是非常好的。时间很快
pyhon+ffmpeg 常用音视频处理命令不再游移 ffmpeg 音视频 python
FFmpeg是多媒体领域的万能工具。只要涉及音视频领域的处理，基本上没有它做不了的事情！通俗点讲，从视频录制、视频编辑再到播放，它都能做！前段时间做了个短视频自动化脚本项目，需要自动处理音视频（包括一些合成、拼接、转场、调色等等），当时做的时候找各种命令还是很痛苦的，因此对用到的所有处理命令做了个汇总，方便以后使用。目录一、获取音频时长二、获取视频信息三、获取视频时长四、多个视频合并五、视频提取视
抱怨很廉价，别做空想家 Fang2023
今天在整理浏览器收藏夹的时候，看到一个很多年前保存的一个网页，上面是一支央视公益广告的视频，《我创故我在》。思绪一下子回到了好几年前。还记得第一次无意中在电视上看到这支广告，喜悦之情溢于言表。抱怨很廉价，别做空想家，这句歌词尤其喜欢。听着歌曲，仿佛那时候的潮气蓬勃、意气风发，又回来了，即使此时感到疲惫。【公益】央视公益广告歌曲《我创故我在》_腾讯视频
好运来是露漫漫呀
4月9日下午17.45分晴此时学校里广播站放着激情热烈的歌曲——《好运来》。“好运来，祝你好运来……”第一瞬间，我想到了他们是放这首歌是为补考的同学招来好运气的。然后我思绪飞扬，飘到了高中考试前同学放这首歌来抚平心态。飘到了高考前整理班级课桌时，学校喇叭里大大咧咧放着《好运来》……疲惫的我会心一笑。飘到了上学期考细解实验试卷时的那个中午青春小胖放这首歌来招好运，祈祷考的都会…………关于《好运来》的
思考成长丁昆朋
这篇文章是加紧赶出来“应付”日更，一方面不想要再晚睡了；另一方面不想失去日更达人的称号，只能坐下来匆忙写下一点文字。既然标题是成长，先来总结一下这段时间的收获：1、整理箱子站着可以看电脑，坐着反而是一种享受，减少了坐着腰酸背痛的现象；2、使用讯飞输入法大大增加自己的输出量；3、Anaconda+“pythontutor.com"+Google算是简单入门python；4、英语的阅读文章能力、听力提
改变从每一刻震震一点儿飞飞
每天要做的事情很多，思考的时间太少，整理的不够，所以，每天过的很快，但过的太单薄了，不知道进步在哪里？今天的意义在哪里？这问题到底出在哪里呢？哪里都很乱，时间可能还是被浪费了！要做的事情咬咬牙也就做了，想到看到就做到，是不是就会简单很多！立刻做，去试一试！
LeetCode github集合，附CMU大神整理笔记 Wesley@ LeetCode github
GithubLeetCode集合本人所有做过的题目都写在一个java项目中，同步到github中了，算是见证自己的进步。github目前同步的题目是2020-09-17日之后写的题。之前写过的题会陆续跟新到github中。目前大概400个题目Github项目链接：https://github.com/sunliancheng/leetcode_github附上一份优秀的教材整合：这是卡内基梅隆(C
靠谱的海淘APP大全可以海淘的软件有哪些氧惠评测
96KaiFa为您整理了可以海淘的软件有哪些，分别有海淘、ZOZO日本海淘、海淘铺、美芽海淘、海淘1号海外购、高乐高海淘、海淘美瞳、海淘返利网、海淘拼单、豌豆公主海淘，下面一起来看靠谱的海淘APP大全吧！购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面，送1:1超级补贴(邀请好友自购多少，你就推广得多
小学科学课堂管理规培有感 31c6a3d23d4e
今天进行了这学期的第一次新教师规培，又是干货满满的一次学习，两位有经验的老教师分享了自己很多年来有关科学教学的经验。苏老师的语言风趣幽默，通过他的课堂管理规则，懂得了语言的艺术。艳姐分享的培养小助手，对我的帮助很多，小组长，（做记录、整理材料、管理卫生）。既培养了学生，又减轻老师的工作量，还有评价表，学起来学起来！
正念内观练习20220622 蓝空静云
夏一、善念&感谢女儿一边说想明天放学后去看看要去北京手术的闺蜜，又一边念叨明天闺蜜要出发，家里得收拾行李什么的，是不是去了会添乱，真是个心思细腻又善解人意的姑娘。上周表姐回了趟老家，妈妈托给捎回来一些鹅蛋、鸡蛋还有自己腌的咸鸭蛋，拿回来一直放在楼下，今天拿上来收拾整理放入冰箱保鲜慢慢吃。妈妈家不养家畜，这些都是邻居们自家养的送给妈妈，妈妈又特意捎给女儿，妈妈总说自家养的比外面卖的好，好的总是会留给
DVBS 卫星波段设置晨春计 TV Android TV android
目录背景DVBS介绍LNB(LowNoiseBlock)LNBC(LowNoiseBlockController)Tuner接收频率范围卫星波段范围卫星波段降频Ku波段降频C波段降频码流机和DVBS菜单设置背景不经常使用DVBS频率设置，容易忘记，整理如下。DVBS介绍在DVBS/S2信号通过同轴线进入电视/机顶盒的同时，LNBC会通过同轴线向外输出0/22K，13V/18V等信号，以控制LNB的
Ubuntu常用命令整理十里染林
ubuntu16.04server开启ssh:使用x-shell连接主机，发现22端口没有打开，开启ssh服务：安装openssh-serversudoapt-getinstallopenssh-server检查安装是否成功sudops-e|grepssh开启ssh服务sudoservicesshstartUbuntu开启/关闭防火墙:开启防火墙sudoufwenable关闭防火墙sudoufwd
关于日更的思考暖益
日更也有10天了，习惯还在养成的过程中，遇到一些问题。日更确实让我觉得有一些成长和思考，感觉也非常棒。但是最近日更遇到一些问题，一个是内容，一个是时间。【日更内容】想要写的内容其实很多，但是需要整理思路，花更多的时间思考，才能提高输出文章的质量。日更内容可通过得到的听书，日常的电影，或者学习获取。记得之前看过的《暗时间》，其中有一个方法就很适合用在此处，往头脑中放一个问题，有事没事拿出来思考或者找
番茄畅听邀请码汇总一览(2024六个邀请码扭亏)常见的获取收益凌风导师
听书app是今年的一个流行趋势，番茄畅听听书还可以赚钱规范：目前在网络上有很多违规的邀请码番茄畅听邀请码：4593357008、4425504881或4510119158，它的主要特点是提供海量的小说和广播节目，同时也具备一些社交互动的功能。在番茄畅听中，填写邀请码是一种常见的获取收益的方式。没错，就是4425504881！妇女节快要到来,番茄畅听邀请码邀请码是【4593357008】【44255
【Kubernetes】常见面试题汇总（十一） summer.335 Kubernetes kubernetes 容器云原生
目录33.简述Kubernetes外部如何访问集群内的服务？34.简述Kubernetesingress？35.简述Kubernetes镜像的下载策略？33.简述Kubernetes外部如何访问集群内的服务？（1）对于Kubernetes，集群外的客户端默认情况，无法通过Pod的IP地址或者Service的虚拟IP地址：虚拟端口号进行访问。（2）通常可以通过以下方式进行访问Kubernetes集群
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，