段智华

Spark Streaming 2.2.1 处理TCP数据源的案例与解读

本节讲解Spark Streaming处理TCP数据源的案例。

(一)准备工程，并构建测试类。构建程序打包的两种方式：

基于IDEA的Artifacts构建打包。
基于SBT的命令打包。

1) 基于IDEA构建应用程序。

在第2章构建的工程上，参考章节2.4.2 基于IDEA构建Spark应用程序的实例部分，继续添加依赖包如图4-4所示。

图 4 - 4 IDEA中的Project Structure…菜单

在IDEA中添加依赖包如图所示。

图 4 - 5 IDEA中添加的依赖包

图 4 - 6 IDEA中添加spark-examples_2.11-2.2.1源码依赖

本节案例基于Spark 2.2.1Examples提供的NetworkWordCount 类来实战TCP流数据的处理。如图4-6所示，可以为spark-examples_2.11-2.2.1.jar添加源码关联。在IDEA中查找examples中的NetworkWordCount 类，查找结果如图4-7所示。

图 4 - 7 IDEA中查找NetworkWordCount 类

构建自己的package，名为stream，在scala目录下，右键打开上下文菜单，选择”New”, 选择Package，操作步骤如图4-8所示。

图 4 - 8 IDEA中添加package

键入stream作为package名，点击OK按钮，如图4-9所示。

图 4 - 9 IDEA中设置添加的package名称

构建package后的目录结构如图4-10所示。

图 4 - 10 IDEA中构建package后的目录结构

在stream上右键，然后创建一个NetworkWordCount对象，如图4-11所示。

图 4 - 11 IDEA中创建一个NetworkWordCount对象

点击OK，拷贝代码，如图4-12所示。

图 4 - 12 IDEA中拷贝NetworkWordCount对象的代码

构建应用程序的Jar包，如图4-13所示。

图 4 - 13 IDEA中构建应用程序的Jar包

这里的Artifacts参见章节2.4.2基于IDEA构建Spark应用程序的实例部分。

查看构建的Jar包，已经包含了NetworkWordCount类，包含内容如图4-14所示。

图 4 - 14查看构建的jar包的类

可以通过WinRAR等解压工具打开 Jar包进行查看，也可以在命令行中使用Jar命令来解压查看，使用方法和Tar类似，具体可以查看命令的帮助信息。

2) 基于SBT构建应用程序。

在build.sbt文件中添加spark-streaming_2.11的依赖，build.sbt示例：

name :="WorkSpace"

 

version :="0.1"

 

scalaVersion :="2.11.12"

 

libraryDependencies+= "org.apache.spark" % "spark-core_2.11" %"2.2.1"

 

libraryDependencies+= "org.apache.spark" % "spark-sql_2.11" %"2.2.1"

 

libraryDependencies+= "org.apache.spark" % "spark-streaming_2.11" %"2.2.1"

打开终端，如IDEA中的终端Terminal（也可以打开Win下的cmd窗口），输入命令sbt package，具体操作如图4-15所示。

图 4 - 15 sbt package方式构建Jar包

本节案例使用IDEA的Artifacts打包的方式。需打包运行的业务代码如下。NetworkWordCount.scala的代码：

1.         // scalastyle:off println

2.         package stream

3.          

4.         import org.apache.spark.SparkConf

5.         import org.apache.spark.examples.streaming.StreamingExamples

6.         import org.apache.spark.storage.StorageLevel

7.         import org.apache.spark.streaming.{Seconds, StreamingContext}

8.          

9.         /**

10.       * Counts words in UTF8 encoded,'\n' delimited text received from the network every second.

11.       *

12.       * Usage: NetworkWordCount 

13.       *  and describe the TCP server that Spark Streaming would connect toreceive data.

14.       *

15.       * To run this on your localmachine, you need to first run a Netcat server

16.       *    `$ nc -lk 9999`

17.       * and then run the example

18.       *    `$ bin/run-exampleorg.apache.spark.examples.streaming.NetworkWordCount localhost 9999`

19.       */

20.      object NetworkWordCount {

21.        def main(args: Array[String]) {

22.          if (args.length < 2) {

23.            System.err.println("Usage:NetworkWordCount  ")

24.            System.exit(1)

25.          }

26.       

27.          StreamingExamples.setStreamingLogLevels()

28.       

29.          // Create the context with a 1second batch size

30.          val sparkConf = newSparkConf().setAppName("NetworkWordCount")

31.          val ssc = newStreamingContext(sparkConf, Seconds(1))

32.       

33.          // Create a socket stream ontarget ip:port and count the

34.          // words in input stream of \ndelimited text (eg. generated by 'nc')

35.          // Note that no duplication instorage level only for running locally.

36.          // Replication necessary indistributed scenario for fault tolerance.

37.          val lines =ssc.socketTextStream(args(0), args(1).toInt, StorageLevel.MEMORY_AND_DISK_SER)

38.          val words =lines.flatMap(_.split(" "))

39.          val wordCounts = words.map(x=> (x, 1)).reduceByKey(_ + _)

40.          wordCounts.print()

41.          ssc.start()

42.          ssc.awaitTermination()

43.        }

44.      }

45.      // scalastyle:on println

任何作用在DStream实例上的操作都会转换为对其底层RDDs序列的操作，比如，代码中flatMap方法对应的DStream内部操作如图4-17所示。

图4 - 17DStream的flatMap方法对应的内部操作

其中，一个框框对应一个批数据，即一个RDD实例。

(一) 测试NetworkWordCount应用程序。

在Spark2.2.1集群上进行测试，测试内容：

数据发送端：使用nc-lk 工具发送消息。
数据接收端：使用SparkStreaming 2.2.1 接收数据，NetworkWordCount实现实时在线单词统计功能。

Spark2.2.1集群分别以Standalone模式、Yarn方式提交应用程序。

一、Spark以Standalone模式提交应用。

1) 数据接收端：在Spark集群中以Standalone模式提交NetworkWordCount应用。

在IDEA中通过Artifacts方式打包，打包Jar名字设置为testProject.Jar，将打包的testProject.Jar包通过Winscp工具上传到Master节点的/usr/local/streaming-examples-test目录。检查Jar包已经上传。

root@master:/usr/local/streaming-examples-test# ls -ltr

total 8

-rw-r--r-- 1 root root 7278 Feb 2213:42 testProject.jar

 

启动Hadoop集群、Spark集群。

root@master:~#/usr/local/hadoop-2.6.0/sbin/start-all.sh

……

root@master:~#/usr/local/spark-2.2.1-bin-hadoop2.6/sbin/start-all.sh

…

 

在$SPARK_HOME路径以Standalone模式通过Spark-Submit提交应用程序：

root@master:~#spark-submit  --master spark://master:7077   --executor-memory  512m --

total-executor-cores 2  --jars/usr/local/streaming-examples-test/spark-streaming_2.11-2.2.1.jar,/usr/local/streaming-examples-test/spark-examples_2.11-2.2.1.jar  --class stream.NetworkWordCount /usr/local/streaming-examples-test/testProject.jar  master 9999

……..

18/02/22 14:07:48INFO spark.SparkContext: Running Spark version 2.2.1

……

根据NetworkWordCount 应用的使用说明："Usage:NetworkWordCount "，在Spark-Submit的最后输入对应的master9999，作为应用程序的参数。

需要注意的是，由于NetworkWordCount代码中使用了StreamingExamples类，因此需要将依赖的/usr/local/streaming-examples-test/spark-examples_2.11-2.2.1.jar作--jars参数传人，否则Executor执行时会找不到StreamingExamples类。

查看Spark Web UI界面，如图4-18所示。由于当前虚拟机使用的内核数为2，可以分配给Executor和接收流的Receiver。

图 4 - 18Spark应用程序界面信息

2) 数据发送端：使用nc -lk 工具开始发送消息。

准备发送的消息内容:使用$SPARK_HOME 路径下的README.md文本中的内容：

root@master:/usr/local/spark-2.2.1-bin-hadoop2.6# catREADME.md |more

# Apache Spark

 

Spark is a fast and general cluster computing system forBig Data. It provides

high-level APIs in Scala, Java, Python, and R, and anoptimized engine that

supports general computation graphs for data analysis. Italso supports a

rich set of higher-level tools including Spark SQL forSQL and DataFrames,

MLlib for machine learning, GraphX for graph processing,

and Spark Streaming for streamprocessing.

    在SecureCRT中打开Master连接的另一个终端，输入以下命令启动Netcat：

root@master:~# nc -lk 9999

 

然后将README.md的内容拷贝到该终端界面上。

root@master:~# nc -lk 9999

# Apache Spark

 

Spark is a fast and general cluster computing system forBig Data. It provides

high-level APIs in Scala, Java, Python, and R, and anoptimized engine that

supports general computation graphs for data analysis. Italso supports a

rich set of higher-level tools including Spark SQL forSQL and DataFrames,

MLlib for machine learning, GraphX for graph processing,

and Spark Streaming for streamprocessing.

切换到Spark-Submit的终端，可以看到如下输出：

18/02/22 14:35:10 INFO scheduler.DAGScheduler: Job 4522finished: print at

NetworkWordCount.scala:57, took 0.027192 s

-------------------------------------------

Time: 1519281306000 ms

-------------------------------------------

(stream,1)

(analysis.,1)

(R,,1)

(SQL,2)

(,1)

(learning,,1)

(Python,,1)

(Streaming,1)

(supports,2)

(that,1)

...

 

18/02/22 14:35:10 INFOscheduler.JobScheduler: Finished job streaming job 1519281306000 ms.0 from jobset of time 1519281306000 ms

……

-------------------------------------------

Time: 1519281307000 ms

-------------------------------------------

在Time处看到每隔1s提交一次Job进行单词统计，如果没有收到数据但也提交job，打印显示时间戳。

二、Spark以Yarn方式提交应用。

先用Ctrl+C停止之前以Standalone模式提交运行的spark-submit命令，或者直接在另一个终端上查询Pid，然后kill掉进程。

root@master:~# jps

3056 SecondaryNameNode

4432 Jps

3200 ResourceManager

3523 Master

4372 SparkSubmit

2847 NameNode

root@master:~# kill -9 4372

root@master:~#

本节Spark将以Yarn方式提交应用，按照Spark应用程序中的Driver分布方式的不同，Sparkon YARN有两种模式：YARN-Client模式、YARN-Cluster模式。

YARN-Client 模式：在Spark-Shell或者Spark-Submit 中，Driver都运行在启动Spark应用的机器上。在这种情形下，YARNApplication Master仅负责从YARN中请求资源。
YARN-Cluster 模式：Driver自动运行在YARN Container（容器）里，客户端可以从集群中断开，或者用于其他作业。

YARN-Client模式下，ApplicationMaster仅向YARN请求Executor，Client会和请求的Container通信来调度它们工作。YARN-Client模式适合调试Spark程序，能在控制台输出一些调试信息。YARN-Cluster模式下，Driver运行在AM（ApplicationMaster）中，负责向YARN申请资源，并监督作业的运行状况。企业生产环境下会用YARN-Cluster模式来运行Spark应用程序。

Yarn集群资源管理器的启动：如果通过/usr/local/hadoop-2.6.0/sbin/start-all.sh启动Hadoop集群，默认已经启动Yarn集群资源管理。

Yarn也可通过以下命令启动：

root@master:/usr/local/hadoop-2.6.0/sbin#start-yarn.sh

Yarn启动以后，登陆Yarn Web页面（http://192.168.189.1:8088）查看，如图4-19所示。

图4 - 19Yarn资源管理查询页面

接下来讲解使用YARN-Client模式提交应用程序。

1) 数据接收端：Spark 以YARN-Client模式提交应用程序。到$SPARK_HOME路径下，以YARN-Client模式再次提交命令。

root@master:~# spark-submit   --master yarn-client  --executor-memory  1g   --jars

 /usr/local/streaming-examples-test/spark-examples_2.11-2.2.1.jar  --class stream.NetworkWordCount /usr/local/streaming-examples-test/testProject.jar  master 9999

……

2) 数据发送端：在Master节点另一个终端启动nc服务，将README.md文件内容拷贝进去。

root@master:~# nc -lk 9999

# Apache Spark

 

Spark is a fast and general cluster computing system forBig Data. It provides

high-level APIs in Scala, Java, Python, and R, and anoptimized engine that

supports general computation graphs for data analysis. Italso supports a

rich set of higher-level tools including Spark SQL forSQL and DataFrames,

MLlib for machine learning, GraphX for graph processing,

and Spark Streaming for streamprocessing.

…….

3) 切换到Spark-Submit的终端，再次看到NetworkWordCount应用输出单词统计信息。

18/02/22 20:16:20 INFO scheduler.DAGScheduler: Job 680finished: print at

NetworkWordCount.scala:57, took 3.566583 s

-------------------------------------------

Time: 1519301777000 ms

-------------------------------------------

(stream,1)

(example,1)

(analysis.,1)

(its,1)

(R,,1)

(can,2)

(Building,1)

(build,2)

(SQL,2)

(with,1)

...

 

18/02/22 20:16:20 INFOscheduler.JobScheduler: Finished job streaming job 1519301777000 ms.0 from jobset of time 1519301777000 ms

打开Hadoop的ResourceManager监控界面，查看应用提交结果，如图4-20所示。

图 4 - 20 Hadoop ResourceManager监控界面的应用程序信息

ResourceManager监控界面地址为：http://master:8088，其中master是启动ResourceManager进程的节点。

提交成功，点击进入应用后，出现界面，如图4-21所示。

图 4 - 21 Spark的job信息

继续查看executor信息，如图4-22所示。

图 4 - 22 Spark的executor信息

Hadoop界面中对应的Driver中没有Logs信息Stdout和Stderr，以YARN-Client模式运行时，Driver及Client运行在提交应用的节点上，可以直接在终端上观察应用运行的日志，查看Driver的日志输出信息。

对应在Yarn模式下执行的应用程序，可以用以下命令查询应用程序ID。

root@master:~# yarn application -list

18/02/22 20:39:54 INFOclient.RMProxy: Connecting to ResourceManager at master/192.168.189.1:8032

Total number ofapplications (application-types: [] and states: [SUBMITTED, ACCEPTED,RUNNING]):1

                Application-Id      Application-Name        Application-Type          User           Queue                   State             Final-State             Progress                        Tracking-URL

application_1519301113196_0001      NetworkWordCount                   SPARK          root         default                 RUNNING               UNDEFINED                  10%                  http://master:4040

 

然后Kill掉应用进程。

 root@master:~# yarn application -kill application_1519301113196_0001

上述是以YARN-Client模式提交应用程序的方式，接下来讲解YARN-Cluster模式提交应用程序的方式。

1) 数据接收端：Spark 以YARN-Cluster模式提交应用程序。到$SPARK_HOME路径下，以YARN-Cluster模式再次提交命令。

root@master:~#  spark-submit  --master yarn-cluster --executor-memory  1g    --jars 

/usr/local/streaming-examples-test/spark-examples_2.11-2.2.1.jar  --class stream.NetworkWordCount/usr/local/streaming-examples-test/testProject.jar  master 9999

……

18/02/22 20:55:23 INFO yarn.Client: Uploading resourcefile:/tmp/spark-3c4d9731-3a71-442a-b44a-bb43922e1520/__spark_libs__7069571623134602328.zip->hdfs://master:9000/user/root/.sparkStaging/application_1519301113196_0002/__spark_libs__7069571623134602328.zip

18/02/22 20:56:04 INFO yarn.Client: Uploading resourcefile:/usr/local/streaming-examples-test/testProject.jar ->hdfs://master:9000/user/root/.sparkStaging/application_1519301113196_0002/testProject.jar

18/02/22 20:56:04 INFO yarn.Client: Uploading resourcefile:/usr/local/streaming-examples-test/spark-examples_2.11-2.2.1.jar ->hdfs://master:9000/user/root/.sparkStaging/application_1519301113196_0002/spark-examples_2.11-2.2.1.jar

18/02/22 20:56:05 INFO yarn.Client: Uploading resourcefile:/tmp/spark-3c4d9731-3a71-442a-b44a-bb43922e1520/__spark_conf__1424867155160650192.zip->hdfs://master:9000/user/root/.sparkStaging/application_1519301113196_0002/__spark_conf__.zip

18

……

 

在Yarn-Cluster模式提交时，会将依赖的Jar包和主资源Jar包一起上传到hdfs上。

在HDFS中查看上传后的路径下的文件：

root@master:~# hdfs dfs -ls

hdfs://master:9000/user/root/.sparkStaging/application_1519301113196_0002/

Found 4 items

-rw-r--r--   3 root supergroup      84947 2018-02-22 20:56hdfs://master:9000/user/root/.sparkStaging/application_1519301113196_0002/__spark_conf__.zip

-rw-r--r--   3 root supergroup  205854615 2018-02-22 20:56hdfs://master:9000/user/root/.sparkStaging/application_1519301113196_0002/__spark_libs__7069571623134602328.zip

-rw-r--r--   3 root supergroup    1991400 2018-02-22 20:56hdfs://master:9000/user/root/.sparkStaging/application_1519301113196_0002/spark-examples_2.11-2.2.1.jar

-rw-r--r--   3 root supergroup       7278 2018-02-22 20:56hdfs://master:9000/user/root/.sparkStaging/application_1519301113196_0002/testProject.jar

……

 

查看各个执行节点上的缓存文件，这里以Worker3节点为例，包含文件如下：

root@worker3:/usr/local/hadoop-2.6.0/tmp/nm-local-

dir/usercache/root/appcache/application_1519301113196_0002/blockmgr-f2c77095-5279-4775-bbda-bc4f5e37e666#ls

00  02  04 06  08  0a  0c  0e 10  12  14  16  18 1a  1c  1e 20  22  24 26  28  2a 2c  2e  30 32  34  36 38  3a  3c  3e

01 03  05  07 09  0b  0d 0f  11  13 15  17  19 1b  1d  1f 21  23  25 27  29  2b 2d  2f  31 33  35  37 39  3b  3d  3f

 

root@worker3:/usr/local/hadoop-2.6.0/tmp/nm-local-dir/usercache/root/appcache/application_1519301113196_0002/container_1519301113196_0002_01_000002#ls

__app__.jar      default_container_executor_session.sh launch_container.sh spark-examples_2.11-2.2.1.jar  tmp

container_tokens  default_container_executor.sh          __spark_conf__       __spark_libs__

执行节点已经成功将所依赖的Jar包下载到NodeManager的本地路径下，为应用提供依赖Jar包。其中，nm-local-dir是NodeManager执行应用时的Local目录，执行时应该从Hdfs上下载下来，并存放到该目录下。

2) 数据发送端：在Master节点另一个终端启动nc服务，将README.md文件内容拷贝进去。

root@master:~# nc -lk 9999

# Apache Spark

…….

3) 查看Spark运行日志。这里登陆SparkWeb UI查看日志。

进入RM节点的WebInterface界面（http://cluster04:8088/cluster），如图4-23所示。

图 4 - 23 Hadoop RM的应用信息

单击application_1519301113196_0002，查看Application的具体信息，如图4-24所示。

图 4 - 24 Hadoop RM的指定应用的信息

点击worker2:8042，查看Node节点具体信息，如图4-25所示。

图 4 - 25 Hadoop RM的指定应用的信息

点击List of Containers，查看容器信息，如图4-26所示。

图 4 - 26 Hadoop RM的指定应用的容器的信息

单击container_1519301113196_0002_01_000001，查看容器具体信息，如图4-27所示。

图 4 - 27 Hadoop RM的指定应用的容器的日志信息

单击Link to logs，选择特定日志信息，如图4-28所示。

图 4 - 28 Hadoop RM的指定应用的容器的日志信息

单击stdout : Total file length is160628 bytes.，查看stdout日志信息，如图4-29所示。stdout中已经成功输出SparkStreaming 2.2.1应用程序的处理信息。

图 4 - 29 Hadoop RM的指定应用的容器的stdout日志信息

2018年新春报喜！热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》畅销书籍清华大学出版社发行上市!

本书基于Spark 2.2.0最新版本（2017年7月11日发布），以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心，以Spark内核解密为基石，分为上篇、中篇、下篇，对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于Spark源码，从一个动手实战案例入手，循序渐进地全面解析了Spark 2.2新特性及Spark内核源码；中篇选取Spark开发中最具有代表的经典学习案例，深入浅出地介绍，在案例中综合应用Spark的大数据技术；下篇性能调优内容基本完全覆盖了Spark在生产环境下的所有调优技术。

本书适合所有Spark学习者和从业人员使用。对于有分布式计算框架应用经验的人员，本书也可以作为Spark高手修炼的参考书籍。同时，本书也特别适合作为高等院校的大数据教材使用。

当当网、京东、淘宝、亚马逊等网店已可购买！欢迎大家购买学习！

当当网址： http://product.dangdang.com/25230552.html

数学建模之数学模型-3：动态规划 ^ω^宇博数学模型数学建模动态规划算法
文章目录动态规划基本概念阶段状态决策策略状态转移方程指标函数最优指标函数动态规划的求解前向算法后向算法二者比较应用案例一种中文分词的动态规划模型摘要引言动态规划的分词模型问题的数学描述消除状态的后效性选择优化条件算法描述和计算实例算法的效率分析和评价结束语参考文献动态规划基本概念一个多阶段决策过程最优化问题的动态规划模型包括以下666个要素：以下是对动态规划中阶段、状态、决策、策略、状态转移方程、
Python 爬虫实战：艺术品市场趋势分析与交易平台数据抓取西攻城狮北 python 爬虫开发语言
一、引言在当今数字化时代，艺术品市场正经历着前所未有的变革。随着互联网技术的飞速发展，越来越多的艺术品交易转移到了线上平台，这为我们提供了海量的数据资源。通过Python爬虫技术，我们可以抓取艺术品交易平台上的数据，进而分析艺术品市场的趋势，为投资者、收藏家以及艺术爱好者提供有价值的参考。本文将带领读者深入探索Python爬虫在艺术品市场的应用。从爬虫的基本原理到实际代码实现，再到数据的清洗、分析
贪心算法和回溯算法有什么区别？少林码僧数据结构与算法实战算法贪心算法
贪心算法和回溯算法有什么区别？在算法的世界里，贪心算法和回溯算法是两种常见的解决问题的策略。它们在很多场景下都能发挥重要作用，但又有着明显的区别。本文将详细介绍贪心算法和回溯算法的区别，并通过具体案例进行说明。一、贪心算法（一）定义与特点贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前状态下最优决策的算法。它的核心思想是局部最优解能够导致全局最优解。也就是说，贪心算法在每一
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
docker启动报错：Job for docker. service failed because the control process exited with error code 奇怪的大象 java docker 容器运维 intellij-idea java
1、在使用systemctlstartdocker时，一直报错，如下图。试了网上的方法：**a、修改docker.service文件；b、在daemon.json中增加代码，**都不能解决我遇到的情况。2、经过不懈努力，终于找到办法。在/etc/docker文件目录下，找到daemon.json，这个文件是我们在安装时创建的，如果没有的话，使用mkdir/etc/docker&&touchdaem
BigDecimal只覆盖整数部分或小数部分支持未来 java 算法开发语言
有个特殊处理需要把BigDecimal的整数部分和小数部分分开计算publicclassBdTest{publicstaticvoidmain(String[]args){BdBeanbt=newBdBean();bt.setBdA(4);System.out.println(bt.getB());bt.setBdA(0);System.out.println(bt.getB());bt.setB
JButton追加事件监听支持未来 JAVA ActionList
画面和按钮生成publicclassmainTestClass{publicstaticJFramemain=newJFrame("テスト画面");//publicstaticJTextAreaResult=newJTextArea("",4,40);//publicstaticJButtonSubmit=newJButton("開始");/***メイン関数**@paramargs*/public
大模型架构记录7-langchain 处女座_三月 LLM langchain
一Langchain的应用目录：langchain的overviewprompttemplatemodelsandoutputparsers1.什么是langchain,为什么需要langchain?问题：如何没有langchain会怎么样？一个项目可能会包括：调用多个不同的大模型（gpt4,视频生成...)向量数据库数据类型（读取，trunk的切分...)langchain是面于大模型开发的框架
【MyBatis-Plus 分页插件】深入分析和实战解析 Yan.love mybatis java 后端
分页是Web应用开发中的高频需求，而在MyBatis的生态中，MyBatis-Plus分页插件PaginationInnerInterceptor和MyBatis的PageHelper是两种常见的实现方案。本文将通过工作机制、使用方法和细节剖析，带你循序渐进地掌握这两种方式，并为你的项目选择提供指导。一、什么是分页？分页的核心目标是减少数据传输量和前端渲染压力。通过限制每次查询的结果数量，分页能够
阿里巴巴发布 R1-Omni：首个基于 RLVR 的全模态大语言模型，用于情感识别新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/情感识别一直是AI领域的难题，尤其是视觉与音频信号的融合。单独依赖视觉或音频的模型，往往
接口测试中加密参数如何处理？海姐软件测试接口测试 python 开发语言测试工具职场和发展
1.加密类型及应对策略①对称加密（AES/DES）特点：加密解密使用同一密钥。处理方法：向开发获取密钥和加密算法（如AES-CBC、AES-ECB）。使用代码或工具解密响应数据：python复制fromCrypto.CipherimportAESimportbase64defdecrypt_aes(key,encrypted_data):cipher=AES.new(key.encode(),AE
鸿蒙（HarmonyOS NEXT）开发实战：串行通信开发指导我很英俊小名男男 OpenHarmony 鸿蒙开发 HarmonyOS harmonyos 华为开发语言前端鸿蒙移动开发鸿蒙系统
鸿蒙开发往期必看：HarmonyOSNEXT应用开发性能实践总结一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）
Fastjson反序列化漏洞分析：挖掘思维与研究方法恩师小迪 json 安全网络
致谢首先，感谢我的小迪老师的指导与启发，让我有机会深入学习这个经典漏洞案例理解前辈们的安全研究思路。引言当分析一个广泛使用的库时，我们应该思考：为什么一个JSON解析库需要这么多特殊功能？大多数JSON库只做一件事：把JSON字符串转成对象，或者反过来。但Fastjson不同，它实现了更多功能。作为学习者，我们需要理解那些发现Fastjson漏洞的前辈们的研究方法。下面我们一起分析这个经典漏洞的发
eBest AI Hub全场景接入Deepseek eBest数字化转型方案人工智能
一、技术赋能，智创未来Deepseek的强大基因将为eBest产品注入新的活力即时智能响应：融合海量行业智慧与互联网搜索精华，提供秒级智能建议；多模态理解能力：突破界限，无缝融合文本、代码与图像理解，精准解析用户的需求；进化式深度学习：不断学习，持续进化，为用户提供日益完善、超越期待的服务体验。二、全场景赋能，体验再次跃升1.智能报表-数据洞察，指尖掌控升级后的智能报表功能，能够根据查询和检
Android自动化测试工具海棠如醉 web技术自动化运维
细解自动化测试工具Airtest-CSDN博客以下是几种常见的Android应用自动化测试工具：Appium：支持多种编程语言，如Java、Python、Ruby、JavaScript等。可以用于Web应用程序和原生应用程序的自动化测试，并支持iOS和Android平台。Espresso：由Google开发的AndroidUI测试框架，可用于测试应用程序的用户界面和与用户的交互。Espresso支
4.2.3 键值对集合2 .Net学习 C#教程 c#开发语言
版权声明：本文为博主原创文章，转载请在显著位置标明本文出处以及作者网名，未经作者允许不得用于商业目的4.2.3.3KeyValuePair结构KeyValuePair结构定义可设置或检索的键/值对。通常在KeyValuePair的构造函数中传入键和值作为参数，例如下面的语句定义了键为int、值为string的KeyValuePair，并赋予了初始值：KeyValuePairnewKeyValueP
千里科技亮相吉利AI智能科技发布会，共启“AI+车”新纪元高工智能汽车科技人工智能
今天，在三亚举行的吉利AI智能科技发布会上，千里科技董事长印奇发表了主题为《从“车+AI”到“AI+车”》的演讲。印奇重点分享了对于“AI+车”未来趋势的判断，并重点介绍了在吉利AI科技生态体系下，围绕智驾、智舱等领域的创新合作。基于千里科技和吉利汽车集团的深度技术合作，全新的“千里浩瀚”智驾系统在今天的发布会上正式亮相。千里浩瀚将覆盖吉利全系不同价位车型。吉利银河未来的全新产品都将搭载千里浩瀚，
Go语言实战，HTTP和gRPC多服务启动与关闭的最佳实践 zhuyasen go 后端 http rpc
在Go开发中，构建健壮的应用程序不仅需要关注核心业务逻辑，还要考虑服务的优雅启动与关闭。特别是在微服务架构中，如何优雅地启动和停止多个服务成为了系统设计中的一个重要议题。今天我们来深入探讨一款基于Go语言开发的app库，该库利用errgroup实现了服务的并发启动，并能在系统关闭时优雅地释放各项资源。一、设计原理解析在一个复杂的系统中，通常会有多个服务并行运行，如HTTP服务、gRPC服务等。如何
机器人技能列表极梦网络无忧杂谈机器人
一、机器人制作基础入门（一）机器人概述1.机器人的定义与分类2.机器人的发展历程与现状3.机器人在各领域的应用案例（二）必备工具与材料4.常用电子工具介绍（万用表、电烙铁等）5.机械加工工具（螺丝刀、钳子、扳手等）6.电子元件（电阻、电容、二极管等）7.结构材料（塑料、金属、木材等）二、电子电路基础（一）电路原理与设计8.电路基本概念（电流、电压、电阻等）9.欧姆定律与基尔霍夫定律10.简单电路设
a16z Speedrun：加速科技与娱乐的未来花生糖@ 技术创业之路：从创意到企业科技娱乐 AI
引言a16z（AndreessenHorowitz）作为硅谷最具影响力的风投公司之一，一直致力于支持那些打破常规、创造新可能性的创始人。随着科技和娱乐领域的融合日益加深，a16z推出了Speedrun计划，旨在帮助前沿科技和娱乐领域的初创公司快速成长。专注于推动游戏、AI、3D、流媒体、平台、游戏技术、XR等领域的创新。a16z联合创始人马克·安德森（MarcAndreessen）在speedru
人工智能：重塑未来生活与工作的科技力量 Geektec 问答专栏人工智能应用创新
方向一：介绍人工智能技术的发展历程和现状，指出它的应用领域和前景一、人工智能技术的发展历程人工智能（ArtificialIntelligence,AI）作为一门学科，其起源可以追溯到20世纪50年代。最初，AI的研究主要集中在逻辑推理、机器学习和自然语言处理等领域，目标是使机器能够模拟人类的智能行为。尽管在早期的探索中，AI遭遇了诸多挑战和瓶颈，但其发展潜力逐渐被认可，并在随后几十年中得到了迅速的
Different number of columns sunyaox flink flink异常
org.apache.flink.client.program.ProgramInvocationException:Themainmethodcausedanerror:Columntypesofqueryresultandsinkforregisteredtable‘photoTradeInfoHive.db_audit.ods_photo_trade’donotmatch.Cause:Dif
如何优化AI模型的Prompt：深度指南 Earth explosion 人工智能 prompt
随着人工智能（AI）技术的快速发展，AI模型在文本生成、翻译、问答等领域的应用越来越广泛。在使用这些模型时，**Prompt（提示）**的质量直接影响输出结果的好坏。优化Prompt不仅能提升生成文本的准确性，还能显著提高工作效率。作为一个希望提升AI应用效果的普通人，如何才能优化Prompt呢？本文将为你提供一份详细的指南，涵盖从基础知识到高级技巧的各个方面。一、什么是Prompt？1.1定义P
使用Lodash工具后代码行数瞬间缩短... lodasharraylist
背景:最近在做报表.涉及到echarts图表.多层柱状图叠加展示.然后后端给出来的结构是二维数组.需要前端自行处理成图表可用的数据格式.echarts数据是是动态的.需求效果图的样子:echarts相似的官网案例代码:option={tooltip:{trigger:'axis',},legend:{data:['Direct','MailAd','AffiliateAd','VideoAd','
AI 行业发展趋势：科技创新引领未来变革我是阿萌畅聊AI 人工智能科技学习
在当今数字化时代，人工智能（AI）行业正以前所未有的速度蓬勃发展，深刻地改变着我们的生活、工作和社会格局。从基础技术的突破到广泛的应用场景拓展，AI展现出了一系列令人瞩目的发展趋势，预示着一个充满无限可能的未来。一、技术创新持续突破模型规模与性能提升AI模型正朝着更大规模、更复杂的方向发展。以GPT系列为代表的大语言模型，参数数量不断攀升，从GPT-2的15亿参数到GPT-4的万亿级参数，模型的语
Anthropic 的模型调皮的芋头深度学习神经网络机器学习人工智能
Anthropic的模型（特别是Claude系列）之所以在性能和推理能力上表现强劲，可以从技术设计、研究理念、训练方法以及应用优化等多个方面进行详细分析。以下是基于当前信息（截至2025年3月13日）和行业趋势的深入剖析：1.技术设计与安全导向Anthropic由前OpenAI研究员创立，核心理念是将安全性、可解释性和可控性融入模型设计。这种设计哲学直接影响了Claude模型的性能：Constit
DeepSeek R1有什么不同新加坡内哥谈技术人工智能深度学习机器人科技
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/深度思考实验室（DeepSeek）最近发布了全新的推理模型R1，声称该模型不仅性能超越目
基于RWA 与 AI-Agent 协同的企业数字化生态构建 leijiwen 人工智能
在当前数字经济高速发展的背景下，企业数字化转型已成为提升竞争力和创新能力的必由之路。以实体零售与文旅行业为代表的传统产业，正通过现实世界资产（RWA）数字化与人工智能代理（AI-Agent）的协同应用，构建全新的数字生态系统。正如“无数据不基础、无token不可信、无AI不产品、无产业不应用”这一理念所强调的，数字化生态的建立必须依托数据、信任机制、智能技术以及产业深度融合，才能实现真正的转型升级
【架构思维基础：如何科学定义问题】调皮的芋头架构阿里云云计算大数据
架构思维基础：如何科学定义问题一、问题本质认知1.1问题=矛盾根据毛泽东《矛盾论》，问题本质是系统内部要素间既对立又统一的关系。例如：电商系统矛盾演变：90年代：商品供给不足vs消费需求增长00年代：商品丰富但信息匹配低效10年代：商品数量充足但质量需求升级1.2问题三维度publicclassProblem{//核心矛盾主体（如用户需求）privateCoreConflictmainConfli
科技创新：改变生活的力量与未来趋势 jiemidashi 科技生活人工智能经验分享
人工智能在智能客服中的应用越来越普遍。它改变了传统的客服模式。AI可以快速回答用户的问题，提高了客服效率和服务质量。首先，人工智能能够处理大量信息。智能客服可以在几秒钟内回应客户的请求。这比人工客服快得多。客户不需要等待很久就能得到答案。举个例子，某电商平台使用AI聊天机器人来处理用户咨询。这个机器人能够24小时工作，随时解决问题。这样，顾客体验得到了显著提升。其次，人工智能能提供个性化服务。通过
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

Spark Streaming 2.2.1 处理TCP数据源的案例与解读

你可能感兴趣的:(AI,&,Big,Data案例实战课程)