play_big_knife

Pyflink系列之使用pyflink实现flink大数据引挚的经典案例wordcount

谈到大数据，也是数据，在专业的概念上来讲，其具备三大特征。

1、数据量足够大，也就是Volume值相当特别地多。
2、数据访问并发量足够高并且实时，可以用Velocity一词反映快速和实时。
3、数据的类型越来越多，可以用Variety一词来反映数据的多样性。

对于大数据的处理思路，普遍都是建立在通过把数据进行分区分片，并分布到各个横向扩展节点，并由调度节点进行统一管理计算。每一次你执行查询的时候，该查询会被分解为多个子查询并交付给每一个计算节点去做并行的查询。

大数据最关键的技术难题在于计算问题，在计算引挚方面大数据经历了四代的计算引挚演化。

一、计算引挚的演化

1、第一代计算引挚MapReduce.

MapReduce计算引挚阶段，使用场景用于离线计算。MapReduce处理数据主要分为两个阶段：map和reduce。

Map阶段的任务包括文件的加载、切分等；对切片数据调用用户实现的map函数方法进行处理，每个map都有一个环形缓冲区，用于存储map的输出。这个环形缓冲区的默认大小为100MB，一旦数据达到设定的阈值，一般80%，会有一个后台线程将内容溢写到磁盘的指定目录一个新建的文件中。这里的输出内容被溢写出去后形成一个个文件，首先将这些文件进行分区排序形成排序后的文件，再为每个不同的分区进行简单的combiner聚合操作。具体流程如下图所示。

Reduce阶段是从Map阶段输出的结果文件中拉取属于自己要处理的数据，针对属于自己的那一片数据，如果大小超过一定的阀值，则写到磁盘上，否则直接放在内存中。根椐key对这些数据进行分组排序，根据每一组的kv值来调用用户实现的reduce方法进行处现的reduce方法进行处理,将结果输出到磁盘上。如下图所示。

在Map和reduce阶段，涉及到数据缓存、分区、排序、分发存储等过程称之为shuffle。

MapReduce虽然解决了大数据可以计算的问题，但它的速度不够快，一个MapReduce任务通常需要秒级别甚至分钟级别才能跑完。这个速度对于离线计算场景还能接受，但对于目前市场的变化，实时计算的需求场景来说显然太慢了。

第二代：任务的DAG（Tez, Oozie）

第二代计算引擎其实还是个MapReduce，只不过对MapReduce的任务调度过程进行了优化。

对于复杂算法来说，通过一个MapReduce过程无法实现，需要拆分成多个Job串联运行。在MR框架里，Job是最小的调度单位，不同Job彼此独立运行。后一个Job必须等前一个Job跑完才能开始。单个Job本身运行就慢，多个Job串联跑完就更慢了。这种开发效率很难被接受。

三、第三代Spark

第三代spark在计算方面，Spark不需要将计算的中间结果写入磁盘，这得益于Spark的RDD（弹性分布式数据集）和DAG（有向无环图），前者是Spark中引入的一种只读的、可扩展的数据结构，后者则记录了job的stage以及在job执行过程中父RDD和子RDD之间的依赖关系。

同时在任务调度方面，Hadoop的MapReduce是针对大文件的批处理而设计的，延迟较高；Hadoop的MapReduce的Map Task和Reduce Task都是进程级别的，而Spark Task则是基于线程模型的；Spark通过复用线程池中的线程来减少启动、关闭task所需要的开销。

在数据格式和内存布局方面，Spark RDD能支持粗粒度写操作，对于读操作则可以精确到每条record，因此RDD可以用来作为分布式索引。

在执行策略方面，Spark和MapReduce的shuffle过程也有很大差异，Spark在shuffle时只有部分场景才需要排序，支持基于Hash的分布式聚合，更加省时。

第三代spark具备了流批处理的能力，不过其流处理的能力可以概括为微批处理，spark 引擎会定期检查是否有新数据到达，然后开启一个新的批次进行处理。Spark微批理的时间是500ms，并没有真正意义上实现了实时的流处理，而且这种微批处理的时间也存在着延迟，一般处理12：00的数据有可能延迟2小时后才能进行分析，没有达到真正意义上的实时。

第四代flink

Flink是面向连续流设计的计算引擎。在Flink中，一切都是流，数据流是Flink基本处理模型。Flink从设计之初秉持了一个观点：批是流的特例（批是一种有边界的数据流），它的批处理也是通过流来模拟实现的。

Flink的强悍之处，阿里屡试不爽。阿里当时的实时计算峰值达到了破纪录的每秒40亿条记录，数据量也达到了惊人的7TB每秒，相当于一秒钟需要读完500万本《新华字典》

Flink真正意义实现了大数据处理的流批统一模式。如下图所示。

在Flink的流执行模式中，事件在一个节点上处理后的输出可以发送到下一个节点进行即时处理，这样，执行引擎就不会有任何的延迟。相应地，所有的节点都需要同时运行。

二、为什么要使用fink

Flink实现了真正意义上的流批统一。

Flink的流处理，延迟到了毫秒级，而之前的spark在流处理上只是微批，延迟在秒级。

Flink可以处理事件时间，而之前的spark在streaming方面因为延迟，只能处理机器时间，无法保证时间语义的正确性。

Flink的检查点算法比Spark streaming更加灵活，性能更高。Spark streaming的检查点算法是每个stage结束之后，才会保存检查点。

Flink更易实现端到端的一致性。

三、python搭建pyflink环境

入门flink最简单的语言是python，这里使用python来搭建pyflink环境，pyflink是处理大数据flink程序的模块。

1、安装jdk

现在JDK10都出来了，所以我们也要紧跟着技术的潮流走，JDK8现在肯定已经比以前成熟很多了，所有我们在这里采用的就是JDK8。首先我们得在官网上面先下载JDK8。如下图所示。

找到jdk8压缩包下载后，进行解压命令，将压缩包进行解压，解压命令如下：

tar zxvf 压缩包名称

例如：

tar zxvf jdk-8u152-linux-x64.tar.gz

也可以将压缩包压缩到指定的文件夹下。如

tar zxvf 压缩包名称  -C 文件路径

例如:

tar zxvf  jdk-8u152-linux-x64.tar.gz –C /usr/java

完成之后，可以执行删除命令删除压缩包。删除命令如下。

rm -f 压缩包名称

例如

rm -f jdk-8u152-linux-x64.tar.gz

现在进行最重要的一步了，成不成功就看这一步了！

要进行环境配置了，编辑命令：

vi /etc/profile

在执行完上方命令之后点击i键位让文件可以修改，进行文件编写。

修改内容如下。

export JAVA_HOME=/usr/java/jdk1.8.0_152
export PATH=$PATH:$JAVA_HOME/bin

对于/etc/profile编写完成之后是不够的，还需要最后一个步骤，就是让刚刚我们修改的文件变成有效起来，所以我们再输入一个命令，让修改生效。

生效命令。

source /etc/profile

2、安装MAVEN

在Centos中没有自带安装Maven，需要手动安装Maven。直接使用如下指令下载maven即可，下载位置为当前目录：

wget https://archive.apache.org/dist/maven/maven-3/3.2.5/binaries/apache-maven-3.2.5bin.tar.gz

下载完成之后，解压并安装：

tar zxvf apache-maven-3.2.5-bin.tar.gz

修改文件名：

sudo mv apache-maven-3.2.5 maven

配置环境变量：

vim /etc/profile

将下面代码加入到profile中：

export MAVEN_HOME=/usr/local/maven
export PATH=$JAVA_HOME/bin:$MAVEN_HOME/bin:$PATH

加入代码后，仍然需要重新加载系统配置文件：

source /etc/profile

3、安装flink

首先需要下载源代码：

git clone https://github.com/apache/flink.git

接着拉取1.10的分支：

cd flink/
git fetch origin release-1.10  && git checkout -b release-1.10 origin/release-1.10

修改maven settings的配置，输入以下指令进入setting.xml:

cd /usr/local/maven/conf/ 
vim settings.xml

进入到setting.xml后，修改镜像配置：

     
nexus-aliyun     
*,!jeecg,!jeecg-snapshots,!mapr-releases     
Nexus aliyun
http://maven.aliyun.com/nexus/content/groups/public     
 
     
mapr-public     
mapr-releases     
mapr-releases
https://maven.aliyun.com/repository/mapr-public

此处是使用了aliyun提供的镜像仓库。

编译Flink代码。

mvn clean install -DskipTests -Drat.skip=true -Dcheckstyle.skip=true

编译也可以采用。

Mvn clean package –DskipTests=true

这个编译的时间可能会长一些

编译过程中可能会出现下列问题：

如:

[ERROR] Failed to execute goal on project flink-avro-confluent-registry: Could not resolve dependencies for project org.apache.flink:flink-avro-confluent-registry:jar:1.9-SNAPSHOT: Failure to find io.confluent:kafka-schema-registry-client:jar:3.3.1 in http://maven.aliyun.com/nexus/content/groups/public was cached in the local repository, resolution will not be reattempted until the update interval of nexus-aliyun has elapsed or updates are forced -> [Help 1]

解决方案：

下载上述错误提示缺少某个jar包，此时我们使用wget 进行下载：

wget http://packages.confluent.io/maven/io/confluent/kafka-schema-registry-client/3.3.1/kafka-schema-registry-client-3.3.1.jar

下载完成后在你的当前目录会出现一个jar包：

安装这个jar包：

mvn install:install-file -DgroupId=io.confluent -DartifactId=kafka-schema-registry-client -Dversion=3.3.1 -Dpackaging=jar  -Dfile=/usr/local/kafka-schema-registry-client-3.3.1.jar

注：这里的/usr/local是我的jar包所在的目录，使用时需要将其改成你的jar包所在的目录，如果安装不成功，重启终端再次安装。

在整个编译过程中，当某些项目编译失败时，可能会是网络问题，再重新编译一次即可。

最终编译成功的界面如下图所示：

如下图所示，编译成功后会在你的目录中出现一个build-target文件：

四、安装pyflink模块

使用python来进行flink的大数据分析，需要命名用到pyflink模块，使用如下指令Java 包囊括进来，再把自己 PyFlink 本身模块的一些 Java 的包和 Python 包打包成一起。命令如下。

cd flink-python
python3 setup.py sdist

注：当python3 setup.py sdist这段命令无法执行时，重启终端再次执行即可。

然后执行下列指令：

cd dist/

如下图所示，此时我们可以看到dist文件夹下有一个可以用于 pip install 的 PyFlink 包：

接下来我们首先检查命令的正确性，在执行之前，我们用 pip3 检查一下 list，命令如下。

pip3 list

其主要是查看一下pyflink模块是否被成功安装。如下图所示。

如图所示，这里并没有apache-flink的包，此时我们要使用如下命令进行安装：

pip install dist/*.tar.gz

注：执行这条指令的时候要退回到上一次文件夹中，不要在dist文件夹中执行这条指令。

执行结果如下图所示：

此时再次执行pip3 list的命令，我们就可以发现apache-flink包已经包含在里面了：

安装成功后，就可以使用pyflink进行flink技术实现大数据的分析。

五、pyflink实现wordcount的精典程序

Wordcount程序是大数据中最精典的程序。

其思路如下图所示。

程序思想将输入的input文本，通过map阶段一行一行读取，第一步split按照空格进行单词拆分，通过用户组织的map方法组装(k1,v1)这样的数据形式，shuffle过程按键名进行排序，组合，生成新的(k2,v2)数据形式，最后通过用户组织的reduce方法将集合中的数字相加，得到输出结果。

这样的思路用pyflink模块组织写成的代码如下所示。

from pyflink.table import BatchTableEnvironment, EnvironmentSettings
from pyflink.table import DataTypes
from pyflink.table.descriptors import Schema, OldCsv, FileSystem
env_settings = EnvironmentSettings.new_instance().in_batch_mode().use_blink_planner().build()
t_env = BatchTableEnvironment.create(environment_settings=env_settings)
t_env.connect(FileSystem().path('/tmp/input')) \
    .with_format(OldCsv()
                 .field('word', DataTypes.STRING())) \
    .with_schema(Schema()
                 .field('word', DataTypes.STRING())) \
    .create_temporary_table('mySource')

t_env.connect(FileSystem().path('/tmp/output')) \
    .with_format(OldCsv()
                 .field_delimiter('\t')
                 .field('word', DataTypes.STRING())
                 .field('count', DataTypes.BIGINT())) \
    .with_schema(Schema()
                 .field('word', DataTypes.STRING())
                 .field('count', DataTypes.BIGINT())) \
    .create_temporary_table('mySink')

t_env.scan('mySource') \
    .group_by('word') \
    .select('word, count(1)') \
    .insert_into('mySink')

t_env.execute("python_job")

程序初始的时候，通过EnvironmentSettings获取flink运行环境的设置，newinstace()方法是设置的一个实例，调用inbatch_mode() 方法进行批处理模式， useblinkplanner()就是使用blink做到了真正的统一，即将批处理来看成特殊的流处理，把处理批的API和处理流的API做成了一样的。build()方法就是flink环境的建立。

接下来使用BatchTableEnvironment类的create()方法来实现flink批处理环境设置的加载。

紧接着connect方法连接文件，文件是使用实例化文件系统FileSystem类后path方法来加载需要进行wordcount统计的文件。由于读取的文件是文本文件，使用withformat初始化文件格式为csv文件，OldCsv().field方法指定输入input方法中的字段格式，由于文件文件中每行只有一个单词，也就是只有一个字段，field指定一个字段'word'，并且指定其类型DataTypes.STRING()，也就是STRING类型。再根据字段名称来定义文件schema结构，withschema方法中同样指定field方法，也使用'word'来定义其字段。createtemporarytable('mySource')建立输入文件的模板名称。

定义好输入文件，再定义好输出文件。使用与输入文件一样的思路和方法，将输出结果存到/tmp/output文件中。输出结果中包括两个字段field，'word'和'count'分别表示字母和个数。

当输入和输出都已经定义结束后，scan()方法扫描输入文件，模板名称“mySource”，通过groupby方法对输入文件中的word进行分组，分组后通过select方法把单词word通过count计数函数进行统计求和，这类似于flink sql的相关算法，最后通过insertinto输出到输出文件，模板名称“mySink”。

程序最后通过execute执行flink的job任务。

程序设计结束后，就需要启动python语言的flink程序。

首先需要启动flink程序，在编译过的目录下，有一个build-target目录下，再进行bin目录中，就可以启动start-cluster.sh方法。

具体指令如下图。

Fink程序启动后，就可以运行python的flink程序wordcount,具体指令如下：

./flink run –m localhost:8081 –py python的flink程序

执行过程如下图所示。

程序运行结束后，在tmp的output文件中，显示内容如下图所示。

在客户端计算机中，也可以使用web方法查看flink的job执行情况。客户机访问web的地址是:http://192.168.1.108:8081。

具体执行情况如图所示。

图中flink Dashboard中显示的Available Task slots的任务显示了1个。具体执行情况可以点击左栏的Completed Jobs，可以查看具体的执行情况。

图中显示了处理文件中处理的4步过程。具体过程点击蓝色和黑色的”4”显示如下图所示。

针对于具体的分析过程在后续进行分析，欢迎关注。

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Linux MariaDB使用OpenSSL安装SSL证书 Meta39 MySQL Oracle MariaDB Linux Windows ssl linux mariadb
进入到证书存放目录，批量删除.pem证书警告：确保已经进入到证书存放目录find.-typef-iname\*.pem-delete查看是否安装OpenSSLopensslversion没有则安装yuminstallopensslopenssl-devel开启SSL编辑/etc/my.cnf文件（没有的话就创建，但是要注意，在/etc/my.cnf.d/server.cnf配置了datadir的，
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
vue项目element-ui的table表格单元格合并酋长哈哈 vue.js elementui javascript 前端
一、合并效果二全部代码exportdefault{name:'CellMerge',data(){return{tableData:[{id:'1',name:'王小虎',amount1:'165',amount2:'3.2',amount3:10},{id:'1',name:'王小虎',amount1:'162',amount2:'4.43',amount3:12},{id:'1',name:'
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Vue中table合并单元格用法 weixin_30613343 javascript ViewUI
地名结果人名性别{{item.name}}已完成未完成{{item.groups[0].name}}{{item.groups[0].sex}}{{item.groups[son].name}}{{item.groups[son].sex}}exportdefault{data(){return{list:[{name:'地名1',result:'1',groups:[{name:'张三',sex
uniapp map组件自定义markers标记点以对_ uni-app学习记录 uni-app javascript 前端
需求是根据后端返回数据在地图上显示标记点，并且根据数据状态控制标记点颜色，标记点背景通过两张图片实现控制{{item.options.labelName}}exportdefault{data(){return{storeIndex:0,locaInfo:{longitude:120.445172,latitude:36.111387},markers:[//标点列表{id:1,//标记点idin
放松的一天 4da9b7687fa0
20190325总结起床07:20图片发自App睡觉:23:00天气:晴今日任务清单学习·信息·阅读•水滴阅读Day40Alice’sAdventuresinWonderlandChapter6.2图片发自App•BBC跟读训练营Day24图片发自App图片发自App图片发自App•潘多拉口语训练营Day6Wow.Whatabigboy!•文化知识学习今日无•阅读时间地狱健康·饮食·锻炼•饮食目标
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
vue + Element UI table动态合并单元格我家媳妇儿萌哒哒 element UI vue.js 前端 javascript
一、功能需求1、根据名称相同的合并工作阶段和主要任务合并这两列，但主要任务内容一样，但要考虑主要任务一样，但工作阶段不一样的情况。（枞向合并）2、落实情况里的定量内容和定性内容值一样则合并。（横向合并）二、功能实现exportdefault{data(){return{tableData:[{name:'a',address:'1',age:'1',six:'2'},{name:'a',addre
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
使用datepicker和uploadify的冲突解决（IE双击才能打开附件上传对话框） zhanglb12
在开发的过程当中，IE的兼容无疑是我们的一块绊脚石，在我们使用的如期的datepicker插件和使用上传附件的uploadify插件的时候，两者就产生冲突，只要点击过时间的插件，uploadify上传框要双才能打开ie浏览器提示错误Missinginstancedataforthisdatepicker解决方案//if(.browser.msie&&'9.0'===.browser.version
golang获取用户输入的几种方式余生逆风飞翔 golang 开发语言后端
一、定义结构体typeUserInfostruct{Namestring`json:"name"`Ageint`json:"age"`Addstring`json:"add"`}typeReturnDatastruct{Messagestring`json:"message"`Statusstring`json:"status"`DataUserInfo`json:"data"`}二、get请求的
【Java】已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException 屿小夏 java 开发语言
文章目录一、分析问题背景问题背景描述出现问题的场景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException在使用Spring框架进行开发时，数据源的配置和使用是非常关键的一环。然而，有时候我们可能会遇到org.springframewo
el-table实现全选整表，单元一页复选框功能周bro vue.js elementui javascript 前端
全选整表单选一页0":popper-append-to-body="false":total="tableData.length":page-size="pageObj.pagesize":page-sizes="[10,50,100]"layout="total,sizes,prev,pager,next"@size-change="handleSizeChange"@current-chang
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

Pyflink系列之使用pyflink实现flink大数据引挚的经典案例wordcount

Pyflink系列之使用pyflink实现flink大数据引挚的经典案例wordcount

谈到大数据，也是数据，在专业的概念上来讲，其具备三大特征。

大数据最关键的技术难题在于计算问题，在计算引挚方面大数据经历了四代的计算引挚演化。

一、 计算引挚的演化

1、 第一代计算引挚MapReduce.

MapReduce计算引挚阶段，使用场景用于离线计算。MapReduce处理数据主要分为两个阶段：map和reduce。

在Map和reduce阶段，涉及到数据缓存、分区、排序、分发存储等过程称之为shuffle。

MapReduce虽然解决了大数据可以计算的问题，但它的速度不够快，一个MapReduce任务通常需要秒级别甚至分钟级别才能跑完。这个速度对于离线计算场景还能接受，但对于目前市场的变化，实时计算的需求场景来说显然太慢了。

第二代：任务的DAG（Tez, Oozie）

第二代计算引擎其实还是个MapReduce，只不过对MapReduce的任务调度过程进行了优化。

三、第三代Spark

在数据格式和内存布局方面，Spark RDD能支持粗粒度写操作，对于读操作则可以精确到每条record，因此RDD可以用来作为分布式索引。

在执行策略方面，Spark和MapReduce的shuffle过程也有很大差异，Spark在shuffle时只有部分场景才需要排序，支持基于Hash的分布式聚合，更加省时。

第四代flink

Flink是面向连续流设计的计算引擎。在Flink中，一切都是流，数据流是Flink基本处理模型。Flink从设计之初秉持了一个观点：批是流的特例（批是一种有边界的数据流），它的批处理也是通过流来模拟实现的。

Flink的强悍之处，阿里屡试不爽。阿里当时的实时计算峰值达到了破纪录的每秒40亿条记录，数据量也达到了惊人的7TB每秒，相当于一秒钟需要读完500万本《新华字典》

Flink真正意义实现了大数据处理的流批统一模式。如下图所示。

在Flink的流执行模式中，事件在一个节点上处理后的输出可以发送到下一个节点进行即时处理，这样，执行引擎就不会有任何的延迟。相应地，所有的节点都需要同时运行。

二、为什么要使用fink

Flink实现了真正意义上的流批统一。

Flink的流处理，延迟到了毫秒级，而之前的spark在流处理上只是微批，延迟在秒级。

Flink可以处理事件时间，而之前的spark在streaming方面因为延迟，只能处理机器时间，无法保证时间语义的正确性。

Flink的检查点算法比Spark streaming更加灵活，性能更高。Spark streaming的检查点算法是每个stage结束之后，才会保存检查点。

Flink更易实现端到端的一致性。

三、python搭建pyflink环境

入门flink最简单的语言是python，这里使用python来搭建pyflink环境，pyflink是处理大数据flink程序的模块。

1、安装jdk

现在JDK10都出来了，所以我们也要紧跟着技术的潮流走，JDK8现在肯定已经比以前成熟很多了，所有我们在这里采用的就是JDK8。首先我们得在官网上面先下载JDK8。如下图所示。

找到jdk8压缩包下载后，进行解压命令，将压缩包进行解压，解压命令如下：

例如：

也可以将压缩包压缩到指定的文件夹下。如

例如:

完成之后，可以执行删除命令删除压缩包。删除命令如下。

例如

现在进行最重要的一步了，成不成功就看这一步了！

要进行环境配置了，编辑命令：

在执行完上方命令之后点击i键位让文件可以修改，进行文件编写。

修改内容如下。

对于/etc/profile编写完成之后是不够的，还需要最后一个步骤，就是让刚刚我们修改的文件变成有效起来，所以我们再输入一个命令，让修改生效。

生效命令。

2、安装MAVEN

在Centos中没有自带安装Maven，需要手动安装Maven。直接使用如下指令下载maven即可，下载位置为当前目录：

下载完成之后，解压并安装：

修改文件名：

配置环境变量：

将下面代码加入到profile中：

加入代码后，仍然需要重新加载系统配置文件：

3、安装flink

首先需要下载源代码：

接着拉取1.10的分支：

修改maven settings的配置，输入以下指令进入setting.xml:

进入到setting.xml后，修改镜像配置：

此处是使用了aliyun提供的镜像仓库。

编译Flink代码。

编译也可以采用。

这个编译的时间可能会长一些

编译过程中可能会出现下列问题：

如:

解决方案：

下载上述错误提示缺少某个jar包，此时我们使用wget 进行下载：

下载完成后在你的当前目录会出现一个jar包：

安装这个jar包：

注：这里的/usr/local是我的jar包所在的目录，使用时需要将其改成你的jar包所在的目录，如果安装不成功，重启终端再次安装。

在整个编译过程中，当某些项目编译失败时，可能会是网络问题，再重新编译一次即可。

最终编译成功的界面如下图所示：

如下图所示，编译成功后会在你的目录中出现一个build-target文件：

四、安装pyflink模块

使用python来进行flink的大数据分析，需要命名用到pyflink模块，使用如下指令Java 包囊括进来，再把自己 PyFlink 本身模块的一些 Java 的包和 Python 包打包成一起。命令如下。

注：当python3 setup.py sdist这段命令无法执行时，重启终端再次执行即可。

然后执行下列指令：

如下图所示，此时我们可以看到dist文件夹下有一个可以用于 pip install 的 PyFlink 包：

接下来我们首先检查命令的正确性，在执行之前，我们用 pip3 检查一下 list，命令如下。

其主要是查看一下pyflink模块是否被成功安装。如下图所示。

如图所示，这里并没有apache-flink的包，此时我们要使用如下命令进行安装：

注：执行这条指令的时候要退回到上一次文件夹中，不要在dist文件夹中执行这条指令。

执行结果如下图所示：

此时再次执行pip3 list的命令，我们就可以发现apache-flink包已经包含在里面了：

安装成功后，就可以使用pyflink进行flink技术实现大数据的分析。

五、pyflink实现wordcount的精典程序

一、计算引挚的演化

1、第一代计算引挚MapReduce.