Scala连接ES客户端

1.前言

大家好，我是楚生辉，在未来的日子里我们一起来学习大数据相关的技术，一起努力奋斗，遇见更好的自己！

本文详细的介绍了如何使用Scala语言连接上Elasticsearch客户端，有需要的小伙伴可以自行获取与学习~

2.ES工具类

package com.xxxx

import com.alibaba.fastjson.JSON
import com.alibaba.fastjson.serializer.SerializeConfig
import org.apache.http.HttpHost
import org.elasticsearch.action.bulk.BulkRequest
import org.elasticsearch.action.index.IndexRequest
import org.elasticsearch.action.search.{SearchRequest, SearchResponse}
import org.elasticsearch.client.indices.GetIndexRequest
import org.elasticsearch.client.{RequestOptions, RestClient, RestClientBuilder, RestHighLevelClient}
import org.elasticsearch.common.xcontent.XContentType
import org.elasticsearch.search.{SearchHit, SearchHits}
import org.elasticsearch.search.builder.SearchSourceBuilder
import java.util
import scala.collection.mutable.ListBuffer
/**
 * ES工具类
 * 用于对ES读写操作
 */
object MyEsutils {
    def searchField(indexName: String, fieldName: String): List[String] = {
        // 先判断索引是否存在
        val request = new GetIndexRequest(indexName)
        val bool: Boolean = esClient.indices().exists(request, RequestOptions.DEFAULT)
        if (!bool){
            return null
        }
        // 正常从ES中提取指定的字段
        val mids: ListBuffer[String] = ListBuffer[String]()
        val searchRequest = new SearchRequest(indexName)
        val searchSourceBuilder = new SearchSourceBuilder()
        searchSourceBuilder.fetchSource(fieldName,null).size(10000)
        searchRequest.source(searchSourceBuilder)
        val searchResponse: SearchResponse = esClient.search(searchRequest, RequestOptions.DEFAULT)
        val hits: Array[SearchHit] = searchResponse.getHits.getHits
        
        for (hit <- hits) {
            val sourceAsMap: util.Map[String, AnyRef] = hit.getSourceAsMap
            val mid: String = sourceAsMap.get(fieldName).toString
            mids.append(mid)
        }
        mids.toList
    } 
    // ES客户端对象
    val esClient : RestHighLevelClient = build()
    
    // 创建ES客户端
    def build():RestHighLevelClient = {
        val host: String = "localhost"
        val port: String = "9200"
        val builder: RestClientBuilder = RestClient.builder(new HttpHost(host,port.toInt))
        val client = new RestHighLevelClient(builder)
        client
    }
    // 关闭ES对象
    def close():Unit={
        if (esClient != null){
            esClient.close()
        }
    }
    /*
     * 1.批量写
     * 2.幂等写
     */
    def bulkSave(indexName:String,docs: List[(String,AnyRef)]):Unit = {
        val bulkRequest = new BulkRequest()
        for ((docId,docObj) <- docs) {
            val indexRequest = new IndexRequest(indexName)
            val dataJson: String = JSON.toJSONString(docObj, new SerializeConfig(true))
            indexRequest.source(dataJson,XContentType.JSON)
            indexRequest.id(docId)
            bulkRequest.add(indexRequest)
        }
        esClient.bulk(bulkRequest,RequestOptions.DEFAULT)
    }
}

使用方法

MyEsutils.bulkSave(indexName,orderWides)
MyEsutils.searchField(indexName,orderWides)

写入ES中，就要规划，是写入到一个索引中，还是分割索引(依据什么进行分割)，建索引字段的类型，模板是什么，以及方便后续查询起索引别名

3.ES客户端常见API使用

package com.xxxx

import com.alibaba.fastjson.JSON
import com.alibaba.fastjson.serializer.SerializeConfig
import org.apache.http.HttpHost
import org.apache.lucene.search.TotalHits
import org.elasticsearch.action.bulk.BulkRequest
import org.elasticsearch.action.delete.DeleteRequest
import org.elasticsearch.action.get.{GetRequest, GetResponse}
import org.elasticsearch.action.index.IndexRequest
import org.elasticsearch.action.search.{SearchRequest, SearchResponse}
import org.elasticsearch.action.update.UpdateRequest
import org.elasticsearch.client.{RequestOptions, RestClient, RestClientBuilder, RestHighLevelClient}
import org.elasticsearch.common.text.Text
import org.elasticsearch.common.xcontent.XContentType
import org.elasticsearch.index.query.{BoolQueryBuilder, MatchQueryBuilder, QueryBuilder, QueryBuilders, RangeQueryBuilder, TermQueryBuilder}
import org.elasticsearch.index.reindex.UpdateByQueryRequest
import org.elasticsearch.script.{Script, ScriptType}
import org.elasticsearch.search.SearchHit
import org.elasticsearch.search.aggregations.bucket.terms.{ParsedTerms, Terms, TermsAggregationBuilder}
import org.elasticsearch.search.aggregations.metrics.{AvgAggregationBuilder, ParsedAvg}
import org.elasticsearch.search.aggregations.{Aggregation, AggregationBuilder, AggregationBuilders, Aggregations, BucketOrder}
import org.elasticsearch.search.builder.SearchSourceBuilder
import org.elasticsearch.search.fetch.subphase.highlight.{HighlightBuilder, HighlightField}
import org.elasticsearch.search.sort.SortOrder
import org.elasticsearch.search.suggest.term.TermSuggestion.Score

import java.util

/**
 * 测试ES客户端
 */
object EsTest {
    def main(args: Array[String]): Unit = {

        // post()
        // bulk()
        // getById()
        // searchByFilter()
        searchByAggs()
        close()

        /*
         增：幂等
         */
        def put(): Unit = {
            val indexRequest = new IndexRequest()
            // 指定索引
            indexRequest.index("movie_test")
            // 指定doc
            val movie: Movie = Movie("1001", "速度与激情1")
            val movieJson: String = JSON.toJSONString(movie, new SerializeConfig(true))
            indexRequest.source(movieJson, XContentType.JSON)
            indexRequest.index("movie_test")
            indexRequest.id("1001")
            client.index(indexRequest, RequestOptions.DEFAULT)
        }

        /*
         增：非幂等写，不指定id
         */
        def post(): Unit = {
            val indexRequest = new IndexRequest()
            // 指定索引
            indexRequest.index("movie_test")
            // 指定doc
            val movie: Movie = Movie("1002", "速度与激情2")
            val movieJson: String = JSON.toJSONString(movie, new SerializeConfig(true))
            indexRequest.source(movieJson, XContentType.JSON)
            indexRequest.index("movie_test")
            client.index(indexRequest, RequestOptions.DEFAULT)
        }

        /*
        批量写
         */
        def bulk(): Unit = {
            val bulkRequest = new BulkRequest()
            val movies: List[Movie] = List[Movie](
                Movie("1002", "长津湖"),
                Movie("1003", "熊出没"),
                Movie("1004", "狙击手"),
                Movie("1005", "长门桥")
            )
            for (movie <- movies) {
                // 指定索引
                val indexRequest = new IndexRequest("movie_test")
                val movieJson: String = JSON.toJSONString(movie, new SerializeConfig(true))
                indexRequest.source(movieJson, XContentType.JSON)
                // 如果是幂等，就指定id，不是幂等就不指定
                indexRequest.id(movie.id)

                // 将indexRequest加入到bulk批次中
                bulkRequest.add(indexRequest)
            }
            // 最后一次批次执行
            client.bulk(bulkRequest, RequestOptions.DEFAULT)
        }

        /*
        修改：单条修改
         */
        def update(): Unit = {
            val updateRequest = new UpdateRequest()
            updateRequest.index("movie_test")
            updateRequest.id("1001")
            // 把docid为1001的数据，修改movie_name的值
            updateRequest.doc("movie_name", "功夫")
            client.update(updateRequest, RequestOptions.DEFAULT)
        }

        /*
       修改：条件修改 把电影名为速度与激情的都修改
        */
        def updateByQuery(): Unit = {
            val updateByQueryRequest = new UpdateByQueryRequest("movie_test")

            // query
            val boolQueryBuilder: BoolQueryBuilder = QueryBuilders.boolQuery()
            val termQueryBuilder: TermQueryBuilder = QueryBuilders.termQuery("movie_name.keyword", "速度与激情")
            boolQueryBuilder.filter(termQueryBuilder)
            updateByQueryRequest.setQuery(boolQueryBuilder)
            // update
            val params = new util.HashMap[String, AnyRef]()
            params.put("newName", "湄公河行动")
            val script = new Script(
                ScriptType.INLINE,
                Script.DEFAULT_SCRIPT_LANG,
                "ctx._source['movie_name']=params.newName",
                params
            )
            updateByQueryRequest.setScript(script)
            client.updateByQuery(updateByQueryRequest, RequestOptions.DEFAULT)
        }

        /*
        删除
         */
        def delete(): Unit = {
            val deleteRequest = new DeleteRequest("movie_test", "1001")
            client.delete(deleteRequest, RequestOptions.DEFAULT)
        }

        /*
        查询：单条查询
         */
        def getById(): Unit = {
            val getRequest = new GetRequest("movie_test", "1001")
            val response: GetResponse = client.get(getRequest, RequestOptions.DEFAULT)
            println(response)
            // {"_index":"movie_test","_type":"_doc","_id":"1001","_version":2,"_seq_no":1,"_primary_term":1,"found":true,"_source":{"id":"1001","movie_name":"速度与激情1"}}
            val dataStr: String = response.getSourceAsString
            println(dataStr)
        }


        /*
        查询：条件查询
        查询doubanScore>=5.0,关键词搜索red sea
        关键词高亮显示，显示第一页，每页2条，按照查询doubanScore从大到小排序
         */
        def searchByFilter(): Unit = {
            // 这样复杂的条件搜索，先写DSL
            /*
            POST movie_index/_update_by_query{"query":{"bool":{"filter":[{"range":{"doubanScore":{"gte":5.0}}}],"must":[{"match":{"name":"redsea"}}]}},"highlight":{"fields":{"name":{}}},"from":0,"size":2,"sort":[{"doubanScore":{"order":"desc"}}]}
             */
            val searchRequest = new SearchRequest("movie_index")
            val searchSourceBuilder = new SearchSourceBuilder()
            // bool
            val boolQueryBuilder: BoolQueryBuilder = QueryBuilders.boolQuery()
            // filter
            val rangeQueryBuilder: RangeQueryBuilder = QueryBuilders.rangeQuery("doubanScore").gte(5.0)
            boolQueryBuilder.filter(rangeQueryBuilder)
            // must
            val matchQueryBuilder: MatchQueryBuilder = QueryBuilders.matchQuery("name", "red sea")
            boolQueryBuilder.must(matchQueryBuilder)
            searchSourceBuilder.query(boolQueryBuilder)
            // 高亮
            val highlightBuilder = new HighlightBuilder()
            highlightBuilder.field("name")
            searchSourceBuilder.highlighter(highlightBuilder)
            // 分页
            searchSourceBuilder.from(0)
            searchSourceBuilder.size(2)
            // 排序
            searchSourceBuilder.sort("doubanScore", SortOrder.DESC)

            searchRequest.source(searchSourceBuilder)
            val searchResponse: SearchResponse = client.search(searchRequest, RequestOptions.DEFAULT)

            // 获取总条数
            val totalDocs: Long = searchResponse.getHits.getTotalHits.value
            // 获取明细数据
            val hits: Array[SearchHit] = searchResponse.getHits.getHits
            for (hit <- hits) {
                // 提取数据
                val dataJson: String = hit.getSourceAsString()
                // 提取高亮
                val highlightFields: util.Map[String, HighlightField] = hit.getHighlightFields
                val highlightField: HighlightField = highlightFields.get("name")
                val fragments: Array[Text] = highlightField.getFragments
                val highlightValue: String = fragments(0).toString
                println("明细数据" + dataJson)
                println("高亮数据" + highlightValue)
            }
        }
        /*
        查询：聚合查询
        查询每位演员参演的电影的平均分，倒叙排列
         */
        def searchByAggs(): Unit = {
            // GET/movie_index/_search{"aggs":{"groupbyactorname":{"terms":{"field":"actorList.name.keyword","size":10,"order":{"doubanscoreavg":"desc"}},"aggs":{"doubanscoreavg":{"avg":{"field":"doubanScore"}}}}},"size":0}
            val searchRequest = new SearchRequest("movie_index")
            val searchSourceBuilder = new SearchSourceBuilder()
            // 不要明细
            searchSourceBuilder.size(0)
            // group
            val termsAggregationBuilder: TermsAggregationBuilder = AggregationBuilders
            .terms("groupbyactorname")
            .field("actorList.name.keyword")
            .size(10)
            .order(BucketOrder.aggregation("doubanscoreavg", false))
            // avg
            val avgAggregationBuilder: AvgAggregationBuilder = AggregationBuilders.avg("doubanscoreavg").field("doubanScore")
            termsAggregationBuilder.subAggregation(avgAggregationBuilder)
            searchSourceBuilder.aggregation(termsAggregationBuilder)

            searchRequest.source(searchSourceBuilder)
            val searchResponse: SearchResponse = client.search(searchRequest, RequestOptions.DEFAULT)

            // 拿到演员与平均分
            val aggregations: Aggregations = searchResponse.getAggregations
            val groupbyactornameParsedTerms: ParsedTerms = aggregations.get[ParsedTerms]("groupbyactorname")
            val buckets: util.List[_ <: Terms.Bucket] = groupbyactornameParsedTerms.getBuckets
            import scala.collection.JavaConverters._
            for (bucket <- buckets.asScala) {
                // 演员名字
                val actorName: String = bucket.getKeyAsString
                // 电影个数
                val movieCount: Long = bucket.getDocCount
                // 平均分
                val aggregations: Aggregations = bucket.getAggregations
                val doubanscoreavgParsedAvg: ParsedAvg = aggregations.get[ParsedAvg]("doubanscoreavg")
                val avgScore: Double = doubanscoreavgParsedAvg.getValue
                println(s"${actorName} 共参演了 ${movieCount} 部，平均分为 ${avgScore}")
            }
        }
    }

    // 声明客户端对象
    var client: RestHighLevelClient = create()

    // 创建客户端对象
    def create(): RestHighLevelClient = {
        val builder: RestClientBuilder = RestClient.builder(new HttpHost("127.0.0.1", 9200))
        val esClient = new RestHighLevelClient(builder)
        esClient
    }

    // 关闭客户端对象
    def close(): Unit = {
        client.close()
        client = null
    }
    case class Movie(id: String, movie_name: String)
}

hutool获取大数据量的excel内容及sheet名称问题 liu_qixiang excel
读取大数据量的excel时代码如下privatestaticRowHandlercreateRowHandler(){returnnewRowHandler(){@Overridepublicvoidhandle(inti,longl,Listlist){System.out.println(i+""+l+""+list);}};}publicstaticvoidmain(String[]args
惊喜！万博智云亮相2024数博会和第三届828 B2B企业节万博智云OneProCloud 新闻资讯公司新闻华为云 HyperBDR云容灾数博会
摘要万博智云作为2024828B2B企业节铂金合作伙伴，在2024中国国际大数据产业博览会的828B2B企业节开幕式上亮相，并参加了本次828企业节的一系列活动，包括在华为展台现场开展的“‘云上大咖团’直面数博会现场”的直播上发表了主题分享。8月28日，由国家数据局主办、贵州省人民政府承办的2024中国国际大数据产业博览会（简称“2024数博会”）在贵州省贵阳市开幕。本届数博会以“数智共生：开创数
020 现代数据中心的路由与交换架构 Network_Engineer RS 网络网络安全计算机网络网络协议网络安全
引言现代数据中心的设计必须兼顾高性能、高可用性和灵活性，以满足云计算、大数据、人工智能等应用的需求。在这样的背景下，数据中心的路由与交换架构设计显得尤为重要。Spine-Leaf架构、BGP路由优化以及高密度虚拟化环境中的交换技术，成为了现代数据中心的关键组成部分。本篇博文将探讨这些技术的实际应用，并提供华为设备的配置示例。1.Spine-Leaf架构的设计与实施Spine-Leaf架构是一种扁平
【鼠鼠学AI代码合集#5】线性代数鼠鼠龙年发大财鼠鼠学AI系列代码合集人工智能线性代数机器学习
在前面的例子中，我们已经讨论了标量的概念，并展示了如何使用代码对标量进行基本的算术运算。接下来，我将进一步说明该过程，并解释每一步的实现。标量（Scalar）的基本操作标量是只有一个元素的数值。它可以是整数、浮点数等。通过下面的Python代码，我们可以很容易地进行标量的加法、乘法、除法和指数运算。代码实现：importtorch#定义两个标量x=torch.tensor(3.0)#标量x，值为3
springboot指定依赖jar版本 m0_67402235 java java 后端
项目是maven父子项目结构如下：有多个子项目，因为springboot版本采用的是1.5.所以默认导入的elasticsearch版本是1.2.，而我们的集群是6.*的版本，试了很多次最后解决问题如下：在父pom的dependencyManagement中添加指定版本就可以了因为！！！父pom中指定版本优先级最高，所以可以解决子依赖pom中的版本问题。子模块只需要引入就可以了
IAAS: IT公司去IOE-Alibaba系统构架解读 wishchin 心理学/职业 BigDataMini Spark PaaS
从Hadoop到自主研发，技术解读阿里去IOE后的系统架构原地址：......................云计算阿里飞天摘要：从IOE时代，到Hadoop与飞天并行，再到飞天单集群5000节点的实现，阿里一直摸索在技术衍变的前沿。这里，我们将从架构、性能、运维等多个方面深入了解阿里基础设施。【导读】互联网的普及，智能终端的增加，大数据时代悄然而至。在这个数据为王的时代，数十倍、数百倍的数据给各
ElasticSearch-多边形范围查询(8.x) W_Meng_H #ElasticSearch #SpringBoot elasticsearch 大数据搜索引擎
目录一、字段设计二、数据录入三、查询语句四、Java代码实现开发版本详见：Elasticsearch-经纬度查询(8.x-半径查询)_es经纬度范围查询-CSDN博客一、字段设计PUT/aoi_points{"mappings":{"properties":{"location":{"type":"geo_shape"}}}}aoi_points是索引名称，location是字段名称，它将存储地理
开源项目的认识理解禁默话题探讨开源程序人生
目录开源项目有哪些机遇与挑战？1.开源项目的发展趋势2.开源的经验分享（向大佬请教与上网查询）3.开源项目的挑战开源项目有哪些机遇与挑战？1.开源项目的发展趋势1.持续增长与普及-开源项目将继续增长，特别是在云计算、大数据、人工智能等领域。-开源软件在企业中的应用将更加普及，成为企业IT战略的一部分。2.企业的参与-企业将继续增加对开源项目的投资，通过赞助、捐赠或直接参与开发来推动开源项目的发展。
未完待续大数据工程学院19计本1班
分院:大数据工程学院班级:19计本1班姓名:李思雪不知不觉，我们送走了活力四射的春天，迎来了烈日炎炎夏天。对于夏天的的印象，不仅有火红的太阳，湛蓝的天空，茂盛的枝叶……还有的是那让人不得不说的毕业季。不是毕业季的主角，作为毕业季看客，我们却也能感受到离别到来是的不舍。我们对学长学姐的祝福是前程似锦，原来是分别的意思。都知道天下无不散的宴席，但那四年的同窗之情，记忆里点点滴滴，不是一时就能放下，毕竟
理性拥抱机器学习热潮：ML祖师爷Tom Mitchell最新洞见「已注销」
来源：雷锋网作者：杨晓凡本文共3484字，建议阅读7分钟。本文与你分享TomMitchell教授的最新洞见。编者按：上个月，全球移动互联网大会GMIC2018在北京开幕。此次主题为"AI生万物，谐音爱生万物，科学技术要有人文的温度，机器有爱，真芯英雄"的大会上，全球人工智能领袖汇聚全球业界顶尖领袖，探讨在基础硬件、大数据与开源平台、深度学习为代表的算法等人工智能领域的最新洞见，是年度行业发展的风向
Yarn介绍 - 大数据框架 why do not 大数据 hadoop
YARN的概述YARN是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序YARN是Hadoop2.x版本中的一个新特性。它的出现其实是为了解决第一代MapReduce编程框架的不足，提高集群环境下的资源利用率，这些资源包括内存，磁盘，网络，IO等。Hadoop2.X版本中重新设计的这个YARN集群
浅析大数据Hadoop之YARN架构 haotian1685 python 数据清洗人工智能大数据大数据学习深度学习大数据大数据学习 YARN hadoop
1.YARN本质上是资源管理系统。YARN提供了资源管理和资源调度等机制1.1原HadoopMapReduce框架对于业界的大数据存储及分布式处理系统来说，Hadoop是耳熟能详的卓越开源分布式文件存储及处理框架，对于Hadoop框架的介绍在此不再累述，读者可参考Hadoop官方简介。使用和学习过老Hadoop框架（0.20.0及之前版本）的同仁应该很熟悉如下的原MapReduce框架图：1.2H
大数据知识总结（三）：Hadoop之Yarn重点架构原理 Lansonli 大数据大数据 hadoop 架构 Yarn
文章目录Hadoop之Yarn重点架构原理一、Yarn介绍二、Yarn架构三、Yarn任务运行流程四、Yarn三种资源调度器特点及使用场景Hadoop之Yarn重点架构原理一、Yarn介绍ApacheHadoopYarn(YetAnotherReasourceNegotiator，另一种资源协调者)是Hadoop2.x版本后使用的资源管理器，可以为上层应用提供统一的资源管理平台。二、Yarn架构Y
【Pytorch】cumsum的实现逻辑栏杆拍遍看吴钩 pytorch pytorch 人工智能 python
本文只记录cumsum的实现逻辑的CUDA部分，也即底层调用了CUDA的什么实现算子。voidlaunch_cumsum_cuda_kernel(constTensorBase&result,constTensorBase&self,int64_tdim){AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND2(ScalarType::Half,ScalarType::BFl
Elasticsearch文档值知知之之 Elasticsearch elasticsearch 大数据搜索引擎
在Elasticsearch中，文档值（DocValues）是用于高效存储和检索数据的一种数据结构，特别是在处理聚合、排序和过滤操作时。文档值是Elasticsearch为每个字段生成的预先计算的格式化数据，目的是改善性能和降低内存使用。什么是文档值（DocValues）文档值是将字段的数据存储在磁盘上的一种方式，使得字段的值以列式结构存储。这种存储方式使得对字段的高效检索和聚合成为可能，尤其是在
弹性搜索引擎Elasticsearch：本地部署与远程访问指南猴哥是肖鸿人工智能技术指导专升本 jenkins 运维
在大数据时代，数据搜索和分析成为企业核心竞争力的关键因素。弹性搜索引擎Elasticsearch作为一种分布式、可扩展的搜索和分析引擎，受到广泛欢迎。本文将介绍Elasticsearch的本地部署与远程访问，帮助读者更好地利用这一强大的工具。一、本地部署环境准备在开始部署Elasticsearch之前，需要准备以下环境：操作系统：Elasticsearch支持多种操作系统，如Linux、Windo
elasticsearch 图灵农场 tl微服务专题
cluster：代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。shards：代表索引分片，es可以把一个完整的索引分成多个分片，这样的好处是可以把一个大的索引拆
深度学习思考夜雪朝歌
神经网络如果能了解每一层输出的意义，就可以避免end－to－end的黑箱理论，对理论话深度学习很有意义，一个思路是经验值，将每一层在特定任务下都有输出，对结果作经验总结，比方说浅层输出低层次的几何轮廓特征，高层输出语意特征，我曾经在objecttracking用过这样的方法,在大数据集测试，每一层都输出结果，并且和handcraftfeature做比较，发现浅层的效果不如handcraftfeat
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
基于实时深度学习的推荐系统架构设计和技术演进阿里云云栖号云栖号技术分享架构阿里巴巴
简介：整理自5月29日阿里云开发者大会，秦江杰和刘童璇的分享，内容包括实时推荐系统的原理以及什么是实时推荐系统、整体系统的架构及如何在阿里云上面实现，以及关于深度学习的细节介绍本文整理自5月29日阿里云开发者大会，大数据与AI一体化平台分论坛，秦江杰和刘童璇带来的《基于实时深度学习的推荐系统架构设计和技术演进》。分享内容如下：实时推荐系统的原理以及什么是实时推荐系统整体系统的架构及如何在阿里云上面
《钝感力》| 钝感是一种沉默但有力的回击力夏小半的江湖
2018年浙江省离婚大数据显示，有35%的离婚原因都是生活琐事。其实婚姻的破裂并没有那么多狗血剧情，最多的都是生活中的小摩擦。其实对于婚姻来说，最需要的就是钝感力，面对另一半的一些小缺点和小错误，不要太敏感，不要过分在意，生活就会变得开心许多。不光是婚姻，在我们生活的方方面面，都需要一些钝感力，来帮助我们和这个复杂的世界友好相处。360的周鸿祎也曾经说过,人在年轻的时候，还是应该迟钝一点，让自己的
大数据新视界--大数据大厂之MySQL数据库课程设计：MySQL集群架构负载均衡故障排除与解决方案青云交大数据新视界 Java技术栈 Java性能优化数据库 MySQL 集群架构负载均衡故障排除算法监控备份恢复负载均衡的常见故障及排除方法
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界--大数据大厂之MySQL 数据库课程设计：MySQL 数据库 SQL 语句调优的进阶策略与实际案例（2-2）青云交大数据新视界 Java Java技术栈数据库 SQL 调优进阶索引优化数据库参数分区表垂直拆分课程设计性能优化 MySQL
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界--大数据大厂之MySQL 数据库课程设计：开启数据宇宙的传奇之旅青云交大数据新视界 Java技术栈数据库 MySQL 数据库课程设计实践项目案例备份恢复 Java Mysql备份恢复
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界--大数据大厂之MySQL数据库课程设计：揭秘 MySQL 集群架构负载均衡核心算法：从理论到 Java 代码实战，让你的数据库性能飙升！青云交大数据新视界 Java技术栈数据库 MySQL 集群架构负载均衡算法加权轮询最少连接加权最少连接轮询随机源地址哈希
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
starrocks和clickhouse数据库比较 CodeMaster_37714848 clickhouse 数据库
Starrocks和ClickHouse都是用于数据分析的数据库，但它们的设计理念和用途有所不同。下面是这两者的一些主要比较点：1.基础架构与设计目标Starrocks:Starrocks是一个专注于实时数据分析的平台，常用于大数据处理和商业智能应用。它设计用于高效处理大规模数据集，并且支持复杂查询和数据处理。支持多种数据源的集成，并且可以与其他大数据技术（如Hadoop、Spark）协同工作。C
tyut数据分析考试资料 study NH 数据分析 python 数据挖掘
1、关于数据分析的说法，下列描述错误的是（）。CA.数据分析可以通过计算机工具和数学知识处理数据｜B.可以做出具有针对性的决策｜C.数据分析没有实际的使用意义｜D.在大数据环境下，数据分析能够挖掘出更有价值的信息2、下列关于数据分析概念的描述错误的是（）。DA.使用适当的统计分析方法对收集来的大量数据进行分析｜B.数据分析可以从数据中提炼出有用的信息并形成结论｜C.数据分析可以对数据进行更深层的研
大数据量查询：流式查询与游标查询不识愁滋味. sql 数据库 spring cloud spring boot 微服务
最近在做一个计算相关的功能，大体就是有很多条SQL，每条SQL都涉及复杂地运算，最后要将所有计算结果进行合并分析。经初步测试，每个SQL起码会查出几十万条记录，我们现在有毛毛多的这种SQL。最大的问题不在于速度，毕竟涉及运算的功能，想要从速度入手就得靠中间件和算法了。内存占用才是我们最需要注意的，一旦数据量很大且一次性冲入Java堆内存，程序会直接OOM然后离开人世。比如使用非分页的普通查询，这张
大数据（Hbase简单示例） BL小二 hbase 大数据 hadoop
importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.TableName;importorg.apache.hadoop.hbase.client.*;importorg.apache.hadoop.hbase
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

Scala连接ES客户端

1.前言

2.ES工具类

3.ES客户端常见API使用

你可能感兴趣的:(学无止境,elasticsearch,scala,大数据)