托帕

娱乐头条-05solr

1.solr的基本概念

2.solr的部署

3.solr的管理界面

4.solr的配置文件

5.solr的客户端操作: solrj

6.高级

一、solr的基本概念

solr是一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的文件，生成索引；也可以通过http访问提出查找请求，并得到各种格式的返回结果。

solr本质是基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展。并对查询性能进行了优化，并且提供了一个完善的功能管理界面。

二、solr的部署

1.链接

链接：https://pan.baidu.com/s/1q8Ry0peIF3lwOemqxusWMw
提取码：jm3i

2.目录介绍

3.服务的启动

（1）启动方式一

启动步骤:

打开cmd窗口
切换目录到solr的example的目录下
执行 java -jar start.jar

注意: 由于jar包已经内置了一个web服务器(jetty) , 其默认的访问的为8983

（2）启动方式二（推荐）

注：最好重新解压一份Tomcat

启动步骤:

首先打开example目录下的webapps目录下
拷贝此目录下的solr.war , 将其复制到tomcat的webapps目录下

启动tomcat, 将war包进行解压, 然后关闭tomcat并将war包删除或者更改后缀名即可（一定要关闭Tomcat下删除或更改，否则解压后的目录会自动删除）
将其原有war包更改的主要目的是防止再次解压, 导致原有的设置失效

将资料中tomcat运行solr所需要的jar包复制到solr的web-INF下的lib目录中 ,classes目录复制到web-INF下

链接：https://pan.baidu.com/s/1mjwOHK1EBizcC5tZcSwCUw
提取码：kugn

将example中solr的目录建议复制到和tomcat同级的目录下(方便管理)

打开tomcat的bin目录找到Catalina.bat文件, 将其右键打开
将下列参数设置到此文件中即可
set "JAVA_OPTS=-Dsolr.solr.home=目录位置"
注意: 目录位置就是刚刚复制过来的solr的目录

为了防止和其他Tomcat端口号冲突，最好在server.xml中更改端口号（都加一）

启动tomcat,访问localhost:8081/solr即可

三、solr的管理界面

仪表盘

日志窗口: 记录solr在启动过程中和启动后执行过程中的执行信息

解决警告信息:

第一步: 将solr的安装包中依赖包的两个目录, 复制到solr的索引库中

第二步: 打开索引库中的collection1中conf目录, 将solrconfif.xml右键打开, 去掉两个../即可

重新运行Tomcat，就不会出现上面的警告信息

core 窗口: 用于配置solr的索引库

solr中支持配置和管理多个索引库, 就像数据库中有多个database是一样的

如何配置多个索引库呢?

简单方案: 将collection1复制一个,然后删除其data文件夹并修改core.properties配置文件即可

重新启动Tomcat，就会出现新添加的索引库2

针对core selector的详细讲解:

1.使用solr的管理界面进行添加索引

2.用solr的管理界面进行查询索引

四、solr的配置文件

1.solrConfig.xml : solr的核心配置文件

solrconfig.xml 配置文件主要定义了 solr 的一些处理规则，包括索引数据的存放位置，更新，删除，查询的一些规则配置。一般此文件不需要进行修改, 采取默认即可

2.schema.xml: solr约束文件

Solr中会提前对文档中的字段进行定义，并且在schema.xml中对这些字段的属性进行约束，例如：字段数据类型、字段是否索引、是否存储、是否分词等等

（1）field标签

主要是用来指定字段名称的, Lucene中是有用户在程序中指定, solr中需要提前在配置文件中指定

name：字段的名称

type：字段的类型，里面的内容为fieldType标签的名字

indexed：是否对字段进行索引

stored：是否保存该字段的值

multiValued：该字段是否可以存储多个值

required="true"：表示添加文档时，在文档中必须要添加的字段

注：_version_ _root_ id 保留不要删掉
（2）dynamicField标签

被称为是动态字段

此种标签是为程序的扩展所使用的，因为我们不可能把所有的字段全部定义好，所以就需要动态与来进行动态扩展，弥补field标签无法详细列举的字段

（3）uniqueKey标签

必要标签, 表名文档的唯一属性, 一般默认为id

Lucene中是自己进行维护, solr中, 需要自己指定

（4）copyField标签

被称为是复制域

source: 表名要复制那个字段的值
dest: 复制到那个字段上

原字段和目标字段必须是已经使用field字段定义，而且，dest字段最好是多值字段，主要目的是用于查询

（5）fieldType标签

此种标签是用来定义字段的类型的,可以指定此字段使用何种分词器进行分词

name：字段类型的名字，用户执行field字段的字段类型

class：solr的字段类型

textFile在配置字段类型时，需要指定分词器

3.引入ik分词器

第一步: 导入ik相关的依赖包
将三个文件放置在tomcat>webapps>solr>WEB-INF>lib下(此步骤在部署solr到tomcat中的时候, 就已经导入了)

第二步: 导入ik相关的配置文件(ik配置文件, 扩展词典和停止词典)
将三个文件放置在tomcat>webapps>solr>WEB-INF>classes下(此步骤, 在部署solr到tomcat中的时候, 已经导入)

第三步, 在schema.xml配置文件中自定义一个字段类型, 引入ik分词器

第四步: 为对应的字段设置为text_ik类型即可

五、solr的客户端操作: solrj

solrj是Apache官方提供的一套java开发的, 用于操作solr服务的API, 通过这套API可以让程序与solr服务进行交互, 让java程序可以直接操作solr服务进行增删改查

1.solr的基本入门程序（原生的方式写入）

准备数据：如果想添加昨天爬取的新闻数据，修改约束文件

将自带的field删掉（除了上面强调的三个不能删）；将copyField字段也删除；将下面的添加在文件中

导入相关的jar包

        
            org.apache.solr
            solr-solrj
            4.10.2
        
        
        
            commons-logging
            commons-logging-api
            1.1
        

        
            junit
            junit
            4.12

    @Test
    public void testWriteIndex() throws Exception{
        //创建solr服务对象
        SolrServer server = new HttpSolrServer("http://localhost:8081/solr/collection1");

        //文档对象
        SolrInputDocument document = new SolrInputDocument();
        document.addField("id",1);
        document.addField("title","于正回应秒删微博：说的不是赵丽颖和陈晓，大家散了吧！");
        document.addField("intro","于正回应秒删微博：说的不是赵丽颖和陈晓，大家散了吧！说到于正，相信大家一定都不陌生吧？近两年来，于正这个名字在圈内是非常火的！有非常多的好作品都是由他“制作的”，例如：《美人心计》《宫锁心玉》！就在……");

        //添加文档对象
        server.add(document);
        //写入索引
        server.commit();

    }

2.solrj写入索引2(写入多条索引)（原生的方式写入）

    @Test
    public void testWriteIndex2() throws Exception{
        //创建solr服务对象
        SolrServer server = new HttpSolrServer("http://localhost:8081/solr/collection1");

        //文档对象
        SolrInputDocument document1 = new SolrInputDocument();
        document1.addField("id",2);
        document1.addField("title","杨颖曝人生第一份工作，15岁当模特挣600港币，吴亦凡则是洗碗");
        document1.addField("intro","最近，吴亦凡、Angelababy（杨颖）、赵今麦、福克斯相聚于综艺《潮流合伙人》，在日本东京合开一家潮流集合店。在最新一期的节目中，Angelababy一行四人在结束了一天的辛苦工作后，带着\"丰收……");
        SolrInputDocument document2 = new SolrInputDocument();
        document2.addField("id",3);
        document2.addField("title","《庆余年》之后，阅文男频IP的爆款指南");
        document2.addField("intro","《庆余年》爆了！屠榜各大社交平台，连平时很少追剧的小哥哥们，都开始讨论起《庆余年》了。作为引领行业的正版数字阅读平台和文学 IP 培育平台，阅文集团一直在探索男频IP开发的多种可能性，《庆余年》之后……");

        List dosc = new ArrayList();
        dosc.add(document1);
        dosc.add(document2);

        //添加文档对象
        server.add(dosc);

        //写入索引
        server.commit();
    }

3.使用solrj写入索引3(使用javabean进行写入)

注意事项:
- 如果使用javaBean进行数据添加时, 需要给对应要加入索引库的字段添加@Field,用来指定其实一个document字段
- javaBean中的字段必须提前在solr的schema.xml中提前定义好（前面已经定义好了）

public class News {
    @Field
    private Integer id;
    @Field
    private String title;
    @Field
    private String intro;
    @Field
    private String source;
    @Field
    private String vurl;
    @Field
    private Date publishTime;

    @Override
    public String toString() {
        return "News{" +
                "id=" + id +
                ", title='" + title + '\'' +
                ", intro='" + intro + '\'' +
                ", source='" + source + '\'' +
                ", vurl='" + vurl + '\'' +
                ", publishTime=" + publishTime +
                '}';
    }

    public Integer getId() {
        return id;
    }

    public void setId(Integer id) {
        this.id = id;
    }

    public String getTitle() {
        return title;
    }

    public void setTitle(String title) {
        this.title = title;
    }

    public String getIntro() {
        return intro;
    }

    public void setIntro(String intro) {
        this.intro = intro;
    }

    public String getSource() {
        return source;
    }

    public void setSource(String source) {
        this.source = source;
    }

    public String getVurl() {
        return vurl;
    }

    public void setVurl(String vurl) {
        this.vurl = vurl;
    }

    public Date getPublishTime() {
        return publishTime;
    }

    public void setPublishTime(Date publishTime) {
        this.publishTime = publishTime;
    }
}

    @Test
    public void testWriteIndex3() throws Exception{
        //创建solr服务对象
        SolrServer server = new HttpSolrServer("http://localhost:8081/solr/collection1");

        News news = new News();
        news.setId(4);
        news.setTitle("这是标题");
        news.setIntro("这是内容部分");
        news.setSource("这是作者");
        news.setVurl("https://www.baidu.com");
        Long dateLong = new Date().getTime()* 1000 * 3600 * 8;
        news.setPublishTime(new Date(dateLong));

        server.addBean(news);
        server.commit();
    }

4.修改索引

    @Test
    public void testUpdateIndex() throws Exception{
        //创建solr服务对象
        SolrServer server = new HttpSolrServer("http://localhost:8081/solr/collection1");

        //文档对象
        SolrInputDocument document = new SolrInputDocument();
        document.addField("id",1);
        document.addField("title","一口气看完三集，BBC的重口味英剧终于开播了");
        document.addField("intro","吸血鬼题材类的影视剧，一直都是影视界的宠儿。前前后后，火了很多该类的作品：HBO的《真爱如血》；舔屏级颜值的《暮光之城》；狗血多角恋的《吸血鬼日记》...诸如此类的剧集，好像都在告诉我们吸血鬼并不是……");
        
        server.add(document);
        server.commit();
    }

5.删除索引

    @Test
    public void testDelIndex() throws Exception{
        //创建solr服务对象
        SolrServer server = new HttpSolrServer("http://localhost:8081/solr/collection1");

        //server.deleteById("1");根据id删除
        //server.deleteByQuery("*:*");删除所有
        server.deleteByQuery("title:标题");//通过查询字符串进行删除

        server.commit();
    }

6.查询操作

    @Test
    public void testQuery() throws Exception{
        //创建solr服务对象
        SolrServer server = new HttpSolrServer("http://localhost:8081/solr/collection1");
        //创建solr的查询对象
        SolrQuery query = new SolrQuery("*:*");//查询所有
        QueryResponse response = server.query(query);
        //文档的集合
        SolrDocumentList documentList = response.getResults();

        for(SolrDocument document:documentList){
            String id = document.get("id").toString();
            String title = document.get("title").toString();
            System.out.println("id："+id+"title："+title);
        }
    }

返回javaBean

    @Test
    public void testQuery2() throws Exception{
        //创建solr服务对象
        SolrServer server = new HttpSolrServer("http://localhost:8081/solr/collection1");
        //创建Solr的查询对象
        SolrQuery query = new SolrQuery("*:*");
        QueryResponse response = server.query(query);

        List beans = response.getBeans(News.class);

        for (News news : beans) {
            System.out.println(news);
        }
    }

注：这里会报错。因为实体类的id属性是Integer类型的，而约束文件中的id是string类型的，解决方法，将实体类的id属性换成String类型。转换成JavaBean这种查询方式不推荐

7.复杂查询

准备数据：添加多条索引（随意）

    // 抽取出一个方法
    public void query(SolrQuery query) throws  Exception{
        SolrServer server = new HttpSolrServer("http://localhost:8081/solr/collection1");
        QueryResponse response = server.query(query);
        SolrDocumentList documentList = response.getResults();

        for(SolrDocument document:documentList){
            String id = document.get("id").toString();
            //String title = document.get("title").toString();
            //System.out.println("id："+id+"title："+title);
            System.out.println("id:"+id);
        }
    }

    //词条查询
    @Test
    public void testTerm() throws Exception{

        /*
        * 字段名:关键字
        * 在查询时，会对关键字进行分词
        * */

       // SolrQuery query = new SolrQuery("*:*");
        SolrQuery query = new SolrQuery("title:今天");
        query(query);
    }



    //通配符查询
    @Test
    public void testWildCard() throws Exception{

        /*
        *  *：匹配0到多个字符
        *  ?：匹配1个字符
        * */
        //SolrQuery query = new SolrQuery("title:awkwafina");
        //SolrQuery query = new SolrQuery("title:awkwafin?");
        SolrQuery query = new SolrQuery("title:awkwafi*");
        query(query);
    }



    //模糊查询
    @Test
    public void testFuzzy() throws Exception{

        /*
        * 在关键字之后添加~ 表示模糊查询
        * 最大编辑次数：通过新增、修改、删除可以匹配正确词条的次数，默认也为2
        * ~后的数字：表示最大编辑次数
        * */
        //SolrQuery query = new SolrQuery("title:wkwafin~");
        SolrQuery query = new SolrQuery("title:wkwafin~1");//最大编辑次数设置为1
        query(query);
    }


    //范围查询
    @Test
    public void testRange() throws Exception{

        /*
        * id是string类型的，是按字典顺序进行排序
        * 所以id:3也被查找出来
        *
        * []包含最大值和最小值，{}不包含最大值和最小值
        * */

        //SolrQuery query = new SolrQuery("id:[20 TO 40]");
        //SolrQuery query = new SolrQuery("publishTime:[2010-01-01T12:00:00Z TO 2030-01-01T12:00:00Z]");
        SolrQuery query = new SolrQuery("publishTime:{2010-01-01T12:00:00Z TO 2030-01-01T12:00:00Z}");
        query(query);
    }



    //组合查询
    @Test
    public void testBoolean() throws Exception{
       // SolrQuery query = new SolrQuery("publishTime:{2010-01-01T12:00:00Z TO 2030-01-01T12:00:00Z} OR title:awkwafi*");
        SolrQuery query = new SolrQuery("NOT publishTime:{2010-01-01T12:00:00Z TO 2030-01-01T12:00:00Z}");
        query(query);
    }

总结：

1、匹配所有文档：*:* （通配符？和 * ：“*”表示匹配任意字符；“?”表示匹配出现的位置）

2、布尔操作：AND、OR和NOT布尔操作（推荐使用大写，区分普通字段）

3、子表达式查询（子查询）：可以使用“()”构造子查询。比如：(query1 AND query2) OR (query3 AND query4)

4、相似度查询：

（1）默认相似度查询：title:appla~，此时默认编辑距离是2

（2）指定编辑距离的相似度查询：对模糊查询可以设置编辑距离，可选02的整数：title:appla1。

5、范围查询（Range Query）：Lucene支持对数字、日期甚至文本的范围查询，并且两端范围。结束的范围可以使用“*”通配符。

（1）日期范围（ISO-8601 时间GMT）：birthday:[1990-01-01T00:00:00.000Z TO 1999-12-31T24:59:99.999Z]

（2）数字：age:[2000 TO *]

（3）文本：content:[a TO a]

六、solr高级

1.排序

    //排序
    @Test
    public void testSort() throws Exception{

        //字典顺序
        //  1  10  2  23    3

        //注：这里的id是string类型，按字典顺序排
        SolrQuery query = new SolrQuery("*:*");
        query.setSort("id",SolrQuery.ORDER.desc);
        query(query);
    }

2、分页

    //分页
    @Test
    public void testPage() throws Exception{

        int currentPage = 2;
        int pageSize = 3;

        SolrQuery query = new SolrQuery("*:*");

        //分页
        int start = (currentPage - 1 ) * pageSize;
        query.setStart(start);
        query.setRows(pageSize);

        query(query);
    }

3、高亮

将抽取的方法返回值改为QueryResponse

    // 抽取出一个方法2
    public QueryResponse query2(SolrQuery query) throws  Exception{
        SolrServer server = new HttpSolrServer("http://localhost:8081/solr/collection1");
        QueryResponse response = server.query(query);
        SolrDocumentList documentList = response.getResults();

        for(SolrDocument document:documentList){
            String id = document.get("id").toString();
            String title = document.get("title").toString();
            System.out.println("id："+id+"title："+title);
        }
        return response;
    }

    //高亮
    @Test
    public void testHighlighting() throws Exception{

        SolrQuery query = new SolrQuery("title:哒哒哒");

        //开启高亮
        query.setHighlight(true);
        //设置高亮的字段
        query.addHighlightField("title");
        //query.addHighlightField("content");可以添加多个

        query.setHighlightSimplePre("");
        query.setHighlightSimplePost("");
        QueryResponse response = query2(query);


        /*
        * 最外层的map的key为查询到的文档的id
        * 外层map的value为高亮的内容
        *
        * 内层map的key为高亮的字段的名字
        * 内层map的value为高亮的内容
        *
        * 内层map的value为list，通常只有一条数据
        */
        Map>> outMap = response.getHighlighting();

        for(String docId : outMap.keySet()){
            Map> innerMap = outMap.get(docId);

            for(String fileName : innerMap.keySet()){
                List contents = innerMap.get(fileName);
                System.out.println(contents.get(0));
            }
        }

从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
深陷“大数据杀熟”漩涡的飞猪，庄卓然如何力挽狂澜？财经三剑客大数据
在线旅游市场（OTA）的蓬勃发展为消费者带来了诸多便利，然而，在这股数字化浪潮中，飞猪旅行却因其频繁陷入“大数据杀熟”的争议而备受瞩目。这一行为不仅损害了消费者的合法权益，更让飞猪的品牌形象蒙上了一层阴影。近年来，飞猪平台上关于价格乱象的投诉屡禁不止。在黑猫投诉平台上，与“飞猪”相关的投诉累计已超9万条，其中直接以“飞猪杀熟”为关键词的投诉便达数百条。消费者们纷纷反映，在飞猪平台上预订机票、酒店等
API item_get 在电商平台的核心作用以及如何测试 index_all 数据供应商京东api java 大数据开发语言
在电商行业蓬勃发展的今天，跨平台运营已成为众多商家的必然选择。然而，随之而来的数据孤岛问题却成为了制约电商企业进一步发展的瓶颈。为了解决这一问题，电商大数据平台应运而生，而item_getAPI作为获取商品详情的关键接口，在其中扮演着至关重要的角色。本文将深入探讨item_getAPI在跨平台电商数据整合中的应用与优势，为电商企业在数据驱动的道路上提供有力支持。一、跨平台电商数据整合的挑战在跨平台
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
OpenEuler kinit报错找不到文件的解决办法久违的太阳其他故障处理服务器运维
客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错Nosuchfileordirectory:最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复：ln-sv/lib/ld-linux-aarch64.so.1/lib64/ld-linux-aarch64.so.1
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）计算机程序设计(接毕设) 推荐算法机器学习毕业设计 python 人工智能
摘要IABSTRACTII第1章引言1研究背景及意义1研究背景1研究意义1国内外研究现状2智慧旅游3旅游大数据3研究内容4本章小结4第2章相关技术概述5基于内容的推荐算法5基于内容的推荐算法原理5基于内容的推荐算法实现5协同过滤推荐算法6协同过滤算法原理6协同过滤算法实现7SpringBoot框架9SpringBoot简介9SpringBoot特性10SpringBoot工作原理10Vue.js框
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D