chou_out_man

大数据互联网架构阶段全文检索技术

全文检索

一、全文检索的引出

我们生活中的数据总体分为两种：结构化数据和非结构化数据。
结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。
非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等。
当然有的地方还会提到第三种，半结构化数据，如XML，HTML等，当根据需要可按结构化数据来处理，也可抽取出纯文本按非结构化数据来处理。
非结构化数据又一种叫法叫全文数据。
按照数据的分类，搜索也分为两种：
1. 对结构化数据的搜索：
  1. 如对数据库的搜索，用SQL语句。再如对元数据的搜索（在2000年前，大部分搜索都是使用优化数据库的索引，但是数据库的索引是有数据负载临界值的）
  2. 如利用windows搜索对文件名，类型，修改时间进行搜索等。
2. 对非结构化数据的搜索：如利用windows的搜索也可以搜索文件内容（文件检索是在内存中进行的，在window中对文件的最大加载限制为521M , 对于大量的文件，需要分批次读到内存中扫描后再释放，无法高效查询），Linux下的grep命令，再如用Google和百度可以搜索大量内容数据。
对非结构化数据也即对全文数据的搜索主要有两种方法：
1. 顺序扫描法：所谓顺序扫描，比如要找内容包含某一个字符串的文件，就是一个文档一个文档的看，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容，只是相当的慢。如果你有一个80G硬盘，如果想在上面找到一个内容包含某字符串的文件，不花他几个小时，怕是做不到。Linux下的grep命令也是这一种方式。大家可能觉得这种方法比较原始，但对于小数据量的文件，这种方法还是最直接，最方便的。
2. 全文检索：
  1. 但是对于大量的文件，这种顺序扫描就很慢了。
  2. 有人可能会说，对非结构化数据顺序扫描很慢，对结构化数据的搜索却相对较快（由于结构化数据有一定的结构可以采取一定的搜索算法加快速度），那么把我们的非结构化数据想办法弄得有一定结构不就行了吗？
  3. 这种想法很天然，却构成了全文检索的基本思路，也即将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。
  4. 这部分从非结构化数据中提取出的然后重新组织的信息，我们称之索引。
  5. 这种说法比较抽象，举几个例子就很容易明白，比如字典，字典的拼音表和部首检字表就相当于字典的索引，对每一个字的解释是非结构化的，如果字典没有音节表和部首检字表，在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理，比如读音，就比较结构化，分声母和韵母，分别只有几种可以一一列举，于是将读音拿出来按一定的顺序排列，每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音，然后按其指向的页数，便可找到我们的非结构化数据——也即对字的解释。
  6. 这种先建立索引，再对索引进行搜索的过程就叫全文检索(Full-text Search) 。
由此可以发现数据库检索方式的2个问题：
1. 数据库无法存储海量数据
2. 数据库中使用like查询，效率极低，数据库中索引容易被破坏

二、倒排索引

全文索引的索引创建关键步骤是分词。

文章1:马蓉带着俩孩子快乐玩耍王宝强面容憔悴;
文章2:王宝强另结新欢熊乃瑾却想念孩子; 
分词第一步:
文章1;(马蓉,文章1,出现次数1),(带着,1,1),(孩子,1,1),
(王宝强,1,1);
文章2;(王宝强,2,1),(新欢,2,1),(另结新欢,2,1),
(熊乃瑾,2,1),(孩子,2,1);
(疑难杂症,2,1)
有重复出现在多个文章的词;索引要合并
 
(马蓉,文章1,出现次数1),(带着,1,1),(孩子,[1,2],[1,2]),
(王宝强,[1,2],[1,1]);(新欢,2,1),(结新欢,2,1),(熊乃瑾,2,1)

这个过程叫做倒排索引，在倒排索引中有两个重要的概念：
1. document：被检索的内容
2. 分词：对文章进行分词，分词的意义是最小分词，不能再拆（在分词时，如果是对中文进行分词，可能出现分词结果比原文章还要大的情况）。在分词的结果中，记录了文章的位置，记录了关键字出现的次数等信息。分词后的索引文件，结构一致，可以进行压缩。
在传统的索引中，是通过数据的记录查找某一个数值
在倒排索引中引入分词的概念，有分词直接定位到整个数据
倒排检索是全文检索的使用最多的一种索引计算方式

三、Lucene

介绍：搜索引擎的底层索引工具包，Lucene提供可以创建索引的api
创始人： Doug Cutting
使用Lucene创建索引之前需要了解数据库、 java 、 Lucene中数据结构的对应关系

数据库	java	lucene
varchar	String	StringField 或 TextField
bigInt	Long	LongField
int	int	IntField
tinyInt	boolean	BooleanField
。。。

4. lucene的使用
1. 导入Lucene的jar包
2. 编写代码

            /**
                 * 建立索引文件
                 * 步骤
                 * 1. 创建文件对象
                 * 2. 利用分词创建索引，  创建完索引可以利用分词查看器查看当前索引的分词内容
                 * @throws IOException 
                 * */
                @org.junit.Test
                public void createIndex() throws IOException {
                    Document doc = new Document();
                    //doc中的数据应该是调用代码将数据导入
                    //这里我们手动创建 数据 ， 模拟读取数据库的过程
                    //创建 一个商品的数据索引 
                    doc.add(new LongField("id", 12324, Store.YES));//yes表示索引创建完成之后允许被使用。
                    doc.add(new TextField("title", "iphoneX  我就是最XXX的手机", Store.YES));
                    //title 和img 的数据其实都是String类型的 ， 但是如果使用TextField则会对内容进行分词
                    //如果使用StringField ， 则会将字段作为一个最小 分词处理
                    doc.add(new StringField("img", "http://www.baidu.com/hjdfh.jpg", Store.YES));
                    doc.add(new DoubleField("price", 299, Store.YES));
                    //利用分词创建索引
                    //创建索引文件保存目录
                    Directory dir = FSDirectory.open(new File("./index"));
                    //使用标准分词器分词
                    Analyzer analyzer = new StandardAnalyzer();
                    //调用索引config对象对写出的索引文件进行参数设定
                    //Version一定要与导入的jar包相对应 ， 否则报错
                    IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_4_10_2, analyzer);
                    //使用Lucene内置的流写出索引文件
                    IndexWriter writer = new IndexWriter(dir , config);
                    writer.addDocument(doc);
                    writer.close();
                    dir.close();

                }
3. 生成的索引为二进制文件 ， 可以使用分词查看器查看![](https://i.imgur.com/o6SgILZ.jpg)![](https://i.imgur.com/bc8v0Va.jpg)![](https://i.imgur.com/RPE0cc1.png)
4. 观察分词结果 ，发现标准分词器 ， 只能讲中文一个一个分割开 ， 并不能将中文按照语义分割
5. 可以试用Luence中自带的中文分词器 ， 修改代码![](https://i.imgur.com/PDR45fD.png)
6. 查看分词结果![](https://i.imgur.com/sSjMiYY.png)比用 标准分词器效果好一点 ， 但是中文还是分的很烂
7. 引入第三方中文分词器（IKAnalyzer）修改代码![](https://i.imgur.com/JeuAD3k.png)查看分词结果![](https://i.imgur.com/OMehDDj.png) 可以看到具有语义的最小词被分了出来 。
8. 使用Lucene进行搜索

            /**
                 * 使用索引进行查询
                 * @throws IOException 
                 * */
                @org.junit.Test
                public void search() throws IOException {
                    //在索引中进行查询
                    Directory dir = FSDirectory.open(new File("./index2"));
                    IndexSearcher search = new IndexSearcher(IndexReader.open(dir));
                    Query query = new TermQuery(new Term("title" , "手"));//*代表检索所有的字段 ， 可以检索单个字段如：tilte
                    TopDocs topDocs = search.search(query, 10);//第二个参数表示返回查询结果的条数
                    for(ScoreDoc sd : topDocs.scoreDocs) {
                        System.out.println("得分："+sd.score);
                        Document doc = search.doc(sd.doc);
                        System.out.println(doc.get("id"));
                        System.out.println(doc.get("title"));
                        System.out.println(doc.get("img"));
                        System.out.println(doc.get("price"));
                    }
                    dir.close();
                }  
    ![](https://i.imgur.com/rSq12DR.png)

四、 Solr

是基于Lucene的搜索服务，是一套系统
Solr具有自动化导入数据的功能
相当于把Lucene进行了包装，扩展了许多功能

安装Solr

solr是基于java环境的，需要安装jdk – 略
获取solr资源并解压
首次启动solr需要解压war包
1. 进入solrbin目录
2. 检查解压是否成功访问${IP}：8983/solr

完成项目（京淘简称jt）的其他配置

其中jt项目的配置文件放在jt/conf下，数据文件（即索引文件）放在jt/data中

将配置文件放到conf中使用rz -E命令上传文件

schema.xml

id

solrconfig.xml






  

  
  4.10.2

  

  

  
  

  
  ${solr.data.dir:}


  
  


          
         
    ${solr.hdfs.home:}
        
    ${solr.hdfs.confdir:}
        
    ${solr.hdfs.blockcache.enabled:true}
        
    ${solr.hdfs.blockcache.global:true}

   

  
  

  
  

  
  
    
    
    

    
    

    
    

    
    
    

    
    

    
    

    
    

    
    ${solr.lock.type:native}

    
    

    
    

    
    

    
    
      
      
      
      
      
      
    

    
     true

    
     false
  


  
  
  
  
  
  

  
  

     
    
      ${solr.ulog.dir:}
    

    
      
       ${solr.autoCommit.maxTime:15000} 
       false 
     

    

      
       ${solr.autoSoftCommit.maxTime:-1} 
     

    
    
    
    

  

  
  
  
  

  
  
    
    1024


    

    
    

    
    

    
    

     
    

    
    

    
    


    
    true

   
   

   
   20

   
   200

   
    
    
      
        
      
    
    
      
        
          static firstSearcher warming in solrconfig.xml
        
      
    

    
    false

    
    2

  


  
  
     
    

    
    
    
    
    
    
  

  
  


  
    
     
       explicit
       10
       title
     
    
    
    
    
    
    
    
    

  
  
     
       explicit
       json
       true
       title
     
  


  
  
     
       true
       json
       true
     
  

  

  
    
      {!xport}
      xsort
      false
    

    
      query
    
  






  
  
     
       explicit

       
       velocity
       browse
       layout
       Solritas

       
       edismax
       
          text^0.5 features^1.0 name^1.2 sku^1.5 id^10.0 manu^1.1 cat^1.4
          title^10.0 description^5.0 keywords^5.0 author^2.0 resourcename^1.0
       
       title
       100%
       *:*
       10
       *,score

       
         text^0.5 features^1.0 name^1.2 sku^1.5 id^10.0 manu^1.1 cat^1.4
         title^10.0 description^5.0 keywords^5.0 author^2.0 resourcename^1.0
       
       text,features,name,sku,id,manu,cat,title,description,keywords,author,resourcename
       3

       
       on
       true
       cat
       manu_exact
       content_type
       author_s
       ipod
       GB
       1
       cat,inStock
       after
       price
       0
       600
       50
       popularity
       0
       10
       3
       manufacturedate_dt
       NOW/YEAR-10YEARS
       NOW
       +1YEAR
       before
       after

       
       on
       content features title name
       true
       html
       <b>
       </b>
       0
       title
       0
       name
       3
       200
       content
       750

       
       on
       false       
       5
       2
       5       
       true
       true  
       5
       3           
     

     
     
       spellcheck
     
  


  
  
    
    
  

  

  
  
    
      true
      ignored_

      
      true
      links
      ignored_
    
  


  
  


  
  

  
  
  
  
  
  

  
  
    
      solrpingquery
    
    
      all
    
    
    
  

  
  
    
     explicit 
     true
    
  

  
   
    
    
    
  

  

   
  

    text_general

    

    
    
      default
      text
      solr.DirectSolrSpellChecker
      
      internal
      
      0.5
      
      2
      
      1
      
      5
      
      4
      
      0.01
      
    

    
    
      wordbreak
      solr.WordBreakSolrSpellChecker      
      name
      true
      true
      10
    

    
    

    
    

    
    
  

  
  
    
      title
      
      default
      wordbreak
      on
      true       
      10
      5
      5       
      true
      true  
      10
      5         
    
    
      spellcheck
    
  

  
    
      mySuggester
      FuzzyLookupFactory      
      DocumentDictionaryFactory      
      cat
      price
      string
    
  

  
    
      true
      10
    
    
      suggest
    
  
  
  

  
  
    
      title
      true
    
    
      tvComponent
    
  

  
  
    
      lingo

      
      org.carrot2.clustering.lingo.LingoClusteringAlgorithm

      
      clustering/carrot2
    

    
    
      stc
      org.carrot2.clustering.stc.STCClusteringAlgorithm
    

    
    
      kmeans
      org.carrot2.clustering.kmeans.BisectingKMeansClusteringAlgorithm
    
  

  
  
    
      true
      true
      
      name
      
      id
      
      features
      
      true
      
      
      
      false

      
      edismax
      
        text^0.5 features^1.0 name^1.2 sku^1.5 id^10.0 manu^1.1 cat^1.4
      
      *:*
      10
      *,score
    
    
      clustering
    
  

  
  

  
  
     
      true
      false
         
    
      terms
    
  


  
    

  
  
    
      explicit
      title
    
    
      elevator
    
  

  
  
    
      
      
      
        
          100
        
      

      
      
        
          
          70
          
          0.5
          
          [-\w ,/\n\"']{20,200}
        
      

      
      
        
          ]]>
          ]]>
        
      

      
      

      
      

      
      

      
      

      
      
        
      

      
      
        
          ,,
               ,,
               ,,
               ,,
               ,]]>
          ]]>
        
      

      
        
          10
          .,!? 	

        
      

      
        
          
          WORD
          
          
          en
          US
        
      
    
  

   
  
  

  
    

  
  

  
  
  

  
     
    text/plain; charset=UTF-8
  

  
    


  
  
    5
  

  
  
  

  
  
  


  
  


    
      
        dih-config.xml  
      
    


  
  
    *:*

dih-config.xml

schema文件解析

一个schema对应一个doc的所有索引结构,这里我们

定义一个xml对应商品的索引结构

红框内容是官方示例的基本结构,中间的是自定义拓展,最后几行是对类型的拓展,中文分词器;

solrconfig文件解析

只需要放开最后的solr导入数据库的插件配置文件dih-confi.xml即可,所以这里将dih-config.xml也存进conf

将三个html文件存入conf目录下

admin-extra.html

http://www.apache.org/licenses/LICENSE-2.0

admin-extra.menu-bottom.html

http://www.apache.org/licenses/LICENSE-2.0

admin-extra.menu-top.html

http://www.apache.org/licenses/LICENSE-2.0

集成中文分词器

对中文分词时需要中文分词算法，所以需要引入中文分词器

将ik的jar包引入到solr的webapp中项目的lib中

将dist下的两个jar包复制进lib中个jar包

#cp solr-dataimporthandler-* /home/software/solr-5.3.1/server/solr-webapp/webapp/WEB-INF/lib

将IKAnalyzer.cfg.xml 、 ext.dic 、 stopword.dic放到solr-5.2.1/server/solr-webapp/webapp/WEB-INF/classes （将自定义中文分词(如果使用默认可能未必最新,比如网络用语,专业名词都没有分词支持,需要自定义添加);有扩展字典,有停止字典(例如禁止网络用语骂人的话)）

IKAnalyzer.cfg.xml

IK Analyzer 扩展配置 ik_ext.dic; ik_stopwords.dic;

ext.dic （扩展分词）

电信3G手机双卡双待

ik_stopwords.dic（停止分词）

a an and are as at be but by for if in into is it no not of on or such that the their then there these they this to was will with

进入到solr的bin目录下重启solr

./solr stop –all #停止服务 ./solr start #启动服务 ./solr restart #重启服务

6. 访问solr 创建core
7. 选择创建的核心工程
8. DIH数据导入添加完成之后，所有的数据库记录对应的doc索引就创建成功了
9. 测试

五、 Solr引入电商项目

添加依赖

org.apache.solr solr-solrj 5.2.1 org.wltea.analyzer ik-analyzer 5.3.0

solr与spring整合添加applicationContext-solrj.xml

代码

controller层 @Controller public class SearchController { @Autowired private SearchService searchService; @RequestMapping("search") public String search(String q,Integer page,Model model) throws Exception{ try{ q=new String(q.getBytes("ISO8859-1"),"UTF-8"); }catch(Exception e ){ e.printStackTrace(); } //准备一个分页数量rows Integer rows=20; List itemList=searchService.queryItemList(q,page,rows); model.addAttribute("itemList", itemList); return "search"; } } service层 @Service public class SearchService { @Autowired private HttpSolrClient client; public List queryItemList(String q,Integer page,Integer rows) throws Exception{ if(null==page){ page=1;} //起始位置 Integer start=Math.max(page, 1); SolrQuery query= new SolrQuery(); query.setQuery("title:"+q);//"title:三星" query.setStart(start); query.setRows(rows); //执行连接获取数据 QueryResponse response=client.query(query); List itemList=response.getBeans(Item.class); return itemList; }

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
git - Webhook让部署自动化大猪大猪
我们现在有一个需求，将项目打包上传到gitlab或者github后，程序能自动部署，不用手动地去服务器中进行项目更新并运行，如何做到？这里我们可以使用gitlab与github的挂钩，挂钩的原理就是，每当我们有请求到gitlab与github服务器时，这时他俩会根据我们配置的挂钩地扯进行访问，webhook挂钩程序会一直监听着某个端口请求，一但收到他们发过来的请求，这时就知道用户有请求提交了，这时
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
「豆包Marscode体验官」 | 云端 IDE 启动 & Rust 体验张风捷特烈 ide rust 开发语言后端
theme:cyanosis我正在参加「豆包MarsCode初体验」征文活动MarsCode可以看作一个运行在服务端的远程VSCode开发环境。对于我这种想要学习体验某些语言，但不想在电脑里装环境的人来说非常友好。本文就来介绍一下在MarsCode里，我的体验rust开发体验。一、MarsCode是什么它的本质是:提供代码助手和云端IDE服务的web网站，可通过下面的链接访问https://www
Python神器！WEB自动化测试集成工具 DrissionPage 亚丁号 python 开发语言
一、前言用requests做数据采集面对要登录的网站时，要分析数据包、JS源码，构造复杂的请求，往往还要应付验证码、JS混淆、签名参数等反爬手段，门槛较高。若数据是由JS计算生成的，还须重现计算过程，体验不好，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。因此，这个库设计初衷，是将它们合而为一，能够在不同须要时切换相应模式，并提供一种人性化的使用方法，提高开发和运行效率
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
Spring MVC 全面指南：从入门到精通的详细解析一杯梅子酱技术栈学习 spring mvc java
引言：SpringMVC，作为Spring框架的一个重要模块，为构建Web应用提供了强大的功能和灵活性。无论是初学者还是有一定经验的开发者，掌握SpringMVC都将显著提升你的Web开发技能。本文旨在为初学者提供一个全面且易于理解的学习路径，通过详细的知识点分析和实际案例，帮助你快速上手SpringMVC，让学习过程既深刻又高效。一、SpringMVC简介1.1什么是SpringMVC？Spri
Spring Boot中实现跨域请求 BABA8891 spring boot 后端 java
在SpringBoot中实现跨域请求（CORS，Cross-OriginResourceSharing）可以通过多种方式，以下是几种常见的方法：1.使用@CrossOrigin注解在SpringBoot中，你可以在控制器或者具体的请求处理方法上使用@CrossOrigin注解来允许跨域请求。在控制器上应用：importorg.springframework.web.bind.annotation.
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
uniapp使用内置地图选择插件，实现地址选择并在地图上标点神夜大侠 Uniapp vue.js uniapp
uniapp使用内置地图选择插件，实现地址选择并在地图上标点代码如下：page{background:#F4F5F6;}::-webkit-scrollbar{width:0;height:0;color:transparent;}page{height:100%;width:100%;font-size:24rpx;}image,view,input,textarea,label,text,na
【Golang】实现 Excel 文件下载功能 RumIV Golang golang excel 开发语言
在当今的网络应用开发中，提供数据导出功能是一项常见的需求。Excel作为一种广泛使用的电子表格格式，通常是数据导出的首选格式之一。在本教程中，我们将学习如何使用Go语言和GinWeb框架来创建一个Excel文件，并允许用户通过HTTP请求下载该文件。准备工作在开始之前，请确保您的开发环境中已经安装了Go语言和相关的开发工具。此外，您还需要安装GinWeb框架和excelize包，这两个包都将用于我
VUE3 + xterm + nestjs实现web远程终端或连接开启SSH登录的路由器和交换机。焚木灵 node.js vue
可远程连接系统终端或开启SSH登录的路由器和交换机。相关资料：xtermjs/xterm.js:Aterminalfortheweb(github.com)后端实现(NestJS)：1、安装依赖：npminstallnode-ssh@nestjs/websockets@nestjs/platform-socket.io2、我们将创建一个名为RemoteControlModule的NestJS模块，
metaRTC8.0，一个全新架构的webRTC SDK库 metaRTC webrtc 音视频
概述metaRTC8.0是metaRTC开源以来架构变化最大的一个版本，是metaIPC3.0等高性能的基础。metaRTC8.0是一个全新架构版本，并非在metaRTC7.0版本上简单升级，在QOS/语音对讲/内存占用/视频文件录制读取等方面新增多个模块，在弱网对抗/语音对讲/内存优化等效果上有显著提升。metaRTC8.0在一年多的开发中进行了近200次迭代，metaRTC8.0社区版计划在2
metaRTC/webRTC QOS 方案与实践 metaRTC metaRTC 解决方案 webrtc qos
概述质量服务(QOS/QualityofService)是指利用各种技术方案提高网络通信质量的技术，网络通信质量需要解决下面两个问题：网络问题：UDP/不稳定网络/弱网下的丢包/延时/乱序/抖动数据量问题：发送数据量超带宽负载和平滑发送拥塞控制是各种技术方案的数据基础，丢包恢复解决丢包问题，抗乱序抖动解决网络乱序抖动问题，流量控制解决平滑发送数据/数据超带宽负载/延时问题。拥塞控制(Congest
metaRTC5.0 API编程指南(一) metaRTC metaRTC c++c语言 webrtc
概述metaRTC5.0版本API进行了重构，本篇文章将介绍webrtc传输调用流程和例子。metaRTC5.0版本提供了C++和纯C两种接口。纯C接口YangPeerConnection头文件:include/yangrtc/YangPeerConnection.htypedefstruct{void*conn;YangAVInfo*avinfo;YangStreamConfigstreamco
详解“c:/work/src/components/a/b.vue“‘ has no default export报错原因 hw_happy 开发语言前端 vue.js javascript
前情提要在一个vue文件中需要引入定义的b.vue文件，但是提示b文件没有默认导出，对于vue2文件来说有exportdefault，在中，所有定义的变量、函数和组件都会自动被视为默认导出的组件内容。因此，不需要显式地使用exportdefault来导出组件。但是在我引用这个文件的时候还是提示了这个错误，原来是我的项目使用了ts和vite\webpack，因为TypeScript和Vue的默认导出
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

大数据互联网架构阶段 全文检索技术

全文检索

一、 全文检索的引出

二、 倒排索引

三 、Lucene

四、 Solr

五 、 Solr引入电商项目

你可能感兴趣的:(WEB,大数据)

大数据互联网架构阶段全文检索技术

一、全文检索的引出

二、倒排索引

三、Lucene

五、 Solr引入电商项目