xujingguo58

基于vue前端框架/scrapy爬虫框架/结巴分词实现的小型搜索引擎

小型搜索引擎(tinySearchEngine)

基于scrapy爬虫框架，结巴分词，php和vue.js实现的小型搜索引擎。

a tiny search engine based on vue.js and use scrapy,jieba,php to accomplish it

Build Setup

# install dependencies
npm install

# serve with hot reload at localhost:8080
npm run dev

# build for production with minification
npm run build

# build for production and view the bundle analyzer report
npm run build --report

整体实现

大体流程如下：

１．爬虫爬取网页数据，保存在文件中，

２．python读取文件内容，存到数据库表中，使用结巴分词对网页内容进行分词，并获得TF-IDF值，构建倒排索引保存到数据库中。

３．前端界面接受用户输入，使用POST请求将数据发送到后端。

４．后端接受到数据进行分词，然后在倒排索引数据库查询，结果取并集，然后根据倒排索引数据库结果在结果数据库中查询，返回网页的具体信息。

５．前端收到返回后，将结果呈现出来。

具体实现

１．爬虫

爬虫采用的是python的爬虫库scrapy，只需要进行简单的配置就可以使用，如果要递归爬取，可以采用class DmozSpider(CrawlSpider)。

要获得的数据网页数据主要有：url,title,description,keywords，具体配置如下：

item['title'] = response.selector.xpath('//title/text()').extract()
item['keywords'] = response.selector.xpath('//meta[@name="keywords"]/@content').extract()
item['description'] = response.selector.xpath('//meta[@name="description"]/@content').extract()

同时，为了保存数据，需要定义items，在items.py中添加如下：

url = scrapy.Field()
title = scrapy.Field()
keywords = scrapy.Field()
description = scrapy.Field()

在终端中运行scrapy crawl dmoz -o items.json -t json，可以把数据存到items.json中。

２．分词

分词我选用的是python环境下的结巴分词,　在考虑了好几种分词后，最后选择了结巴分词，主要是安装简单(可以直接通过pip安装)，使用方便，并且在社区的贡献下，衍生出了不同语言版本(在后端中，我采用的是结巴分词的php版本)。

结巴分词直接提供了基于TF-IDF算法的关键词提取功能：

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

sentence 为待提取的文本

topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20

withWeight 为是否一并返回关键词权重值，默认值为 Falseallow

POS 仅包括指定词性的词，默认值为空，即不筛选

所以在分词过程中，可以直接通过结巴分词获得关键词，以及关键词对应的TF-IDF值。

３．数据库

数据库选择的是MySQL,新建数据库名python，数据库下有两个表，search_result,inverted index。

├── python                         //数据库　　　　　　　　　
│   ├── search_result　　　　　　　　//搜索结果
│   └── inverted indexsuoyin      //倒排索引

经过爬虫爬取的数据保存在items.json中，在jsonToMySQL.py中，将文件中保存的数据存到数据库表search_result中，有index作为网页的唯一标志，字段有index_,url,title,date,description。

在urlToKeywords.py中，从表search_result中读取每一条，利用结巴分词提取关键字，并获得每个关键词的TF-IDF值，保存到表inverted index中，在查询的过程中，输入一条语句，将这条语句分词后得到关键词，将每个关键词进inverted index中查询，得到index和TF-IDF,结果取并集，根据index到search_result查询url,title等信息，利用TF-IDF之和进行页面的排序。

４．前端

前端采用前端框架vue.js，使用vue-router实现路由管理，使用axios发送http请求。组件有两个，模仿的是百度的首页，在有输入的时候输入框位置变化(百度打开时输入框居中，有输入的时候变换到输入框在顶部)，百度应该是用切换css类的方式来实现的，我采用的是切换组件，首页输入框有输入改变触发的input事件，触发后，实现页面跳转到结果页面，为了保持输入的数据不变，把输入框的值进行了组件间的通信，首页组件将输入值传给父组件，父组件将值传给结果子组件，并且创建钩子，在页面挂载mounted后，让输入框获得焦点

 
  //子组件向父组件通信，传递输入框的值
methods: {
    change: function(){
        this.$emit('childChange',this.query)
    },
} 
  //父组件监听到子组件的事件后，实现页面跳转。
showResult: function(data){
      //alert('hello')
      this.query=data
      console.log(this.query)
      this.$router.replace({path:'/result'})
  }   
  //子组件接受来自于父组件的值
props: ['parentQuery'], 
  mounted后，结果页面输入框获得焦点 
   mounted: function(){
    var input_query=document.getElementById('input')
    input_query.focus()
  }, 
  前端接受的来自于后端的json数据，利用vue的列表渲染，页面选择按钮数量根据返回结果的数目确定parseInt(num/10)+1就是按钮的个数，同时采用条件渲染控制出现结果选择的时间。 
  <button v-if="show_button" v-for="n in parseInt(length/10)+1" v-on:click="page_select=n">{{n}}button> 
  结果显示 
      <div v-for="item in part_response">
        <a id="title" v-bind:href="item.url" target="_blank" class="item_title">{{ item.title}}a>
        <p class="item_description">{{ item.description }}p>
        <li id="small_url_content"><a v-bind:href="item.url" id="small_url" target="_blank">{{ item.url }}a>li>
        <li id="date"> {{ item.date }}li>
    div> 
  利用计算属性，只显示十个结果，并根据当前页的不同显示不同的结果。 
  part_response: function(){
        var part=[]
        for(let start = (this.page_select-1)*10;start<this.page_select*10;start++){
            if(start<this.length){
                part.push(this.response[start])
            }
        }
        //shixian guanjianzi gaoliang;
        var split_query = this.query.split("")
        console.log(split_query)
        var char
        var part_to_str =  JSON.stringify(part)
        return part
    } 
  ５．后端 
  在后端同样需要分词，后端接受到前端发送的数据，对搜索进行分词，我采用的是结巴分词的PHP版，需要在使用的时候引入需要的PHP文件即可，但是在使用的时候要初始化，即调用Jieba::init()，但是该过程非常耗时间，搜索的绝大多数时间都消耗在此，为了测试消耗时间，我注释掉所有代码，只保留该初始化函数，发现耗时基本跟执行完整查询一致，目前还没有很好的解决方法，自己实现分词功能不是很现实。 
  分词后得到几个关键词，从倒排索引数据库搜索对应结果，按照TF-IDF排序，将index从搜索结果数据库查询，返回title,url等字段，保存在二维数组中，最后使用json返回结果。 
  echo json_encode($return_array); 
  运行截图 
   
   
  
   
  项目地址 
  项目地址 
  文件结构 
  .
├── back_end.php     //后端文件，负责把接受前端的ＰＯＳＴ请求，查询后返回以json返回结果
├── build
├── config
├── dist　　　　　　　　　
│   ├── index.html　　　　//首页
│   └── static
│       ├── css
│       └── js
├── DomzSpider.py      //爬虫文件，负责爬取网页的title,url,description保存在一个josn文件中
├── index.html
├── node_modulels      //node模块
├── package.json
├── README.md
├── src
│   ├── App.vue
│   ├── assets
│   │   └── logo.png
│   ├── components
│   │   ├── searchEngine.vue       //搜索的首页
│   │   └── searchResult.vue       //搜索结果显示
│   ├── main.js
│   └── router                    //路由
│       └── index.js
├── static
├── test
├── jsonToMySQL.py                //从json读取数据保存到MySQL数据库search_result表中
└── urlToKeywords.py              //从数据库search_result表读取数据，利用结巴分词将获得TF-IDF,保存到                                    //inverted index表中
 
  参考 
  dySE：一个 Java 搜索引擎的实现，第 1 部分: 网络爬虫 
  Python抓取框架Scrapy快速入门教程 
  自制简单搜索引擎 
  结巴中文分词 
  “結巴”中文分詞：做最好的 PHP 中文分詞、中文斷詞組件。 
  For detailed explanation on how things work, checkout the guide and docs for vue-loader.


    
        你可能感兴趣的:(搜索引擎)
        
            
                
                    Java：爬虫框架
                        dingcho
Javajava爬虫
                        一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
                    
                    ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀
                        kkai人工智能
chatgpt人工智能学习媒体ai
                        最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
                    
                    网站推广爬虫
                        Bearjumpingcandy
爬虫
                        网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
                    
                    SpringBoot整合ES搜索引擎 实现网站热搜词及热度计算
                        码踏云端
springbootElasticsearchspringbootelasticsearch后端热搜词热度计算java
                        博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
                    
                    2019.1.6
                        root_restart

                        1.新版研学行程公众号推送及页面改动，以后继续尝试无logo版行程单方便转发，附带一篇研学政策解读2.百家号，头条号，搜狐号注册认证及审核，后续每天会在上面更新以往研学活动，增加搜索引擎中山大研学和雨滴教育的关联3.与鹿老师探讨研究方便代理的新宣传模式
                    
                    只有一个诚字最重要（3.22）
                        胡同学的读书笔记

                        1人们会认为谷歌是搜索引擎。而事实上，谷歌是第一个以机器为主导的搜索引擎，这个分类在谷歌之前是不存在的，而你必须要认识到谷歌的这个秘密才能判断它与其他公司的不同之处。2如果我目前在一个公司，当大家不知道未来的路怎么走，过去的路也已经彻底放弃了，我会先把事实摆在所有人面前，然后让大家讨论，在争论的过程中产生一个纲领性的共识，让每个部门在大的纲领下去寻求一种变化，不再以增长和竞争为纲，而是转移到产品和
                    
                    写出渗透测试信息收集详细流程
                        卿酌南烛_b805

                        一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
                    
                    【ShuQiHere】快速排序（Quick Sort）：揭开高效排序算法的神秘面纱
                        ShuQiHere
排序算法算法数据结构
                        【ShuQiHere】引言在计算机科学中，排序算法是我们日常编程不可或缺的一部分。无论是处理大量数据、优化搜索引擎，还是进行系统性能提升，排序算法都起到了至关重要的作用。在所有的排序算法中，快速排序（QuickSort）凭借其高效性和灵活的分治策略成为最受欢迎的排序算法之一。在这篇博客中，我们将深入探讨快速排序的原理、性能分析以及如何通过优化策略进一步提升其效率。1.什么是快速排序？（QuickS
                    
                    海量数据查找最大K个值：数据结构与算法的选择
                        星辰@Sea
数据结构Java数据结构
                        在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
                    
                    全面解析MeiliSearch及其Go语言实现
                        寻找09之夏
Meilisearchgolang开发语言后端Meilisearch
                        前言随着互联网的发展和数字化进程的加速，无论是企业还是个人用户，都需要面对海量的信息。在这个背景下，搜索技术的重要性日益凸显。MeiliSearch是一款开源搜索引擎，它的出现为开发者提供了一个高效、灵活的选择。本文将从多个角度探讨MeiliSearch的特性、使用方法及其实现原理，并通过Go语言示例展示如何构建一个高性能的搜索系统。一、MeiliSearch特性MeiliSearch之所以受到欢
                    
                    面对信息茧房，我们如何破局？
                        听风便是雨_

                        当我们进入了互联网时代，信息的交互变得无比地便捷，当你需要什么样的信息，只需要在搜索引擎上输入，便可立马查询到你想要的结果，而且现在随着抖音、微博之类的应用APP的出现，我们本应从这些APP中获得更加丰富的知识或者信息，来开阔我们的眼界。但是事实上，我们仿佛没有获得预期的效果，更甚至于陷入更大的怪圈当中——缺乏耐心，不能容忍与自己想法不一样的他人建议，失去了与外界良好沟通的能力以及开拓自己的眼界的
                    
                    80%的人都知道的——内容营销
                        老泊

                        我们已经知道内容营销是依靠内容来进行营销，一起看一下内容营销的工作流吧。选题创作投放主要内容营销的选题类型-常青树：用户长时间关心的，比如房价，教育-热点：用户短时间关心的，比如八卦，实事二八原则常青树话题等等选题来源：访谈法：寻找目标用户尽可能一对一进行访谈，用户反馈的问题都可以成为你的选题来源数据法：利用搜索引擎获取内容选题。利用爬虫工具看看人们都比较关心哪些话题来作为选题基于时事的选题数据工
                    
                    50.复盘变现之路
                        506小棉袄

                        1.昨天下载了头条，用搜索引擎找到了如何写文章。注册了一下。这一切其实都好简单，但是自己就是拖着没有做，而且还心安理得。现在在管理别人，于是用自己做到了才能教别人去做到来要求自己发现也不难。2.日更被我捡了起来。后面没有特殊情况，我会一直更下去。放弃一件事很容易，坚持自己喜欢的事也不会太难。3.今天完成了50关的最后一关，接下来就要挑战100关。想看看自己的极限在哪里。具体做法：1.每天早起一小时
                    
                    NLP_jieba中文分词的常用模块
                        Hiweir ·
NLP_jieba的使用自然语言处理中文分词人工智能nlp
                        1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
                    
                    Django：Python高级Web框架详解及参数设置
                        零 度°
pythonpythondjango前端
                        Django是一个高级的PythonWeb框架，它鼓励快速开发和简洁实用的设计。Django遵循MVC设计模式，提供了一套完整的解决方案，用于构建复杂的、数据库驱动的网站。Django的主要特点自动管理数据库：通过ORM（对象关系映射）自动管理数据库。自动生成站点地图：支持搜索引擎优化（SEO）。用户身份认证：内置用户认证系统。中间件支持：强大的中间件支持，可以处理请求和响应。跨站请求伪造（CSR
                    
                    ES(Elasticsearch)常用的函数
                        遨游在知识的海洋里无法自拔
java
                        Elasticsearch（简称ES）是一个开源的搜索引擎，广泛用于全文搜索、分析和数据可视化。以下是一些常用的Elasticsearch函数和操作：索引操作创建索引PUT/index_name删除索引DELETE/index_name查看索引GET/index_name文档操作插入文档POST/index_name/_doc/{"field":"value"}获取文档GET/index_name
                    
                    HTML 图片
                        一壶浊酒..
前端开发html前端
                        在HTML中，我们可以使用img标签来显示一张图片。对于img标签，我们只需要掌握它的三个属性：src、alt和title。alt属性用于描述图片，这个描述文字是给搜索引擎看的，并且当图片无法显示时，页面会显示alt中的文字。title属性也用于描述图片，不过这个描述文字是给用户看的，并且当鼠标指针移到图片上时，会显示title中的文字。colspan属性body{background-color
                    
                    生信学习Day-1
                        GJJDr

                        1.如何学习2.怎样解决学习中遇到的问题？a.第一步:搜索：首选-谷歌，其次-必应，大神级的搜索引擎：虫部落快搜。专业教程-搜狗微信、搜狗知乎、、githubb.第二步：如果你的问题不知该如何搜索，可在微信群中与小组成员讨论c.第三步：正确的提问3.如何搭建高效的学习平台a.效率软件:（1）浏览器-chrome浏览器简洁高效无广告，可以添加插件，比如”沙拉查词”（自行搜索），可以即时翻译。（2）电
                    
                    优质素材的六个搜索技巧
                        老李大李和小李

                        一是要有耐心哦耐心不但是搜索的技巧而且是前提的、必要的。没有耐心进行搜索就不会有大量的好的输入。二是多关键词这个就像我们在搜索引擎中使用的方法，输入关键词反复搜索就会发现好多有用的而且是我们未知的知识。三是多渠道我们要利用各种搜索引擎和各种方式包括读书、和人聊天的方法来搜集资料。四是多维度至少要从三方面着手～文字、图片、视频。五是精准搜索有了前面做的功课，我们要对主题和材料进行凝炼～取其精华去除无
                    
                    什么是黑链？什么是黑帽？什么是明链？
                        倔强的小蚁云Zt
网络数据库tcp/ip运维
                        什么是黑链？什么是黑帽？什么是明链？黑链有哪几种表示方式！怎样预防黑链？首先我们说下黑链定义:黑链是SEO黑帽手法中相当普遍的一种手段，笼统地说，它就是指一些人用非正常的手段获取的其它网站的反向链接，最常见的黑链就是通过各种网站程序漏洞获取搜索引擎权重或者PR较高的网站的WEBSHELL，进而在被黑网站上链接自己的网站。黑链的写法黑链文本黑链标签被放在一个隐藏的div中。用户在浏览器中是无法看到的
                    
                    精准剖析白帽SEO和黑帽SEO的区别
                        heimaoxuexi
黑帽seo黑帽seo黑帽seo技术
                        我们都知道，SEO就是搜索引擎优化，是对网站进行内部及外部的不断调整优化，改进网站在搜索引擎中的关键词自然排名，获得更多流量。而SEO又分为白帽SEO和黑帽SEO，SEO中的黑帽SEO技术http://www.heimaolianmeng.com。根据做网站的实战经验，分享一下自己对于白帽SEO和黑帽SEO的见解。一、白帽SEO1、符合用户体验原理就是指我们网站上做的任何内容、任何图片以及任何网站
                    
                    【程序员必读】如何利用AI高效编程，从容准时下班！
                        z千鑫
AI领域人工智能AgentAI工具AI助手工作流AI编程ai
                        前言：在编程的旅途中，程序员们常常面临各种挑战，尤其是在编写代码时，难题层出不穷。尽管传统搜索引擎提供了海量信息，但往往让我们在无尽的例子和复杂分析中迷失，难以找到真正适合自己的解决方案。正因如此，越来越多的程序员开始借助AI的力量，轻松应对这些难题，让工作变得更高效，从而实现准时下班的目标。问题：那么如何利用AI编写代码呢？一、明确问题的核心在使用AI生成代码之前，首先要明确你所遇到的问题是什么
                    
                    万字详解PHP+Sphinx中文亿级数据全文检索实战（实测亿级数据0.1秒搜索耗时）
                        小松聊PHP进阶
MySQLPHP全文检索phpsphinxmysqlsql数据库服务器
                        Sphinx查询性能非常厉害，亿级数据下输入关键字，大部分能在0.01~0.1秒，少部分再5秒之内查出数据。Sphinx官方文档：http://sphinxsearch.com/docs/sphinx3.html极简概括：由C++编写的高性能全文搜索引擎的开源组件，C/S架构，跨平台（支持Linux、Windows、MacOS），支持分布式部署，并可直接适配MySQL。解决问题：因为MySQL的l
                    
                    弹性搜索引擎Elasticsearch：本地部署与远程访问指南
                        猴哥是肖鸿
人工智能技术指导专升本jenkins运维
                        在大数据时代，数据搜索和分析成为企业核心竞争力的关键因素。弹性搜索引擎Elasticsearch作为一种分布式、可扩展的搜索和分析引擎，受到广泛欢迎。本文将介绍Elasticsearch的本地部署与远程访问，帮助读者更好地利用这一强大的工具。一、本地部署环境准备在开始部署Elasticsearch之前，需要准备以下环境：操作系统：Elasticsearch支持多种操作系统，如Linux、Windo
                    
                    程序员如何平衡日常编码工作与提升式学习？--编程之路：平衡与成长的艺术
                        青云交
教学java学习学习高效编码习惯与时间管理技巧提升式学习的策略职业发展与个人成长的和谐共生编程教会你如何思考--比尔盖茨Java学习方法时间管理
                        目录引言：正文：方向一：高效编码习惯与时间管理技巧方向二：提升式学习的策略方向三：职业发展与个人成长的和谐共生结束语：引言：在当今科技飞速发展的时代，编程已成为一项至关重要的技能。正如比尔·盖茨所说：“编程教会你如何思考。”对于程序员来说，如何在繁忙的日常编码工作中不断提升自己，实现职业发展与个人成长的双赢，是一个极具挑战性的问题。例如，谷歌的搜索引擎算法就是一个经典的编程案例，它通过高效的算法和
                    
                    2023-03-15
                        困的晕_5c43

                        1.简述引擎有哪些类型，各类搜索引擎的工作原理是什么。.（1）全文索引型（2）目录索引型（3）元数据索引型（4）垂直索引型（5）互动式索引型搜索引擎的原理可以分为：数据收集、建立索引数据库、索引数据库中搜索和排序。2.新媒体内容搜集工具有哪些？尝试使用这些工具搜集一些当前热点话题第一个：爆文素材采集工具做新媒体运营，每天都需要去搜集大量的爆文视频等素材，这里给大家推荐一个自媒体爆文素材采集工具--
                    
                    云计算技术与应用 - 了解认识云计算
                        ZuckD
云计算运维
                        云计算的背景互联网自1960年开始兴起，主要用于军方、大型企业等之间的纯文字电子邮件或新闻集群组服务。直到1990年才开始进入普通家庭，随着web网站与电子商务的发展，网络已经成为了目前人们离不开的生活必需品之一。云计算这个概念首次在2006年8月的搜索引擎会议上提出，成为了互联网的第三次革命。近几年来，云计算也正在成为信息技术产业发展的战略重点，全球的信息技术企业都在纷纷向云计算转型。我们举例来
                    
                    LlamaIndex 使用 RouterOutputAgentWorkflow
                        hawk2014bj
llamaIndexLLMagent
                        LlamaIndex中提供了一个RouterOutputAgentWorkflow功能，可以集成多个QueryTool，根据用户的输入判断使用那个QueryEngine，在做查询的时候，可以从不同的数据源进行查询，例如确定的数据从数据库查询，如果是语义查询可以从向量数据库进行查询。本文将实现两个搜索引擎，根据不同Query使用不同QueryEngine。安装MySQL依赖pipinstallmys
                    
                    五类学习技巧之搜索技巧│《学习力》笔记06
                        翟树纯

                        在当今信息爆炸的时代，搜索引擎就相当于我们的外接大脑，为了充分发挥搜索引擎的威力，就要提高自己的搜索能力。我们平时用的最多的就是通用搜索引擎，以百度为例，不仅可以用来搜索文字，还可以进行学术搜索、图片搜索、视频搜索、地图搜索。术业有专攻，除了百度之类的通用搜索引擎，还有其他的专业搜索引擎，如网站历史查询、高清图库、学术网站、商业数据库等。01搜索两大原则1．换位思考从搜索引擎的角度思考，用关键词检
                    
                    NLP面试题（9月4日笔记）
                        好好学习Py
自然语言处理自然语言处理笔记人工智能
                        常见的分词方法分词是将连续的子序列按照一定的规则进行重新组合形成词序列的过程，是NLP领域内最基础的内容。常见的分词方法有jieba分词，jieba分词支持多种分词模模式：精确模式，全模式，搜索引擎模式。1）精确模式：将句子最精确的进行切分，适合文本分析，在日常工作中最为常用；2）全模式：将句子中所有可以成词的词语都扫描出来，速度非常快，但不能消除歧义。3）搜索引擎模式：在精确模式的基础上，对长词
                    
                                用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类）
                                    AdyZhang
POJOeclipseHibernateMiddleGenIDE
                                    推荐:MiddlegenIDE插件,   是一个Eclipse   插件.     用它可以直接连接到数据库,   根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件!     今天开始试着使用
                                
                                .9.png
                                    Cb123456
android
                                      “点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 
　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。 
　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
                                
                                算法的效率
                                    天子之骄
算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
                                    算法的效率 
效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。 
  
以下是我的学习笔记： 
  
1.求值与霍纳法则，即为秦九韶公式。 
  
2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。 
                                
                                java数据结构
                                    何必如此
java数据结构
                                    Java 数据结构 
 
Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类： 
 
枚举（Enumeration） 
位集合（BitSet） 
向量（Vector） 
栈（Stack） 
字典（Dictionary） 
哈希表（Hashtable） 
属性（Properties） 
以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
                                
                                MybatisHelloWorld
                                    3213213333332132

                                    
//测试入口TestMyBatis   
package com.base.helloworld.test;

import java.io.IOException;

import org.apache.ibatis.io.Resources;
import org.apache.ibatis.session.SqlSession;
import org.apache.ibat
                                
                                Java|urlrewrite|URL重写|多个参数
                                    7454103
javaxmlWeb工作
                                     个人工作经验！ 如有不当之处，敬请指点    
1.0  web -info 目录下建立     urlrewrite.xml  文件 类似如下： 
<?xml version="1.0" encoding="UTF-8" ?>  
  <!DOCTYPE u
                                
                                达梦数据库+ibatis
                                    darkranger
sqlmysqlibatisSQL Server
                                    --插入数据方面 
 
如果您需要数据库自增... 
那么在插入的时候不需要指定自增列. 
 
如果想自己指定ID列的值, 那么要设置 
set identity_insert  数据库名.模式名.表名; 
----然后插入数据; 
example: 
create table zhabei.test( 
id bigint identity(1,1) primary key, 
nam
                                
                                XML 解析 四种方式
                                    aijuans
android
                                    XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。   
 
  
 
    
 
XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object 
                                
                                spring中配置文件占位符的使用
                                    avords

                                    1.类 
<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
                                
                                前端工程化-公共模块的依赖和常用的工作流
                                    bee1314
webpack
                                    题记： 一个人的项目，还有工程化的问题嘛？       我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？   你真的想这样嘛？       var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。     
                                
                                上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？
                                    bijian1013
项目管理沟通IT职业规划
                                    问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应 
        正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 
  
Eno-Bea回答，注重感受，不一定是别人的 
        虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
                                
                                TortoiseSVN，过滤文件
                                    征客丶
SVN
                                    环境： 
TortoiseSVN 1.8 
 
配置： 
在文件夹空白处右键 
选择  TortoiseSVN -> Settings 
在 Global ignote pattern 中添加要过滤的文件： 
多类型用英文空格分开 
*name ： 过滤所有名称为 name 的文件或文件夹 
*.name ： 过滤所有后缀为 name 的文件或文件夹 
 
 
 
--------
                                
                                【Flume二】HDFS sink细说
                                    bit1129
Flume
                                    1. Flume配置 
  
a1.sources=r1  
a1.channels=c1  
a1.sinks=k1  

###Flume负责启动44444端口
  
a1.sources.r1.type=avro  
a1.sources.r1.bind=0.0.0.0  
a1.sources.r1.port=44444  
a1.sources.r1.chan
                                
                                The Eight Myths of Erlang Performance
                                    bookjovi
erlang
                                    erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 
里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html 
  
  
Myth: Funs are sl
                                
                                java多线程网络传输文件(非同步)-2008-08-17
                                    ljy325
java多线程socket
                                    利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。 
使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 
客户端: 
修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
                                
                                读《研磨设计模式》-代码笔记-模板方法模式
                                    bylijinnan
java设计模式
                                    声明： 本文只为方便我个人查阅和理解，详细的分析以及源代码请移步 原作者的博客http://chjavach.iteye.com/ 
 
 



import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
                                
                                配置心得
                                    chenyu19891124
配置
                                    时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。 
作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。 
做了一年的配置管理给自总结下： 
1.改变 
从一个以前对配置毫无
                                
                                对“带条件选择的并行汇聚路由问题”的再思考
                                    comsci
算法工作软件测试嵌入式领域模型
                                    2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
                                
                                Oracle 10g 的clusterware 32位 下载地址
                                    daizj
oracle
                                    Oracle 10g 的clusterware 32位 下载地址 
 
http://pan.baidu.com/share/link?shareid=531580&uk=421021908 
 
 
http://pan.baidu.com/share/link?shareid=137223&uk=321552738 
 
http://pan.baidu.com/share/l
                                
                                非常好的介绍：Linux定时执行工具cron
                                    dongwei_6688
linux
                                    Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。 
新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
                                
                                Yii assets目录生成及修改
                                    dcj3sjt126com
yii
                                    assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 
assets设置对应的方法位置 \framework\web\CAssetManager.php 
  
assets配置方法 在m
                                
                                mac工作软件推荐
                                    dcj3sjt126com
mac
                                    mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。 
我为什么要要iterm2 
切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： 
 
 * 兼容性好，远程服务器 vi 什么的低版本能很好兼
                                
                                Memcached(三)、封装Memcached和Ehcache
                                    frank1234
memcachedehcachespring ioc
                                    本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 
cache.xml 
 
<?xml version="1.0" encoding="UTF-8"?>

                                
                                Remove Duplicates from Sorted List II
                                    hcx2013
remove
                                    Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. 
For example,Given 1->2->3->3->4->4->5,
                                
                                Spring4新特性——注解、脚本、任务、MVC等其他特性改进
                                    jinnianshilongnian
spring4
                                    Spring4新特性——泛型限定式依赖注入 
Spring4新特性——核心容器的其他改进 
Spring4新特性——Web开发的增强 
Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC  
Spring4新特性——Groovy Bean定义DSL 
Spring4新特性——更好的Java泛型操作API  
Spring4新
                                
                                MySQL安装文档
                                    liyong0802
mysql
                                      工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。 
  安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 
  Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
                                
                                使用VS2010构建HotSpot工程
                                    p2p2500
HotSpotOpenJDKVS2010
                                    1. 下载OpenJDK7的源码： 
     
http://download.java.net/openjdk/jdk7 
     
http://download.java.net/openjdk/ 
     
2. 环境配置 
    ▶
                                
                                Oracle实用功能之分组后列合并
                                    seandeng888
oracle分组实用功能合并
                                    1       实例解析  
由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下： 
表test 数据如下： 
ID,SUBJECTCODE,DIMCODE,VALUE 
1&nbs
                                
                                Java定时任务注解方式实现
                                    tuoni
javaspringjvmxmljni
                                    Spring 注解的定时任务，有如下两种方式： 
第一种： 
<?xml version="1.0" encoding="UTF-8"?>

<beans xmlns="http://www.springframework.org/schema/beans"

 xmlns:xsi="http
                                
                                11大Java开源中文分词器的使用方法和分词效果对比
                                    yangshangchuan
word分词器ansj分词器Stanford分词器FudanNLP分词器HanLP分词器
                                    本文的目标有两个： 
1、学会使用11大Java开源中文分词器 
2、对比分析11大Java开源中文分词器的分词效果 
本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 
11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： 
/**
 * 获取文本的所有分词结果, 对比
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.