名字不重要21

使用Python实现简单的搜索引擎，完整源码

https://blog.csdn.net/qq_35993946/article/details/88087827

这是博主我大学期间写的课程设计，希望能对看这篇博客的你有所帮助。

课程设计主要要求如下：

结合本学期《信息检索与搜索引擎技术》课程教学内容，利用网络爬虫技术、文档倒排索引技术、向量空间模型技术、检索排序技术，编写一个搜索引擎系统，系统能够实现根据输入关键词检索出与查询关键词相关的文档，并写出对应的程序设计及实现报告。具体要求如下：

利用网络爬虫技术编写程序实现从互联网中动态爬去网页数据；

利用分词工具（如ICTCLAS、结巴分词等）实现对爬取的文本进行分词，并建立倒排索引；

利用向量空间模型对分词后的文本及查询文本进行向量化表示，并计算查询向量和文档向量之间的相似性；

利用BM25算法、统计语言模型方法、或PageRank算法计算查询文本与文档之间的相关度得分，并根据相关度得分对文档进行排序。

一、系统概述

1.1搜索引擎概述

1.2本搜索引擎概述

二、系统需求分析

2.1云南旅游业分析

2.2系统可行性分析

三、算法原理及程序实现

3.1系统架构设计

3.2网络爬虫

3.2.1网络爬虫简介

3.2.2网页分析

3.3结巴分词并建立索引

3.3.1结巴分词简介

3.3.2倒排索引原理

3.3.3程序实现

3.4向量空间模型

3.4.1向量空间模型原理

3.4.2代码实现原理

3.5 BM25算法

3.5.1 BM25算法原理

3.5.2 代码实现

3.6 网页实现框架：Flask及后台处理

3.6.1Flask简介

3.6.2代码实现

3.7 web界面设计

3.7.1 HTML简介

3.7.2 网页界面

四、程序展示

五、总结与体会

六、参考文献

七、附录

摘要

随着科技的进步与发展,互联网成为21世纪的宠儿,网络信息也复杂多样。这些繁杂的网络信息在给我们带来便利的同时也产生了极大的问题,比如如何在这海量的信息里面找到自己所需要的内容,成为当前互联网技术的热门领域。互联网信息复杂多样,因此想要迅速、快捷的找到所需要的信息内容,就需要搜索引擎来帮忙实现。本文就对搜索引擎的工作原理,组成和数据结构等方面进行分析,实现搜索引擎，并能对云南旅游网的内容进行搜索，适应用户的查询需求。

关键词: 搜索引擎；信息检索；网络爬虫；向量空间模型；网页排序

系统概述

随着信息时代的来临,互联网的迅速普及应用,已经成为我们正常生活中不可或缺的一部分。因为互联网信息具备共享等多种特性,使得网络信息成倍的增加。谷歌公司所收录的网页信息都已经过百亿,而且每天还在不断的攀升,想要在这么多数据里面,选取对自己有用的信息,就需要借助搜索引擎来进行实现。搜索引擎是从1994年诞生,随着互联网的信息日益增多,搜索引擎也在不断的发展,从1994年到现在历经三个阶段。搜索引擎的第一个阶段就是1994年到1996年,这个阶段的搜索引擎以集中式检索为主。当时网络信息并没有很多,一般都是少于百万的网页,也没有索引,检索速度也非常慢。也是采用网络、数据库等关键技术来实现。第二个阶段是1996年到1998年,这个期间,搜索引擎采用分布式检索方案,使用多个微型计算机来协同工作,其目的是为了提高数据规模和响应速度。一般可以响应千万次的用户检索请求。第三代搜索引擎,就当前所使用的搜索引擎,也是搜索引擎极为繁荣的时期。它拥有完整的索引数据库,除了一般的搜索,还有主题搜索和地域搜索。但是这些搜索结果反馈给用户的数据量较大,检索结果的相关度又成为研究的核心。

本系统利用Python语言对搜索引擎的三个主要部件进行实现,能够完成搜索引擎的基本功能。通过本系统，用户能对云南旅游网的信息进行搜索，主要是爬取云南旅游网（http://travel.yunnan.cn/），方便用户在云南旅游，方便查找攻略，给用户创造一个愉快的旅游环境。

系统的工作流程分为四步,从网上抓取网页,建立索引数据库,根据用户的关键词在索引数据库中进行搜索,对搜索结果进行相关度排序处理。它主要由网络蜘蛛、索引器和检索器三部分组成。网络蜘蛛,英文名称Web Spider,它的主要功能是从指定的IP出发,便利整个互联网中所存在的网页,它可以借助网页中的URL爬到其他网页中去,不停的对这个过程进行重复,将爬过的网页搜集起来并存储到页面存储库中去。Indexer,索引器,它的主要功能是将Web Spider收集回来的网页进行分析,提取网页中所含的信息,并按照相关度进行计算,将这些相关信息建立完整的网页索引数据库。Searcher,检索器,用户输入关键词进行搜索,它负责对关键词进行分解,根据搜索器从网页索引数据库中查询到相关度较高的网页,对其进行排序处理,然后交给系统,系统会把结果进行组织处理,反馈给用户。搜索引擎对于文件的存储要求较高,操作系统又有自身的缺陷,在大型文件的管理方面存在诸多局限,这就需要搜索引擎自行定义和管理大型文件系统。大型文件是一种跨多文件系统的虚拟文件,支持64位寻址方式,可自动处理多文件系统的分配和寻址。

在进行软件开发前期,我们需要进行Python开发环境的搭建,需要Python程序开发包：Python3.6 ,开发IDE：JetBrains PyCharm2017.1，结巴中文分词包：jieba，网页实现框架：Flask，实现HTTP的第三方库requests。后面第三节会对本搜索引擎所用到的相关技术进行介绍，包括爬虫技术，结巴分词，向量空间模型，BM25算法等。

系统需求分析

2.1旅游业分析

搜索引擎能自动从英特网搜集信息，经过一定整理以后，提供给用户进行查询的系统。英特网上的信息浩瀚万千，而且毫无秩序，所有的信息象汪洋上的一个个小岛，网页链接是这些小岛之间纵横交错的桥梁，而搜索引擎，则为你绘制一幅一目了然的信息地图，供你随时查阅。

随着我国经济的发展，旅游成了人们新的消费需求。在旅游业快速发展的同时，人们对旅游的附加产品的需求也越来越大。

查阅资料我们能知道这些数据，云南省2018年上半年累计接待海外游客362.83万人次，比去年同期增长8.23%;接待国内游客33596.97万人次，比去年同期增长27.18%;实现旅游业总收入4201.35亿元，比去年同期增长26.78%。

各州市紧紧围绕旅游强省目标任务进行旅游市场及产业建设，实现旅游接待量和旅游收入双增长。在目前公开的数据中，客接待量全省前三位的州市分别为红河(3116.47万人次)、大理(2448.56万人次)、楚雄(2354.72万人次);旅游收入全省前三位的州市分别为大理(377.19亿元)、红河(332.67亿元)、保山(332亿元)。

在出游时，人们经常会查阅资料，地图、住宿、交通、美食等。人们可能会去百度搜索，或者去app上查找。但是，百度烦人的医疗广告，许多的恶意刷景点好评。导致许多我们搜索到的并不是我们想要的，因此，开发一个无广告、准确而好用的旅游攻略搜索引擎会受到大部分游客的欢迎。

2.2系统可行性分析

2.1 对现有系统的分析

现有搜索引擎如百度、Google等难以为用户提供有效的个性化服务。由于不同用户的兴趣爱好各不相同，所以所需的检索结果也应该具有一定的针对性，但现有的搜索引擎无法为单个用户提供有效的个性化服务，大大增加了用户查询有用信息的时间。

2.2 对建议技术的可行性分析

2.2.1 技术上的可行性

此次系统开发使用Python语言，该语言简单易学，又增强了可视化、数据库及Internet编程功能，很容易就可以进行系统开发。因此系统开发工具可以采用Python进行开发。而对IDE，采用JetBrains PyCharm。该软件简单易懂，应用广泛，比较适合新手上路使用。

2.2.2 管理上的可行性

因为系统主要应用于出门来云南旅游的人士，后期爬虫数据处理量增多搜索结果更多更准确后，可以考虑部署到服务器上，让更多人使用。

2.3 社会因素的分析

随着科学技术的不断提高，计算机科学日渐成熟，大数据时代，信息需求越来越大。爬取公共数据，该软件的开发不会侵犯国家、集体和他人的利益。

三、算法原理及程序实现

3.1系统架构设计

搜索引擎有基本的五大模块,分别是信息采集,信息处理,建立索引,查询和 web 交互。本次课程设计研究的是如何在信息处理分析的基础上,建立一个完整的中文搜索引擎。所以该系统主要由以下几个详细部分组成:爬取数据，中文分词，相关度排序，建立索引库,建立查询服务器,建立web交互。

3.2网络爬虫

3.2.1网络爬虫简介

网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。

一个通用的网络爬虫的框架如图所示：

网络爬虫的基本工作流程如下：

1.首先选取一部分精心挑选的种子URL；

2.将这些URL放入待抓取URL队列；

3.从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。

4.分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。

3.2.2网页分析

（1）分析要爬取的网页的代码，确定我们所需要的内容并用XPATH表达式定位其内容，用正则表达式筛选我们需要的内容，将编号，title，url，写入本地，存入docs.txt中。

# encoding=utf-8
# 导入爬虫包
from selenium import webdriver
# 睡眠时间
import time
import re
import os
import requests
# 打开编码方式utf-8打开

# 睡眠时间 传入int为休息时间，页面加载和网速的原因 需要给网页加载页面元素的时间
def s(int):
    time.sleep(int)


# html/body/div[1]/table/tbody/tr[2]/td[1]/input
# http://dmfy.emindsoft.com.cn/common/toDoubleexamp.do

if __name__ == '__main__':
    #查询的文件位置
   # fR = open('D:\\test.txt','r',encoding = 'utf-8')

    # 模拟浏览器，使用谷歌浏览器，将chromedriver.exe复制到谷歌浏览器的文件夹内
    chromedriver = r"C:\\Users\\zhaofahu\\AppData\\Local\\Google\\Chrome\\Application\\chromedriver.exe"
    # 设置浏览器
    os.environ["webdriver.chrome.driver"] = chromedriver
    browser = webdriver.Chrome(chromedriver)
    # 最大化窗口 用不用都行
    browser.maximize_window()
  #  header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}

    # 要爬取的网页
    neirongs = []  # 网页内容
    response = []  # 网页数据
    travel_urls = []
    urls = []
    titles = []
    writefile = open("docs.txt", 'w', encoding='UTF-8')
    url = 'http://travel.yunnan.cn/yjgl/index.shtml'
    # 第一页
    browser.get(url)
    response.append(browser.page_source)
    # 休息时间
    s(3)

    # 第二页的网页数据
    #browser.find_element_by_xpath('// *[ @ id = "downpage"]').click()
    #s(3)
    #response.append(browser.page_source)
    #s(3)

    # 第三页的网页数据
    #browser.find_element_by_xpath('// *[ @ id = "downpage"]').click()
    #s(3)
    #response.append(browser.page_source)


    # 3.用正则表达式来删选数据
    reg = r'href="(//travel.yunnan.cn/system.*?)"'
    # 从数据里爬取data。。。
    # 。travel_urls 旅游信息网址
    for i in range(len(response)):
        travel_urls = re.findall(reg, response[i])

    # 打印出来放在一个列表里
    for i in range(len(travel_urls)):
        url1 = 'http:' + travel_urls[i]
        urls.append(url1)
        browser.get(url1)
        content = browser.find_element_by_xpath('/html/body/div[7]/div[1]/div[3]').text
        # 获取标题作为文件名
        b = browser.page_source
        travel_name = browser.find_element_by_xpath('//*[@id="layer213"]').text
        titles.append(travel_name)
    print(titles)
    print(urls)
    for j in range(len(titles)):
        writefile.write(str(j) + '\t\t' + titles[j] + '\t\t' + str(urls[j])+'\n')

    s(1)
    browser.close()

3.3结巴分词并建立索引

3.3.1结巴分词简介

jieba 是一个基于Python的中文分词工具对于一长段文字，其分词原理大体可分为三步：

1.首先用正则表达式将中文段落粗略的分成一个个句子。

2.将每个句子构造成有向无环图，之后寻找最佳切分方案。

3.最后对于连续的单字，采用HMM模型将其再次划分。

jieba分词分为“默认模式”（cut_all=False）,“全模式”(cut_all=True)以及搜索引擎模式。对于“默认模式”，又可以选择是否使用 HMM 模型（HMM=True，HMM=False）。

3.3.2倒排索引原理

倒排索引（英语：Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成：“单词词典”和“倒排文件”。

倒排索引有两种不同的反向索引形式：

一条记录的水平反向索引（或者反向档案索引）包含每个引用单词的文档的列表。

一个单词的水平反向索引（完全反向索引）又包含每个单词在一个文档中的位置。

后者的形式提供了更多的兼容性（比如短语搜索），但是需要更多的时间和空间来创建。

通过上面的定义可以知道，一个倒排索引包含一个单词词典和一个倒排文件。其中单词词典包含了所有粒度的拆分词；倒排文件则保存了该词对应的所有相关信息。

3.3.3程序实现

对爬取的文档进行分词主要代码

class Doc:
    def __init__(self):
        self.field = {}
    def add(self, field, content):
        self.field[field] = content
    def get(self, field):
        return self.field[field]

2.建立索引库关键代码

#  建索引
from doc import Doc
import jieba
import math

class Indexer:
    inverted = {}   # 记录词所在文档及词频
    idf = {}         # 词的逆文档频率
    id_doc = {}     # 文档与词的对应关系

    def __init__(self, file_path):
        self.doc_list = []
        self.index_writer(file_path)

    def index_writer(self, file_path):
        with open(file_path, 'r', encoding='utf-8') as f:
            for line in f.readlines():
                key, title, link = line.strip().split('\t\t')
                doc = Doc()
                doc.add('key', key)
                doc.add('title', title)
                doc.add('link', link)
                self.doc_list.append(doc)
        self.index()

    def index(self):
        doc_num = len(self.doc_list)     # 文档总数
        for doc in self.doc_list:
            key = doc.get('key')
            # 正排
            self.id_doc[key] = doc

            # 倒排
            term_list = list(jieba.cut_for_search(doc.get('title')))   # 分词
            for t in term_list:
                if t in self.inverted:

                    if key not in self.inverted[t]:
                        self.inverted[t][key] = 1
                    else:
                        self.inverted[t][key] += 1
                else:
                    self.inverted[t] = {key: 1}

        for t in self.inverted:
            self.idf[t] = math.log10(doc_num / len(self.inverted[t]))

        print("inverted terms:%d" % len(self.inverted))
        print("index done")

if __name__ == '__main__':
    print("index")
    Indexer("docs.txt")

3.4向量空间模型

3.4.1向量空间模型原理

向量空间模型(vector space model)概念简单，把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。

搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度，从而把最相似的排在最前返回给用户。

3.4.2代码实现原理

代码主要使用的算法是tf-idf

tf：term frequency 词频

idf：inverse document frequency 倒文档频率

主要思想是：如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

第一步：把每个网页文本分词，成为词包（bag of words）。

第三步：统计网页（文档）总数M。

第三步：统计第一个网页词数N，计算第一个网页第一个词在该网页中出现的次数n，再找出该词在所有文档中出现的次数m。则该词的tf-idf 为：n/N * 1/(m/M) （还有其它的归一化公式，这里是最基本最直观的公式）

第四步：重复第三步，计算出一个网页所有词的tf-idf 值。

第五步：重复第四步，计算出所有网页每个词的tf-idf 值。

代码如下：
# 关键词统计和词频统计，以列表形式返回
def Count(resfile):
    t = {}
    infile = open(resfile, 'r', encoding='utf-8-sig')
    f = infile.readlines()
    count = len(f)
    # print(count)
    infile.close()
    s = open(resfile, 'r', encoding='utf-8-sig')
    i = 0
    while i < count:
        line = s.readline()
    # 去换行符
        line = line.rstrip('\n')
        # print(line)
        words = line.split(" ")
        #   print(words)

        for word in words:
                if word != "" and t.__contains__(word):
                    num = t[word]
                    t[word] = num + 1
                if word !="":
                    t[word] = 1
        i = i + 1

    # 字典按键值降序
    dic = sorted(t.items(), key=lambda t: t[1], reverse=True)
    # print(dic)
    # print()
    s.close()
    return (dic)

def MergeWord(T1, T2):

    MergeWord = []
    duplicateWord = 0
    for ch in range(len(T1)):
        MergeWord.append(T1[ch][0])
    for ch in range(len(T2)):
        if T2[ch][0] in MergeWord:
            duplicateWord = duplicateWord + 1
        else:
            MergeWord.append(T2[ch][0])

    # print('重复次数 = ' + str(duplicateWord))
    # 打印合并关键词
    # print(MergeWord)
    return MergeWord


# 得出文档向量
def CalVector(T1, MergeWord):
    TF1 = [0] * len(MergeWord)
    for ch in range(len(T1)):
        TermFrequence = T1[ch][1]
        word = T1[ch][0]
        i = 0
    while i < len(MergeWord):
        if word == MergeWord[i]:
            TF1[i] = TermFrequence
            break
        else:
            i = i + 1
        # print(TF1)
    return TF1


def CalConDis(v1, v2, lengthVector):
    # 计算出两个向量的乘积
    B = 0
    i = 0
    while i < lengthVector:
        B = v1[i] * v2[i] + B
        i = i + 1
    # print('乘积 = ' + str(B))

    # 计算两个向量的模的乘积
    A = 0
    A1 = 0
    A2 = 0
    i = 0
    while i < lengthVector:
        A1 = A1 + v1[i] * v1[i]
        i = i + 1
    # print('A1 = ' + str(A1))

    i = 0
    while i < lengthVector:
        A2 = A2 + v2[i] * v2[i]
        i = i + 1
        # print('A2 = ' + str(A2))

    A = math.sqrt(A1) * math.sqrt(A2)
    print('两篇文章的相似度 = ' + format(float(B) / A, ".3f"))

3.5 BM25算法

3.5.1 BM25算法原理

BM25 是一种用来评价搜索词和文档之间相关性的算法，它是一种基于概率检索模型提出的算法。BM25属于bag-of-words模型，bag-of-words模型只考虑document中词频，不考虑句子结构或者语法关系之类，把document当做装words的袋子，具体袋子里面可以是杂乱无章的。对每一个搜索查询，我们很容易给每个文档定义一个“相关分数”。当用户进行搜索时，我们可以使用相关分数进行排序而不是使用文档出现时间来进行排序。这样，最相关的文档将排在第一个，无论它是多久之前创建的（当然，有的时候和文档的创建时间也是有关的）。

我们要从最简单的、基于统计的方法说起。这种方法不需要理解语言本身，而是通过统计词语的使用、匹配和基于文档中特有词的普及率的权重等情况来决定“相关分数”。

这个算法不关心词语是名词还是动词，也不关心词语的意义。它唯一关心的是哪些是常用词，那些是稀有词。如果一个搜索语句中包括常用词和稀有词，最好让包含稀有词的文档的评分高一些，同时降低常用词的权重。

3.5.2 代码实现

（1）对搜索词进行结巴分词；

   term_list = []
        query = query.split()
        for entry in query:
            # 分词
            term_list.extend(jieba.cut_for_search(entry))

计算tf-idf,找出候选doc；

# TF−IDF=tf∗idf
tf_idf = {}
for term in term_list:
    if term in self.index.inverted:
        for doc_id, fre in self.index.inverted[term].items():
            if doc_id in tf_idf:
                tf_idf[doc_id] += (1 + math.log10(fre)) * self.index.idf[term]
            else:
                tf_idf[doc_id] = (1 + math.log10(fre)) * self.index.idf[term]

（3）文档相关度排序。
        sorted_doc = sorted(tf_idf.items(), key=operator.itemgetter(1), reverse=True)
        res = [self.index.id_doc[doc_id] for doc_id, score in sorted_doc]
        return res

（4）计算搜索词与爬取文档的匹配度，然后将文档排序：

from index import Indexer
import jieba
import operator
import math

"""
搜索
返回结果：(相关问题,相似度)列表
搜索步骤：
    1.分词
    2.计算tf-idf,找出候选doc
    3.对文档排序
"""

class Searcher:

    def __init__(self, index):
        self.index = index

    def search(self, query):
        term_list = []
        query = query.split()
        for entry in query:
            # 分词
            term_list.extend(jieba.cut_for_search(entry))

        # 计算tf-idf,找出候选doc
        tf_idf = {}
        for term in term_list:
            if term in self.index.inverted:
                for doc_id, fre in self.index.inverted[term].items():
                    if doc_id in tf_idf:
                        tf_idf[doc_id] += (1 + math.log10(fre)) * self.index.idf[term]
                    else:
                        tf_idf[doc_id] = (1 + math.log10(fre)) * self.index.idf[term]
        # 排序
        sorted_doc = sorted(tf_idf.items(), key=operator.itemgetter(1), reverse=True)

        res = [self.index.id_doc[doc_id] for doc_id, score in sorted_doc]
        return res

3.6 网页实现框架：Flask及后台处理

3.6.1Flask简介

Flask 是一个 Python 实现的 Web 开发微框架。基于Python开发并且依赖jinja2模板和Werkzeug WSGI服务的一个微型框架，对于Werkzeug本质是Socket服务端，其用于接收http请求并对请求进行预处理，然后触发Flask框架，开发人员基于Flask框架提供的功能对请求进行相应的处理，并返回给用户，如果要返回给用户复杂的内容时，需要借助jinja2模板来实现对模板的处理，即：将模板和数据进行渲染，将渲染后的字符串返回给用户浏览器。

3.6.2代码实现

# coding:utf-8
from flask import Flask, request, render_template, redirect, url_for
from index import Indexer
from search import Searcher
import jieba

from urllib import parse
import json

app = Flask(__name__, static_url_path='')


@app.route("/", methods=['POST', 'GET'])
def main():
    if request.method == 'POST' and request.form.get('query'):
        query = request.form['query']
        return redirect(url_for('search', query=query))

    return render_template('index.html')


@app.route("/q/", methods=['POST', 'GET'])
def search(query):
    docs = searcher.search(query)
    terms = list(jieba.cut_for_search(query))
    result = highlight(docs, terms)
    return render_template('search.html', docs=result, value=query, length=len(docs))


def highlight(docs, terms):
    result = []
    print()
    for doc in docs:
        content = doc.get('title')
        for term in terms:
            content = content.replace(term, '{}'.format(term))
        result.append((doc.get('link'), content))
    return result


index = Indexer("docs.txt")
searcher = Searcher(index)

if __name__ == "__main__":
    app.run(host='localhost', port=8080, debug=True)

3.7 web界面设计

3.7.1 HTML简介

超文本标记语言（标准通用标记语言下的一个应用，外语缩写HTML），是迄今为止网络上应用最为广泛的语言，也是构成网页文档的主要语言。HTML文本是由HTML命令组成的描述性文本，HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML的结构包括头部（Head）、主体（Body）两大部分，其中头部描述浏览器所需的信息，而主体则包含所要说明的具体内容。

3.7.2 网页界面

（1）主页显示输入框和搜索按钮,提交搜索内容。调用百度的界面css，能保存搜索历史记录。

关键代码：

index.html




    搜索

（2）副页查询：search.html






    
    搜索
    
    

    





    

    

    
        
            
        
        
    
    

    
共有{{ length }}条结果
    

    
    {% for doc in docs %}
    {{ doc[1]|safe }}
    来源：{{ doc[0] }}
    

    {% endfor %}

四、程序展示

4.1搜索页主界面:index.html

4.2搜索结果页，搜索词能在结果中高亮显示：

4.3页面跳转：

4.4无结果

搜索博主名字（xxx），发现无结果！！！what fuck？？，原来是我没爬取我的网站。呵呵呵，没我的名字。

五、总结与体会（开始了万年不变的套路模式。。。）

我们身处在一个信息时代，可以通过很多途径接触到关于生活、学习等各方面的知识，但是如何在浩渺的信息海洋里快速而准确地找到我们所需要的东西呢，这成为很多人面临的重要的问题，所以学习信息检索和搜索引擎技术就显得尤为重要了。

没学习网络信息检索之前，我们总觉得只要有搜索引擎就可以搜到我们需要的东西，但是面对庞杂的信息，我们往往会不知所措，因为当我们输入想要查询的内容后，网络上会出现成百上千个结果，然而这些结果可能没有一个是我们需要的，因此学习使用搜索引擎的原理和实现方法及查询技巧是非常必要的。

通过建立索引库,搜索查询服务器,以及Web交互,我们基本实现了搜索引擎的核心功能,建立了具有中文分词和关键词高亮显示功能的中文搜索引擎系统。总体来讲,该中文搜索引擎具有很好的可维护性和可扩展性,可以在此基础上开发适应不同业务需求的搜索引擎。

总结这次搜索引擎程序的实现，发现一个好的搜索引擎，首先需要一个好的爬虫，能够帮你把网络上的各种网页抓取到本地；能够对网页进行去重；考虑到时间或资源成本，还要求爬虫能对网页的重要性进行一定的判断，即先抓取“重要”的网页；还要能及时地更新已有的网页，其次，一个搜索引擎还需要有一套行之有效的索引系统，能够将搜索效率提高，这里涉及到太多东西，以后还需要继续学习。

六、看到了这里，我觉得你可以右上角点赞收藏转发了。。。谢谢各位！！!

要源码的话下面留言。。。。

你可能感兴趣的:(Python)

用Python实现办公自动化 shengyin714959 笔记最高笔记 python 开发语言
Python作为一种简单而强大的编程语言，不仅在数据科学和软件开发领域广受欢迎，还在办公自动化方面发挥了巨大作用。通过Python，我们可以编写脚本来自动执行各种重复性任务，从而提高工作效率并减少错误。在本文中，我们将探讨如何利用Python来实现办公自动化，并提供一些示例代码来帮助你入门。自动化处理电子表格数据在许多办公场景中，我们经常需要处理电子表格数据，例如Excel文件。使用Python的
Python内置模块-Math -MaoKe- Python模块 python 前端
文章目录Python内置模块-Math一、模块介绍二、数值运算1.math.ceil()2.math.floor()3.math.fabs()4.math.modf()5.math.trunc()6.math.factorial()7.math.fmod()8.math.fsum()9.math.gcd()10.math.frexp()11.math.ldexp()12.math.copysign
探索 Python 中的 uuid 模块：生成唯一标识符程序媛幂幂 python 数据库服务器
前言UUID，全称为UniversallyUniqueIdentifier，是一种128位的全局唯一标识符。这个标识符通过一定的算法计算出来，可以保证在一定的空间和时间上的唯一性。在Python中，UUID通常用于生成唯一的标识符，例如数据库表的ID字段、用户账号、订单等。UUID的生成通常基于MAC地址、时间戳、命名空间、随机数或伪随机数等元素，以保证生成ID的唯一性。在Python中，UUID
NumPy学习第十课：一文通俗了解NumPy中的数学函数 HappyAcmen Numpy基础知识学习 numpy 学习 python pycharm 开发语言
前言导读在前面NumPy的学习过程当中，我们知道NumPy库是一个特别擅长处理大型矩阵或者说存储大型数据的这么一个库，与Python自身相比较在处理数据的时候更加的高效，所以我们在数学中常见到的计算函数，NumPy库中基本上也都已经涵盖了。而且已经封装好了很多的函数，我们在实际的使用过程当中，只需要引入NumPy库，并调用相应的函数方法就可以了，非常的便捷。这一节我们就先来了解了解NumPy中的数
使用 Python3 生成通用唯一标识符（UUID）的方法美丽风景-c python 开发语言 Python
使用Python3生成通用唯一标识符（UUID）的方法UUID（通用唯一标识符）是一种用于在计算机系统中唯一标识实体的标准化方法。在Python中，可以使用uuid模块来生成UUID。本文将介绍如何使用Python3中的uuid模块生成UUID，并提供相应的源代码示例。首先，我们需要导入uuid模块：importuuid生成UUID的最常用方法是使用uuid.uuid4()函数。该函数会生成一个随
Python实现：两个朋友的最大共同行走距离从以前 python 算法 java 数据结构
问题背景Alan和Bob是住在城市中的两个邻居，他们的城市里只有三栋建筑：电影院、商店和他们的家。一天，他们一起去看电影，看完后他们决定继续讨论电影，但由于各自有不同的任务，他们的路径有所不同。Bob打算直接回家，而Alan则需要先去商店，再回家。在离开电影院后，他们决定一起走一段路，讨论电影。然后他们在某个点分开，Alan继续去商店，而Bob直接回家。我们的任务是计算他们两人能一起走的最大距离，
Python 爱心代码实现动态爱心图案展示从以前 python python
引言在Python中，我们可以利用tkinter库来创建有趣的图形界面，本文将为大家分享一段使用tkinter库绘制动态爱心图案的代码，并详细介绍其实现逻辑与运行方法。一、代码功能概述这段Python代码借助tkinter库创建了一个窗口，在该窗口中能够绘制出一个动态的爱心图案，效果十分美观，接下来我们一起看看代码的具体内容。二、代码详解（一）导入必要的库和模块importrandomfromma
Python从0到100（八十三）：神经网络-使用残差网络RESNET识别手写数字是Dream呀 python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
使用 Python 实现自动化办公（邮件、Excel）王子良. python 经验分享 python 自动化 excel
目录一、Python自动化办公的准备工作1.1安装必要的库1.2设置邮件服务二、邮件自动化处理2.1发送邮件示例代码注意事项2.2接收和读取邮件示例代码三、Excel自动化处理3.1读取和写入Excel文件示例代码3.2数据处理和分析示例代码四、综合实例：从邮件中读取Excel附件并分析示例代码随着技术的进步，Python的高效性和易用性使其成为办公自动化的强大工具。通过Python，我们可以自动
Windows下建立Jupyter-lab 编程环境 skywalk8163 编程语言 windows jupyter ide python
Windows下建立Jupyter-lab编程环境方法1在python虚拟环境下启动（失败）首先激活环境进入python的scripts目录，执行激活文件：cdpy311\Scriptsactivate.bat安装jupyterpipinstalljupyter-U启动jupyter-lab进入工作目录，比如e:盘根目录，执行jupyter-lab但是用这种方法报错kernel没有找到，后面有详细
用 Python Turtle 库绘制精美圣诞树教程从以前 python python 信息可视化 github
摘要：本文将详细介绍如何使用Python的Turtle库来绘制一棵充满节日氛围的圣诞树，从代码的各个部分解读到最终呈现出完整的图形效果，带你一步步领略用代码创造节日美景的乐趣。文中包含完整代码及详细注释，帮助读者轻松理解并复现这个有趣的绘图项目。一、引言在圣诞节来临之际，我们可以通过编程的方式来增添节日的氛围，使用Python的Turtle库就能绘制出一棵漂亮的圣诞树哦！Turtle库提供了简单又
100天精通Python（基础篇）——第19天：异常类型大全、异常处理介绍袁袁袁袁满 100天精通Python python 开发语言后端 mce异常
目录1.异常的概念2.异常类型1）Python内置异常2）requests爬虫模块内置异常类3）自定义异常2.捕获异常1）简单的捕获异常语法2）错误类型捕获3）异常捕获完整语法3.异常的传递4.抛出raise异常1）应用场景2）抛出异常1.异常的概念程序在运行时，如果Python解释器遇到到一个错误，会停止程序的执行，并且提示一些错误信息，这就是异常程序停止执行并且提示错误信息这个动作，我们通常称
Python私房菜——筑基篇（已完结）陪我一起学编程 python 青少年编程自动化开发语言 pycharm django
1Python私房菜【一】——（前置基础）大白可直接跳转到：Python私房菜——高级篇1.1编码就是把人类语言（文字）通过编码的形式一一映射成计算机认识的语言（二进制：0101…），即将人类语言通过某种形式转换成计算机认识的二进制数。这种编码形式是人为定义的，因此就有多种不同的编码方式。在不同编码表中，规定了每个字符在表中的唯一位置，这个位置称之为码点，如“A”在ASCII表中的位置【码点】是6
python创建按钮command怎么用_python图形界面tk 1.4 按钮（Button） weixin_39955825
创建按钮和设置它们的文本属性#!/usr/bin/envpython#-*-coding:utf-8-*-importtkinterastkfromtkinterimportttkwin=tk.Tk()win.title("PythonGUI")#添加标题aLabel=ttk.Label(win,text="ALabel")#创建一个标签,text：显示标签的内容aLabel.grid(colum
python中graphviz 参数_python graphviz的使用(画图工具) weixin_39900608 python中graphviz 参数
一、graphviz安装及配置graphviz实际上是一个绘图工具，可以根据dot脚本画出树形图等。1、windows安装配置环境变量：把bin文件夹的路径加入到环境变量path里安装python的graphviz模块：pipinstallgraphviz2、linuxcentos7安装yum下载graphviz软件：yum-yinstallgraphviz安装python的graphviz模块：
2018年年度总结 weixin_30514745 前端后端 php ViewUI
首先先看2017年定下的小目标：PHP基础知识的再次学习。（今年在工作的时候也发现了这个问题，所以将PHP基础知识再学习了一遍，对一些容易混淆的概念进行了学习。这个目标算是实现了80%吧）对前端新特性的了解。（因为之前在太原工作的时候，前端后端都干，所以当时觉得前端和后台都很重要，今年在北京主要干的是后端的工作，所以这个并没有去进行了解）python的学习。（这个也没有进行学习，了解了也没有用，今
Python调用讯飞星火大模型v3.x api接口使用教程2.0（python sdk，支持图片理解） IT大头 NLP实战 python 人工智能语言模型 nlp chatgpt
前言本篇文章是针对星火大模型api接口使用的新篇章，本次主要是介绍对于pythonSDK使用，以及图片理解等新功能。相对于上篇博客中的使用方法，本次的教程相对来说更简单方便。话不多说，直接享用。1、获取api接口的ID和key参考上篇文章：https://blog.csdn.net/qq_45156060/article/details/134072123?spm=1001.2014.3001.5
python glob模块蘑菇棒棒哒 python
0.摘要：glob是实用的文件名匹配库，glob.glob()函数将会匹配给定路径下的所有pattern，并以列表形式返回。用它可以查找符合特定规则的文件路径名。查找文件只用到三个匹配符：””,匹配0个或多个字符；“?”,”?”匹配单个字符；“[]”：”[]”匹配指定范围内的字符，如：[0-9]匹配数字；注意：如果文件名以“点”开头，无法被'’和'?'匹配，如：".card.gif"glob方法：
【Python】已解决ERROR: Could not find a version that satisfies the requirement 云天徽上 python运行报错解决记录 python 开发语言 tensorflow 人工智能 numpy
成功解决“ERROR:Couldnotfindaversionthatsatisfiestherequirement”错误的全面指南一、引言在Python开发中，经常需要通过pip工具来安装各种依赖包。然而，有时在尝试安装某个包时，可能会遇到“ERROR:Couldnotfindaversionthatsatisfiestherequirement”的错误。这个错误表明pip无法找到与你的请求匹配
球球大作战Python单机版本酷码编程接单空间 pygame python oracle django tornado fastapi
球球大作战是一个多人在线游戏，玩家需要控制一个小球，通过吞食地图上的小点来增加自己的体积，同时避免被其他更大的球体吞噬。下面是一个简化版的球球大作战游戏，使用Python语言和pygame库来实现。在这个简化版中，我们将只使用控制台输入输出来模拟游戏。首先，你需要安装pygame库，可以使用以下命令安装：pipinstallpygame然后，你可以使用以下代码来创建一个简化版的球球大作战游戏：im
【人工智能】Python实战：构建高效的多任务学习模型蒙娜丽宁 Python杂谈 AI 人工智能 python 学习
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界多任务学习（Multi-taskLearning,MTL）作为机器学习领域中的一种重要方法，通过在单一模型中同时学习多个相关任务，不仅能够提高模型的泛化能力，还能有效利用任务间的共享信息。本文深入探讨了多任务学习的基本概念、优势及其在实际应用中的重要性。
Python读取通达信日线数据（.day文件）逝去的紫枫 Python python
Python读取通达信日线数据（.day文件）1.day文件位置2.day文件内容的构成3.Python代码识别day文件4.将识别结果输出为csv文件5.最终结果展示在金融数据分析中，通达信软件提供的数据文件（如日线数据文件.day）是非常宝贵的资源。本文将详细介绍如何使用Python读取和解析这些文件，并将解析结果输出为CSV文件，以便进行进一步的数据分析和处理。1.day文件位置通达信日线数
以Python构建ONE FACE管理界面：从基础至进阶的实战探索 Allen_LVyingbo python python pyqt
一、引言1.1研究背景与意义在人工智能技术蓬勃发展的当下，面部识别技术凭借其独特优势，于安防、金融、智能终端等众多领域广泛应用。在安防领域，可助力监控系统精准识别潜在威胁人员，提升公共安全保障水平；金融行业中，实现刷脸支付、远程开户等便捷服务，优化用户体验并强化交易安全。智能终端方面，为设备解锁、身份验证等功能提供支持，提升设备使用的便捷性与安全性。然而，现有面部识别系统在数据安全、检索效率及用户
Python模块学习：glob 文件路径查找 semiler python python glob
文章转载自《伯乐在线》原文出处：DarkbullPython模块学习：glob文件路径查找glob模块是最简单的模块之一，内容非常少。用它可以查找符合特定规则的文件路径名。跟使用windows下的文件搜索差不多。查找文件只用到三个匹配符：”*”,“?”,“[]“。”*”匹配0个或多个字符；”?”匹配单个字符；”[]“匹配指定范围内的字符，如：[0-9]匹配数字。glob.glob返回所有匹配的文件
Android 内核开发之—— repo 使用教程 ByteSaid Android 开发 android git
前言repo是一个用于管理多个Git仓库的工具，特别适用于管理大型项目如Android的源码。它是由Google开发的，用于解决多个Git仓库的同步、管理和代码审查等问题。因此，做Android内核开发，首先要了解repo是什么，它是如何使用的？1repo的概念repo是一种代码版本管理工具，它是由一系列的Python脚本组成，封装了一系列的Git命令，用来统一管理多个Git仓库。2repo的作用
Python: 修改源知多少技术探索者 #python python 开发语言
一.Windows源在Windows中使用Python修改源,需要通过修改pip配置文件或者使用pip命令直接指定源来实现。1.修改pip配置文件Windows用户通常在以下路径中找到pip配置文件%APPDATA%\pip\pip.ini注意:如果不存在的话，可以手动创建这个文件夹和文件。然后在pip.ini文件中添加以下内容，将源修改为你想要的源：[global]index-url=https
用Python的glob模块查找文件路径名洪小帅 python 开发语言
用Python的glob模块查找文件路径名基本用法示例`glob`的函数示例：使用`iglob()`处理大型文件总结大家好,我素洪小帅~glob模块是Python的一个标准库模块，用于查找符合特定规则的文件路径名，它支持使用通配符来匹配文件。glob模块可以方便地列出文件目录中的文件，并对文件名进行模式匹配。基本用法导入模块：importglob使用通配符匹配文件*：匹配零个或多个字符。?：匹配一
[Python]已解决。pycharm突然打不开了，安装PyCharm后，双击没反应。pycharm无法打开一罐小牛奶7 python pycharm 开发语言
前两天刚装的pycharm，今天双击之后突然打不开了，好几次没有反应。我试了以下方法：1.方法一：管理员身份运行，直接右键选择，或者在下方搜索框输入PyCharm后点以管理员身份运行如果你也和我一样，这一步还不行，请继续往下看。2.方法二：修改Roaming文件2.1找到AppData。C盘--用户--User（找不到该文件的往下看）如果User下没有AppData文件，不要慌，可能是隐藏了：点查
华为OD机试E卷 --羊、狼、农夫过河--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述羊、狼、农夫都在岸边，当羊的数量小于狼的数量时，狼会攻击羊，农夫则会损失羊。农夫有一艘容量固定的船，能够承载固定数量的动物。要求求出不损失羊情况下将全部羊和狼运到对岸需要的最小次数。只计算农夫去对岸的次数，回程时农夫不会运送羊和狼。备注:农夫在或农夫离开后羊的数量大于狼的数量
华为OD机试E卷 --手机App防沉迷系统--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述智能手机方便了我们生活的同时，也侵占了我们不少的时间。“手机App防沉迷系统”能够让我们每天合理地规划手机App使用时间，在正确的时间做正确的事。它的大概原理是这样的：在一天24小时内，可以注册每个App的允许使用时段一个时间段只能使用一个AppApp有优先级，数值越高，优先
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分