DanCheng-studio

【毕业设计】python的搜索引擎系统设计与实现

文章目录

0 前言
1 课题简介
2 系统设计实现
- 2.1 总体设计
- 2.2 搜索关键流程
- 2.3 推荐算法
- 2.4 数据流的实现
3 实现细节
- 3.1 系统架构
- 3.2 爬取大量网页数据
- 3.3 中文分词
- 3.4 相关度排序
- - - 第1个排名算法：根据单词位置进行评分的函数
    - 第2个排名算法：根据单词频度进行评价的函数
    - 第3个排名算法：根据单词距离进行评价的函数
4 实现效果
4 最后

0 前言

这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。

为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是

python的搜索引擎系统设计与实现

学长这里给一个题目综合评分(每项满分5分)

难度系数：3分
工作量：5分
创新点：3分

选题指导, 项目分享：

https://gitee.com/dancheng-senior/project-sharing-1/blob/master/%E6%AF%95%E8%AE%BE%E6%8C%87%E5%AF%BC/README.md

1 课题简介

随着互联网和宽带上网的普及，搜索引擎在中国异军突起，并日益渗透到人们的日常生活中，在互联网普及之前，人们查阅资料首先想到的是拥有大量书籍的资料的图书馆。但是今天很多人都会选择一种更方便、快捷、全面、准确的查阅方式–互联网。而帮助我们在整个互联网上快速地查找到目标信息的就是越来越被重视的搜索引擎。

今天学长来向大家介绍如何使用python写一个搜索引擎，该项目常用于毕业设计

2 系统设计实现

2.1 总体设计

学长设计的系统采用的是非关系型数据库Elasticsearch，因此对于此数据库的查询等基本操作会加以图例的方式进行辅助阐述。在使用者开始进行査询时，系统不可能把使用者输入的关键词与所有本地数据进行匹配，这种检索方式即便建立索引，查询效率仍然较低，而且非常消耗服务器资源。

因此，Elasticsearch将获取到的数据分为两个阶段进行处理。第一阶段：采用合适的分词器，将获取到的数据按照分词器的标准进行分词，第二阶段：对每个关键词的频率以及出现的位置进行统计。

经过以上两个阶段，最后每个词语具体出现在哪些文章中，出现的位置和频次如何，都将会被保存到Elasticsearch数据库中，此过程即为构建倒排索引，需要花费的计算开销很大，但大大提高了后续检索的效率。其中，搜索引擎的索引过程流程图如图

2.2 搜索关键流程

如图所示，每一位用户在搜索框中输入关键字后，点击搜索发起搜索请求，系统后台解析内容后，将搜索结果返回到查询结果页，用户可以直接点击查询结果的标题并跳转到详情页，也可以点击下一页查看其他页面的搜索结果，也可以选择重新在输入框中输入新的关键词，再次发起搜索。

跳转至不同结果页流程图：

浏览具体网页信息流程图：

搜索功能流程图：

2.3 推荐算法

用户可在平台上了解到当下互联网领域中的热点内容，点击文章链接后即可进入到对应的详情页面中，浏览选中的信息的目标网页，详细了解其中的内容。丰富了本搜索平台提供信息的实时性，如图

用户可在搜索引擎首页中浏览到系统推送的可能感兴趣的内容，同时用户可点击推送的标题进入具体网页进行浏览详细内容。流程图如图

2.4 数据流的实现

学长设计的系统的数据来源主要是从发布互联网专业领域信息的开源社区上爬虫得到。

再经过IK分词器对获取到的标题和摘要进行分词，再由Elasticsearch建立索引并将数据持久化。

用户通过输入关键词，点击检索，后台程序对获得的关键词再进行分词处理，再到数据库中进行查找，将满足条件的网页标题和摘要用超链接的方式在浏览器中显示出来。

3 实现细节

3.1 系统架构

搜索引擎有基本的五大模块,分别是:

信息采集模块
信息处理模块
建立索引模块
查询和 web 交互模块

学长设计的系统目的是在信息处理分析的基础上,建立一个完整的中文搜索引擎。

所以该系统主要由以下几个详细部分组成:

爬取数据
中文分词
相关度排序
建立web交互。

3.2 爬取大量网页数据

爬取数据，实际上用的就是爬虫。

我们平时在浏览网页的时候，在浏览器里输入一个网址，然后敲击回车，我们就会看到网站的一些页面，那么这个过程实际上就是这个浏览器请求了一些服务器然后获取到了一些服务器的网页资源，然后我们看到了这个网页。

请求呢就是用程序来实现上面的过程，就需要写代码来模拟这个浏览器向服务器发起请求，然后获取这些网页资源。那么一般来说实际上获取的这些网页资源是一串HTML代码，这里面包含HTML标签，还有一些在浏览器里面看到的文字。那么我们要提取的一些数据就包含在这些HTML文本里面。我们要做的下一步工作就是从这些文本里提取我们想要的一些信息（比如一段话，一个手机号，一个文字这类的），这就是我们提取的一个过程。提取出来之后呢我们就把提取出来的信息存到数据库啊文本啊这类的。这就是完成了一个数据采集的过程。

我们写完程序之后呢就让它一直运行着，它就能代替我们浏览器来向服务器发送请求，然后一直不停的循环的运行进行批量的大量的获取数据了，这就是爬虫的一个基本的流程。

一个通用的网络爬虫的框架如图所示：

这里给出一段爬虫，爬取自己感兴趣的网站和内容，并按照固定格式保存起来：


# encoding=utf-8
# 导入爬虫包
from selenium import webdriver
# 睡眠时间
import time
import re
import os
import requests
# 打开编码方式utf-8打开
 
# 睡眠时间 传入int为休息时间，页面加载和网速的原因 需要给网页加载页面元素的时间
def s(int):
    time.sleep(int)
 
 
# html/body/div[1]/table/tbody/tr[2]/td[1]/input
# http://dmfy.emindsoft.com.cn/common/toDoubleexamp.do
 
if __name__ == '__main__':
    #查询的文件位置
   # fR = open('D:\\test.txt','r',encoding = 'utf-8')
 
    # 模拟浏览器，使用谷歌浏览器，将chromedriver.exe复制到谷歌浏览器的文件夹内
    chromedriver = r"C:\\Users\\zhaofahu\\AppData\\Local\\Google\\Chrome\\Application\\chromedriver.exe"
    # 设置浏览器
    os.environ["webdriver.chrome.driver"] = chromedriver
    browser = webdriver.Chrome(chromedriver)
    # 最大化窗口 用不用都行
    browser.maximize_window()
  #  header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
 
    # 要爬取的网页
    neirongs = []  # 网页内容
    response = []  # 网页数据
    travel_urls = []
    urls = []
    titles = []
    writefile = open("docs.txt", 'w', encoding='UTF-8')
    url = 'http://travel.yunnan.cn/yjgl/index.shtml'
    # 第一页
    browser.get(url)
    response.append(browser.page_source)
    # 休息时间
    s(3)
 
    # 第二页的网页数据
    #browser.find_element_by_xpath('// *[ @ id = "downpage"]').click()
    #s(3)
    #response.append(browser.page_source)
    #s(3)
 
    # 第三页的网页数据
    #browser.find_element_by_xpath('// *[ @ id = "downpage"]').click()
    #s(3)
    #response.append(browser.page_source)
 
 
    # 3.用正则表达式来删选数据
    reg = r'href="(//travel.yunnan.cn/system.*?)"'
    # 从数据里爬取data。。。
    # 。travel_urls 旅游信息网址
    for i in range(len(response)):
        travel_urls = re.findall(reg, response[i])
 
    # 打印出来放在一个列表里
    for i in range(len(travel_urls)):
        url1 = 'http:' + travel_urls[i]
        urls.append(url1)
        browser.get(url1)
        content = browser.find_element_by_xpath('/html/body/div[7]/div[1]/div[3]').text
        # 获取标题作为文件名
        b = browser.page_source
        travel_name = browser.find_element_by_xpath('//*[@id="layer213"]').text
        titles.append(travel_name)
    print(titles)
    print(urls)
    for j in range(len(titles)):
        writefile.write(str(j) + '\t\t' + titles[j] + '\t\t' + str(urls[j])+'\n')
 
    s(1)
    browser.close()

3.3 中文分词

中文分词使用jieba库即可

jieba 是一个基于Python的中文分词工具对于一长段文字，其分词原理大体可分为三步：

1.首先用正则表达式将中文段落粗略的分成一个个句子。

2.将每个句子构造成有向无环图，之后寻找最佳切分方案。

3.最后对于连续的单字，采用HMM模型将其再次划分。

jieba分词分为“默认模式”（cut_all=False）,“全模式”(cut_all=True)以及搜索引擎模式。对于“默认模式”，又可以选择是否使用 HMM 模型（HMM=True，HMM=False）。

3.4 相关度排序

上面已经根据用户的输入获取到了相关的网址数据。
获取到的数据中rows的形式如下
[(urlid1,wordlocation1_1,wordlocation1_2,wordlocation1_3…),(urlid2,wordlocation2_1,wordlocation2_2,wordlocation2_3…)]
列表的每个元素是一个元组，每个元素的内容是urlid和每个关键词在该文档中的位置。

wordids形式为[wordid1, wordid2, wordid3…]，即每个关键词所对应的单词id

我们将会介绍几种排名算法，所谓排名也就是根据各自的规则为每个链接评分，评分越好。并且最终我们会将几种排名算法综合利用起来，给出最终的排名。既然要综合利用，那么我们就要先实现每种算法。在综合利用时会遇到几个问题。

1、每种排名算法评分机制不同，给出的评分尺度和含义也不尽相同
2、如何综合利用，要考虑每种算法的效果。为效果好的给与较大的权重。

我们先来考虑第一个问题，如何消除每种评分算法所给出的评分尺度和含义不相同的问题。
第2个问题，等研究完所有的算法以后再来考虑。

简单，使用归一化，将每个评分值缩放到0-1上，1代表最高，0代表最低。

对爬去到的数据进行排序，有好几种排序算法：

第1个排名算法：根据单词位置进行评分的函数

我们可以认为对用户输入的多个关键词，在文档中，这些关键词出现的位置越靠前越好。比如我们往往习惯在文章的前面添加一些摘要性、概括性的描述。

 # 根据单词位置进行评分的函数.
    # rows是[(urlid1,wordlocation1_1,wordlocation1_2,wordlocation1_3...),(urlid2,wordlocation2_1,wordlocation2_2,wordlocation2_3...)]
    def locationscore(self,rows):
        locations=dict([(row[0],1000000) for row in rows])
        for row in rows:
            loc=sum(row[1:]) #计算每个链接的单词位置总和，越小说明越靠前
            if loc<locations[row[0]]:  #记录每个链接最小的一种位置组合
                locations[row[0]]=loc

        return self.normalizescores(locations,smallIsBetter=1)

第2个排名算法：根据单词频度进行评价的函数

我们可以认为对用户输入的多个关键词，在文档中，这些关键词出现的次数越多越好。比如我们在指定主题的文章中会反复提到这个主题。

 # 根据单词频度进行评价的函数
    # rows是[(urlid1,wordlocation1_1,wordlocation1_2,wordlocation1_3...),(urlid2,wordlocation2_1,wordlocation2_2,wordlocation2_3...)]
    def frequencyscore(self,rows):
        counts=dict([(row[0],0) for row in rows])
        for row in rows: 
            counts[row[0]]+=1   #统计每个链接出现的组合数目。 每个链接只要有一种位置组合就会保存一个元组。所以链接所拥有的组合数，能一定程度上表示单词出现的多少。
        return self.normalizescores(counts)

第3个排名算法：根据单词距离进行评价的函数

我们可以认为对用户输入的多个关键词，在文档中，这些关键词出现的越紧凑越好。这是因为我们更希望所有单词出现在一句话中，而不是不同的关键词出现在不同段落或语句中。

# 根据单词距离进行评价的函数。
    # rows是[(urlid1,wordlocation1_1,wordlocation1_2,wordlocation1_3...),(urlid2,wordlocation2_1,wordlocation2_2,wordlocation2_3...)]
    def distancescore(self,rows):
        # 如果仅查询了一个单词，则得分都一样
        if len(rows[0])<=2: return dict([(row[0],1.0) for row in rows])

        # 初始化字典，并填入一个很大的值
        mindistance=dict([(row[0],1000000) for row in rows])

        for row in rows:
            dist=sum([abs(row[i]-row[i-1]) for i in range(2,len(row))]) # 计算每种组合中每个单词之间的距离
            if dist<mindistance[row[0]]:  # 计算每个链接所有组合的距离。并为每个链接记录最小的距离
                mindistance[row[0]]=dist
        return self.normalizescores(mindistance,smallIsBetter=1)

选题指导, 项目分享：

https://gitee.com/dancheng-senior/project-sharing-1/blob/master/%E6%AF%95%E8%AE%BE%E6%8C%87%E5%AF%BC/README.md

4 实现效果

热门主题推荐实现

搜索界面的实现

查询结果页面显示

查询结果分页显示

查询结果关键字高亮标记显示

选题指导, 项目分享：

https://gitee.com/dancheng-senior/project-sharing-1/blob/master/%E6%AF%95%E8%AE%BE%E6%8C%87%E5%AF%BC/README.md

本文由丹成学长首发于CSDN，未经允许禁止转载

4 最后

【华为OD-E卷 - VLAN资源池 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 java 华为od python c++javascript
【华为OD-E卷-VLAN资源池100分（python、java、c++、js、c）】题目VLAN是一种对局域网设备进行逻辑划分的技术，为了标识不同的VLAN，引入VLANID(1-4094之间的整数)的概念。定义一个VLANID的资源池(下称VLAN资源池)，资源池中连续的VLAN用开始VLAN-结束VLAN表示，不连续的用单个整数表示，所有的VLAN用英文逗号连接起来。现在有一个VLAN资源池
C++设计模式——Strategy策略模式程序员与背包客_CoderZ C/C++设计模式 c++设计模式策略模式 c语言开发语言
一，策略模式简介策略模式是一种行为型设计模式，策略模式在软件开发场景中定义了一系列的算法，并将每个算法单独封装在可替换的对象中，使应用程序在运行时可以根据具体的上下文来动态地选择和切换算法，同时保持原有的代码架构不被修改。策略模式的设计使得算法的实现与调用被分离，让算法可以独立于外部客户端进行开发和改动，使用独立的类来封装特定的算法，也避免了不同算法策略之间的互相影响。策略模式能适应多种应用场景，
Java八股文：MQ篇皮皮虾我们跑 java 开发语言
3-MQ篇消息中间件用于分布式系统中程序之间的异步通信。它基于消息的发布/订阅或点对点机制，实现高效、可靠、可伸缩的消息传递。3.1RabbitMQ3.1.1RabbitMQ如何保证消息不丢失？消息丢失了怎么办？如何保证消息不丢失？开启生产者确认机制，确保生产者的消息ack能到达队列。开启持久化功能，确保消息未消费前在队列中不会丢失开启消费者确认机制auto，由spring确认消息处理成功后完成a
推荐洛谷网站：全面解析与实用指南 w(ﾟДﾟ)w吓洗宝宝了 c++c语言 java c#python
洛谷（Luogu）是中国领先的在线编程学习和竞赛平台，自成立以来，已经成为许多编程爱好者的首选平台。洛谷不仅提供了丰富的编程题目和资源，还支持多种编程语言，并且拥有活跃的社区氛围。本文将详细介绍洛谷的核心功能、使用技巧以及推荐理由，帮助你更好地利用洛谷进行编程学习和竞赛训练。一、洛谷的核心功能1.题库与练习洛谷拥有庞大的题库，涵盖了从入门到高级的各种难度级别的题目。这些题目不仅覆盖了基础算法，还包
Python中的HTTP请求：从菜鸟到高手的全面指南傻啦嘿哟 python http 开发语言
目录一、HTTP请求基础知识二、Python中的HTTP请求库安装requests库使用requests库发送HTTP请求GET请求POST请求PUT请求DELETE请求三、处理HTTP响应获取状态码获取响应头获取响应体四、高级技巧与实践使用连接池设置请求头处理Cookies和Session错误处理设置超时时间使用代理HTTP认证五、高级功能与实践自定义请求头文件上传流式响应处理重定向SSL证书验
【2024年华为OD机试】 (A卷,200分)- 开放日活动、取出尽量少的球（JavaScript&Java & Python&C/C++）妄北y 算法汇集笔记总结(保姆级)华为od javascript java c语言 python
一、问题描述题目描述某部门开展FamilyDay开放日活动，其中有个从桶里取球的游戏，游戏规则如下：有N个容量一样的小桶等距排开。每个小桶默认装了数量不等的小球，记录在数组bucketBallNums中。游戏开始时，要求所有桶的小球总数不能超过SUM。如果小球总数超过SUM，则需对所有小桶统一设置一个容量最大值maxCapacity，并将超过容量最大值的小球拿出来，直至小桶里的小球数量小于maxC
webrtc入门系列（五）amazon-kinesis-video-streams-webrtc-sdk-c编译一只海星 webRTC 入门系列 webrtc amazon-kinesis webrtc编译
《webrtc入门系列（一）easy_webrtc_server入门环境搭建》《webrtc入门系列（二）easy_webrtc_server入门example测试》《webrtc入门系列（三）云服务器coturn环境搭建》《webrtc入门系列（四）zlmediakitwebrtcsdp交互详细解读》《webrtc入门系列（五）amazon-kinesis-video-streams-webrt
Python3.9、Python3.10、Python3.11和Python3.12的发展历程和区别 Ceeeeen 编程与算法 python3.11 python 开发语言
文章目录1.Python3.9（2020年10月发布）主要新特性2.Python3.10（2021年10月发布）主要新特性：3.Python3.11（2022年10月发布）主要新特性4.Python3.12（2023年10月发布）主要新特性总结对比：1.Python3.9（2020年10月发布）主要新特性引入了新的字典运算符|和|=，简化了字典的合并和更新操作。#合并字典dict1={"a":1,
策略模式 - 策略模式的使用 w(ﾟДﾟ)w吓洗宝宝了 C++从 0 到 1 开发语言 c++
引言在软件开发中，设计模式是解决常见问题的经典解决方案。策略模式（StrategyPattern）是行为型设计模式之一，它允许在运行时选择算法的行为。通过将算法封装在独立的类中，策略模式使得算法可以独立于使用它的客户端而变化。本文将详细介绍策略模式的概念、结构、实现以及在C++中的应用。策略模式的概念策略模式定义了一系列算法，并将每个算法封装起来，使它们可以互换。策略模式使得算法可以独立于使用它的
【Python高阶篇】探索人工智能：使用Python构建一个简单的聊天机器人码农必胜客 python 人工智能机器人
人工智能是计算机科学中一个非常热门的领域，近年来得到了越来越多的关注。它通过模拟人类思考过程和智能行为来实现对复杂任务的自主处理和学习，已经被广泛应用于许多领域，包括语音识别、自然语言处理、机器人技术、图像识别和推荐系统等。本文将介绍如何使用Python构建一个简单的聊天机器人，以展示人工智能的基本原理和应用。我们将使用Python语言和自然语言处理库来构建一个聊天机器人，该机器人可以接收用户的输
.NET Core 中如何构建一个弹性的 HTTP 请求机制？牛马程序员_江 .netcore http 网络协议 spring
.NETCore中如何构建一个弹性的HTTP请求机制？1.理解弹性HTTP请求机制什么是弹性？弹性是指系统在面对故障或异常情况时，能够保持或快速恢复到正常状态的能力。在HTTP请求的上下文中，弹性意味着当请求失败时，系统能够自动采取一系列措施（如重试、降级、断路等）来确保请求最终成功或优雅地处理失败。为什么需要弹性HTTP请求机制？在分布式系统中，服务间的依赖关系复杂，任何一个服务的故障都可能导致
Python使用socket传输对数据AES和MD5加密夜语醉星辰 Python python
一、使用socket通信defclient_communication(data):#通信host="127.0.0.1"#服务器IP地址port=12345#服务器端口号#处理发送数据data=json.dumps(data)#将字典转换为json字符串data=encryption_AES(data)#加密数据try:client_socket=socket.socket(socket.AF_
盘点Python网页开发轻量级框架Flask知识傻啦嘿哟关于python那些事儿 python flask 开发语言
目录一、Flask框架概述二、核心组件1、WSGI服务器2、Jinja2模板引擎3、URL路由4、数据库集成三、应用场景博客平台内容管理系统（CMS）API开发四、优缺点优点：缺点：五、总结随着Web开发的日益普及，各种开发框架也层出不穷。其中，Python的Flask框架作为一种轻量级的Web开发工具，受到了广泛的欢迎。本文将对Flask框架进行深入的剖析，让您全面了解它的基本概念、核心组件、应
通过python实现发送钉钉个人工作通知白白不白zab pyhton python 钉钉开发语言
一、钉钉官方开放文档https://open.dingtalk.com/document/isvapp/before-you-start在开发前需要看一遍官方开放文档的相关内容，来避免一些奇奇怪怪的问题出现，比如新旧版接口域名变更，请求方式不同、调用频率限制、是否开放对应接口权限、白名单等等。二、开发前准备首先开发使用的账号需要有钉钉管理员权限在钉钉后台自建应用获取应用AGENT_ID,APP_K
vue 前端显示图片加token_手摸手，带你用vue撸后台系列二(登录权限篇) weixin_39562579 vue 前端显示图片加token vue本地存储 vue编辑页面和新增
完整项目地址：vue-element-adminhttps://github.com/PanJiaChen/vue-element-admin前言拖更有点严重，过了半个月才写了第二篇教程。无奈自己是一个业务猿，每天被我司的产品虐的死去活来，之前又病了一下休息了几天，大家见谅。进入正题，做后台项目区别于做其它的项目，权限验证与安全性是非常重要的，可以说是一个后台项目一开始就必须考虑和搭建的基础核心功
vs2019安装ironpython_选择并安装 Python 解释器 - Visual Studio | Microsoft Docs weixin_39861905
安装Python解释器InstallPythoninterpreters06/05/2019本文内容默认情况下，在VisualStudio2017和更高版本中安装Python开发工作负载也会同时安装Python3(64位)。Bydefault,installingthePythondevelopmentworkloadinVisualStudio2017andlateralsoinstallsPy
pex无人守护安装linux系统脚本 weixin_33800463
linux系统安装大体分为两个阶段1，anaconda阶段（anaconda程序借助linux内核和initrd文件实现），也称配置阶段在这个阶段是安装配置阶段，配置语言，键盘，等信息。同时boot提示符下能够向内核传递参数.2,安装阶段.安装前脚本配置安装软件包阶段安装后脚本配置...........................................................
Python打包和部署利器:Pex ivwdcwso 开发运维 python 开发语言开发
在Python项目开发中,如何高效地打包和部署代码一直是一个挑战。传统的方式需要在目标环境中预先安装所有依赖,非常繁琐。而Pex则为我们提供了一种更简单、更可靠的解决方案。一、Pex是什么?Pex的核心在于.pex文件,这是一种自包含的Python可执行环境。它类似于virtualenv,但更轻量、更易于部署。.pex文件包含了你的Python代码、依赖库以及运行所需的Python解释器(可选)。
Python Flask中集成SQLAlchemy和Flask-Login ivwdcwso 开发 flask python 后端 web 开发
在现代Web应用开发中,数据库和用户认证是两个非常重要的功能。Flask作为一个轻量级的PythonWeb框架,本身只提供了最基本的Web功能。但是,它可以通过集成各种优秀的扩展库来增强功能。本文将介绍如何在Flask应用中集成SQLAlchemy(数据库)和Flask-Login(用户认证),并提供一个完整的示例供参考。©ivwdcwso(ID:u012172506)准备工作安装Python确保
python程序发钉钉消息乌11111 python
参考：使用python通过接口方式发送钉钉消息分两步：1.在钉钉群---智能群助手里添加机器人，拿到webhook链接，设置关键词。2.写python代码，用requests请求接口的方式。参考代码和实现结果如下。#python发钉钉消息importjson,requestsdefsendDing(msg):dingding_url='https://oapi.dingtalk.com/robot
Python支持向量机（SVM）算法：面向对象的实现与案例详解闲人编程进阶算法案例支持向量机算法 python 深度学习数据分析
目录Python支持向量机（SVM）算法：面向对象的实现与案例详解引言一、支持向量机算法概述1.1支持向量机的基本思想1.2SVM的分类问题1.3SVM的优化目标二、面向对象的SVM实现2.1类的设计2.2Python代码实现2.3代码详解三、案例分析3.1案例一：鸢尾花分类问题描述数据准备模型训练与预测输出结果3.2案例二：手写数字识别问题描述数据准备模型训练与预测输出结果四、SVM的优化与核方
基于AT32(STM32)单片机的模块化代码之——按键代码模块化大白哦单片机 c语言案例项目开发
基于AT32(STM32)单片机的模块化代码之按键模块化1.环境介绍平台：AT32F415单片机，雅特力公司的AT32系列单片机其实跟STM32系列单片机大同小异，包括库函数等基本都是一样的，所以这款代码无论是AT32还是STM32都是适用的。开发环境：MDKV5forarm简介：最近做项目经常用得到按键模块，包括按键扫描，按键长按，短按，组合按的判定，所以特地把按键模块做了整理，让其模块化更加好
字符串算法笔记骑狗看夕阳算法笔记算法笔记
字符串笔记说到字符串，首先我们要注意的就是字符串的输入以及输出，因为字符串的输入格式以及要求也分为很多种，我们就来说几个比较常见的格式getsgetsgets我们先来说这个函数的含义ÿ
组会20220616 m0_61799349 研究生组会深度学习计算机视觉神经网络
安装、使用Ubuntu系统花费了一定的时间2.看结肠镜息肉检测的论文wang.改进DeepLabv3+网络的肠道息肉分割方法[J].计算机科学与探索.2020.14(7):1673-9418Jhaetal.,"ResUNet++:AnAdvancedArchitectureforMedicalImageSegmentation,"2019IEEEInternationalSymposiumonMu
Vue2.0+ElementUI实现查询条件展开和收起功能组件热忱1128 elementui 前端 javascript
一、需求el-form如果查询条件过多，影响页面的展示效果。查询条件表单是我们系统中非常常见的功能，我们需要把它封装成一个通用的组件，方便在系统开发中提升开发效率。除了在实现基本查询条件的功能上，还需要实现多条件的折叠和展开功能二、效果图三、代码示例封装查询条件表单组件SearchButton.vue查询重置{{word}}exportdefault{props:{showAll:{type:Bo
PEX: Python Executable魔力工具箱史艾岭
PEX:PythonExecutable魔力工具箱pexAtoolforgenerating.pex(PythonEXecutable)files,lockfilesandvenvs.项目地址:https://gitcode.com/gh_mirrors/pe/pex项目基础介绍及主要编程语言PEX（PythonEXecutable）是Pantsbuild团队维护的一个强大开源项目，致力于简化Py
U-Net 生物医学图像分割开源项目介绍祝珺月
U-Net生物医学图像分割开源项目介绍unetU-NetBiomedicalImageSegmentation项目地址:https://gitcode.com/gh_mirrors/une/unet1.项目基础介绍及主要编程语言U-Net是由IntelAI开发的一个生物医学图像分割的开源项目。该项目基于TensorFlow和Keras框架，使用Python语言编写，旨在为医学图像分析提供高效的解决
openbmc简介天地元黄 linux
openbmc简介OpenBMCIPMI简介OpenBMC软件架构OpenBMC在说OpenBMC之前，先说一下BMC（BaseboardManagerController，简称BMC），BMC应用了IPMI架构的智能性，是嵌入在计算机（通常是服务器）主板上的专用的微控制器。它是负责管理系统和管理软件与服务器平台硬件之间的一个接口。根据IPMI规范，BMC需要满足如下条件：具有IMPI命令;提供B
华为OD机试E卷 - 最大相连男生数/学生方阵（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python c语言 c++华为OD机试E卷 javascript
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述学校组织活动，将学生排成一个矩形方阵。请在矩形方阵中找到最大的位置相连的男生数量。这个相连位置在一个直线上，方向可以是水平的，垂直的，成对角线的或者呈反对角线的。注：学生个数不会超过10000输入描述输入的第一行为矩阵的行数和列数，接下来的n行为矩阵元素，元素间用”,”分隔。输出描述输出一个整数，表示矩阵中最长的位置相
运维平台的建设思考 congbao6525 运维
自己最近也在琢磨如何搭建出一个完善有效的运维平台，当然这个工作不是一朝一夕就能完成，前行的道路上肯定会有各种各样的困难和牵绊，但是自己还是能够学以致用，把一些重复性，繁琐性的工作都能解放出来，能够更加关注于更高的一个层级来看待整个系统。我把搭建运维平台的过程分成了5个阶段，当然纯粹是个人之见，难免有不足和改进之处，欢迎交流。第一个阶段，不同的人积累了一些的经验，可能会有针对一些功能的实现，比如脚本
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep

【毕业设计】python的搜索引擎系统设计与实现

文章目录

0 前言

1 课题简介

2 系统设计实现

2.1 总体设计

2.2 搜索关键流程

2.3 推荐算法

2.4 数据流的实现

3 实现细节

3.1 系统架构

3.2 爬取大量网页数据

3.3 中文分词

3.4 相关度排序

第1个排名算法：根据单词位置进行评分的函数

第2个排名算法：根据单词频度进行评价的函数

第3个排名算法：根据单词距离进行评价的函数

4 实现效果

4 最后

你可能感兴趣的:(毕业设计系列,计算机专业,算法,搜索引擎,python,毕业设计,搜索引擎系统)