chengg0769

Web搜索引擎设计和实现分析(转载)

原载: http://blog.gkong.com/more.asp?name=yiyix&id=17405

---- 一、引言

---- 对搜索引擎的概述省略。。。请见原文

---- 二、网络Spider的实现描述

---- 现在有很多文章对Web引擎做了大量的介绍和分析，但是很少有对它们的实现做一个详细的描述，这里我们主要来介绍一个具有基本功能的Web引擎的实现。本文，我们以类C 语言的形式来描述Web引擎如何采集网页并存放到数据库中的过程。同时描述了如何根据用户输入的关键字查询数据库并得到相关网页的过程。

---- 2.1数据库结构

---- 首先，我们要建立一个数据库表用来存放我们得到的网页。这里一般需要建立如下的表：

---- 1.字典表的建立，事实上这里是用文档中有意义的单词和它们的出现频率来代表一个文档。

---- 该表（WordDictionaryTbl）主要要包括三个字段，主要是用来存放和一个网页相关的单词的情况

url_id 对每一个URL的唯一的ID号
word 该URL中的经过stem的单词
intag 该单词在该网页中的出现的次数

---- 2.存储每一个URL信息的表

---- 该表(URLTbl)中主要的关键字段有：

rec_id 每一条记录的唯一的ID号
status 得到该URL内容的状态，比如HTTP_STATUS_TIMEOUT表示
下载网页的最大允许超时
url URL的字符串名称
content_type 内容的类型
last_modified 最新的更改时间
title 该URL的标题
docsize 该URL的文件的尺寸
last_index_time 最近一次索引的时间
next_index_time 下一次索引的时间
tag 对于网页，用来表示它的类型，比如：是text，或者是html，
或者是图片等等
hops 得到文件时候的曾经失败的次数
keywords 对于网页，和该网页相关的关键字
description 对于网页，指网页的内容的描述
lang 文档所使用的语言

---- 3.因为网页中有很多单词是一些介词和语气助词或者是非常常用的常用词，它们本身没有多少意义。比如：英语中的about,in,at,we,this等等。中文中的如"和"，"一起"，"关于"等等。我们统一的把它们称为停止词（stop word）。所以我们要建立一个表，来包括所有这些停止词。该表(StopWordTbl)主要有两个字段。
word char(32) 表示那些停止词
lang char(2) 表示所使用的语言

---- 4.我们要建立一个关于robot的表，我们在前面说过，所有的网站一般都有一个robot.txt文件用来表示网络上的robot可以访问的权限。该表(RobotTbl)主要有以下字段。
hostinfo Web站点主机的信息
path 不允许robot访问的目录

---- 5.建立我们需要屏蔽的那些网页(比如一些内容不健康的或者没有必要去搜索的站点)的一张表(ForbiddenWWWTbl)，主要的字段就是网页的URL。

---- 6.另外我们需要建立一个我们所要得到的文件类型的表(FileTypeTbl)，比如，对于一个简单的Web搜索引擎，我们可能只需要得到后缀为.html，htm，.shtml和txt的类型文件。其他的我们只是简单的忽略它们。主要的字段就是文件的类型和说明。

---- 其中关于停止词的表的内容是我们要实现要根据各种语言的统计结果，把那些意义不大的单词放进去。关于文档单词、URL和Robot的表的内容都是在获取Web网页的时候动态增加记录的。

---- 2.2 具体网页获取算法描述

---- 具体的网页的获取步骤是这样的：

---- 我们可以设定我们的搜索程序最大可以开的线程的数目，然后这些线程可以同时在网上进行搜索，它们根据数据库中已有的关于网页的信息，找出那些需要更新的网页（如何判断哪些网页需要更新是一个值得研究的过程，现在有很多启发式和智能的算法，基本上是基于统计规律进行建模。最简单的当然是设定一个时间范围，在某个时间范围以前的网页被重新去搜索一遍），然后判断那些网页是否在屏蔽表中，如果是的话，就从关于URL的表中删除该条记录。否则，我们就到相应的WWW站点去得到URL指定的文件(这里需要注意的是根据不同的URL的特点，需要使用不同的协议，比如对于FTP站点要采用FTP协议，对于HTTP站点要采用HTTP协议，新闻站点要采用NNTP协议等等)事实上，我们先得到关于该网页的头信息，如果该网页的最新修改时间和我们最近提取的时间是一样的话，表示该网页内容没有任何更新，则我们就不必去得到它的内容，只需要修改最近一次更新它的时间为当前的时间就可以了。如果该网页最近做了修改，我们就要得到该网页，并对它的内容进行分析，主要要包括和它相关的链接，把它们加到相应的数据库中，同时判断网页所包含的各种其他的文件，如文本文件、图形文件、声音文件和其他多媒体文件是否是我们所需要的文件，如果是的话，就把它加到我们响应的数据库中。同时要根据网页的内容提取所有的有意义的单词和它们的出现的次数，放到相应的数据库中。为了更好的描述这个过程，我们来看跟这个过程相关的主要的几个对象和数据结构。对象主要是针对三个层次来讲的。第一层是针对WWW服务器，第二层是针对每一个页面，第三层是针对每一个页面的全文的索引。

---- 2.3 和实现相关的主要类对象和功能描述下面的结构是针对一个站点来说的。

Class CServer {
主要的属性有：
char *url; //WWW站点的URL名称
char *proxy; //使用的代理的名称
char *basic_auth; //进行基本的HTTP认证
int proxy_port; //代理的端口号
int period; //再次索引的周期
int net_errors; //网络连接不通的次数
int max_net_errors; //可以允许的最大的网络错误
int read_timeout; //下载文件允许的最大的延迟
int maxhops; //表示URL可以最大跳转的深度
int userobots; //是否遵守robot.txt中的约定
int bodyweight; // 在< body >....< /body >之间的单词的权重
int titleweight; // 在< title >....< /title >之间的单词的权重
int urlweight; // 在文档的URL中的单词的权重
int descweight;//在 < META
NAME="Description" Content="..." >之间单词的权重
int keywordweight; //在< META NAME="Keywords" Content="..." >
之间的单词的权重

---- 主要方法有：
FindServer();//用来查找该服务器是否存在并可以连接
FillDefaultAttribute() //用来针对所有的WWW服务器填写默认的属}；

以上的对象中的成员变量是和一个站点相关的参数的设置，我们对所有的站点有一个默认的设置，但是可以对某些站点做一些特殊的设置。这些设置可以在配置文件中设定。
---- 下面是关于文档的结构的主要的数据成员：

Class CNetDocument
主要属性有：
int url_id; //该URL的ID号
int status; //获取该文档时候的状态
int size; //文档的尺寸
int tag; //和该文档相关的标签，表示该文档是
HTML，TEXT或者是其他类型
int hops; //URL跳转的次数
char *url; //和该文档相关的URL的名称
char *content_type; //该内容的类型
char *last_modified; //最近一次的更新时间
char *title; //该文档的标题
char *last_index_time; //上次索引的时间
char *next_index_time; //下次索引的时间
char *keywords; //该文档中的关键字
char *description; //该文档的描述

主要方法有：
FillDocInfo(…) //根据数据库，得到该文档相关信息
AddHerf(…) //加入网页中存在的新的链接的网址
DeleteURL(…) //删除一个存在的网址
CanGetThisURL(…) //根据配置决定是否去得到该网页
//下面三个方法是根据不同的URL，用不同的协议去获得文档
NNTPGet(…)
FTPGet(….)
HTTPGet(….)
ParseHead(…) //如果是HTTP协议得到的话，分析头信息
ParseMainBody(…) //对获得的文档的主体进行分析
ServerResponseType (….) //得到服务器端的响应消息
UpdateURLDB(….) //更新的数据入库
} ；

---- 事实上，我们在要提取一个网页的时候，都要建立一个CNetDocument对象，然后再对这个网页进行分析的时候，把相关的内容放到这个CNetDocument的成员变量里面。下面是关于页面全文索引的结构的主要数据成员：
Class CIndexer {
主要属性有：
char *url; //我们要处理的文档相关的URL的名称
int mwords; // 我们事先设定的一个网页的最大的单词数目
int nwords; // 实际的得到的单词的数目
int swords; // 我们已经排序的单词的数目
WORD *Word; //所有单词的内容
char *buf; //我们为文档所分配的空间
主要方法有：
InitIndexer(…) //进行初始设置和分配
ParseGetFile(…) //对得到的网页进行全文索引
AddWord(…) //把网页的可以索引的单词加到Word数组中去
InToDB(….) //关于网页全文索引的信息入库
}；

---- 进行网页提取前，我们要建立一个CIndexer对象，它主要是用来对网页进行全文的索引。一般来说我们只对两种类型的URL进行全文索引，一个是text/html，另外一个是text/plain。其中WORD的数据结构如下：
typedef struct word_struct {
int count; //该单词出现的次数
int code; //该单词的正常的形式，
比如单词可能为 encouraging,它的正常的形式应该为
encourage,这其实是一种对单词的stem。
即我们只取单词的主干部分。
char *word; //该单词的内容
} WORD;

---- 以下的结构是和网页中的一些链接的对象相关的一个数据结构
typedef struct href_struct {
char *href; //该链接的名称
int hops; //发生的跳转次数
int stored; //是否已经存储到数据库中
} HREF;

---- 所有需要更新的和新产生的URL都被放到这个结构中，当它的数量超过一定的范围以后，被一次性的存入数据库。
---- 关于URL的一个数据结构如下：

typedef struct url {
char *schema; //表示该URL是通过什么协议得到的，比如HTTP，
FTP，NNTP等。
char *specific; //主机的名称加上路径
char *hostinfo; //主机的名称加上相关的协议端口
char *hostname; //主机的名称
char *path; //在主机的具体的路径
char *filename; //文件的名称
char *anchor; //相关的anchor
int port; //协议相关的端口
} URL;

---- 这是针对URL的一些相关的属性的描述的一个数据结构。事实上在数据库中，我们存储的只是对网页的描述和对一些文本和HTML页面的关键词的索引信息。我们并不存储网页的实际的内容。
---- 三、用户查询实现描述

---- 关于对用户提交的查询请求的实现分析：

---- 用户想要查询某一方面的信息一般都是通过提供和该领域相关的几个关键字来进行的。

---- 我们来看一下关于用户查询的相关的数据结构和类：

---- 下面是一个关于单词和它的权值的基本结构：

typedef struct word_weight_pair
{
char word[WORD_LEN];
int weight;
}word_weight_pair;

---- 下面的类主要是用来对用户的查询进行处理和分析：
Class CUserQuery
{
char m_UserQuery[MAX_QUERYLEN]; //用户的查询表达式
CPtrArray word_weight_col;
//是关于结构word_weight_pair的动态数组
int m_maxReturnSum; //用户希望返回的最多的网页数
int search_mode;
CObArray m_returnDoc; //是关于CNetDocument对象的一个动态数组
NormalizeWord（char* OneWord）; //对单词进行归整化，即Stem.
Find(char* odbcName); //进行数据库查找和匹配
}；

---- 系统实现的基本的步骤如下：

---- 1.对用户输入的查询表达式进行分析。事实上，我们在前面的Spider搜索过程中对文档的表示是通过关键字形式描述的，每一个文档可以表示为这样的一个集合

其中 ::=< 单词或短语名称 >< 单词或短语的权值 >

---- 实际上就是采用矢量空间的表示方法来表示的文档。

---- 我们对用户输入的查询表达式也采用矢量空间的表示方法。我们认为用户输入的关键字的顺序代表了它的重要性的程度，所以对于位置靠前的单词有相对比较高的优先级，同时我们对所有的内容以短语或者是单词为最小原子，进行Stem操作，即象前面所提到的：比如单词Encouraging就转化成Encourage的格式。然后去掉那些Stop Word，比如is ,as等等的单词，这些单词存放在StopWordTbl表中。然后把所有归整化后的内容放入动态数组word_weight_col中去。

---- 2.对于动态数组word_weight_col中的每一个元素，即结构word_weight_pair（包括单词和该单词的权重），我们从表WordDictionaryTbl中可以找到和这些单词相关的记录，这些记录应该是包括了所有的在word_weight_col中的单词。

---- 进行网页是否和查询相匹配的计算。匹配计算的过程如下：首先我们对所有的记录按URL地址进行排序。因为可能好几条记录对应的是一个URL，然后对每一个网页进行打分，每一条记录的单词权值为INITSCORE*WEIGHT （TOTALTIMES-1）*WEIGHT* INCREMENT。其中INITSCORE为每一个单词的基准分数，TOTALTIMES为该单词在网页中的出现的次数，WEIGHT是该单词在不同的内容段出现有不同的权值（比如在KEYWORD段，或者是标题段，或者是内容段等等）。INCREMENT是该单词每多出现一次所增加的分数。

---- 3.根据用户指定的m_maxReturnSum，显示匹配程度最高的前m_maxReturnSum页。

---- 四、结束语

---- 我们利用上面所讨论的机制，在WINDOWS NT操作系统下，用VC 和SQL SERVER实现了一个Web搜索引擎的网页搜集过程。在建立了一个基本的搜索引擎的框架以后，我们可以基于这个框架，实现一些我们自己设计的算法，比如如何更好的进行Spider的调度，如何更好的进行文档的归类，如何更好的理解用户的查询，用来使Web搜索引擎具有更好的智能性和个性化的特点。

wxauto调用文档（适用微信版本v3.9.×.×） Leuanghing 微信 python wxauto WeChat
wxauto调用文档（适用微信版本v3.9.×.×）一、版本对比二、安装wxauto三、使用文档1、获取所有好友详情信息`wx.GetFriendDetails`2、获取聊天对象名和新消息条数（还未跑通）`wx.GetSessionAmont`3、是否有新消息`wx.CheckNewMessage`4、获取下一个新消息`wx.GetNextNewMessage`5、获取所有新消息`wx.GetAl
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
ESP8266 与 ARM7 接口-LPC2148 创建 Web 服务器以控制 LED David WangYang ESP8266项目服务器运维
ESP8266与ARM7接口-LPC2148创建Web服务器以控制LEDESP8266Wi-Fi收发器提供了一种将微控制器连接到网络的方法。它被广泛用于物联网项目，因为它便宜、体积小且易于使用。在本教程中，我们将ESP8266Wi-Fi模块与ARM7-LPC2148微控制器连接，并创建一个Web服务器来控制连接到LPC2148的LED。工作流程将如下所示：从LPC2148向ESP8266发送AT命
Ada语言的数据结构与算法尤宸翎包罗万象 golang 开发语言后端
Ada语言的数据结构与算法引言在计算机科学的领域里，数据结构与算法是核心的组成部分，围绕着如何高效地存储和处理数据。这些概念不仅是程序设计的重要基础，也是提高程序性能的关键。Ada是一种强类型、结构化的编程语言，早在20世纪80年代就被设计用于军用和实时系统。由于其高可靠性和可维护性，Ada逐渐在航空航天、军事和其他需要高安全性的领域获得了广泛应用。本文将探讨Ada语言中的数据结构和算法，包括常见
2025年毕设ssm校园二手交易平台论文+源码锦程学长--毕设程序课程设计
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于校园二手交易平台的研究，现有成果多集中于社会综合型平台（如闲鱼、转转）的商业模式分析，或理论层面的共享经济模型探讨，而针对高校场景特殊性（如用户密度高、交易标的额小、社交属性强）的垂直型平台研究存在明显缺口。当前高校内二手交易多依赖社群、论坛等分散渠道，存在信息不对称、交易
SvelteKit 最新中文文档教程（6）—— 状态管理
前言Svelte，一个语法简洁、入门容易，面向未来的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目。为了帮助大家学习Svelte，我同时搭建了Svelte最新的中文文档站点。如果需要进阶学习，也可以入手我
pandas 读取某一单元格的值_07-Pandas Excel新建/读取/填充（一）扇贝编程 pandas 读取某一单元格的值
Excel是微软的经典之作，几乎可以满足我们日常工作的所有需求，但是在处理海量数据时，Excel在效率及性能方面就显得很吃力。正因为Pandas在数据处理方面有着独特的优势，所有掌握pandas库处理excel格式的数据就显得十分必要。目录excel文档新建读取excel文档行列操作空值自动填充行列函数运算excel数据排序excel数据按条件筛选#1.创建excel文件在jupyter中导入pa
初探 Threejs 物理引擎CANNON，解锁 3D 动态魅力伶俜Monster Threejs webgl 前端 3d threejs cannon.js
简介Cannon.js是一个基于JavaScript的物理引擎，它可以在浏览器中模拟物理效果。它支持碰撞检测、刚体动力学、约束等物理效果，可以用于创建逼真的物理场景和交互。参考文档官方示例原理Cannon.js使用了欧拉角来表示物体的旋转，而不是四元数。这使得它在处理旋转时更加直观和易于理解。Cannon.js还支持多种碰撞检测算法，包括离散碰撞检测和连续碰撞检测。Cannon.js还支持多种约束
软件设计师之树与二叉树：非线性数据结构的深度探索一杯年华@编程空间软考中级数据结构
软件设计师之树与二叉树：非线性数据结构的深度探索在软件开发领域，数据结构是程序设计的核心基础，其中树和二叉树作为重要的非线性数据结构，在众多场景中都有着广泛应用。我写这篇博客，就是希望和大家一起学习进步，深入解析树和二叉树的相关知识，用通俗易懂的语言结合图表和Java代码示例进行讲解，帮助大家更好地掌握这些内容。一、树的定义与基本概念树的定义树是由n（n≥0）个结点组成的有限集合。当n=0时，为空
ngx_url_t 若云止水 linux 运维服务器
定义在src/core/ngx_inet.htypedefstruct{ngx_str_turl;ngx_str_thost;ngx_str_tport_text;ngx_str_turi;in_port_tport;in_port_tdefault_port;in_port_tlast_port;intfamily;unsignedlisten:1;unsigneduri_part:1;unsi
Python 的 ORM（Object-Relational Mapping）工具浅讲 Code_Geo python 开发语言
SQLAlchemy相关讲解1.SQLAlchemy是什么？定义：一个Python的ORM（Object-RelationalMapping）工具，允许开发者通过Python类与对象操作数据库，而非直接编写SQL。核心组件：Core：底层SQL表达式语言，提供数据库无关的SQL操作接口。ORM：基于Core的高层抽象，将数据库表映射为Python类（模型），记录映射为对象。适用场景：需要灵活操作数
#Python 项目：实现功能——使用钉钉“自定义”机器人在群中发送文字消息 Window Unlock 钉钉 python 机器人
（目前还是新手，程序难免有废话代码，请大家耐心看__比心）第一步：创建群聊机器人，参考官方手册官方链接：自定义机器人的创建和安装-钉钉开放平台此步骤可以得到两个关键参数：Webhook（机器人的通信网址）：https://oapi.dingtalk.com/robot/send?############（如这样）secret（加签未解密密钥）：SECe2######################
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
http框架核心之ngx_http.c源码分析 qiuhui00 nginx源码分析 nginx 源码分析 http框架
ngx_http.c内主要实现了一个模块:ngx_http_module。ngx_http_module是nginx的http框架的一部分，它是所有http模块能够被加载的唯一入口，承担了http块配置解析，合并，以及http框架及其相关数据结构的初始化。它本身是NGX_CORE_MODULE类型，只有一个指令，就是http，如下所示:staticngx_command_tngx_http_com
Hyperlane：Rust 生态中的轻量级高性能 HTTP 服务器库，助力现代 Web 开发 LTPP rust http 服务器开发语言后端前端面试
Hyperlane：Rust生态中的轻量级高性能HTTP服务器库，助力现代Web开发在Rust生态系统中，Hyperlane是一个备受关注的HTTP服务器库，以其轻量级、高性能和易用性脱颖而出。无论你是想快速构建一个高效的Web服务，还是需要支持实时通信的现代应用，Hyperlane都能成为你的理想选择。它不仅简化了网络服务的开发，还提供了强大的功能支持，如HTTP请求解析、响应构建、TCP通信，
Java数据类型 Arrays VS ArraysList VS LikedList 解析 fantasy_4 Java java
在学习Java过程中，在刷题时总是搞不清楚这三种数据结构的区别，打算写篇文章记录一下ArraysVSArrayListArrayListVSLinkedList总结ArraysVSArrayListArraysArrayList类型Java的基本数据类型Java集合框架中的一个类，实现了List接口存储内容基本数据类型+对象引用对象引用可变性数组长度创建后不可变长度可变适用场景查询元素会比较快，直
信创系统安全优化与持续改进策略有哪些？ weixin_37579147 系统安全安全
信创系统（信息技术应用创新系统）的安全优化与持续改进是保障国产化技术生态安全可靠运行的关键。以下从技术、管理、组织等多个维度提出系统性策略，并结合实际场景展开说明：一、技术层面的安全优化策略1.核心组件安全加固国产化组件漏洞管理：建立针对国产操作系统（如统信UOS、麒麟）、数据库（达梦、OceanBase）的漏洞扫描与修复机制，联合厂商建立漏洞情报共享平台。硬件层可信计算：采用基于国产芯片（如鲲鹏
Pandas完全指南：数据处理与分析从入门到实战 xiaoyu❅ python python pandas 开发语言
目录引言一、Pandas环境配置与核心概念1.1安装Pandas1.2导入惯例1.3核心数据结构二、数据结构详解2.1Series创建与操作2.2DataFrame创建三、数据查看与基本操作3.1数据预览3.2索引与选择3.3数据排序四、数据清洗实战4.1处理缺失值4.2处理重复值4.3数据类型转换4.4字符串处理五、数据处理进阶5.1数据筛选5.2列操作5.3应用函数六、数据分组与聚合6.1基础
【前端】面试八股文——输入URL到页面展示的过程帅比九日面试八股文前端面试 javascript
【前端】面试八股文——输入URL到页面展示的过程1.DNS解析当用户在浏览器中输入URL并按下回车时，首先需要将域名转换为IP地址，这个过程称为DNS（域名系统）解析。具体步骤如下：浏览器缓存：浏览器首先检查自身缓存中是否有该域名的IP地址。操作系统缓存：如果浏览器缓存中没有找到，浏览器会向操作系统请求DNS信息。路由器缓存：如果操作系统缓存也没有找到，操作系统会向本地网络中的路由器请求DNS信息
信息收集综合只不过是胆小鬼罢了信息收集 php web安全安全
1《应用服务器资产分析与角色定性详解》在网络安全领域，对应用服务器的资产分析与角色定性是至关重要的工作。通过对服务器的操作系统、IP资产、端口资产等方面进行详细分析，可以更好地了解服务器的特性与用途，从而为网络安全防护提供有力支持。本文将从多个维度深入探讨应用服务器的资产分析与角色定性方法。一、操作系统分析1.Web大小写敏感性在分析应用服务器的操作系统时，Web大小写敏感性是一个重要的参考因素。
从关键词到权重：TF-IDF算法解析多巴胺与内啡肽. 机器学习 tf-idf 算法机器学习
文章目录前言一、TF-IDF：关键词的“价值”评估师二、TF-IDF的计算：拆解关键词的“价值”三、TF-IDF的应用：从搜索引擎到文本挖掘四、代码实现：从《红楼梦》中提取核心关键词1、分卷处理1.1代码功能1.2代码实现1.2.1、读取文件1.2.2逐行处理1.2.3.关闭文件2、分词与停用词过滤2.1代码功能2.2代码实现2.2.1读取分卷内容构建DataFrame：2.2.2分词与停用词过滤
NL2SQL 优化之 Schema 编写标准 kakaZhui oracle 数据库 AIGC python llama chatgpt
写在前面在自然语言转SQL（NL2SQL，或Text-to-SQL）任务中，数据库Schema的质量和表示方式对模型的性能有着至关重要的影响。一个清晰、规范、易于理解的Schema能够帮助模型更好地理解数据库结构，从而生成更准确的SQL查询。相反，一个混乱、不规范的Schema会增加模型的理解难度，导致生成的SQL查询错误百出。本文将深入探讨NL2SQL任务中Schema的编写标准，详细介绍如何为
weixin049校园外卖平台设计与实现+ssm(文档+源码)_kaic 开心毕设kaic_kaic 模拟退火算法散列表随机森林支持向量机启发式算法逻辑回归
校园外卖平台设计与实现摘要随着信息技术在管理上越来越深入而广泛的应用，管理信息系统的实施在技术上已逐步成熟。本文介绍了校园外卖平台的开发全过程。通过分析校园外卖平台管理的不足，创建了一个计算机管理校园外卖平台的方案。文章介绍了校园外卖平台的系统分析部分，包括可行性分析等，系统设计部分主要介绍了系统功能设计和数据库设计。本校园外卖平台有管理员，用户，商家。管理员功能有个人中心，用户管理，商家管理，菜
【八股文】从浏览器输入一个url到服务器的流程白衣神棍八股文 web
1.url解析与DNS解析浏览器解析用户输入的URL，提取协议（HTTP\HTTPS）、域名、端口及路径等信息浏览器首先检查本地DNS缓存和系统DNS缓存，若未命中，查询本地hosts文件最后递归查询向本地DNS服务器发起请求，获取域名对应的IP地址这里我想插入一段，讲讲本地DNS缓存、系统DNS缓存、Hosts文件、DNS服务器几者之间的关系首先，不要觉得很复杂，其实本质就是为了根据域名拿IP地
自己总结的谷歌黑客语法，非常好用（野战必备）网络安全指导员网络安全黑客程序员 web安全安全网络学习 php
常用：site:gov.cninurl:.login.asp(z政府网站后台)inurl:gov.cn/admin（百度就可以）inurl:gitlab公司filetype:txtinurl:gitlab公司intext:账号site:*.gitee.comintext:账号（ftp://*:*密码地址）site:*.gitee.comfiletype:txt账号（ftp://*:*密码地址）si
2025年计算机毕业设计springboot 智慧社区管理系统 zhihao503 课程设计 spring boot 后端
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于智慧社区管理系统的研究，现有成果多聚焦于单一功能模块的数字化（如物业缴费或门禁系统），缺乏对多场景服务整合与用户体验优化的系统性研究。国外研究侧重物联网技术应用（如新加坡“智慧国”计划中的社区传感器网络），而国内研究更多关注管理平台的基础框架设计，但针对业主、物业、设备多方
【C++】：位图（bitset） -元清- 重制C++版 c++开发语言 c语言数据结构算法
目录位图的概念位图的应用场景位图的构造函数位图的使用位图的概念位图（Bitmap）是一种基于二进制位（bit）的高效数据结构，用于表示一组布尔值（存在或不存在、真或假）。它的核心思想是：用每一个二进制位（0或1）来标记某个状态或资源是否被占用。第i位为1→表示第i个元素存在/被占用。第i位为0→表示第i个元素不存在/未被占用。关键特性：内存高效：每个布尔值仅占用1个二进制位（bit），而非传统布尔
MyBatisPlus 代码生成器如何使用？一篇文章学会它！！！程序猿ZhangSir Java 数据库 #MyBatis java spring 数据库
目录一.MP代码生成器简介二.准备工作2.1建立数据库和表2.1创建项目三.编写工具类3.1创建类3.2定义数据库连接变量3.3定义单表代码生成函数3.4扩展为任意表自动生成代码四.测试代码生成器4.1测试单表生成model方法一.MP代码生成器简介代码生成器是MyBatis-Plus提供的一个非常实用的功能，可以快速生成Entity、Mapper、MapperXML、Service、Contro
MyBatis-Plus分页查询IPage的使用方法，如何自定义分页查询功能？程序猿ZhangSir Spring全家桶微服务 #MyBatis mybatis 开发语言
目录1.MyBatis-Plus分页插件介绍2.准备工作-创建项目配置环境2.1创建数据库表Product商品表2.2创建Maven项目，创建包，接口，类2.3添加MyBatisPlus依赖和Lombok插件2.4编写Configuration分页插件配置文件2.5编写application.properties配置文件2.6实体类代码，接口代码3.IPage分页的使用方式4.自定义分页查询5.Q
Linux虚拟机安装Redis lllsure Redis linux 运维服务器 redis
1.前提准备安装好虚拟机，这里使用Centos7演示；安装好Xshell，Xftp，一个用来远程登录虚拟机，一个用来远程传输文件。Xshell，Xftp下载地址：家庭/学校免费-NetSarangWebsiteRedis源码包，下载地址：Indexof/releases/2.将安装包通过Xftp传到虚拟机上并解压解压指令：tar-zxvfredis-6.2.6.tar.gz3.引入gcc依赖因为R
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

Web搜索引擎设计和实现分析(转载)

你可能感兴趣的:(搜索引擎,web,url,文档,数据库,数据结构)