技术武器库

SparkCore系列-7、SougoQ日志分析

传送门：大数据系列文章目录

官方网址：http://spark.apache.org/、https://databricks.com/spark/about

回顾

上篇文章我们对RDD的缓存和Checkpoint进行了介绍，同时还列举了一些例子来讲解，想了解的通过传送门可以去看下。

介绍

使用搜狗实验室提供【用户查询日志(SogouQ)】数据，使用Spark框架，将数据封装到RDD中进行业务数据处理分析。数据网址： http://www.sogou.com/labs/resource/q.php

1）数据介绍

搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。

2）数据格式

访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL

用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值，即同一次使用浏览器输入的不同查询对应同一个用户ID

3）数据下载：分为三个数据集，大小不一样

迷你版(样例数据, 376KB)： http://download.labs.sogou.com/dl/sogoulabdown/SogouQ/SogouQ.mini.zip
精简版(1天数据， 63MB)： http://download.labs.sogou.com/dl/sogoulabdown/SogouQ/SogouQ.reduced.zip
完整版(1.9GB)： http://www.sogou.com/labs/resource/ftp.php?dir=/Data/SogouQ/SogouQ.zip

业务需求

针对SougoQ用户查询日志数据中不同字段，不同业务进行统计分析：

使用SparkContext读取日志数据，封装到RDD数据集中，调用Transformation函数和Action函数处理分析，灵活掌握Scala语言编程。

准备工作

在编程实现业务功能之前，首先考虑如何对【查询词】进行中文分词及将日志数据解析封装。

HanLP 中文分词

使用比较流行好用中文分词： HanLP，面向生产环境的自然语言处理工具包， HanLP 是由一系列模型与算法组成的 Java 工具包，目标是普及自然语言处理在生产环境中的应用。
官方网站： http://www.hanlp.com/，添加Maven依赖

<!-- https://mvnrepository.com/artifact/com.hankcs/hanlp -->
<dependency>
	<groupId>com.hankcs</groupId>
	<artifactId>hanlp</artifactId>
	<version>portable-1.7.7</version>
</dependency>

演示范例： HanLP 入门案例，基本使用

import java.util
import com.hankcs.hanlp.HanLP
import com.hankcs.hanlp.seg.common.Term
import com.hankcs.hanlp.tokenizer.StandardTokenizer
import scala.collection.JavaConverters._
/**
* HanLP 入门案例，基本使用
*/
object HanLPTest {
def main(args: Array[String]): Unit = {
// 入门Demo
val terms: util.List[Term] = HanLP.segment("杰克奥特曼全集视频")
println(terms)
println(terms.asScala.map(_.word.trim))
// 标准分词
val terms1: util.List[Term] = StandardTokenizer.segment("放假++端午++重阳")
println(terms1.asScala.map(_.word.replaceAll("\\s+", "")))
}
}

样例类 SogouRecord

将每行日志数据封装到CaseClass样例类SogouRecord中，方便后续处理：

/**
* 用户搜索点击网页记录Record
* @param queryTime 访问时间，格式为： HH:mm:ss
* @param userId 用户ID
* @param queryWords 查询词
* @param resultRank 该URL在返回结果中的排名
* @param clickRank 用户点击的顺序号
* @param clickUrl 用户点击的URL
*/
case class SogouRecord(
queryTime: String, //
userId: String, //
queryWords: String, //
resultRank: Int, //
clickRank: Int, //
clickUrl: String //
)

业务实现

先读取数据，封装到SougoRecord类中，再按照业务处理数据。

读取数据

构建SparkContext实例对象，读取本次SogouQ.sample数据，封装到SougoRecord中。

// TODO: 1. 本地读取SogouQ用户查询日志数据
//val rawLogsRDD: RDD[String] = sc.textFile("datas/sogou/SogouQ.sample")
val rawLogsRDD: RDD[String] = sc.textFile("datas/sogou/SogouQ.reduced")
//println(s"Count = ${rawLogsRDD.count()}")
// TODO: 2. 解析数据，封装到CaseClass样例类中
val recordsRDD: RDD[SogouRecord] = rawLogsRDD
// 过滤不合法数据，如null，分割后长度不等于6
.filter(log => null != log && log.trim.split("\\s+").length == 6)
// 对每个分区中数据进行解析，封装到SogouRecord
.mapPartitions{iter =>
	iter.map{log =>
		val arr: Array[String] = log.trim.split("\\s+")
		SogouRecord(
			arr(0), arr(1), arr(2).replaceAll("\\[|\\]", ""), //
			arr(3).toInt, arr(4).toInt, arr(5) //
			)
    	}
	}
println(s"Count = ${recordsRDD.count()}, First = ${recordsRDD.first()}")

搜索关键词统计

获取用户【查询词】，使用HanLP进行分词，按照单词分组聚合统计出现次数，类似WordCount程序，具体代码如下：

// =================== 3.1 搜索关键词统计 ===================
// a. 获取搜索词，进行中文分词
val wordsRDD: RDD[String] = recordsRDD.mapPartitions{iter =>
iter.flatMap{record =>
// 使用HanLP中文分词库进行分词
val terms: util.List[Term] = HanLP.segment(record.queryWords.trim)
// 将Java中集合对转换为Scala中集合对象
import scala.collection.JavaConverters._
terms.asScala.map(term => term.word)
}
}
//println(s"Count = ${wordsRDD.count()}, Example = ${wordsRDD.take(5).mkString(",")}")
// b. 统计搜索词出现次数，获取次数最多Top10
val top10SearchWords: Array[(Int, String)] = wordsRDD
.map(word => (word, 1)) // 每个单词出现一次
.reduceByKey((tmp, item) => tmp + item) // 分组统计次数
.map(tuple => tuple.swap)
.sortByKey(ascending = false) // 词频降序排序
.take(10) // 获取前10个搜索词
top10SearchWords.foreach(println)

运行结果如下，仅仅显示搜索最多关键词，其中需要过滤谓词：

用户搜索点击统计

统计出每个用户每个搜索词点击网页的次数，可以作为搜索引擎搜索效果评价指标。先按照用户ID分组，再按照【查询词】分组，最后统计次数，求取最大次数、最小次数及平均次数。

// =================== 3.2 用户搜索点击次数统计 ===================
/*
每个用户在搜索引擎输入关键词以后，统计点击网页数目，反应搜索引擎准确度
先按照用户ID分组，再按照搜索词分组，统计出每个用户每个搜索词点击网页个数
*/
val clickCountRDD: RDD[((String, String), Int)] = recordsRDD
.map{record =>
// 获取用户ID和搜索词
val key = record.userId -> record.queryWords
(key, 1)
}
// 按照用户ID和搜索词组合的Key分组聚合
.reduceByKey((tmp, item) => tmp + item)
clickCountRDD
.sortBy(tuple => tuple._2, ascending = false)
.take(10).foreach(println)
println(s"Max Click Count = ${clickCountRDD.map(_._2).max()}")
println(s"Min Click Count = ${clickCountRDD.map(_._2).min()}")
println(s"Avg Click Count = ${clickCountRDD.map(_._2).mean()}")

程序运行结果如下：

搜索时间段统计

按照【访问时间】字段获取【小时】，分组统计各个小时段用户查询搜索的数量，进一步观察用户喜欢在哪些时间段上网，使用搜狗引擎搜索，代码如下：

// =================== 3.3 搜索时间段统计 ===================
/*
从搜索时间字段获取小时，统计个小时搜索次数
*/
val hourSearchRDD: RDD[(String, Int)] = recordsRDD
// 提取小时
.map{record =>
// 03:12:50
record.queryTime.substring(0, 2)
}
// 分组聚合
.map(word => (word, 1)) // 每个单词出现一次
.reduceByKey((tmp, item) => tmp + item) // 分组统计次数
.sortBy(tuple => tuple._2, ascending = false)
hourSearchRDD.foreach(println)

程序运行结果如下：

完整代码

业务实现完整代码SogouQueryAnalysis如下所示：

import java.util
import com.lee.model.SougoRecord
import com.hankcs.hanlp.HanLP
import com.hankcs.hanlp.seg.common.Term
import org.apache.spark.rdd.RDD
import org.apache.spark.storage.StorageLevel
import org.apache.spark.{SparkConf, SparkContext}
/**
 * 用户查询日志(SogouQ)分析，数据来源Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合。
 * 1. 搜索关键词统计，使用HanLP中文分词
 * 2. 用户搜索次数统计
 * 3. 搜索时间段统计
 * 数据格式：
 * 访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL
 * 其中，用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值，即同一次使用浏览器输入的不同查询对
应同一个用户ID
 */
object SogouQueryAnalysis {
  def main(args: Array[String]): Unit = {
    // 构建SparkContext上下文实例对象
    val sc: SparkContext = {
      // a. 创建SparkConf对象，设置应用配置信息
      val sparkConf = new SparkConf()
        .setMaster("local[2]")
        .setAppName(this.getClass.getSimpleName.stripSuffix("$"))
      // b. 创建SparkContext, 有就获取，没有就创建，建议使用
      val context = SparkContext.getOrCreate(sparkConf)
      // c. 返回对象
      context
    }
    sc.setLogLevel("WARN")
    // TODO: 1. 本地读取SogouQ用户查询日志数据
    //val rawLogsRDD: RDD[String] = sc.textFile("datas/sogou/SogouQ.sample")
    val rawLogsRDD: RDD[String] = sc.textFile("datas/sogou/SogouQ.reduced")
    //println(s"Count = ${rawLogsRDD.count()}")
    // TODO: 2. 解析数据，封装到CaseClass样例类中
    val recordsRDD: RDD[SougoRecord] = rawLogsRDD
      // 过滤不合法数据，如null，分割后长度不等于6
      .filter(log => null != log && log.trim.split("\\s+").length == 6)
      // 对每个分区中数据进行解析，封装到SogouRecord
      .mapPartitions{iter =>
        iter.map{log =>
          val arr: Array[String] = log.trim.split("\\s+")
          SougoRecord(
            arr(0), arr(1), arr(2).replaceAll("\\[|\\]", ""), //
            arr(3).toInt, arr(4).toInt, arr(5) //
          )
        }
      }
    println(s"Count = ${recordsRDD.count()}, First = ${recordsRDD.first()}")
    // 数据使用多次，进行缓存操作，使用count触发
    recordsRDD.persist(StorageLevel.MEMORY_AND_DISK).count()
    // TODO: 3. 依据需求统计分析
    /*
    1. 搜索关键词统计，使用HanLP中文分词
    2. 用户搜索次数统计
    3. 搜索时间段统计
    */
    // =================== 3.1 搜索关键词统计 ===================
    // a. 获取搜索词，进行中文分词
    val wordsRDD: RDD[String] = recordsRDD.mapPartitions{iter =>
      iter.flatMap{record =>
        val terms: util.List[Term] = HanLP.segment(record.queryWords.trim)
        import scala.collection.JavaConverters._
        terms.asScala.map(term => term.word)
      }
    }
    //println(s"Count = ${wordsRDD.count()}, Example = ${wordsRDD.take(5).mkString(",")}")
    // b. 统计搜索词出现次数，获取次数最多Top10
    val top10SearchWords: Array[(Int, String)] = wordsRDD
      .map(word => (word, 1)) // 每个单词出现一次
      .reduceByKey((tmp, item) => tmp + item) // 分组统计次数
      .map(tuple => tuple.swap)
      .sortByKey(ascending = false) // 词频降序排序
      .take(10) // 获取前10个搜索词
    top10SearchWords.foreach(println)
    // =================== 3.2 用户搜索点击次数统计 ===================
    /*
    每个用户在搜索引擎输入关键词以后，统计点击网页数目，反应搜索引擎准确度
    先按照用户ID分组，再按照搜索词分组，统计出每个用户每个搜索词点击网页个数
    */
    val clickCountRDD: RDD[((String, String), Int)] = recordsRDD
      .map{record =>
        // 获取用户ID和搜索词
        val key = record.userId -> record.queryWords
        (key, 1)
      }
      // 按照用户ID和搜索词组合的Key分组聚合
      .reduceByKey((tmp, item) => tmp + item)
    clickCountRDD
      .sortBy(tuple => tuple._2, ascending = false)
      .take(10).foreach(println)
    println(s"Max Click Count = ${clickCountRDD.map(_._2).max()}")
    println(s"Min Click Count = ${clickCountRDD.map(_._2).min()}")
    println(s"Avg Click Count = ${clickCountRDD.map(_._2).mean()}")
    // =================== 3.3 搜索时间段统计 ===================
    /*
    从搜索时间字段获取小时，统计个小时搜索次数
    */
    val hourSearchRDD: RDD[(String, Int)] = recordsRDD
      // 提取小时
      .map{record =>
        // 03:12:50
        record.queryTime.substring(0, 2)
      }
      // 分组聚合
      .map(word => (word, 1)) // 每个单词出现一次
      .reduceByKey((tmp, item) => tmp + item)
      // 分组统计次数
      .sortBy(tuple => tuple._2, ascending = false)
    hourSearchRDD.foreach(println)
    // 释放缓存数据
    recordsRDD.unpersist()
    // 应用结束，关闭资源
    sc.stop()
  }
}

可以将程序打成jar包，运行在集群YARN上；此外可以将分析的结果存储到MySQL表中。

下回分解

咱们目前讲解读取数据都是本地读取，企业中一般都是从Mysql、Hbase、Hive中读取，下篇文章将讲解如何从外部数据源读写数据。

获取网站流量的方法有哪些？ liuliangpuzi 互联网流量运营数据搜索引擎百度大数据
不同流量源的比例反映了网站所有者不同的管理策略和网站的发展阶段。那么，网站流量来源都有哪些？接下来小编就跟大家浅析下网站流量来源的三大途径，一起来看看吧！1、直接访问来源搜索引擎源和外部链源依赖于外部，因此通常存在较大的不确定性，如搜索引擎算法调整、业务模型调整、策略监管等，这可能会使网站的流量从每天数十万IP急剧下降到数千。对于小型商业站来说，从搜索引擎获取流量是一种更经济实惠、廉价的选择，但对
文本纠错（Text Correction） dundunmm 人工智能数据挖掘文本纠错人工智能数据挖掘文本纠错深度学习
文本纠错（TextCorrection）是自然语言处理（NLP）中的一个重要任务，旨在自动检测并修正文本中的错误，包括拼写、语法、语义等层面的错误。其核心目标是通过算法模型将错误文本转换为符合语言规范的表达。该任务在自动写作辅助、搜索引擎优化、智能客服、教育等多个领域具有广泛应用。输入：包含错误的原始文本（如“我明天要去北京，希望天汽好。”）输出：修正后的规范文本（如“我明天要去北京，希望天气好。
从关键词到权重：TF-IDF算法解析多巴胺与内啡肽. 机器学习 tf-idf 算法机器学习
文章目录前言一、TF-IDF：关键词的“价值”评估师二、TF-IDF的计算：拆解关键词的“价值”三、TF-IDF的应用：从搜索引擎到文本挖掘四、代码实现：从《红楼梦》中提取核心关键词1、分卷处理1.1代码功能1.2代码实现1.2.1、读取文件1.2.2逐行处理1.2.3.关闭文件2、分词与停用词过滤2.1代码功能2.2代码实现2.2.1读取分卷内容构建DataFrame：2.2.2分词与停用词过滤
Spring Boot 整合 Elasticsearch 实践：从入门到上手遇见伯灵说 mysql Spring elasticsearch jenkins springboot
引言Elasticsearch是一个开源的分布式搜索引擎，广泛用于日志分析、搜索引擎、数据分析等场景。本文将带你通过一步步的教程，在SpringBoot项目中整合Elasticsearch，轻松实现数据存储与查询。1.创建SpringBoot项目首先，你需要创建一个SpringBoot项目。如果你还没有创建，可以使用SpringInitializr快速生成一个项目。在生成项目时，确保选择了以下依赖
autosar功能安全文档解析 dont__cry 安全
该文档是AUTOSAR汽车搜索引擎发布的关于AUTOSAR经典平台功能安全措施的概述，涵盖功能安全机制、措施、硬件诊断等内容，为汽车安全相关系统开发提供指导。1.**引言**-**范围**：涵盖功能安全机制、措施及硬件诊断等多方面内容，帮助理解AUTOSAR在功能安全方面的作用。-**目的**：总结AUTOSAR功能安全要点，指导相关系统开发人员利用其机制和措施，取代旧文档。-**目标受众**：主
第七章Solr：企业级搜索应用 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
第七章Solr：企业级搜索应用1.背景介绍1.1搜索引擎的重要性在当今信息时代,数据量呈指数级增长,海量数据中蕴含着极其宝贵的信息和知识。然而,如何快速、准确地从大数据中检索出所需的信息,一直是企业和组织面临的巨大挑战。传统的数据库查询方式已经无法满足现代搜索需求,因此高效的搜索引擎应运而生。1.2什么是SolrApacheSolr是一个高性能、可扩展、云就绪的企业级搜索平台,由Apache软件基
MySQL 与 Elasticsearch 联合查询墨瑾轩一起学学数据库【一】mysql elasticsearch adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，小伙伴们！今天我们要来聊聊MySQL与Elasticsearch如何携手合作，共同完成高效的联合查询和数据检索任务。MySQL是一款非常流行的数据库管理系统，而Elasticsearch则是一款基于Lucene的搜索引擎，擅长全文搜索和实时数据分析。两者结
大模型联网搜索组件 SearXNG 部署和使用「已注销」
SearXNG是一个免费的互联网元搜索引擎，它整合了来自超过70个搜索服务的结果。用户不会被跟踪或进行特征分析，很好地保护了用户隐私。2022年11月OpenAI发布ChatGPT后，大模型和知识库开始火爆，联网搜索成为弥补大模型知识陈旧的重要工具。提供元搜索功能的SearXNG开始被很多大模型应用比如ChatNio[1]采用，在大模型时代发挥了巨大作用。本文将介绍如何基于docker部署私人的S
信息收集之子域名收集，子域名爆破_dnsdumpster 2401_89829398 网络
「作者主页」：士别三日wyx「作者简介」：CSDNtop100、阿里云博客专家、华为云享专家、网络安全领域优质创作者「专栏简介」：此文章已录入专栏《网络安全快速入门》子域名收集一、域名爆破原理二、搜索引擎收集子域名三、第三方网站收集子域名1.VirusTotal2.DNSdumpster四、工具收集子域名子域名就是下一级域名的意思，比如map.baidu.com和image.baidu.com就是
添加 ChatGPT/Grok/Gemini 到浏览器搜索引擎 YiYueHuan 搜索引擎 Grok ChatGPT
添加ChatGPT/Grok/Gemini到浏览器搜索引擎添加ChatGPT/Grok/Gemini到浏览器搜索引擎如何添加步骤1:打开浏览器设置步骤2:添加新搜索引擎步骤3:保存设置注意事项添加ChatGPT/Grok/Gemini到浏览器搜索引擎在使用ChatGPT/Grok/Gemini进行对话时，每次都需要先打开对应的网页，然后再进行对话，非常繁琐。因此，我们可以将这些工具添加到浏览器的搜
国内外AI搜索产品盘点 Suee2020 人工智能
序号AISearch产品名简介网站开发者1Perplexity强大的对话式AI搜索引擎https://www.perplexity.aiPerplexity2GensparkAIAgent搜索引擎https://www.genspark.aiMainFunc（景鲲、朱凯华）3Kimi.ai智能助手https://kimi.moonshot.cn/月之暗面（杨植麟）4秘塔AI搜索AI搜索引擎http
Elasticsearch大文件检索性能提升20倍实践（干货）_elasticsearch 查询优化 2401_84247505 2024年程序员学习 elasticsearch jenkins 大数据
3、问题排查与定位步骤1：限定返回记录条数。不提供直接访问末页的入口。baidu，360，搜狗等搜索引擎都不提供访问末页的请求方式。都是基于如下的请求方式：通过点击上一下、下一页逐页访问。这个从用户的角度也很好理解，搜索引擎返回的前面都是相关度最高的，也是用户最关心的信息。Elasticsearch的默认支持的数据条数是10000条，可以通过post请求修改。最终，本步骤将支持ES最大返回值100
百度蜘蛛池是什么 asdjka2wfd 百度百度小程序百度云算法
百度蜘蛛池是一种SEO策略或程序，旨在吸引百度搜索引擎的爬虫（百度蜘蛛）更频繁地访问和收录网站内容5。以下是关于它的详细介绍：构成要素：通常包括大量的域名资源、强大的服务器支持以及复杂的链接结构。大量的域名数量众多，来源多样；强大的服务器是为了承载众多域名的运行和大量的访问请求，确保稳定和高效的服务；而复杂的链接结构则将各个域名和页面相互连接，形成一个有机的整体，引导蜘蛛在其中爬行。www.sgs
算法在各领域的广泛应用：100 个实例全解析软件职业规划 AI&模型算法
一、互联网与信息技术领域搜索引擎算法：如谷歌的PageRank算法，用于根据网页的重要性和相关性对搜索结果进行排序，帮助用户快速找到所需信息。推荐系统算法：例如亚马逊和Netflix使用的协同过滤算法。根据用户的历史行为（购买、观看记录等）和其他相似用户的偏好，为用户推荐可能感兴趣的产品或内容。社交网络分析算法：用于分析社交网络中的用户关系，如Facebook通过算法发现用户的好友推荐、社区划分等
springboot 整合 elk （Elasticsearch+Logstash+Kibana）高大王竟然被注册 spring 运维
Elasticsearch是个开源分布式搜索引擎，它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载等。Logstash是一个完全开源的工具，他可以对你的日志进行收集、过滤，并将其存储供以后使用（如，搜索）。Kibana也是一个开源和免费的工具，它Kibana可以为Logstash和ElasticSearch提供的日志分析友好的Web界
信息检索系统评估指标的层级分析：从单点精确度到整体性能度量人工智能深度学习llm检索系统
在构建搜索引擎系统时，有效的评估机制是保证系统质量的关键环节。当用户输入查询词如"machinelearningtutorialspython"，系统返回结果列表后，如何客观评估这些结果的相关性和有效性？这正是信息检索评估指标的核心价值所在。分析用户与搜索引擎的交互模式，我们可以观察到以下行为特征：用户主要关注结果列表的前几项对顶部结果的关注度显著高于底部结果用户基于多次搜索体验形成对搜索系统整体
泛目录程序：站群策略在SEO优化中的优势与应用奥顺互联_老张站群 php 数据库缓存搜索引擎
泛目录程序案例：站群策略在SEO优化中的优势与应用引言在当今竞争激烈的互联网环境中，搜索引擎优化（SEO）已成为企业提升在线可见性和流量的关键策略。泛目录和站群作为SEO优化中的两种重要策略，近年来备受关注。本文将通过具体案例，深入探讨这两种策略在SEO优化中的优势与应用。一、泛目录的定义与优势1.1泛目录的定义泛目录是指通过创建大量内容相关、结构相似的目录页面，覆盖广泛的搜索关键词，从而提升网站
SEO 优化前端岳大宝前端核心知识总结前端 html
以下是SEO（搜索引擎优化）的基础知识点梳理，从前端技术、内容策略到搜索引擎原理，覆盖核心优化方向：一、SEO基础概念定义与目标SEO是通过优化网站结构、内容和技术，提升网站在搜索引擎自然搜索结果中的排名，吸引更多免费流量。核心目标：满足用户搜索意图，同时符合搜索引擎爬虫的抓取规则。搜索引擎工作原理爬取（Crawling）：搜索引擎蜘蛛（如Googlebot）抓取网页内容。索引（Indexing）
HTML标记语言＜head＞中的几个元素 2301_79698214 html 前端
在HTML文档中，部分包含了文档的元数据（metadata），这对于网页的正确显示和搜索引擎优化（SEO）非常重要。部分通常包含以下几个重要的元素：：定义了网页的标题，这个标题会显示在浏览器的标题栏或页面的标签上。例如：我的网页：用于定义网页的元数据，如字符集、页面描述、关键词、作者、视口设置等。例如：：用于链接外部资源，如CSS文件、图标（favicon）等。例如：：用于直接在文档中嵌入CSS样
文件关键字搜索技术要点与实战体制教科书
本文还有配套的精品资源，点击获取简介：在IT行业中，能够通过输入关键字高效定位和管理大量文档是一项重要的技能。此功能通常集成于文件管理软件、搜索引擎或脚本程序中。技术实现包括文件系统API、文本搜索算法和文件过滤规则。本文将详细介绍这些技术要点，例如使用文件系统API遍历文件、采用高效文本搜索算法（如Boyer-Moore）以及应用文件过滤规则（包括类型筛选和正则表达式匹配）。特殊文件格式如Out
Python 爬虫基础教程盛子涵666 python 爬虫开发语言
爬虫的背景与应用诞生爬虫（WebCrawling）是自动化程序，用于从互联网上获取信息。爬虫的基本任务是自动访问网站，通过抓取网页内容并提取有用数据来构建数据库、索引或者进行进一步的数据分析。爬虫通常会模拟浏览器的行为，以避免被服务器识别为机器人，并且能够在大规模范围内高效地抓取信息。爬虫技术最早由搜索引擎开发者提出，目的是自动收集网页信息并将其索引，便于用户搜索时快速检索相关内容。随着互联网的快
爬虫的精准识别：基于 User-Agent 的正则实现 Small踢倒coffee_氕氘氚经验分享笔记
##摘要随着互联网技术的飞速发展，网络爬虫在数据采集、搜索引擎优化等领域的应用日益广泛。然而，恶意爬虫的存在也给网站安全和数据隐私带来了严重威胁。因此，精准识别爬虫行为成为网络安全领域的重要课题。本文提出了一种基于User-Agent正则表达式的爬虫识别方法，通过分析User-Agent字符串的特征，构建正则表达式规则，实现对爬虫的精准识别。实验结果表明，该方法具有较高的识别准确率和较低的误报率，
Java线程协作式中断机制超人汪小建(seaboat) 线程协作式中断机制 jvm
跟着作者的65节课彻底搞懂Java并发原理专栏，一步步彻底搞懂Java并发原理。作者简介：笔名seaboat，擅长工程算法、人工智能算法、自然语言处理、计算机视觉、架构、分布式、高并发、大数据和搜索引擎等方面的技术，大多数编程语言都会使用，但更擅长Java、Python和C++。平时喜欢看书写作、运动、画画。崇尚技术自由，崇尚思想自由。出版书籍：《Tomcat内核设计剖析》、《图解数据结构与算法》
美司法部考虑分拆谷歌：美国司法部在谷歌垄断在线搜索市场后，正在考虑的惩罚谷歌选择中，包括将谷歌分拆这种罕见的举措。百态老人笔记
1.案件背景与起因1.1美国司法部对谷歌提起诉讼美国司法部对谷歌提起诉讼的背景是该公司在在线搜索市场的主导地位引起了反垄断的担忧。司法部认为谷歌通过排他性协议和财务激励手段，限制了其他搜索引擎的发展空间，从而损害了市场竞争。诉讼时间：诉讼始于2020年，由美国司法部联合52个州及司法辖区的检察长共同发起。诉讼焦点：主要聚焦于谷歌与设备制造商、无线服务商等签订的独家协议，这些协议使谷歌搜索成为默认选
AI编程方法第二弹：边提问边调整 leeshuqing AI编程 AI编程
AI编程的提问词非常类似于传统搜索引擎中的检索词，虽然采取了自然语言表示，但是在获取结果的策略上却很一致。因为用户在一开始可能并不非常清楚AI编程工具如何理解用户的提问，因此输出结果可能并不能完全满足用户要求，此时用户可以不断的根据生成结果，动态的灵活的调整提问，使之不断趋近于自己满意的结果。比如，对于“Python”等任意英文单词，允许用户指定总宽度后，通过自动填充空格，使之总宽度尽可能等于该宽
网站外链影响网站排名吗为什么霏霏看世界搜索引擎百度百度小程序百度云算法
权重传递：搜索引擎认为，如果一个网站被其他高质量、权威的网站所链接，就像是获得了这些网站的“信任投票”。高质量的外链能够将一部分权重传递给目标网站，提升其在搜索引擎眼中的重要性和可信度，从而有助于提高排名。例如，在学术领域，一篇论文被众多知名学术期刊引用，那么这篇论文的学术价值和影响力就会被认可，类似地，网站获得权威网站的外链，也会被搜索引擎认为更有价值。www.czyhjy.cn增加爬行入口：搜
【爬虫实战】python入门爬取猫眼电影排行进击的C语言爬虫自动化网络
爬虫爬虫概述应用场景：1、抓取特定网站或应用的内容，提取出有价值的信息。2、模拟用户在浏览器或应用中的操作，实现自动化流程。爬虫是什么专业术语：网络爬虫（又称网页蜘蛛、网络机器人）网络爬虫是一种自动按照特定规则抓取网页信息的程序或脚本。爬虫起源随着网络的迅猛发展，万维网成为海量信息的载体，如何有效地提取和利用这些信息成为一项巨大挑战。搜索引擎如Yahoo、Google、百度等，作为帮助人们检索信息
分布式系统架构设计原理与实战：理解并使用分布式搜索引擎 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍在当代互联网时代，随着互联网的迅速发展、信息量的爆炸性增长，人们对获取新信息的渠道越来越多，需要快速而准确地检索信息。基于这一需求，许多网站都提供搜索功能。目前，搜索引擎服务主要由传统的基于数据库检索技术向云端托管的检索服务器和搜索引擎框架组成。由于传统的基于数据库检索方式具有很高的查询效率，因此可以满足一般用户的搜索需求；但是，对于一些高级的功能要求或是特
MindSearch: 革新人工智能搜索引擎的未来 2401_87189860 人工智能搜索引擎
MindSearch:革新人工智能搜索引擎的未来在人工智能和大语言模型快速发展的今天,搜索引擎领域正迎来新的变革。由上海人工智能实验室开发的MindSearch项目,正是这场变革中的佼佼者。MindSearch是一个开源的AI搜索引擎框架,它通过模仿人类思维过程,为用户提供深度的AI搜索能力。本文将深入探讨MindSearch的特点、工作原理以及它对未来搜索技术的影响。MindSearch的核心特
Scira：极简AI驱动搜索引擎开源项目精选人工智能
Scira（原名MiniPerplx）是一款极简的AI驱动搜索引擎，可帮助您在互联网上查找信息。它由VercelAISDK提供支持，并可使用Grok2.0等模型进行搜索。Stars数7,186Forks数845主要特点AI驱动的智能搜索：借助Anthropic的模型，快速获取问题的答案，让搜索变得更加智能化。网页搜索：使用Tavily的API来进行高效的网页搜索，无需额外的插件即可快速得到网页内容
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分