IT_Most

【ES】3.安装elasticsearch-analysis-ik分词器插件

平凡也就两个字: 懒和惰;
成功也就两个字: 苦和勤;
优秀也就两个字: 你和我。
跟着我从0学习JAVA、spring全家桶和linux运维等知识，带你从懵懂少年走向人生巅峰，迎娶白富美！
关注微信公众号【 IT特靠谱 】，每天都会分享技术心得~

【ES】安装elasticsearch-analysis-ik分词器插件

1 什么是ik分词器？

ik分词器是一个分词插件。它可以把elasticsearch中数据映射类型为text（注意：其他类型是不会被分词的！比如：keyword、date类型等）的数据按照分词库切分成一个个关键字！同时也会将我们搜索信息进行分词，然后与es数据库信息进行匹配！

ik分词器有两种分词算法：ik_smart和ik_max_word。ik_smart是一种最小切分算法，ik_max_word是最细粒度切分算法。工作中一般常用ik_max_word算法进行分词！

注意：ik分词器会把分词库中没有的中文按每个字进行拆分。如果不想被拆分成单个汉字，那么我们就需要维护一套自己的分词库！

2 下载ik分词器插件

打开github官网，搜索"elasticsearch-analysis-ik"，第一个项目就是ik分词器插件的。

进入"medcl/elasticsearch-analysis-ik"项目

然后点击tags，然后找到7.6.2版本的插件下载即可！

下载后如下：

3 安装ik分词器插件

3.1 安装ik分词器插件

我们只需解压ik分词器插件安装包，然后将解压文件拷贝到elasticsearch安装目录下的plugin目录下，最后重启elasticsearch服务就完成了ik分词器插件的安装！

3.2 重启es服务，使得重新加载ik分词器插件

重启es服务的目的是重新让es服务加载我们安装的ik分词器插件！

4 测试分词器

ik分词器有2种算法：ik_smart和ik_max_word，下面我们通过postman工具来测试ik分词器的分词算法！

注意：ik分词器会把分词库中没有的中文按每个字进行拆分。如果不想被拆分成单个汉字，那么我们就需要维护一套自己的分词库！

4.1 测试ik_smart分词

请求url：http://localhost:9200/_analyze

请求方式：get

请求参数：

{
    "analyzer":"ik_smart",
    "text":"我爱你，特靠谱"
}

响应结果：

{
    "tokens": [
        {
            "token": "我爱你",
            "start_offset": 0,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "特",
            "start_offset": 4,
            "end_offset": 5,
            "type": "CN_CHAR",
            "position": 1
        },
        {
            "token": "靠",
            "start_offset": 5,
            "end_offset": 6,
            "type": "CN_CHAR",
            "position": 2
        },
        {
            "token": "谱",
            "start_offset": 6,
            "end_offset": 7,
            "type": "CN_CHAR",
            "position": 3
        }
    ]
}

4.2 测试ik_max_word分词

请求url：http://localhost:9200/_analyze

请求方式：get

请求参数：

{
    "analyzer":"ik_max_word",
    "text":"我爱你，特靠谱"
}

响应结果：

{
    "tokens": [
        {
            "token": "我爱你",
            "start_offset": 0,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "爱你",
            "start_offset": 1,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "特",
            "start_offset": 4,
            "end_offset": 5,
            "type": "CN_CHAR",
            "position": 2
        },
        {
            "token": "靠",
            "start_offset": 5,
            "end_offset": 6,
            "type": "CN_CHAR",
            "position": 3
        },
        {
            "token": "谱",
            "start_offset": 6,
            "end_offset": 7,
            "type": "CN_CHAR",
            "position": 4
        }
    ]
}

通过对比两种算法分词结果可知：ik_smart算法将"我爱你"当作关键词，而ik_max_word算法认为"我爱你"和"爱你"都是关键词词！但是这两种算法都认为"特"、"靠"、"谱"这三个字都是单独的词！也就是说ik_smart（最小切分算法）切分数据的次数最小，而ik_max_word（最细粒度切分算法）切分的次数最多！

如果我们想实现将"特靠谱"当作一个词进行拆分，而不是对每个字进行拆分。那么我们就需要维护一套自定义分词词库！

5 自定义分词词库

上面测试例子可以看到，不管是ik_smart还是ik_max_word算法，都不认为"特靠谱"是一个关键词（ik分词器的自带词库中没有有"特靠谱"这个词），所以将这个词拆成了三个词：特、靠和谱。

为了实现将特靠谱认为是一个关键词，我们就需要维护一套分词词库！

5.1 新增自定义词库

打开es安装目录下D:\workSoftInstall\es\elasticsearch-7.6.2\的plugins\ik\目录，我们的ik分词器插件就放在ik目录下！进入config配置文件夹。

从其他xxxx.dic分词库拷贝一份，并命名为：my.dic（名字可以自定义）。这样我们自定义的分词词库就建立好了。

5.2 自定义词库中新增关键词

打开my.dic，并添加一些关键词，如："特靠谱"、"靠谱"等。每一行就是一个关键词。

5.3 配置自定义分词词库（字典）

打开配置文件IKAnalyzer.cfg.xml

指定自定义分词词库名称。

重启es服务就可以进行测试了！

6 再次测试ik_smart和ik_max_word两种分词算法

6.1 测试ik_smart分词

请求url：http://localhost:9200/_analyze

请求方式：get

请求参数：

{
    "analyzer":"ik_smart",
    "text":"我爱你，特靠谱"
}

响应结果：

{
    "tokens": [
        {
            "token": "我爱你",
            "start_offset": 0,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "特靠谱",
            "start_offset": 4,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 1
        }
    ]
}

6.2 测试ik_max_word分词

请求url：http://localhost:9200/_analyze

请求方式：get

请求参数：

{
    "analyzer":"ik_max_word",
    "text":"我爱你，特靠谱"
}

响应结果：

{
    "tokens": [
        {
            "token": "我爱你",
            "start_offset": 0,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "爱你",
            "start_offset": 1,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "特靠谱",
            "start_offset": 4,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "靠谱",
            "start_offset": 5,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 3
        }
    ]
}

可以看到，ik_smart和ik_max_world分词算法都认为"特靠谱"是一个关键词，而ik_max_world分词算法同时会将"靠谱"认为是一个关键词！

到此，ik分词器插件安装成功了！

（1） 商务合作微信号：M9392W

（2） 购物商城： 扫码即可进入博主开发的小程序购物商城，享超大优惠购物，支持一下博主吧~

（3） 博主微信公众号：IT特靠谱，学习更多开发实战技巧！

你可能感兴趣的:(elasticsearch,elasticsearch)

filebeat改造支持rocketmq 余很多之很多 go Java rocketmq
继续分享下以前在gitchat上发布的文章：filebeat改造支持rocketmq1.概述1.1问题概述现在越来越多的日志采集使用FileBeat，FileBeat是个轻量型日志采集器，采用Go语言实现，性能稳健，占用资源少。FileBeat现在支持采集的日志内容发送到Redis、Elasticsearch、Kafka、Logstash。那么我们如果想通过FileBeat采集日志到RocketM
【SpringCloud微服务实战09】Elasticsearch 搜索引擎李维山 Java elasticsearch spring cloud 搜索引擎
一、Elasticsearch安装1、Docker安装ES#创建一个网络dockernetworkcreatees-net#拉取ES镜像（这里使用7.17.18版本）dockerpullelasticsearch:7.17.18#新建一个目录存放es数据mkdirescdes#docker运行单机启动esdockerrun-d\--namees\-e"ES_JAVA_OPTS=-Xms512m-X
Filebeat + Logstash + ES进行Nginx日志采集一个只会喊666的菜比
简易架构图service.png架构图比较简单，日志收集大同小异，这次不添加任何中间服务比如：rediskafka后端只是存储进ES使用的版本jdk-8u161-linux-x64.rpmelasticsearch-6.7.2.rpmlogstash-6.7.2.rpmfilebeat-6.7.2-x86_64.rpm安装比较简单，只用进行rpm-ivh即可，接下来直接贴配置文件：Elastics
Elasticsearch数据库的数据同步机制数据库管理艺术 elasticsearch 数据库 jenkins ai
Elasticsearch数据库的数据同步机制关键词：Elasticsearch、数据同步、近实时搜索、倒排索引、translog、refresh、flush、副本同步摘要：本文深入探讨Elasticsearch数据库的数据同步机制，从底层原理到实际应用进行全面解析。文章首先介绍Elasticsearch的基本架构和数据模型，然后详细分析其近实时搜索的实现原理，包括索引刷新(Refresh)、事务
docker run elasticsearch 报错 EmpressBoost docker elasticsearch 容器
谷粒商城p103前提条件：下载镜像文件#存储和检索数据dockerpullelasticsearch:7.4.2#可视化检索数据dockerpullkibana:7.4.2创建挂载的文件和配置mkdir-p/mydata/elasticsearch/configmkdir-p/mydata/elasticsearch/dataecho"http.host:0.0.0.0">>/mydata/ela
分布式系统中优化ELK日志采集性能 Alex艾力的IT数字空间 elk 微服务中间件架构 ux 安全性测试可用性测试
架构设计、组件调优、资源分配等多维度入手一、架构优化：分布式与解耦设计分层采集与缓冲Filebeat轻量级采集：在每台服务器部署Filebeat替代Logstash作为日志收集器，降低资源占用（CPU/内存减少70%以上）。引入缓冲队列：通过Redis或Kafka作为日志缓冲池，缓解Logstash或Elasticsearch的突发流量压力，避免数据丢失（如Logstash异常时Redis暂存数据
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Elasticsearch混合搜索深度解析（下）：执行机制与完整流程 GeminiJM ES学习笔记 elasticsearch jenkins 大数据
引言在上篇中，我们发现了KNN结果通过SubSearch机制被保留的关键事实。本篇将继续深入分析混合搜索的执行机制，揭示完整的处理流程，并解答之前的所有疑惑。深入源码分析1.SubSearch的执行机制1.1KnnScoreDocQueryBuilder的实现KNN结果被转换为KnnScoreDocQueryBuilder，这个类负责在查询阶段重新执行KNN搜索：//server/src/main
SkyWalking + Logstash全链路追踪系统详细实施方案 @淡定 skywalking
SkyWalking+Logstash全链路追踪系统详细实施方案一、系统架构与数据流向核心流程：数据采集：SkyWalkingAgent埋点收集调用链路数据日志增强：应用程序通过MDC注入TraceID日志收集：Logstash采集应用日志并发送至Elasticsearch数据存储：SkyWalking指标数据与日志数据分别存储可视化分析：SkyWalkingUI展示链路追踪，Kibana分析日志
自建ELK vs 云商日志服务：成本对比分析亲爱的非洲野猪 elk
在当今数据驱动的时代，日志管理已成为企业IT基础设施中不可或缺的一部分。面对日益增长的日志数据，许多团队都在纠结：是自建ELK（Elasticsearch、Logstash、Kibana）堆栈，还是直接使用云服务商提供的日志服务？本文将从成本角度对这两种方案进行详细对比分析。自建ELK方案成本分析1.硬件/基础设施成本服务器成本：至少需要3个节点（生产环境推荐）实现高可用中等规模部署：3台16核6
【spring boot】三种日志系统对比：ELK、Loki+Grafana、Docker API ladymorgana 日常工作总结 spring boot elk grafana
文章目录**方案1：使用ELK（Elasticsearch+Logstash+Kibana）****适用场景****搭建步骤****1.修改SpringBoot日志输出****2.创建DockerCompose文件****3.配置Logstash****4.启动服务****方案2：使用Loki+Grafana****适用场景****搭建步骤****1.修改SpringBoot日志驱动****2.配
Semantic text 就是那么强大，还附带一包（ BBQ ）薯片！配有可配置的分块设置和索引选项。 Elastic 中国社区官方博客 Elasticsearch AI 大数据 elasticsearch 搜索引擎全文检索人工智能 ai 图搜索
作者：来自ElasticKathleenDeRusso语义文本搜索现在可以自定义，支持可配置的分块设置和索引选项，用于自定义向量量化，使semantic_text在专业用例中更强大。Elasticsearch拥有大量新功能，帮助你为你的用例构建最佳搜索解决方案。深入查看我们的示例笔记本以了解更多信息，开始免费云试用，或者立即在本地机器上体验Elastic。随着Elasticsearch8.18和9
Elasticsearch 高可用实战：架构设计与场景化解决方案辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch wpf 大数据全文检索搜索引擎 restful java
Elasticsearch高可用实战：架构设计与场景化解决方案本文深入探讨Elasticsearch在高并发、大数据量场景下的高可用架构设计，结合电商搜索、日志分析等真实案例，提供可落地的技术方案与Java实现。一、高可用架构设计原则1.分布式架构核心要素客户端负载均衡层协调节点数据节点-分片1数据节点-分片2数据节点-分片3副本分片副本分片副本分片2.高可用黄金法则冗余设计：至少3节点集群+1副
Elasticsearch RESTful API入门：基础搜索与查询DSL 辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch restful 大数据搜索引擎全文检索 spring boot
ElasticsearchRESTfulAPI入门：基础搜索与查询DSL本文为Elasticsearch初学者详细解析RESTfulAPI的核心操作与查询DSL语法，包含大量实战示例及最佳实践。一、Elasticsearch与RESTfulAPI简介Elasticsearch（ES）作为分布式搜索分析引擎，其RESTfulAPI是与集群交互的核心方式。通过HTTP协议实现：✅索引文档的CRUD操作
Elasticsearch入门（二）：document数据格式、简单的es restful api m0_50134014 Elasticsearch elasticsearch java
目录一、document数据格式1.1面向文档的搜索分析引擎1.1.1对象数据存储到数据库中1.1.2对象数据存储到ES中二、电商网站商品管理案例背景介绍2.1简单的集群管理2.1.1快速检查集群的健康状况:`GET/_cat/health?v`2.1.2快速查看集群中有哪些索引:`GET/_cat/indices?v`2.1.3创建索引：`PUT/test_index?pretty`2.1.4删
Elasticsearch RESTful API入门：全文搜索实战（Java版）辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch restful java 大数据搜索引擎全文检索
ElasticsearchRESTfulAPI入门：全文搜索实战（Java版）本文结合Java客户端API，深入讲解Elasticsearch全文搜索的实现。包含10+个实战示例及对应的Java代码，涵盖match、multi_match、高亮显示等核心功能。一、环境准备1.添加Maven依赖org.elasticsearch.clientelasticsearch-rest-high-level
【Elasticsearch】function_score risc123456 Elasticsearch elasticsearch
如果你希望在Elasticsearch查询中降低某些特定`id`的文档评分，可以通过`function_score`查询结合`script_score`函数来实现。`script_score`允许你使用自定义脚本对文档的评分进行调整。以下是一个示例，展示如何降低某些特定`id`的文档评分：示例场景假设我们有一个索引`my_index`，其中包含一些文档，每个文档都有一个`id`字段。我们希望降低某
Elasticsearch RESTful API入门：索引的增删改查完全指南辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch restful 大数据 java 架构搜索引擎全文检索
ElasticsearchRESTfulAPI入门：索引的增删改查完全指南本文专为Java开发初学者设计，将手把手教你掌握Elasticsearch索引的核心操作一、环境准备与基本概念1.1安装Elasticsearch（Windows版） 1.访问官网下载ZIP包 2.解压后进入bin目录，双击elasticsearch.bat启动 3.验证安装：浏览器访问http://localhost
Docker快速单点部署Elasticsearch ❀͜͡傀儡师 docker elasticsearch
x86架构dockerpullregistry.cn-hangzhou.aliyuncs.com/qiluo-images/elasticsearch:8.17.4arm架构dockerpullregistry.cn-hangzhou.aliyuncs.com/qiluo-images/linux_arm64_elasticsearch:8.17.43、elasticsearch安装mkdir-p
ES 压缩包安装思静鱼 #elasticsearch elasticsearch 大数据
以下是Elasticsearch(ES)通过.tar.gz压缩包安装的详细步骤（适用于Linux/macOS系统）：1.准备工作1.1检查系统依赖Java环境：ES需要JDK，推荐OpenJDK11/17（ES7.x/8.x兼容版本）。java-version#检查是否已安装如果未安装，使用以下命令安装（以Ubuntu为例）：sudoaptupdatesudoaptinstallopenjdk-1
云原生时代的日志管理：ELK、Loki、Fluentd 如何选型？
一、引言在微服务和Kubernetes普及的今天，传统的日志管理方式已经难以应对高并发、分布式架构带来的挑战。随着容器化应用数量激增，日志数据量呈指数级增长，如何高效地收集、存储、查询和分析日志，成为每个团队必须面对的问题。在这样的背景下，ELK（Elasticsearch+Logstash+Kibana）、Loki和Fluentd成为当前主流的日志解决方案。它们各有特色，适用于不同规模和技术栈的
自动化运维工程师实操面试题
以下是针对Ansible、Zabbix、ElasticsearchLogstashKibana（ELK）设计的2道综合实操题，难度适中且结合实际应用场景：实操题1：Ansible自动化部署Zabbix监控平台并集成ELK日志分析题目背景某企业需要通过Ansible自动化部署Zabbix监控服务器（含Agent）、Elasticsearch、Logstash、Kibana（ELK）日志分析系统，并实
怎么安装自定义分词器思静鱼 #elasticsearch es
安装自定义分词器的完整步骤在Elasticsearch中安装自定义分词器，通常需要修改索引配置或开发插件。以下是详细方法：一、基于配置实现自定义分词器（无需插件）适用于通过组合Elasticsearch内置的CharacterFilters、Tokenizers和TokenFilters实现的分词器。1.定义分词规则在创建索引时，通过settings.analysis配置自定义分词器：PUT/my
【容器】优质文章分享
文章目录加速器Docker教程安装坑volumn网络配置踩坑其他dockerfiledocker-compose手册教程网络坑docker使用dockermysqldockermongoredisdocker-rabbitmqnginxtomcatnacoszookeeperelasticsearch加速器现在docker镜像站真的不好找了。阿里什么的加速目前只能给阿里自己的容器用了。且用且珍惜D
【Elasticsearch】自定义评分检索 G皮T #Elastic elasticsearch 大数据自定义评分查询检索 _score 搜索引擎
自定义评分检索1.自定义评分2.为什么需要自定义评分3.搜索结果相关度4.影响相关度评分的查询子句5.控制相关度评分的方法5.1FunctionScoreQuery5.1.1基础查询部分5.1.2评分函数部分（functions数组）第一个函数：品牌加权第二个函数：销量因子第三个函数：时间衰减5.1.3评分组合方式score_modeboost_mode5.1.4整体效果5.2使用Boosting
Elasticsearch：什么是搜索相关性？ Elastic 中国社区官方博客 Elasticsearch Elastic elasticsearch 大数据搜索引擎人工智能全文检索
搜索相关性定义搜索相关性衡量的是搜索引擎返回的搜索结果与用户查询和意图之间的匹配程度。搜索结果的质量取决于显示的信息与用户预期之间的契合度。提升搜索相关性和性能需要进行语言分析、排序算法优化以及考虑上下文因素。这些因素可能包括用户行为分析、位置信息、热门程度和搜索历史等。搜索相关性是客户体验中的关键因素，通过合理平衡，搜索体验可以同时满足企业和用户的需求。了解为什么相关性对搜索引擎至关重要，以及如
Elasticsearch MacJerry elasticsearch 大数据搜索引擎
学习目标[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BGW4RqWM-1635414988340)(es.assets/Snipaste_2020-07-06_13-03-45.png)]Elasticsearch简介与安装什么是Elasticsearch？ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基
C#.NET NLog 详解 c#.net
简介NLog是.NET平台上最流行的开源日志框架之一，特色是灵活的配置、丰富的输出目标（Target），以及高性能的异步写入能力。适用场景：从控制台、文件、数据库、网络到ElasticSearch、Seq、AzureTableStorage等各种日志收集后端。支持文件、数据库（SQL/NoSQL）、控制台、邮件、Elasticsearch等50+内置目标，并可通过插件扩展原生兼容JSON格式，可输
Elasticsearch 启动失败？从日志分析到最终解决（磁盘空间不足案例） Leaton Lee elasticsearch 大数据搜索引擎
问题背景最近在本地运行一个SpringBoot项目时，突然遇到Elasticsearch(ES)连接超时的问题：org.springframework.beans.factory.UnsatisfiedDependencyException:Errorcreatingbeanwithname'awardController':Unsatisfieddependencyexpressedthroug
Elasticsearch：基本概念、索引结构与优缺点分析 Leaton Lee elasticsearch 大数据搜索引擎
一、Elasticsearch基本概念Elasticsearch是一个基于Lucene构建的开源、分布式、RESTful搜索引擎，专为云计算环境设计，能够实现近乎实时的数据搜索和分析功能。核心概念解析文档(Document)Elasticsearch中的基本数据单元，使用JSON格式表示每个文档有唯一ID和类型示例：一条产品信息、一篇博客文章或一个客户记录索引(Index)文档的集合，类似于关系数
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他