云天河Blog

Sphinx到Coreseek安装全解

此次采用的是CentOS6.5 32位如有出入，请参阅相关配置手册说明 ——@Author云天河Blog

Sphinx部分

简介

Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL也设计了一个存储引擎插件。

前提安装完mysql，并创建测试表和数据

 DROP TABLE IF EXISTS `documents`; 
   

CREATE TABLE IF NOT EXISTS `documents` ( `id` int(11) NOT NULL AUTO_INCREMENT, `title` varchar(255) NOT NULL, `content` text NOT NULL, `date_added` datetime NOT NULL, `author_id` int(11) NOT NULL, `group_id` int(2) NOT NULL, PRIMARY KEY (`id`) ) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=4 ; ##转存表中的数据 `documents`

INSERT INTO `documents` (`id`, `title`, `content`, `date_added`, `author_id`, `group_id`) VALUES (1, '愚人节最佳蛊惑爆料谷歌300亿美元收购百度', '据国外媒体报道，谷歌将巨资收购百度，涉及金额高达300亿美元。谷歌借此重返大陆市场。　　该报道称，目前谷歌与百度已经达成了收购协议，将择机对外公布。百度的管理层将100%保留，但会将项目缩减，包括有啊商城，以及目前实施不力的凤巢计划。正在进行测试阶段的视频网站qiyi.com将输入更多的Youtube资源。(YouTube在大陆区因内容审查暂不能访问)。　　该消息似乎得到了谷歌CEO施密特的确认，在其twitter上用简短而暧昧的文字进行了表述：“ Withdraw from that market? u''ll also see another result, just wait... ” 意思是：从那个市场退出?你还会看到另外一个结果。毫无疑问，那个市场指的就是中国大陆。而另外的结果，对应此媒体报道，就是收购百度，从而曲线返回大陆搜索市场。　　在最近刚刚结束的深圳IT领袖峰会上，李彦宏曾言，“谷歌没有退出中国，因为还在香港”。也似乎在验证被收购的这一事实。　　截止发稿，百度的股价为597美元，市值为207亿美元。谷歌以高达300亿美元的价格，实际溢价高达50%。而谷歌市值高达1796亿美元，而且手握大量现金，作这样的决策也在情理之中。近日，很多媒体都在报道百度创始人、CEO李彦宏的两次拒购：一次是百度上市前夕，李彦宏拒绝谷歌的并购，这个细节在2月28日央视虎年首期对话节目中得到首次披露﹔一次是在百度国际化战略中，拒绝采用海外并购的方式，而是采取了从日本市场开始的海外自主发展之路。这也让笔者由此开始思考民族品牌的发展之路。　　收购是打压中国品牌的惯用伎俩　　2010年2月28日，央视经济频道《对话》节目昨晚推出虎年首期节目，百度董事长兼CEO李彦宏作为嘉宾做客节目。李彦宏首度谈及2005年百度上市前夕，谷歌CEO施密特曾秘密造访百度时秘密谈话的内容，主要是劝阻百度上市，李彦宏断然拒绝了施密特的“好意”。今天看来，施密特当日也许已有不祥的预感，这个几百人的小公司终有一日会成为他们的大麻烦。　　本期《对话》一经播出，便引发了业界讨论。　　外资品牌通过收购打压中国品牌的案例不胜枚举。从以往跨国企业并购的中国品牌来看，真正让其活下来的品牌并不多，要么被雪藏，要么被低端化。　　因此，2005年百度没有接受Google的收购邀请，坚持自主发展，这对于保护中国品牌，维护中国网民信息安全有着至关重要的作用。当前百度市场份额高达76%，并持续增长，这也充分验证了李彦宏拒绝收购决策的正确性。　　今天看来，“百度一下”已经成为3亿多中国网民的网络生存法则，而直到今天环视全球，真正能像中国一样，拥有自己独立搜索引擎的只有4个国家！我们也许应该庆幸当时李彦宏的选择。这个故事也告诉我们，中国企业做品牌还要靠自己！　　收购也可能是中国企业走出去的陷阱　　同样在2月28日，亚布力第十届年会上，李彦宏在论坛上指出：“我们和很多其它公司的国际化路子是很不一样的，我们不是去买一个国外的公司，”，李彦宏解释了百度率先选择日本作为走出去的对象的原因，因为日本和中国一衣带水的近邻优势，日本的市场规模，在日本也没有一家独大的搜索引擎。　　中国企业收购这些外资品牌目的是“借船出海”。外资品牌进入中国是收购中国优质品牌，而中国企业进入国外市场的收购策略恰恰相反，这也是中国企业借船出海屡屡失败的原因所在。　　笔者认为，中国互联网公司走出去要依靠自身发展，并不能单纯依靠收购。李彦宏在百度成立伊始就抱定了国际化决心，使百度真正在面对国际化机遇时，更加冷静和具有前瞻力。李彦宏也承认当前百度在日本还处于初级发展阶段，但他也预言“2012年，百度与Google划洋而治”，对此我们拭目以待！', '2010-04-01 22:20:07', 1, 2), ( (2, 'Twitter主页改版推普通用户消息增加趋势话题', '4月1日消息，据国外媒体报道，Twitter本周二推出新版主页，目的很简单：帮助新用户了解Twitter和增加用户黏稠度。　　新版Twittter入口处的内容眼花缭乱，在头部下方有滚动的热门趋势话题，左边列出了普通用户账户和他们最新的消息。　　另一个显著的部分是“Top Tweets”，它采用了新算法推选出最热门的话题，每个几秒刷新一次。Twitter首席科学家Abdur Chowdhury表示，这种算法选出了所有用户的信息，而不是拥有大量追随者所发的信息。　　首页对于首次访问网站的用户非常重要，因为这决定了用户的第一印象。研究发现，多达60%的Twittter用户在注册后的一个月内不再访问网站。Twittter希望能更好地展现网站的面貌，帮助游客找到感兴趣的东西。', '2010-04-01 23:25:48', 1, 3), ( (3, '死都要上！Opera Mini 体验版抢先试用', 'Opera一直都被认为是浏览速度飞快，同时在移动平台上更是占有不少的份额。不久前，Opera正式向苹果提交了针对iPhone设计的Opera Mini。日前，台湾IT网站放出了Opera Mini和Safari的评测文章，下面让我们看看Opera和Safari到底谁更好用更快吧。　　Opera Mini VS Safari，显示方式很不相同和Safari不同的是，Opera Mini会针对手机对网页进行一些调整　　Opera Mini与Safari的运作原理不大相同。网页会通过Opera的服务器完整压缩后再发送到手机上，不像Safari可通过Multi-Touch和点击的方式自由缩放，Opera Mini会预先将文字照iPhone的宽度做好调整，点击区域后自动放大。如果习惯了Safari的浏览方式，会感觉不大顺手，不过对许多宽度太宽，缩放后文字仍然显示很小的网页来说，Opera Mini的显示方式比较有优势。　　打开测试网站首页所花费的流量，Safari和Opera Mini的差距明显可见。这个在国内移动资费超高的局面来说，Opera Mini估计会比较受欢迎和省钱。Opera Mini的流量少得惊人，仅是Safari的十分之一　　兼容性相比，Safari完胜打开Google首页，Safari上是iPhone专用界面，Opera则是一般移动版本　　Opera Mini的速度和省流量还是无法取代Safari成为iPhone上的主要浏览器。毕竟iPhone的高占有率让许多网站，线上服务都为Safari设计了专用页面。光Google的首页为例子就看出了明显的差别。另外，像Google Buzz这样线上应用，就会出现显示错误。Google Buzz上，Opera无法输入内容　　Opera Mini其他专属功能页面内搜索和关键字直接搜索相当人性化　　除了Opera独创的Speed Dial九宫格快速启动页面外，和Opera Link和电脑上的Opera直接同步书签、Speed Dial设定外。Opera Mini还能够直接搜索页面中的文字，查找资料时相当方便。另外也能选取文字另开新分页搜索，比起Safari还要复制、开新页、粘贴简单许多。同时还能将整个页面打包存储，方便离线浏览。　　现在Opera Mini想要打败Safari还剩下一个很严重的问题-苹果何时会或者会不会通过Opera Mini的审核。', '2010-04-01 12:01:00', 2, 3);

1、下载Sphinx

 cd /usr/software 
    

 wget http://sphinxsearch.com/files/sphinx-2.1.5-release.tar.gz
 或者直接去Sphinx官网去下载最新版本 
    

2、安装依赖包

yum install make gcc g++ gcc-c++ libtool autoconf automake imake mysql-devel libxml2-devel expat-devel

3、安装Sphinx

tar zxvf sphinx-2.1.5-release.tar.gz

cd sphinx-2.1.5-release

./configure --prefix=/usr/local/sphinx

make

make install

vi /etc/ld.so.conf 

/usr/local/mysql/lib #增加这一行保存 

/sbin/ldconfig -v

4、配置Sphinx

请先看完我在后文写的配置文件解析，再参阅我再coreseek配置文件部分写的配置方法就行了。

5、启动Sphinx、创建索引

#启动
/usr/local/sphinx/bin/searchd -c /usr/local/sphinx/etc/csft.conf
#创建索引
/usr/local/sphinx/bin/indexer -c /usr/local/sphinx/etc/csft.conf --rotate --all
#停止
/usr/local/sphinx/bin/searchd -c /usr/local/sphinx/etc/csft.conf --stop

sphinx的配置文件解析

我们先要明白几个概念：

source：数据源，数据是从什么地方来的。
index：索引，当有数据源之后，从数据源处构建索引。索引实际上就是相当于一个字典检索。有了整本字典内容以后，才会有字典检索。
searchd：提供搜索查询服务。它一般是以deamon的形式运行在后台的。
indexer：构建索引的服务。当要重新构建索引的时候，就是调用indexer这个命令。
attr：属性，属性是存在索引中的，它不进行全文索引，但是可以用于过滤和排序。

sphinx的配置文件过于冗长，我们把sphinx默认的配置文件中的注释部分去掉，重新进行描述理解，就成下面的样子了：

配置文件

## 数据源src1
source src1
{
    ## 说明数据源的类型。数据源的类型可以是：mysql，pgsql，mssql，xmlpipe，odbc，python
    ## 有人会奇怪，python是一种语言怎么可以成为数据源呢？
    ## python作为一种语言，可以操作任意其他的数据来源来获取数据，更多数据请看：（http://www.coreseek.cn/products-install/python/）
    type            = mysql
    
    ## 下面是sql数据库特有的端口，用户名，密码，数据库名等。
    sql_host        = localhost
    sql_user        = test
    sql_pass        =
    sql_db          = test
    sql_port        = 3306

    ## 如果是使用unix sock连接可以使用这个。
    # sql_sock      = /tmp/mysql.sock

    ## indexer和mysql之间的交互，需要考虑到效率和安全性。
    ## 比如考虑到效率，他们两者之间的交互需要使用压缩协议；考虑到安全，他们两者之间的传输需要使用ssl
    ## 那么这个参数就代表这个意思，0/32/2048/32768  无/使用压缩协议/握手后切换到ssl/Mysql 4.1版本身份认证。
    # mysql_connect_flags   = 32

    ## 当mysql_connect_flags设置为2048（ssl）的时候，下面几个就代表ssl连接所需要使用的几个参数。
    # mysql_ssl_cert        = /etc/ssl/client-cert.pem
    # mysql_ssl_key     = /etc/ssl/client-key.pem
    # mysql_ssl_ca      = /etc/ssl/cacert.pem

    ## mssql特有，是否使用windows登陆
    # mssql_winauth     = 1

    ## mssql特有，是使用unicode还是单字节数据。
    # mssql_unicode     = 1 # request Unicode data from server

    ## odbc的dsn串
    # odbc_dsn      = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)};
    
    ## sql某一列的缓冲大小，一般是针对字符串来说的。
    ## 为什么要有这么一种缓冲呢？
    ## 有的字符串，虽然长度很长，但是实际上并没有使用那么长的字符，所以在Sphinx并不会收录所有的字符，而是给每个属性一个缓存作为长度限制。
    ## 默认情况下非字符类型的属性是1KB，字符类型的属性是1MB。
    ## 而如果想要配置这个buffer的话，就可以在这里进行配置了。
    # sql_column_buffers    = content=12M, comments=1M

    ## indexer的sql执行前需要执行的操作。
    # sql_query_pre     = SET NAMES utf8
    # sql_query_pre     = SET SESSION query_cache_type=OFF

    ## indexer的sql执行语句
    sql_query       = \
        SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \
        FROM documents

    ## 有的时候有多个表，我们想要查询的字段在其他表中。这个时候就需要对sql_query进行join操作。
    ## 而这个join操作可能非常慢，导致建立索引的时候特别慢，那么这个时候，就可以考虑在sphinx端进行join操作了。
    ## sql_joined_field是增加一个字段，这个字段是从其他表查询中查询出来的。
    ## 这里封号后面的查询语句是有要求的，如果是query，则返回id和查询字段，如果是payload-query，则返回id，查询字段和权重。
    ## 并且这里的后一个查询需要按照id进行升序排列。
    # sql_joined_field  = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC
    # sql_joined_field  = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC

    ## 外部文件字段，意思就是一个表中，有一个字段存的是外部文件地址，但是实际的字段内容在文件中。比如这个字段叫做content_file_path。
    ## 当indexer建立索引的时候，查到这个字段，就读取这个文件地址，然后加载，并进行分词和索引建立等操作。
    # sql_file_field        = content_file_path

    ## 当数据源数据太大的时候，一个sql语句查询下来往往很有可能锁表等操作。
    ## 那么我么就可以使用多次查询，那么这个多次查询就需要有个范围和步长，sql_query_range和sql_range_step就是做这个使用的。
    ## 获取最大和最小的id，然后根据步长来获取数据。比如下面的例子，如果有4500条数据，这个表建立索引的时候就会进行5次sql查询。 
    ## 而5次sql查询每次的间隔时间是使用sql_ranged_rhrottle来进行设置的。单位是毫秒。
    # sql_query_range       = SELECT MIN(id),MAX(id) FROM documents
    # sql_range_step        = 1000
    # sql_ranged_throttle   = 0

    ## 下面都是些不同属性的数据了
    ## 先要了解属性的概念：属性是存在索引中的，它不进行全文索引，但是可以用于过滤和排序。

    ## uint无符号整型属性
    sql_attr_uint       = group_id
    
    ## bool属性
    # sql_attr_bool     = is_deleted
    
    ## 长整型属性
    # sql_attr_bigint       = my_bigint_id
    
    ## 时间戳属性，经常被用于做排序
    sql_attr_timestamp  = date_added

    ## 字符串排序属性。一般我们按照字符串排序的话，我们会将这个字符串存下来进入到索引中，然后在查询的时候比较索引中得字符大小进行排序。
    ## 但是这个时候索引就会很大，于是我们就想到了一个方法，我们在建立索引的时候，先将字符串值从数据库中取出，暂存，排序。
    ## 然后给排序后的数组分配一个序号，然后在建立索引的时候，就将这个序号存入到索引中去。这样在查询的时候也就能完成字符串排序的操作。
    ## 这，就是这个字段的意义。
    # sql_attr_str2ordinal  = author_name

    ## 浮点数属性，经常在查询地理经纬度的时候会用到。
    # sql_attr_float        = lat_radians
    # sql_attr_float        = long_radians

    ## 多值属性（MVA）
    ## 试想一下，有一个文章系统，每篇文章都有多个标签，这个文章就叫做多值属性。
    ## 我要对某个标签进行查询过滤，那么在建立查询的时候就应该把这个标签的值放入到索引中。
    ## 这个字段，sql_attr_multi就是用来做这个事情的。
    # sql_attr_multi        = uint tag from query; SELECT docid, tagid FROM tags
    # sql_attr_multi        = uint tag from ranged-query; \
    #   SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end; \
    #   SELECT MIN(docid), MAX(docid) FROM tags

    ## 字符串属性。
    # sql_attr_string       = stitle

    ## 文档词汇数记录属性。比如下面就是在索引建立的时候增加一个词汇数的字段
    # sql_attr_str2wordcount    = stitle

    ## 字符串字段，可全文搜索，可返回原始文本信息。
    # sql_field_string  = author

    ## 文档词汇数记录字段，可全文搜索，可返回原始信息
    # sql_field_str2wordcount   = title

    ## 取后查询，在sql_query执行后立即操作。
    ## 它和sql_query_post_index的区别就是执行时间不同
    ## sql_query_post是在sql_query执行后执行，而sql_query_post_index是在索引建立完成后才执行。
    ## 所以如果要记录最后索引执行时间，那么应该在sql_query_post_index中执行。
    # sql_query_post        =

    ## 参考sql_query_post的说明。
    # sql_query_post_index  = REPLACE INTO counters ( id, val ) \
    #   VALUES ( 'max_indexed_id', $maxid )

    ## 命令行获取信息查询。
    ## 什么意思呢？
    ## 我们进行索引一般只会返回主键id，而不会返回表中的所有字段。
    ## 但是在调试的时候，我们一般需要返回表中的字段，那这个时候，就需要使用sql_query_info。
    ## 同时这个字段只在控制台有效，在api中是无效的。
    sql_query_info      = SELECT * FROM documents WHERE id=$id

    ## 比如有两个索引，一个索引比较旧，一个索引比较新，那么旧索引中就会有数据是旧的。
    ## 当我要对两个索引进行搜索的时候，哪些数据要按照新的索引来进行查询呢。
    ## 这个时候就使用到了这个字段了。
    ## 这里的例子（http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist）给的非常清晰了。
    # sql_query_killlist    = SELECT id FROM documents WHERE edited>=@last_reindex

    ## 下面几个压缩解压的配置都是为了一个目的：让索引重建的时候不要影响数据库的性能表现。
    ## SQL数据源解压字段设置
    # unpack_zlib       = zlib_column
    ## MySQL数据源解压字段设置
    # unpack_mysqlcompress  = compressed_column
    # unpack_mysqlcompress  = compressed_column_2
    ## MySQL数据源解压缓冲区设置
    # unpack_mysqlcompress_maxsize  = 16M


    ## xmlpipe的数据源就是一个xml文档
    # type          = xmlpipe

    ## 读取数据源的命令
    # xmlpipe_command       = cat /home/yejianfeng/instance/coreseek/var/test.xml

    ## 字段
    # xmlpipe_field     = subject
    # xmlpipe_field     = content

    ## 属性
    # xmlpipe_attr_timestamp    = published
    # xmlpipe_attr_uint = author_id

    ## UTF-8修复设置
    ## 只适用xmlpipe2数据源，数据源中有可能有非utf-8的字符，这个时候解析就有可能出现问题
    ## 如果设置了这个字段，非utf-8序列就会全部被替换为空格。
    # xmlpipe_fixup_utf8    = 1
}

## sphinx的source是有继承这么一种属性的，意思就是除了父source之外，这个source还有这个特性
source src1throttled : src1
{
    sql_ranged_throttle = 100
}

## 索引test1
index test1
{
    ## 索引类型，包括有plain，distributed和rt。分别是普通索引/分布式索引/增量索引。默认是plain。
    # type          = plain

    ## 索引数据源
    source          = src1
    ## 索引文件存放路径
    path            = /home/yejianfeng/instance/coreseek/var/data/test1

    ## 文档信息的存储模式，包括有none,extern,inline。默认是extern。
    ## docinfo指的就是数据的所有属性（field）构成的一个集合。
    ## 首先文档id是存储在一个文件中的（spa）
    ## 当使用inline的时候，文档的属性和文件的id都是存放在spa中的，所以进行查询过滤的时候，不需要进行额外操作。
    ## 当使用extern的时候，文档的属性是存放在另外一个文件（spd）中的，但是当启动searchd的时候，会把这个文件加载到内存中。
    ## extern就意味着每次做查询过滤的时候，除了查找文档id之外，还需要去内存中根据属性进行过滤。
    ## 但是即使这样，extern由于文件大小小，效率也不低。所以不是有特殊要求，一般都是使用extern
    docinfo         = extern

    ## 缓冲内存锁定。
    ## searchd会讲spa和spi预读取到内存中。但是如果这部分内存数据长时间没有访问，则它会被交换到磁盘上。
    ## 设置了mlock就不会出现这个问题，这部分数据会一直存放在内存中的。
    mlock           = 0

    ## 词形处理器
    ## 词形处理是什么意思呢？比如在英语中，dogs是dog的复数，所以dog是dogs的词干，这两个实际上是同一个词。
    ## 所以英语的词形处理器会讲dogs当做dog来进行处理。
    morphology      = none

    ## 词形处理有的时候会有问题，比如将gps处理成gp，这个设置可以允许根据词的长度来决定是否要使用词形处理器。
    # min_stemming_len  = 1

    ## 词形处理后是否还要检索原词？
    # index_exact_words = 1

    ## 停止词，停止词是不被索引的词。
    # stopwords     = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt

    ## 自定义词形字典
    # wordforms     = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt

    ## 词汇特殊处理。
    ## 有的一些特殊词我们希望把它当成另外一个词来处理。比如，c++ => cplusplus来处理。
    # exceptions        = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt

    ## 最小索引词长度，小于这个长度的词不会被索引。
    min_word_len        = 1

    ## 字符集编码类型，可以为sbcs,utf-8。对于Coreseek，还可以有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5
    charset_type        = sbcs

    ## 字符表和大小写转换规则。对于Coreseek，这个字段无效。
    # 'sbcs' default value is
    # charset_table     = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF
    #
    # 'utf-8' default value is
    # charset_table     = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F

    ## 忽略字符表。在忽略字符表中的前后词会被连起来当做一个单独关键词处理。
    # ignore_chars      = U+00AD

    ## 是否启用通配符，默认为0，不启用
    # enable_star       = 1

    ## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star开启的时候才有效果。
    ## 最小前缀索引长度
    ## 为什么要有这个配置项呢？
    ## 首先这个是当启用通配符配置启用的前提下说的，前缀索引使得一个关键词产生了多个索引项，导致索引文件体积和搜索时间增加巨大。
    ## 那么我们就有必要限制下前缀索引的前缀长度，比如example，当前缀索引长度设置为5的时候，它只会分解为exampl，example了。
    # min_prefix_len        = 0
    ## 最小索引中缀长度。理解同上。
    # min_infix_len     = 0

    ## 前缀索引和中缀索引字段列表。并不是所有的字段都需要进行前缀和中缀索引。
    # prefix_fields     = filename
    # infix_fields      = url, domain

    ## 词汇展开
    ## 是否尽可能展开关键字的精确格式或者型号形式
    # expand_keywords       = 1

    ## N-Gram索引的分词技术
    ## N-Gram是指不按照词典，而是按照字长来分词，这个主要是针对非英文体系的一些语言来做的（中文、韩文、日文）
    ## 对coreseek来说，这两个配置项可以忽略。
    # ngram_len     = 1
    # ngram_chars       = U+3000..U+2FA1F

    ## 词组边界符列表和步长
    ## 哪些字符被看做分隔不同词组的边界。
    # phrase_boundary       = ., ?, !, U+2026 # horizontal ellipsis
    # phrase_boundary_step  = 100

    ## 混合字符列表
    # blend_chars       = +, &, U+23
    # blend_mode        = trim_tail, skip_pure

    ## html标记清理，是否从输出全文数据中去除HTML标记。
    html_strip      = 0

    ## HTML标记属性索引设置。
    # html_index_attrs  = img=alt,title; a=title;

    ## 需要清理的html元素
    # html_remove_elements  = style, script

    ## searchd是预先打开全部索引还是每次查询再打开索引。
    # preopen           = 1

    ## 字典文件是保持在磁盘上还是将他预先缓冲在内存中。
    # ondisk_dict       = 1

    ## 由于在索引建立的时候，需要建立临时文件和和副本，还有旧的索引
    ## 这个时候磁盘使用量会暴增，于是有个方法是临时文件重复利用
    ## 这个配置会极大减少建立索引时候的磁盘压力，代价是索引建立速度变慢。
    # inplace_enable        = 1
    # inplace_hit_gap       = 0 # preallocated hitlist gap size
    # inplace_docinfo_gap   = 0 # preallocated docinfo gap size
    # inplace_reloc_factor  = 0.1 # relocation buffer size within arena
    # inplace_write_factor  = 0.1 # write buffer size within arena

    ## 在经过过短的位置后增加位置值
    # overshort_step        = 1

    ## 在经过 停用词 处后增加位置值
    # stopword_step     = 1

    ## 位置忽略词汇列表
    # hitless_words     = all
    # hitless_words     = hitless.txt

    ## 是否检测并索引句子和段落边界
    # index_sp          = 1

    ## 字段内需要索引的HTML/XML区域的标签列表
    # index_zones       = title, h*, th
}

index test1stemmed : test1
{
    path            = /home/yejianfeng/instance/coreseek/var/data/test1stemmed
    morphology      = stem_en
}

index dist1
{
    type            = distributed

    local           = test1
    local           = test1stemmed

    ## 分布式索引（distributed index）中的远程代理和索引声明
    agent           = localhost:9313:remote1
    agent           = localhost:9314:remote2,remote3
    # agent         = /var/run/searchd.sock:remote4

    ## 分布式索引（ distributed index）中声明远程黑洞代理
    # agent_blackhole       = testbox:9312:testindex1,testindex2

    ## 远程代理的连接超时时间
    agent_connect_timeout   = 1000

    ## 远程查询超时时间
    agent_query_timeout = 3000
}

index rt
{
    type            = rt

    path            = /home/yejianfeng/instance/coreseek/var/data/rt

    ## RT索引内存限制
    # rt_mem_limit      = 512M

    ## 全文字段定义
    rt_field        = title
    rt_field        = content

    ## 无符号整数属性定义
    rt_attr_uint        = gid

    ## 各种属性定义
    # rt_attr_bigint        = guid
    # rt_attr_float     = gpa
    # rt_attr_timestamp = ts_added
    # rt_attr_string        = author
}

indexer
{
    ## 建立索引的时候，索引内存限制
    mem_limit       = 32M

    ## 每秒最大I/O操作次数，用于限制I/O操作
    # max_iops      = 40

    ## 最大允许的I/O操作大小，以字节为单位，用于I/O节流
    # max_iosize        = 1048576

    ## 对于XMLLpipe2数据源允许的最大的字段大小，以字节为单位
    # max_xmlpipe2_field    = 4M

    ## 写缓冲区的大小，单位是字节
    # write_buffer      = 1M

    ## 文件字段可用的最大缓冲区大小，字节为单位
    # max_file_field_buffer = 32M
}

## 搜索服务配置
searchd
{
    # listen            = 127.0.0.1
    # listen            = 192.168.0.1:9312
    # listen            = 9312
    # listen            = /var/run/searchd.sock

    ## 监听端口
    listen          = 9312
    listen          = 9306:mysql41

    ## 监听日志
    log         = /home/yejianfeng/instance/coreseek/var/log/searchd.log

    ## 查询日志
    query_log       = /home/yejianfeng/instance/coreseek/var/log/query.log

    ## 客户端读超时时间 
    read_timeout        = 5

    ## 客户端持久连接超时时间，即客户端读一次以后，持久连接，然后再读一次。中间这个持久连接的时间。
    client_timeout      = 300

    ## 并行执行搜索的数目
    max_children        = 30

    ## 进程id文件
    pid_file        = /home/yejianfeng/instance/coreseek/var/log/searchd.pid

    ## 守护进程在内存中为每个索引所保持并返回给客户端的匹配数目的最大值
    max_matches     = 1000

    ## 无缝轮转。防止 searchd 轮换在需要预取大量数据的索引时停止响应
    ## 当进行索引轮换的时候，可能需要消耗大量的时间在轮换索引上。
    ## 但是启动了无缝轮转，就以消耗内存为代价减少轮转的时间
    seamless_rotate     = 1

    ## 索引预开启，是否强制重新打开所有索引文件
    preopen_indexes     = 1

    ## 索引轮换成功之后，是否删除以.old为扩展名的索引拷贝
    unlink_old      = 1

    ## 属性刷新周期
    ## 就是使用UpdateAttributes()更新的文档属性每隔多少时间写回到磁盘中。
    # attr_flush_period = 900

    ## 索引字典存储方式
    # ondisk_dict_default   = 1

    ## 用于多值属性MVA更新的存储空间的内存共享池大小
    mva_updates_pool    = 1M

    ## 网络通讯时允许的最大的包的大小
    max_packet_size     = 8M

    ## 崩溃日志文件
    # crash_log_path        = /home/yejianfeng/instance/coreseek/var/log/crash

    ## 每次查询允许设置的过滤器的最大个数
    max_filters     = 256

    ## 单个过滤器允许的值的最大个数
    max_filter_values   = 4096

    ## TCP监听待处理队列长度
    # listen_backlog        = 5

    ## 每个关键字的读缓冲区的大小
    # read_buffer       = 256K

    ## 无匹配时读操作的大小
    # read_unhinted     = 32K

    ## 每次批量查询的查询数限制
    max_batch_queries   = 32

    ## 每个查询的公共子树文档缓存大小
    # subtree_docs_cache    = 4M

    ## 每个查询的公共子树命中缓存大小
    # subtree_hits_cache    = 8M

    ## 多处理模式（MPM）。 可选项；可用值为none、fork、prefork，以及threads。 默认在Unix类系统为form，Windows系统为threads。
    workers         = threads # for RT to work

    ## 并发查询线程数
    # dist_threads      = 4

    ## 二进制日志路径
    # binlog_path       = # disable logging
    # binlog_path       = /home/yejianfeng/instance/coreseek/var/data # binlog.001 etc will be created there

    ## 二进制日志刷新
    # binlog_flush      = 2

    ## 二进制日志大小限制
    # binlog_max_log_size   = 256M

    ## 线程堆栈
    # thread_stack          = 128K

    ## 关键字展开限制
    # expansion_limit       = 1000

    ## RT索引刷新周期 
    # rt_flush_period       = 900

    ## 查询日志格式
    ## 可选项，可用值为plain、sphinxql，默认为plain。 
    # query_log_format      = sphinxql

    ## MySQL版本设置
    # mysql_version_string  = 5.0.37

    ## 插件目录
    # plugin_dir            = /usr/local/sphinx/lib

    ## 服务端默认字符集
    # collation_server      = utf8_general_ci
    ## 服务端libc字符集
    # collation_libc_locale = ru_RU.UTF-8

    ## 线程服务看守
    # watchdog              = 1
    ## 兼容模式
    # compat_sphinxql_magics    = 1
}

Coreseek部分

简介

Coreseek 是一款中文全文检索/搜索软件，以GPLv2许可协议开源发布，基于Sphinx(也就是说coreseek里面含有sphinx，所以你不用自己单独去安装sphinx)研发并独立发布，专攻中文搜索和信息处理领域，适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景。商业使用（例如, 嵌入到其他程序中）需要获得商业授权。
Coreseek是一个支持中文的全文搜索引擎，意图为其他应用提供高速、低空间占用、高相关度结果的中文全文搜索能力。CoreSeek可以非常容易的与SQL数据库和脚本语言集成。
在Sphinx发行版本中提供的原生搜索API支持PHP、Python、Perl、Rudy和Java。搜索API非常轻量化，可以在几个小时之内移植到新的语言上。第三方API接口和插件提供了对Perl、C#、Haskell、Ruby-on-Rails支持，以及对其他可能的语言或者框架的支持。

二,安装Coreseek
注:本文是以centos+mysql做为数据源支持为基础的coreseek安装教程.mysql安装略过.

1,下载coreseek-4.1-beta.tar.gz

近日Coreseek官网出问题了，我留个下载链接

百度云盘链接：http://pan.baidu.com/s/1hsPpwFE 密码：eiug

cd /usr/local/src/

然后上传刚刚下载的

coreseek-4.1-beta.tar.gz文件放到当前目录下

$ tar xzvf coreseek-4.1-beat.tar.gz
$ cd coreseek-4.1-beat.tar.gz
安装coreseek之前需要先安装需要预装的软件：

$yum install make gcc g++ gcc-c++ libtool autoconf automake imake mysql-devel libxml2-devel expat-devel

2,安装mmseg
$ cd mmseg-3.2.14
$ ./bootstrap #输出的warning信息可以忽略，如果出现error则需要解决
$ ./configure --prefix=/usr/local/mmseg3
$ make && make install
$ cd ..

##如果提示libtool: unrecognized option `--tag=CC' ，请查看libtool问题解决方案
##安装完成后，mmseg使用的词典和配置文件，将自动安装到/usr/local/mmseg3/etc中
##中文分词测试，如果显示不正常，请检查当前环境下的locale和UTF-8中文字符显示设置
$ /usr/local/mmseg3/bin/mmseg -d /usr/local/mmseg3/etc src/t1.txt
中文/x 分/x 词/x 测试/x
中国人/x 上海市/x

Word Splite took: 1 ms.

3,安装coreseek
$ cd csft-4.1
##执行configure，进行编译配置：
$ sh buildconf.sh
$ ./configure --prefix=/usr/local/coreseek --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/mmseg3/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg3/lib/ --with-mysql

如查提示找不到mysql includes file则使用下面的编译命令

$ ./configure --prefix=/usr/local/coreseek --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/mmseg3/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg3/lib/ --with-mysql-includes=/alidata/server/mysql/include/ --with-mysql-libs=/alidata/server/mysql/bin/
$ make && make install

4,测式coreseek
$ cd ../testpack
$ /usr/local/coreseek/bin/indexer -c etc/csft.conf
##以下为正常情况下的提示信息：
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

     using config file 'etc/csft.conf'...
    total 0 reads, 0.000 sec, 0.0 kb/call avg, 0.0 msec/call avg
    total 0 writes, 0.000 sec, 0.0 kb/call avg, 0.0 msec/call avg
##
##csft-4.0版显示：ERROR: nothing to do.
##
$ /usr/local/coreseek/bin/indexer -c etc/csft.conf --all
##以下为正常索引全部数据时的提示信息：（csft-4.0版类似）
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

     using config file 'etc/csft.conf'...
    indexing index 'xml'...
    collected 3 docs, 0.0 MB
    sorted 0.0 Mhits, 100.0% done
    total 3 docs, 7585 bytes
    total 0.075 sec, 101043 bytes/sec, 39.96 docs/sec
    total 2 reads, 0.000 sec, 5.6 kb/call avg, 0.0 msec/call avg
    total 7 writes, 0.000 sec, 3.9 kb/call avg, 0.0 msec/call avg

$ /usr/local/coreseek/bin/indexer -c etc/csft.conf xml
##以下为正常索引指定数据时的提示信息：（csft-4.0版类似）
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

     using config file 'etc/csft.conf'...
    indexing index 'xml'...
    collected 3 docs, 0.0 MB
    sorted 0.0 Mhits, 100.0% done
    total 3 docs, 7585 bytes
    total 0.069 sec, 109614 bytes/sec, 43.35 docs/sec
    total 2 reads, 0.000 sec, 5.6 kb/call avg, 0.0 msec/call avg
    total 7 writes, 0.000 sec, 3.9 kb/call avg, 0.0 msec/call avg

$ /usr/local/coreseek/bin/search -c etc/csft.conf
##以下为正常测试搜索时的提示信息：（csft-4.0版类似）
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

using config file 'etc/csft.conf'...
index 'xml': query '': returned 3 matches of 3 total in 0.093 sec

    displaying matches:
    1. document=1, weight=1, published=Thu Apr 1 22:20:07 2010, author_id=1
    2. document=2, weight=1, published=Thu Apr 1 23:25:48 2010, author_id=1
    3. document=3, weight=1, published=Thu Apr 1 12:01:00 2010, author_id=2

words:

$ /usr/local/coreseek/bin/search -c etc/csft.conf -a Twittter和Opera都提供了搜索服务
##以下为正常测试搜索关键词时的提示信息：（csft-4.0版类似）
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

using config file 'etc/csft.conf'...
index 'xml': query 'Twittter和Opera都提供了搜索服务 ': returned 3 matches of 3 total in 0.038 sec

    displaying matches:
    1. document=3, weight=24, published=Thu Apr 1 12:01:00 2010, author_id=2
    2. document=1, weight=4, published=Thu Apr 1 22:20:07 2010, author_id=1
    3. document=2, weight=3, published=Thu Apr 1 23:25:48 2010, author_id=1

    words:
    1. 'twittter': 1 documents, 3 hits
    2. '和': 3 documents, 15 hits
    3. 'opera': 1 documents, 25 hits
    4. '都': 2 documents, 4 hits
    5. '提供': 0 documents, 0 hits
    6. '了': 3 documents, 18 hits
    7. '搜索': 2 documents, 5 hits
    8. '服务': 1 documents, 1 hits

$ /usr/local/coreseek/bin/searchd -c etc/csft.conf
##以下为正常开启搜索服务时的提示信息：（csft-4.0版类似）
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

using config file 'etc/csft.conf'...
listening on all interfaces, port=9312

三,配置coreseek支持mysql数据源

1,配置csft_mysql.conf文件
复制mysql配置文件到coreseek安装目录etc/下(比如/usr/local/coreseek/etc/)
$ cp /usr/src/coreseek-4.1-beta/testpack/etc/csft_mysql.conf /usr/local/coreseek/etc/
$ cd /usr/local/coreseek/etc/
$ vi csft_mysql.conf
下面加红部分是需要你自己配置的

官方参考文档:数据源配置：mysql数据源 http://www.coreseek.cn/products-install/datasource/

其他数据源请参考官方
==============================================================
#源定义
source phperz
{
type = mysql

    sql_host                = localhost
    sql_user                = root
    sql_pass                = xxxx
    sql_db                    = phperz
    sql_port                = 3306
    sql_query_pre            = SET NAMES utf8

    sql_query                = SELECT id,title,descs,status from article
                                                              #sql_query第一列id需为整数
                                                              #title、content作为字符串/文本字段，被全文索引
    sql_attr_uint            = status           #从SQL读取到的值必须为整数
    #sql_attr_timestamp        = date_added #从SQL读取到的值必须为整数，作为时间属性

sql_query_info_pre = SET NAMES utf8 #命令行查询时，设置正确的字符集
sql_query_info = SELECT * FROM article WHERE id=$id #命令行查询时，从数据库读取原始数据信息
}

#index定义
index phperz
{
    source            = phperz             #对应的source名称
    path            =  /usr/local/coreseek/var/data/phperz #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...
    docinfo            = extern
    mlock            = 0
    morphology        = none
    min_word_len        = 1
    html_strip                = 0

    #中文分词配置，详情请查看：http://www.coreseek.cn/products-install/coreseek_mmseg/
    charset_dictpath = /usr/local/mmseg3/etc/ #BSD、Linux环境下设置，/符号结尾
    #charset_dictpath = etc/                             #Windows环境下设置，/符号结尾，最好给出绝对路径，例如：C:/usr/local/coreseek/etc/...
    charset_type        = zh_cn.utf-8
}
#全局index定义
indexer
{
    mem_limit            = 128M
}

#searchd服务定义
searchd
{
    listen                  =   9312
    read_timeout        = 5
    max_children        = 30
    max_matches            = 1000
    seamless_rotate        = 0
    preopen_indexes        = 0
    unlink_old            = 1
    pid_file = /usr/local/coreseek/var/log/searchd_mysql.pid #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...
    log = /usr/local/coreseek/var/log/searchd_mysql.log        #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...
    query_log = /usr/local/coreseek/var/log/query_mysql.log #请修改为实际使用的绝对路径，例如：/usr/local/coreseek/var/...
}
==============================================================

2,建立索引
路经部分需要改成你自己的地址
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft_mysql.conf --all

可能出现的错误
ERROR: index 'phperz': sql_connect: Can't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock' (2) (DSN=mysql://root:***@localhost:3306/phperz).
这是因为mysql的sock文件路经不正确导致的.
确认一下你的mysql.sock路经,建立一个软连接,比如
ln -s /tmp/mysql.sock /var/lib/mysql/mysql.sock

四,coreseek+php使用方式

Sphinx集成到php程序中有两种方式
1.Sphinx php 模块(这次我们选择使用的方式)
2.Sphinx api 类(位于coreseek源码包里的csft里的api文件夹里有一个sphinxapi.php,使用的时候包含这个php文件即可)
我们要使用sphinx需要做以下几件事:
1.首先要有数据
2.建立sphinx配置文件
3.生成索引
4,启动searchd 服务进程,并开启端口9312
5.用php客户程序去链接sphinx服务
/usr/local/coreseek/bin/searchd
启动进程命令 searchd
-c 指定配置文件
--stop 停止服务
--pidfile 显示指定pid文件
-p 指定端口(默认9312)
注意:这里启动的服务是searchd
使用php sphinx的模块
下载 sphinx-1.1.0.tgz
tar zvxf sphinx-1.1.0.tgz
cd sphinx-1.1.0
/usr/local/php/bin/phpize #用于生成一个configure的脚本
进入coreseek源码包的csft/api/libsphinxclent 目录下执行configure
./configure
make && make install
进入sphinx-1.1.0.gzt的源码包目录下执行configure用于生成so 的shpinx模块
./configure --with-php-config=/usr/local/webserver/php/bin/php-config --with-sphinx
make && make install
安装成功后会有提示
Build complete.
Don't forget to run 'make test'.
Installing shared extensions: /usr/local/php/lib/php/extensions/no-debug-non-zts-20090626/ (这个目录是sphinx.so所在的目录)
然后我们编辑php的ini文件在extension中加入
extension=sphinx.so
然后重启nginx和php的服务
最后打印一下phpinfo 查看sphinx是否开启成功
如果成功开启就可以使用php手册里的sphinx的方法和代码了
复制安装止录下的/usr/local/src/coreseek-4.1-beta/testpack/api/sphinxapi.php文件到你的项目里
你的程序里include sphinxapi.php
php使用方法见/usr/local/src/coreseek-4.1-beta/testpack/api/test.php
另附上测试代码

案例一：

请在url上，输入  参数key_word  的相关get信息，来查询
";
echo "当前key_word为：$key_word
Sphinx返回值如下数组
";
$sphinx = new SphinxClient();
//sphinx的主机名和端口
$sphinx->SetServer ( 'localhost', 9312 );
//设置返回结果集为php数组格式
$sphinx->SetArrayResult ( true );
//匹配结果的偏移量，参数的意义依次为：起始位置，返回结果条数，最大匹配条数
$sphinx->SetLimits(0, 20, 1000);
//最大搜索时间
$sphinx->SetMaxQueryTime(10);
//执行简单的搜索，这个搜索将会查询所有字段的信息，要查询指定的字段请继续看下文
$index = '*' ;//索引源是配置文件中的 index 类，如果有多个索引源可使用,号隔开：'email,diary' 或者使用'*'号代表全部索引源
$result = $sphinx->query ($key_word, $index); 
echo '';
print_r($result);
echo '';
//释放资源
$sphinx=null;

更多关于Sphinx的PHP用法请参阅https://my.oschina.net/melonol/blog/127441

五,coreseek日常维护

启动
/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csft_mysql.conf
停止
/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csft_mysql.conf --stop
建立索引
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft_mysql.conf --all
重建索引
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft_mysql.conf --all --rotate

你需要把启动命令加到开机自启动里
把重建索引命令加到计划任务里每天执行

你可能感兴趣的:(MYSQL,PHP,Linux,shpinx,coreseek,中文分词,全文索引)

PHP 高性能框架 Workerman 凭什么能硬刚 Swoole ？ A码农先森技术杂谈 php swoole workerman
大家好，我是码农先森。一次偶然看到了国外某机构针对PHP周边生态框架及扩展的性能测试排行榜，看到Workerman竟遥遥领先Swoole。在我们PHP程序员现有的认知里，Swoole作为一个基于C/C++语言编写的扩展程序，性能居然落后了。第一眼看到这个结果的时候，我的心情久久不能平复，脑子里不经的浮现着「难道C/C++比PHP的性能还差了？」。说到Workerman和Swoole，就想起了那不争
Spring Boot 整合 MySQL 和 Druid 连接池疯狂的键盘侠 spring boot mysql spring boot mysql druid
SpringBoot整合MySQL和Druid连接池一、引言在JavaWeb开发中，SpringBoot凭借其简洁的配置和强大的功能成为主流框架，而MySQL作为常用的关系型数据库，与SpringBoot的结合十分紧密。Druid是阿里巴巴开源的一款高性能数据库连接池，它提供了丰富的监控和扩展功能，能有效提升应用程序与数据库交互的性能和稳定性。本文将详细介绍如何在SpringBoot2和Sprin
Swoole vs Workman 河南云和数据互联网 PHP 编码
目前php通信服务框架最流行的有wwoole与workerman，swoole是有C语言开发的php扩展类，而workerman是纯PHP开发框架，可能swoole比workerman出名，在百度、腾讯公司都有在使用，使用频率也比较高,但workerman也有很多项目在用，哪到底谁能更胜一筹呢？首先我们一起来了解一下swoole：Swoole是面向生产环境的PHP异步网络通信引擎使PHP开发人员可
php workman 和swoole,workerman和swoole的区别 weixin_39530647 php workman 和swoole
workerman和swoole都是phpsocket服务器框架，都支持长连接、tcp和udp、websocket、异步、分布式部署等workerman纯php写的，swoole是php的c扩展，性能肯定更高，百度、腾讯不少产品的server就是基于swoole的workerman上手更快，文档更丰富，社区活跃，社区基本做到有问必答。(推荐学习：workerman教程)性能上Swoole毕竟是C语
python中__init__下划线怎么打出来___init__（）-------“_”下划线开头的函数 weixin_39742392
1、linuxkernel中双下划线开头的函数常常,当你查看内核API时,你会遇到以双下划线(__)开始的函数名.这样标志的函数名通常是一个低层的接口组件,应当小心使用.本质上讲,双下划线告诉程序员:"如果你调用这个函数,确信你知道你在做什么."——《linux设备驱动程序》C++;系统头文件里将宏名、变量名、内部函数名用_开头就是为了避免与用户用的名字冲突。因为当你＃include系统头文件时，
php workerman和swoole,workerman和swoole的区分_PHP开发框架教程我吃掉了一辆奔驰 php
workerman和swoole都是phpsocket服务器框架，都支撑长衔接、tcp和udp、websocket、异步、分布式布置等workerman纯php写的，swoole是php的c扩大，机能一定更高，百度、腾讯不少产物的server就是基于swoole的workerman上手更快，文档更雄厚，社区活泼，社区基础做到有问必答。(引荐进修：workerman教程)机能上Swoole毕竟是C言
Xilinx AXI DMA驱动与Petalinux集成实战指南 Nate Hillick
本文还有配套的精品资源，点击获取简介：AXIDMA是Xilinx为FPGA设计的高性能DMA控制器，用于片上存储器与外设间高速数据传输。本项目文件集包含了AXIDMA驱动配置文件，用于Petalinux环境下的集成与配置。介绍AXIDMA基本概念、组件、集成步骤、DMA驱动程序、应用场景以及配置文件解析，旨在帮助开发者在嵌入式Linux系统中高效利用AXIDMA。1.XilinxAXIDMA控制器
docker部署redis最佳实践 kucoll docker docker redis 容器
使用docker部署mysql最佳实践拉取镜像创建目录及配置文件Redis配置说明创建目录创建配置文件运行容器redis数据管理进入容器并登录redisredis基本命令备份RedisRDB数据恢复RedisRDB数据备份RedisAOF数据恢复RedisAOF数据防火墙配置常见问题处理日志警告WARNINGovercommit_memory拉取镜像dockerpullredis:6.2.6创建目
通过linux收集多台交换机设备日志,配置rsyslog服务器收集Cisco交换机日志信息操作指引... 翻译奥莉姐
cisco交换机通过rsyslog收集日志信息配置操作指引登陆交换机，进入全局配置模式SWITCH>enPassword:SWITCH#SWITCH#configtEnterconfigurationcommands,oneperline.EndwithCNTL/Z.SWITCH(config)#rsyslog配置SWITCH(config)#loggingonSWITCH(config)#log
Linux学习笔记（复习版day008） ccnnlxc Liux学习复习笔记 linux 学习笔记
1.僵尸进程僵尸进程（ZombieProcess）是指那些已经终止（即完成执行）的进程，但其父进程尚未读取其退出状态信息的进程。简单来说，僵尸进程的生命周期已经结束，但它的进程描述符仍然存在于系统中，以便父进程能够获取其退出状态。处理：1.top命令查询是否有僵尸进程，此处1zombie表示有一个僵尸进程2.ps-aux|grepZ查询僵尸进程的pid,STAT状态为Z+的即为僵尸进程。3.pst
在计算机上本地运行 Deepseek R1 itmanll linux
DownloadOllamaonLinuxDownloadOllamaonWindowsDownloadOllamaonmacOSDeepseekR1是一个强大的人工智能模型，在科技界掀起了波澜。它是一个开源语言模型，可以与GPT-4等大玩家展开竞争。但更重要的是，与其他一些模型不同，您可以在自己的计算机上本地运行DeepseekR1。linux步骤第1步：下载Ollama并安装curl-fsSL
低代码平台放入外部链接有缓存不生效不要秃头啊啊缓存
在低代码平台中，放入外部链接时如果遇到缓存不生效的问题，通常是因为浏览器缓存了页面内容，导致外部链接的变化无法及时反映。为了解决这个问题，可以采用以下几种方法：使用时间戳或唯一标识符在外部链接后添加一个动态参数，例如时间戳，确保每次加载时浏览器都认为这是一个新的请求。可以通过以下方式来生成时间戳：">这里，******是PHP代码，每次请求时都会返回一个新的时间戳，防止浏览器缓存旧的内容。使用if
Linux 自旋锁不悔哥 linux 网络 tcp/ip c语言智能路由器
当内核发生访问资源冲突的时候，可以有两种锁解决方案：1.原地等待2.挂起当前进程，调度其它进程执行spinklock是内核中提供的一种比较常见的锁机制，自旋锁是“原地等待”的方式解决资源冲突的，即，一个线城获取看一个自旋锁后，另外一个线程期望获取该自旋锁，获取不到，只能够原地“打转”（忙等待）。由于自旋锁的这个忙等待的特性，注定了它的使用场景的限制-------自旋锁不应该被长时间的持有（消耗CP
海康视频不能在浏览器解析播放，需要转码摘星喵Pro java 开发语言浏览器播放视频视频编码转码
海康视频不能在浏览器解析播放，需要转码参考：https://blog.csdn.net/xcg340123/article/details/139825982依赖ws.schildjave-core2.4.5ws.schildjave-native-win642.4.5ws.schildjave-native-linux642.4.5转码逻辑importws.schild.jave.*;impor
在Linux上安装Chrome浏览器时遇到的问题花牧w Linux ubuntu chrome
在Linux上安装Chrome浏览器时遇到的问题一、权限报错二、找不到文件报错三、架构不符报错四、依赖关系报错一、权限报错运行：dpkg-igoogle-chrome-stable_current_amd64-1.deb报错：dpkg：错误：所请求的操作需要超级用户权限处理方式：sudodpkg-igoogle-chrome-stable_current_amd64-1.deb[sudo]user
【mysql基础语法】 baboozx mysql
sql基础语法一基本语法查询：select字段from表名where条件插入：insertinto表名(column_name)values(values)删除：deletefrom表名where条件更新：update表名set(column_name=value),where条件应用于某列的聚合函数。聚合函数对数据进行数学运算，如计算平均值（AVG）、总和（SUM）、最大值（MAX）、最小值（M
ubuntu上编译fortran_Ubuntu下安装Intel Fortran编译器(ifort) 新职语
IntelFortanCompiler简称ifort,Windows下的ifort是收费的，但是Linux系统下提供免费的ifort,可以在下面的链接中下载需要的版本(必须先注册，随后会收到官网发来的邮件，里面提供了接下来安装需要的series-number)http://software.intel.com/en-us/articles/non-commercial-software-downl
php tofixed,js修复toFixed()四舍五入精度问题，并相对于原生提高了性能 weixin_39590868 php tofixed
思路是将小数分割成整数和小数部分然后进行四舍五入再补全字符串后的0目前没发现有什么问题。有bug请反馈谢谢代码原创，转载请注明连接谢谢"usestrict";/***https://my.oschina.net/isgaoyi/blog/4717508-v1.0(2020-11-15T01:46:32+0800)*[email protected]**修复四舍五入精度问题*@me
python模块之psutil详解_基于python调用psutil模块过程解析谢艺馨
这篇文章主要介绍了基于python调用psutils模块过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下用Python来编写脚本简化日常的运维工作是Python的一个重要用途。在Linux下，有许多系统命令可以让我们时刻监控系统运行的状态，如ps，top，free等等。要获取这些系统信息，Python可以通过subprocess模块调用并获
mysql冷热备份方案_MySQL双机热备份实施方案析木分野 mysql冷热备份方案
MySQL双机热备份实施方案1、MySQL数据库没有增量备份的机制，当数据量太大的时候备份是一个很大的问题。还好MySQL数据库提供了一种主从备份的机制，其实就是把主数据库的所有的数据同时写到备份数据库中。实现MySQL数据库的热备份。2、要想实现双机的热备首先要了解主从数据库服务器的版本的需求。要实现热备MySQL的版本都要高于3.2，还有一个基本的原则就是作为从数据库的数据库版本可以高于主服务
Linux内核漏洞CVE-2024-1086的风险评估与修复方法博览文库 linux 运维
CVE-2024-1086是一个Linux内核的权限提升漏洞，该漏洞源于netfilter组件中的nf_tables部分。具体来说，这个漏洞允许本地攻击者利用特定的操作来触发双重释放，从而将普通用户权限提升至root权限。因此，该漏洞的风险等级被评定为中等，CVSS3.1评分为7.0。**漏洞发现时间**：该漏洞于**2024年3月28日**被公开披露，并在互联网上出现了相关的概念验证（PoC）和
修改 ssh 默认访问端口技术分享，共享成长 linux ssh 运维
Linux最小化安装后默认带有ssh服务并正常运行，服务默认端口为“22”。为了确保访问网络的安全，很多用户的网络设备对“22”端口做了限制，这时我们需要修改ssh服务默认的端口。此步骤建议直接在服务器上通过鼠标键盘操作修改配置文件vi/etc/ssh/sshd_config上图中将默认的“22”端口修改为端口“22345”，如上图所示，修改完毕后保存退出防火墙端口放行firewall-cmd--
Linux 内核学习(3) --- 内核中断机制小猪佩奇TONY Linux 内核学习单片机 linux
目录中断来源中断处理程序Linux中断处理程序架构获取中断信息ARMGIC申请和释放中断DTS中的配置中断处理函数中断来源根据中断的来源，中断可以分为外部中断和内部中断,内部中断的来源是CPU内部(软件中断指令，溢出，除法错误等),例如操作系统从用户态切换到内核态,需要借助于CPU的软件中断，外部中断的中断源来自于外设，由外设提出请求。根据中断是否可以被屏蔽分为可屏蔽中断和不可屏蔽中断(NMI)，
Ansible批量远程管理Windows主机(部署与配置) 小小小徐先生 linux centos
Ansible批量远程管理Windows主机(部署与配置)一、Linux管理服务器需安装pip、pywinrm插件（1）配置阿里镜像源[root@HJMDesktop]#cd/etc/yum.repos.d/[[email protected]]#wget-O/etc/yum.repos.d/CentOS-Base.repohttp://mirrors.aliyun.com/repo/Cent
在Eclipse安装时报错：Version 1.8.0_281 of the JVM is not suitable for this product CheeseZhangz 学习 eclipse windows java jdk
近日，在QQ群里看到鹏飞大佬的文章，突然想coding一发，又因为没用过Eclipse，于是开始撸IDE…可谁曾想，前方正有一堆坑…下载是一坑百度搜索Eclipse，打开官网下载，点击下载，官网的下载速度就是…满心欢喜，开局惊喜啊：(So记住这个小海豚，可爱吧~清华大学开源软件镜像站,致力于为国内和校内用户提供高质量的开源软件镜像、Linux镜像源服务,帮助用户更方便地获取开源软件https://
【面试题】构建高并发、高可用服务架构：技术选型与设计言之。 redis python 面试架构
监控系统消息队列缓存层数据存储层应用层Web层负载均衡与流量分配GrafanaPrometheusAlertmanager消息队列Kafka/RabbitMQ集群/镜像队列缓存层Redis/Memcached数据库MySQL/PostgreSQL主从复制/主主复制应用服务器SpringBoot/Node.js应用服务器SpringBoot/Node.js应用服务器SpringBoot/Node.j
咱们一起学 LINUX（六）：揭秘内核文件表的实现机制 lilye66 咱们一起学习LINUX linux 运维服务器
咱们一起学LINUX（六）：揭秘内核文件表的实现机制在Linux知识的探索旅程中，我们不断深入挖掘其内部的奥秘。今天，我们将聚焦于内核文件表的实现，这是Linux文件管理体系中极为关键的一部分。我希望通过分享这些知识，能与大家共同进步，进一步提升对Linux系统的理解深度。一、内核文件表的核心结构剖析在Linux内核中，每个进程都有一个对应的task_struct结构体，而进程的文件表就保存在ta
超强、超详细Redis入门教程：从基础到实战！喵手数据库 redis 数据库缓存
全文目录：开篇语前言：Redis——现代应用的灵魂目录什么是Redis？Redis的常见应用场景Redis的安装与环境配置1.Linux环境下安装2.MacOS环境下安装3.Windows环境下安装Redis核心数据结构剖析字符串（String）哈希（Hash）列表（List）️集合（Set）与有序集合（SortedSet）⚙️Redis的持久化机制Redis的高可用架构（主从复制与哨兵模式）Re
查看解决端口占用，以及docker解决端口占用的原理柠檬编程工作室 java面试经验 Docker docker 容器运维
在软件开发和部署过程中，端口占用是一个常见的问题。以下是查看和解决端口占用问题的完整解决方案：一、查看端口占用情况1.在Linux系统中方法一：使用lsof命令sudolsof-i:输出信息中会显示占用端口的进程名称、PID和其他详细信息。方法二：使用netstat命令sudonetstat-tuln|grep参数说明：-t：显示TCP连接。-u：显示UDP连接。-l：显示监听状态的端口。-n：显
【Linux】强大的文本编辑器vim Errol_King Linux从入门到接着入门 linux vim
文章目录vi与vim简介正常模式进入输入模式i/I/a/A/o/O光标移动复制、粘贴、剪切撤销其他命令模式保存、退出查找、替换设置vim可视模式vi与vim简介vi编辑器是所有Unix及Linux系统下标准的编辑器，就相当于windows系统中的记事本一样，它的强大不逊色于任何最新的文本编辑器。是我们使用Linux系统不能缺少的工具。由于对Unix及Linux系统的任何版本，vi编辑器是完全相同的
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_