Sphinx系列文章\SCWS中文分词

软件清单

SCWS： 1.2.2，下载
XDB字典： 下载

安装

For Mac / Linux

请注意，我的系统是Mac OS X 10.11.2

假设你已经下载好了上面的软件。

第一步：编译和安装

# 解压
➜  tar -xvf scws-1.2.2.tar.bz2 

# 编译和安装 scws
./configure --prefix=/usr/local/Cellar/scws # --preifx=[安装路径]
make -j4
make install

# 编译和安装 php-scws
➜  cd phpext
➜  phpize
➜  ./configure --with-scws=/usr/local/Cellar/scws --with-php-config=/usr/local/Cellar/php56/5.6.16/bin/php-config
➜  make -j4
➜  make install
# 输出
Installing shared extensions: /usr/local/Cellar/php56/5.6.16/lib/php/extensions/debug-non-zts-20131226/

这说明 php-sces 扩展被安装到了，/usr/local/Cellar/php56/5.6.16/lib/php/extensions/debug-non-zts-20131226/ 路径下。然后启用这个 PHP 模块：

# 两种方法：
# 1.直接在 php.ini 中配置；2.写成单独的配置文件（前提是启用了加载附加 .ini 配置文件这个功能）
# 配置内容都一样：
[scws]
extension = "/usr/local/Cellar/php56/5.6.16/lib/php/extensions/debug-non-zts-20131226/scws.so"
scws.default.charset = utf-8
scws.default.fpath = "/usr/local/Cellar/scws/etc"

解释一下：
extension: 模块链接库路径
scws.default.charset：scws 模块执行时默认编码集
scws.default.fpath：scws 配置文件路径

重启PHP，看看模块是否加载成功：

➜  kill -USR2 311
➜  php -m | grep scws
# 输出
scws

第二步：词库

# 解压词库
➜  tar -xvf scws-dict-chs-utf8.tar.bz2
# 输出
x dict.utf8.xdb

将词库移动至安装 scws 的 etc 目录下：

➜  mv dict.utf8.xdb /usr/local/Cellar/scws/etc

测试安装是否成功

';
}

输出：

模块包含以下函数：
---------------------------------------
Array
(
    [0] => scws_open
    [1] => scws_new
    [2] => scws_close
    [3] => scws_set_charset
    [4] => scws_add_dict
    [5] => scws_set_dict
    [6] => scws_set_rule
    [7] => scws_set_ignore
    [8] => scws_set_multi
    [9] => scws_set_duality
    [10] => scws_send_text
    [11] => scws_get_result
    [12] => scws_get_tops
    [13] => scws_has_word
    [14] => scws_get_words
    [15] => scws_version
)
---------------------------------------
模块版本：
SCWS (Module version:0.2.2, Library version:1.2.2) - by hightman%

SCWS 自带函数详解

mixed scws_new(void)

功能： 创建并返回一个 SimpleCWS 类操作对象。

返回值： 成功返回类操作句柄，失败返回 false。

mixed scws_open(void)

功能： 创建并返回一个分词操作句柄。

返回值： 成功返回 scws 操作句柄，失败返回 false。

bool scws_close(resource scws_handle)

功能： 关闭一个已打开的 scws 分词操作句柄。

参数： scws_handle 即之前由 scws_open 打开的返回值。

返回值： 始终为 true

bool scws_set_charset(resource scws_handle, string charset)

功能： 设定分词词典、规则集、欲分文本字符串的字符集。

参数： charset 要新设定的字符集，只支持 utf8 和 gbk。（默认为 gbk，utf8不要写成utf-8）。
返回值： 始终为 true

bool scws_add_dict(resource scws_handle, string dict_path [, int mode])

功能： 添加分词所用的词典，新加入的优先查找。

参数： dict_path 词典的路径，可以是相对路径或完全路径（遵循安全模式下的 open_basedir）。

参数： mode 可选，表示加载的方式，其值有：

- SCWS_XDICT_TXT  表示要读取的词典文件是文本格式，可以和后2项结合用
- SCWS_XDICT_XDB  表示直接读取 xdb 文件（此为默认值）
- SCWS_XDICT_MEM  表示将 xdb 文件全部加载到内存中，以 XTree 结构存放，可用异或结合另外2个使用。

返回值： 成功返回 true 失败返回 false

bool scws_set_dict(resource scws_handle, string dict_path [, int mode])

功能： 设定分词所用的词典并清除已存在的词典列表

参数： dict_path 词典的路径，可以是相对路径或完全路径（遵循安全模式下的 open_basedir）。
参数： mode 可选，表示加载的方式。参见 scws_add_dict

返回值： 成功返回 true 失败返回 false

bool scws_set_rule(resource scws_handle, string rule_path)

功能： 设定分词所用的新词识别规则集（用于人名、地名、数字时间年代等识别）。

参数： rule_path 规则集的路径，可以是相对路径或完全路径（遵循安全模式下的 open_basedir）。
参数： mode 表示加载的方式。参见 scws_add_dict

返回值： 成功返回 true 失败返回 false

bool scws_set_ignore(resource scws_handle, bool yes)

功能： 设定分词返回结果时是否去除一些特殊的标点符号之类。

参数： yes 如果为 true 则结果中不返回标点符号，如果为 false 则会返回，缺省为 false。

返回值： 始终为 true

bool scws_set_multi(resource scws_handle, int mode)

功能： 设定分词返回结果时是否复式分割，如“中国人”返回“中国＋人＋中国人”三个词。

参数： mode 复合分词法的级别，缺省不复合分词。取值由下面几个常量异或组合（也可用 1-15 来表示）：

- SCWS_MULTI_SHORT   (1)短词
- SCWS_MULTI_DUALITY (2)二元（将相邻的2个单字组合成一个词）
- SCWS_MULTI_ZMAIN   (4)重要单字
- SCWS_MULTI_ZALL    (8)全部单字

返回值： 始终为 true

bool scws_set_duality(resource scws_handle, bool yes)

功能： 设定是否将闲散文字自动以二字分词法聚合

参数： yes 设定值，如果为 true 则结果中多个单字会自动按二分法聚分，如果为 false 则不处理，缺省为 false。

返回值： 始终为 true

bool scws_send_text(resource scws_handle, string text)

功能： 发送设定分词所要切割的文本。

参数： text 要切分的文本的内容。

返回值： 成功返回 true 失败返回 false

注意： 系统底层处理方式为对该文本增加一个引用，故不论多长的文本并不会造成内存浪费；执行本函数时，若未加载任何词典和规则集，则会自动试图在 ini 指定的缺省目录下查找缺省字符集的词典和规则集。

mixed scws_get_result(resource scws_handle)

功能： 根据 send_text 设定的文本内容，返回一系列切好的词汇。

返回值： 成功返回切好的词汇组成的数组，若无更多词汇，返回 false。返回的词汇包含的键值如下：

- word  string      词本身
- idf   float       逆文本词频
- off   int         该词在原文本路的位置
- attr  string      词性

注意： 每次切词后本函数应该循环调用，直到返回 false 为止，因为程序每次返回的词数是不确定的。

mixed scws_get_tops(resource scws_handle [, int limit [, string attr]])

功能： 根据 send_text 设定的文本内容，返回系统计算出来的最关键词汇列表。

参数： limit 可选参数，返回的词的最大数量，缺省是 10 。

参数： attr 可选参数，是一系列词性组成的字符串，各词性之间以半角的逗号隔开，这表示返回的词性必须在列表中，如果以~开头，则表示取反，词性必须不在列表中，缺省为NULL，返回全部词性，不过滤。

返回值： 成功返回统计好的的词汇组成的数组，返回 false。返回的词汇包含的键值如下：

- word    string    词本身
- times   int       词在文本中出现的次数
- weight  float     该词计算后的权重
- attr    string    词性

mixed scws_get_words(resource scws_handle, string attr)

功能： 根据 send_text 设定的文本内容，返回系统中词性符合要求的关键词汇。

参数： attr 是一系列词性组成的字符串，各词性之间以半角的逗号隔开，这表示返回的词性必须在列表中，如果以~开头，则表示取反，词性必须不在列表中，若为空则返回全部词。

返回值： 成功返回符合要求词汇组成的数组，返回 false。返回的词汇包含的键值参见 scws_get_result

bool scws_has_word(resource scws_handle, string attr)

功能： 根据 send_text 设定的文本内容，返回系统中是否包括符合词性要求的关键词。

返回值： 如果有则返回 true，没有就返回 false。

string scws_version(void)

功能： 返回 scws 版本号名称信息（字符串）。

返回值： 返回string，scws 版本号名称信息。

测试分词功能

 
 $cws = scws_open();
// 设置分词编码
scws_set_charset($cws, "utf8");
// 设置分词所用字典
scws_set_dict($cws, ini_get('scws.default.fpath') . '/dict.utf8.xdb');
// 设定分词所用的识别规则集
scws_set_rule($cws, ini_get('scws.default.fpath') . '/rules.utf8.ini');
// 发送要分割的字符串
scws_send_text($cws, $keyword);
// 设定分词返回结果时是否去除一些特殊的标点符号之类
scws_set_ignore($cws, true);
// 设定分词返回结果时是否复式分割，如“中国人”返回“中国＋人＋中国人”三个词
// scws_set_multi($cws, false);
// 散文字自动以二字分词法聚合
scws_set_duality($cws, true);

echo "\n最关键词汇列表\n";
echo "-------------------------------------------------------------\n";
echo "No. 关键词                       Attr     Weight(times)\n";
echo "-------------------------------------------------------------\n";
$list = scws_get_tops($cws, 20, '');
$number = 1;
foreach ($list as $value) {
    printf("%02d. %s \t\t\t %s \t  %.2f(%d)\n",
        $number, $value['word'], $value['attr'], $value['weight'], $value['times']);
    $number++;
}

echo "-------------------------------------------------------------\n";
echo "\n返回切好的词汇\n";
echo "-------------------------------------------------------------\n";
while ($result = scws_get_result($cws)) {
    foreach ($result as $value) {
        if ($value['len'] == 1 && $value['word'] == "\r")
            continue;
        if ($value['len'] == 1 && $value['word'] == "\n")
            echo $value['word'];
        else
            printf("%s：%s  ", $value['word'], $value['attr']);
    }
}
scws_close($cws);

// 对于分词返回结果去除特殊标点符号
// scws_set_ignore($cws, true);
// 对于分词结果是否复试分割
// scws_set_multi($cws, SCWS_MULTI_ZMAIN);
 
 $endtime = microtime(true);
// 执行时间
echo "\n-------------------------------------------------------------\n\n";
echo '脚本执行了：'.bcsub($endtime, $starttime,  6)."秒";
echo "\n\n";
 
 输出： 
 开始测试分词：
------------------------------------------------

最关键词汇列表
-------------------------------------------------------------
No. 关键词                       Attr     Weight(times)
-------------------------------------------------------------
01. 电影                         n        25.02(6)
02. 不能                         v        19.08(4)
03. 经过                         v        14.82(3)
04. 创作                         vn       14.82(3)
05. 授权                         v        14.79(3)
06. 版权                         n        14.76(3)
07. 专有                         vn       13.94(2)
08. 陈凯歌                       nr       11.87(1)
09. 改编                         v        11.82(2)
10. 一九八零年                   t        10.72(1)
11. 无极                         ns       10.02(1)
12. 权利                         n        9.88(2)
13. 小时                         n        9.68(2)
14. 人员                         n        9.60(2)
15. 就是                         n        9.52(2)
16. 不是                         v        9.48(2)
17. 法律                         n        9.32(2)
18. 没有                         v        9.30(2)
19. 作者                         n        9.18(2)
20. 作品                         n        9.12(2)
-------------------------------------------------------------

返回切好的词汇
-------------------------------------------------------------
陈凯歌：nr  并：c  不是：v  无极：ns  的：uj  唯一：b  著作权人：n  一部：n  部：n  电影：n  的：uj  整体：n  版权：n  归：v  电影：n  制片厂：n  所有：v  

一部：n  部：n  电影：n  的：uj  作者：n  包括：v  导演：n  摄影：vn  编剧：n  等：v  创作：vn  人员：n  这些：r  创作：vn  人员：n  对：p  他们：r  的：uj  
创作：vn  是：v  是有：v  有：v  版权：n  的：uj  不：d  经过：v  制片人：n  授权：v  其他人：rr  不能：v  对：p  电影：n  做：v  拷贝：n  发行：vn  反映：v  
不能：v  通过：v  网络：n  来：v  传播：vn  既：c  不能：v  把：p  电影：n  改编：v  成：v  小说：n  连环画：n  等：v  其他：r  艺术：n  形式：n  发表：v  也
：d  不能：v  把：p  把一：m  一部：n  部几：m  几个：q  个：q  小时：n  才能：v  放：v  放完：v  完的：uj  的：uj  电影：n  改编：v  成半个：nr  小时：n  就
能：v  能放：v  放完：v  完的：uj  的：uj  短片：n  

著作权：n  和：c  版权：n  在：p  我国：n  是：v  同一个：b  概念：n  是：v  法律：n  赋予：v  作品：n  创作者：n  的：uj  专有：vn  权利：n  所谓：v  专有：v
n  权利：n  就是：n  没有：v  经过：v  权利人：n  许可：v  又：d  不是：v  法律：n  规定：v  的：uj  例外：v  要：v  使用：v  这个：r  作品：n  就：d  必须：d
  经过：v  作者：n  授权：v  没有：v  授权：v  就是：n  侵权：vn  

一九八零年：t  春天：t  
-------------------------------------------------------------

脚本执行了：0.004200秒
 
 搞定！ 
 总结 
 测试了一些词，分词准确性在90%左右。继续对配置文件修改一下，应该可以正常使用。

Sphinx系列文章\SCWS中文分词

软件清单

安装

For Mac / Linux

测试安装是否成功

SCWS 自带函数详解

mixed scws_new(void)

mixed scws_open(void)

bool scws_close(resource scws_handle)

bool scws_set_charset(resource scws_handle, string charset)

bool scws_add_dict(resource scws_handle, string dict_path [, int mode])

bool scws_set_dict(resource scws_handle, string dict_path [, int mode])

bool scws_set_rule(resource scws_handle, string rule_path)

bool scws_set_ignore(resource scws_handle, bool yes)

bool scws_set_multi(resource scws_handle, int mode)

bool scws_set_duality(resource scws_handle, bool yes)

bool scws_send_text(resource scws_handle, string text)

mixed scws_get_result(resource scws_handle)

mixed scws_get_tops(resource scws_handle [, int limit [, string attr]])

mixed scws_get_words(resource scws_handle, string attr)

bool scws_has_word(resource scws_handle, string attr)

string scws_version(void)

测试分词功能

总结

你可能感兴趣的:(sphinx,scws)