C# 使用PanGu分词

写在前面

这是官方介绍:盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户。作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。

盘古分词组件需要配合其字典文件使用,该组件提供了多重输出解决分词粒度和分词精度权衡的问题,可配合Lucene.net一起使用实现精准的全文检索功能。还支持中文词性的识别,当然也支持英文分割。

可通过NuGet获取组件

C# 使用PanGu分词_第1张图片

代码实现

 using PanGu;

    public static class SplitWordMgr
    {

        /// 
        /// 分词
        /// 
        public static List SplitContent(string word)
        {
            var seg = new Segment();
            ICollection splitWords = seg.DoSegment(word);
            var words = new List();
            for (int i = 0; i < splitWords.Count; i++)
            {
                words.Add(splitWords.ElementAt(i).Word);
            }
            return words;
        }

    }

C# 使用PanGu分词_第2张图片 

资源及说明

链接:https://pan.baidu.com/s/1zTHOX5ioTPxQEO2CEhfXlg 
提取码:llos 

请将资源压缩包里的Dictionaries文件夹改名为Dict后,复制到项目的bin目录下。

C# 使用PanGu分词_第3张图片

你可能感兴趣的:(C#,c#,开发语言)