开源模型应用落地-业务优化篇(五)

一、前言

    经过线程池优化请求排队服务实例水平扩容等措施,整个AI服务链路的性能得到了显著地提升。但是,作为追求卓越的大家,绝不会止步于此。我们的目标是在降低成本和提高效率方面不断努力,追求最佳结果。如果你们在实施AI项目方面有经验,那一定会对GPU服务器的高昂价格感到惋惜。一台基础的v100 24G的GPU云服务器就需要将近3,000元人民币/月。导致很多公司都希望尝试AI,但面对昂贵的服务器成本,只能退缩。接下来,让我们一起努力,对项目进行深度优化,探索更好的解决方案。


二、术语

2.1、Jieba

    是一个开源的中文分词工具,用于将中文文本按照词语进行切分。它是由精确模式、全模式和搜索引擎模式组成的分词器。

2.2、HanLP

    是一个开源的自然语言处理(NLP)工具包,由中国清华大学自然语言处理与社会人文计算实验室开发。它提供了一系列功能强大的中文文本处理工具和算法,包括分词、词性标注、命名实体识别、依存句法分析、语义角色标注、关键词提取、文本分类等。

2.3、分词

    是指将连续的文本序列切分成有意义的词语或标记的过程。在英文中,单词之间通常由空格或标点符号分隔,因此分词相对容易。然而,在许多东亚语言(如中文、日语和韩语)中,词语之间通常没有明显的分隔符号,这就增加了分词的难度。

    分词在自然语言处理中起着重要的作用,因为词语是语言的基本单位,对于理解和处理文本具有重要意义。正确的分词可以帮助计算机理解句子的含义࿰

你可能感兴趣的:(开源大语言模型-实际应用落地,深度学习)