Percent_bigdata

百分点大数据技术团队：基于HugeGraph的知识图谱技术在白酒行业的落地实践

编者按：信息化是企业在外部环境变化时保持核心竞争力的有力手段。在白酒企业信息化过程中，通过应用大数据、云计算等的新智慧营销方式，精准定位消费群体，将对中国白酒未来营销起到革命性作用。
在营销过程中，白酒企业基于知识图谱的数据信息化可以将隐藏在杂乱无章的数据背后的信息提炼出来，并进行数据分析与总结，最终得出研究对象的内在规律，帮助管理者进行更好地判断和决策。
本文从白酒行业实际情况出发，基于HugeGraph图形数据库周边应用生态，分享了百分点大数据技术团队在白酒行业的技术创新实践，介绍如何通过知识的深度挖掘与关联分析，创新性地实现业务指标和问答的融合。
知识图谱本身可以看作是一种新型的信息系统基础设施。
从数据维度上看，知识图谱要求用更加规范的语义提升企业数据的质量，用链接数据的思想提升企业数据之间的关联度，终极目标是将非结构、无显示关联的粗糙数据逐步提炼为结构化、高度关联的高质量知识。因此，白酒企业应该将知识图谱作为一种面向数据的信息系统基础设施进行持续性建设。
从技术维度上看，知识图谱的构建涉及知识表示、关系抽取、图数据存储、数据融合、推理补全等多方面技术；知识图谱的应用涉及语义搜索、知识问答、自动推理、知识驱动的语言及视觉理解、描述性数据分析等，因此，要构建并利用好知识图谱，白酒行业需要系统性地综合利用来自知识表示、自然语言处理、机器学习、图数据库、多媒体处理等多个相关领域的技术，而非单个领域的单一技术。可以说，用系统思维进行知识图谱的构建和应用，是未来的一种发展趋势。
一、知识图谱技术分析

知识图谱与数据存储
随着知识图谱规模的日益增长，知识图谱数据管理问题也愈加突出。近年来，知识图谱和数据库领域均认识到大规模知识图谱数据管理任务的紧迫性。由于传统关系数据库无法有效适应知识图谱的图数据模型，知识图谱领域形成了RDF数据的三元组库（Triple Store），数据库领域开发了管理属性的图数据库（Graph Database）。
Neo4j
Neo4j是用Java实现的开源图数据库，可以说Neo4j是目前流行程度最高的图数据库产品。Neo4j的不足之处在于其社区版是单机系统，虽然Neo4j企业版支持高可用性（High Availability）集群，但与分布式图存储系统的最大区别在于它是在每个节点上存储图数据库的完整副本（类似于关系数据库镜像的副本集群），而不是将图数据划分为子图进行分布式存储，并非真正意义上的分布式数据库系统。如果图数据超过一定规模，系统性能就会因为磁盘、内存等限制而大幅降低，此外，企业版每年授权费用也是一大笔开支。
HugeGraph
HugeGraph是百度开源的一款易用、高效、通用的开源图数据库系统（Graph Database），实现了Apache TinkerPop3框架及完全兼容Gremlin查询语言，具备完善的工具链组件，助力用户轻松构建基于图数据库之上的应用和产品。HugeGraph支持百亿以上的顶点和边快速导入，并提供毫秒级的关联关系查询能力（OLTP），同时，还可与Hadoop、Spark等大数据平台集成，进行离线分析（OLAP）。

本次项目综合考虑，选用国产开源的HugeGraph进行图谱应用构建，如下是HugeGraph图形周边生态。
知识图谱与智能问答
基于知识图谱的问答（Knowledge-Based Question Answering，KBQA，下称“知识问答”）是智能问答系统的核心功能，是一种人机交互的自然方式。知识问答依托一个大型知识库（如知识图谱、结构化数据库等），将用户的自然语言问题转化成结构化查询语句（如SPARQL、SQL、Gremlin等），直接从知识库中查询用户所需的答案。
近年来，知识问答聚焦于解决事实型问答，问题的答案是一个实义词或实义短语。如“2021年茅台消费最多的城市是哪个？”“北京市2021年销售最好的品类是哪个？”事实型问题按问题类型可分为单知识点问题（Single-hop Questions）和多知识点问题（Multi-hop Questions）；按问题的领域可分为垂直领域问题和通用领域问题，相对于通用领域或开放领域，垂直领域下的知识图谱规模更小、精度更高，知识问答的质量更容易提升。
知识问答技术的成熟与落地不仅能提高人们检索信息的精度和效率，还能提升用户的产品体验。无论依托的知识库的规模如何，用户总能像“跟人打交道一样”使用自然语言向机器提问并得到反馈，便利性与实用性共存。
攻克知识问答的关键在于理解并解析用户提出的自然语言问句。这涉及自然语言处理、信息检索和推理（Reasoning）等多个领域的不同技术。相关研究工作在近五年来受到越来越多国内外学者的关注，研究方法主要可分为三大类：基于语义解析（Semantic Parsing）的方法、基于信息检索（Information Retrieval）的方法和基于概率模型（Probabilistic Models）的方法。
大部分先进的知识问答方法是基于语义解析的，目的是将自然语言问句解析成结构化查询语句，进而在知识库上执行查询得到答案。通常，自然语言问句经过语义解析后，所得的语义结构能解释答案的产生。在实际工程应用中，这一点优势不仅能帮助用户理解答案的产生，还能在产生错误答案时帮助开发者定位错误的可能来源。
除此之外，在理解问题、回答问题的过程中，模型应具备更强的推理能力和更好的可解释性，更强的推理能力能满足用户的复杂提问需求，更好的可解释性使用户在“知其然”的同时“知其所以然”。
二、知识图谱创新实践
白酒知识图谱系统
本体创建
本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达，对那些可能相对于某一智能体（Agent）或智能体群体而存在的概念和关系的一种描述。
以下是本次项目中部分本体：
图谱系统
本次项目根据需求，以品规为核心，结合品规品牌知识、零售户属性信息和经营信息、商企业等多位数据基础，通过知识处理来构建白酒知识体系，整体应用功能包括检索查询、知识维护和数据关联加载三个应用模块。
以下是图谱系统的功能设计图：
知识查询
知识图谱体系构建后，支持可视化界面查询，包括体系中的品牌品规知识、零售户属性信息、零售户经营信息和商业企业信息等，此外，还支持实体查询、关系查询、属性查询。
知识检索查询，前端由VUE实现用户的操作界面和交互逻辑，G6图形组件来实现用户的操作与后端的交互查询。后端主要使用Hugegraph提供的Hugegraph-client、Hugegraph-loader、Hugegraph-hubble等组件，使用Gremlin图形查询语言与图形数据库进行交互查询。
知识维护
4.1 本体维护
知识维护功能主要从列表维护模式和图模式维护进行知识模型的增删改查。
知识维护主要维护的是PropertyKey(属性键)、VertexLabel (本体)、EdgeLabel (关系)。
（1）PropertyKey是用来规范顶点和边的属性的约束。

只需要填写属性名称和选择数据类型，以及基数保存就可以新建一个属性键。
（2）VertexLabel用来定义顶点类型，描述顶点的约束信息，VertexLabel允许定义的约束信息包括名称、ID策略、属性、主键和允许空值键。

按照说明，填写相关的属性值，保存即可，顶点名称不能重复。
（3）EdgeLabel用来定义边类型，描述边的约束信息，EdgeLabel允许定义的约束信息包括名称、起点、终点、属性和空值键。

按照说明，填写相关的属性值，保存即可，顶点名称不能重复。
4.2 数据关联加载
数据关联加载功能为系统提供数据源接入功能，现阶段支持CSV导入，数据库数据导入。
CSV导入流程如下：

新建任务：创建一个导入任务。
填写任务属性：填写任务的名称和描述。
上传CSV：上传需要导入数据的CSV，可以上传多个，默认需要包含标题行。
文件设置：默认设置的编码格式为UTF-8，包含标题头，日期格式yyyy-mm-dd等，如果上传的文件和该默认设置不对应的话，可以自定义。
类型设置：创建顶点和边的映射，需要对顶点或者是边的属性对上传的CSV文件的列进行一一对应，ID列进行对应。需要把所上传的CSV文件都映射完毕才能执行下一步。
导入：当完成映射的时候，直接可以进行导入，同时也可以看到导入进度。完成以后，可以看到任务状态。
数据库数据导入流程如下：

流程和CSV导入相似，不同点是数据库导入需要设置数据源、数据库表的选择和类型映射，数据源设置是配置导入过程中需要连接到数据源服务器的数据库类型，IP地址，端口，用户名，密码，数据库等数据库连信息，库表设置是从已经连接的数据库中选择一张或多张数据表。类型映射是创建顶点和边的映射，需要将顶点或边的属性与数据库表的列进行一一对应，并将所上传的CSV文件都映射完毕才能执行下一步。
导入任务管理：导入任务管理就是在各种状态下对已经存在的任务进行管理。

未开始：处于新建状态的任务，只设置了任务的名称和描述。
导入中：导入了CSV或者是设置了数据源。
成功：任务导入成功，可以对任务进行删除。
失败：任务导入失败，可以对任务进行重新配置，再次导入，或是删除任务。
白酒智能问答系统
智能问答系统属于知识图谱系统应用之一，本次项目中的智能问答系统，不仅方便客户从图谱上获取相关信息，更能够和白酒营销过程中的各项指标数据结合，使白酒营销决策者更便捷地从问答系统中获取到对应的指标数据，从而更好地辅助营销决策。
技术调研
智能问答核心主流的实现方式有问答对、NL2SQL和句型模板等，每种方式各有优缺点。
问答对实现方式是尽可能地搜集问答系统中需要回答用户提出的问题和对应的答案，然后把问题和答案数据处理以后，保存到结构化或者半结构化数据库中，后续供用户提问的时候进行检索，一般应用于固定答案的场景。
NL2SQL实现方式是利用大量的人工标注语料进行模型训练，使模型能够对用户输入的问题，进行语义识别并转换成数据源的查询语言与数据源进行交互，最后把答案封装成结果返回给用户，一般应用于问题的答案需要计算并与数据源进行交互才能获得的场景。
句型模板实现方式是将已经收集到的用户问题进行分类整理，按照分类把每一类问题编写成语义识别和数据源查询语言的模板，根据用户输入的问题进行语义识别以后，填充对应模板和数据源查询语句，再与数据源进行交互，最后把答案封装成结果返回给用户，一般应用于问题的答案需要计算并与数据源进行交互才能获得的场景。
在本次项目实践中，为了满足白酒行业从多个数据维度去获取指标数据，并且还需要从图谱上获取相关的信息，显然问答对的方式是不适合的。指标数据的获取需要查询数据源，因此需要用NL2SQL和句型模板的方式去实现，百分点大数据技术团队从工程角度分析，给出以下几点考量：
（1）项目初期方案选用NL2SQL，但是收集到的问题有限，总量不足1000条，难以支撑模型训练。
（2）项目中智能问答使用的查询维度，如品规、品牌、区域、指标，均是已知并且可以枚举的，都有对应的中文和ID，使用已知维度构建词对象以后，方便SQL中对应维度的替换，可以避免模型标注耗费大量的人力资源。
（3）一个好用、易用的问答系统项目初期缺乏足够多语料的情况下，使用语言模型并非就能达到很好的使用效果，好用的模型构建需要足够多的数据量支撑和必要的人工参与。在项目维护过程中，如果使用句型模板，则可以很容易扩展用户的问题，只需要扩展模板即可。项目初期不需要面临新问题频繁增加时准备语料、训练模型、模型优化等一系列问题。
（4）此次项目中智能问答需要动态根据用户输入的问题，拆解出对应的维度信息，维度信息不足时还需要使用缺省条件进行补足，如时间缺省、区域缺省、用户简称转换等，这些特点和主流的实现方案中句型模板的优点不谋而合，实现方式更容易，可控、可解释性强。
（5）后续可以从问答系统中收集到足够多的用户对问答系统使用的问题，再结合对应的语言模型，增加问答的回答率和准确率。
最后项目选择基于句型模板为问答核心，在这之上进行增强扩展。
基于句型模板的问答实践
“结巴”分词是一个Python 中文分词组件，可以对中文文本进行分词、词性标注等功能，并且支持自定义词典，本项目中分词基于jieba组件实现。

模板匹配
基于REfO的问句匹配，REfO（RegularExpressions for Objects）并不是一个框架，它把正则表达式的功能扩展到对象级别，它能同时使用关键和槽位匹配用户问句，从而实现DM模块的问句匹配功能，它支持Python。REfO表达实现了“上个月飞天茅台在北京市的商业销量是多少？”这个问句的匹配，匹配之后可以触发相应处理动作从数据库中查找问题答案。REfO虽然规则编写繁琐，但是其基于规则引擎的特点也能克服问句句型模板匹配繁琐的问题。其规则引擎其实就是能利用设计人员编写的规则表达式对用户输入的问句，按照分词以后的结果进行模板匹配。
问答准备
首先我们得对收集到的问句进行整理，按照句型进行归类，方便后面对不同类型的问句进行REfO规则表达式的编写。比如：“上个月飞天茅台在北京市的商业销量是多少？”这个问题需要归纳到具有时间、品规、区域维度查询指标的句型中，用户在提问的时候，可能会对问题中时间、品规、区域、指标出现的顺序没有要求，所以在编写这类句型规则模板的时候，需要对不同维度的词出现的顺序不敏感。
在进行问句分词之前，咱们针对的是白酒行业，所以我们可以自定义一些白酒行业的行业词以及这些词对应的词性，比如品牌有：茅台、五粮液、钓鱼台等，品规有：飞天茅台、礼盒茅台、低度茅台等，方便后续分词的时候，构建词对象。
除了构建行业词以外，为了让问答更符合用户的习惯，整理问答句型的时候，可以提取出用户的习惯词，比如时间：上个月，最近三个月，过去一年、最近半年等，比如区域中除了包含全国各省市以外，还应该添加各省、全国、各公司等带有区域性质的自定义关键词。
模板匹配过程
REfO会根据问题分词以后，构建的词对象，遍历规则数组中所有的规则，将所有匹配成功的模板放入匹配结果列表中。
如果匹配到多个模板，本项目中采用匹配词对象最多的模板。
处理过程
问句匹配到规则模板以后，每个规则模板都有一个action处理函数，不同的规则定义不同的处理函数。处理函数就是规则模板，对应的封装SQL的处理逻辑。例如：
（1）在项目中定义一些实体词性。

（2）定义一些用户习惯的关键词。

（3）因为行业词数据太多，因此使用导入的方式加载到项目中。
词典：

加载数据到项目中：

问句：上个月飞天茅台在北京市的商业销量是多少？

针对这类句型，我们编写的REfO规则模板是：

其中对应例句的规则是：

Question(k_time)代表时间槽位，gauge_entity代表品规槽位，Star(Any(), greedy=False)代表可以匹配任意的词，类似通配符的作用，Question(region_entity)代表区域槽位，Star(Any(),greedy=False)又是一个通配符，Plus(index_entity) 代表指标槽位，Star(Any(), greedy=False) 又是一个通配符。
其中竖线隔开的是用来处理不同维度的槽位词出现的顺序不一样，也能正确匹配到这个模板。
模板后面对应的action则是模板对应的执行函数，例如例句中的处理函数是：

问答系统执行流程如下图所示：

总结
此次项目中智能问答的实现，既能满足项目初期从图谱中获取常规问题答案的要求，又能实现从数据库中查询对应指标数据的功能需求，可以覆盖80%以上的指标数据获取，为决策者提供方便的决策数据支持。
系统说明：智能问答系统的构建属于长期维护的项目，项目初期一些技术决策往往只是基于系统当时各种因素的考虑，随着时间的推移，初期无法满足的条件在项目过程中可以满足。因此，后续可以收集没有返回答案的用户问题，不断地进行项目优化升级，丰富问题模板，增加问题的覆盖面、提升问题的回答率，增强缺省维度信息的优化处理能力和已知维度信息识别能力，在收集到足够多的语料情况下，可以使用分类模型来提升模板匹配的精准率。
参考资料
[1]《知识图谱方法、实践与应用》王昊奋,漆桂林,陈华钧.

Leetcode-100 贪心算法 LuckyAnJo leetcode leetcode 贪心算法算法
贪心算法简介贪心算法（GreedyAlgorithm）是一种常见的优化算法，用于解决最优化问题。该算法的核心思想是每次选择当前情况下的最优解，并期望通过这些局部最优解得到全局最优解。贪心算法通常用于那些可以分解为若干个子问题，且每个子问题的最优解可以合成全局最优解的问题。贪心算法之所以有用，是因为它可以快速地做出决策，并能在某些问题上实现较高的效率，避免了回溯与暴力解法的复杂度。贪心算法思想贪心算
在Mac M1/M2芯片上完美安装DeepCTR库：避坑指南与实战验证 ku_code_ku 机器学习 macos 推荐算法推荐系统
让推荐算法在AppleSilicon上全速运行概述作为推荐系统领域的最经常用的明星库，DeepCTR集成了CTR预估、多任务学习等前沿模型实现。但在AppleSilicon架构的Mac设备上，安装过程常因ARM架构适配、依赖库版本冲突等问题受阻。本文通过20+次环境搭建实测，总结出最稳定的安装方案。关键版本说明（2024年验证）组件推荐版本注意事项Python3.10.x向下兼容至3.7，但3.1
字节跳动算法高频题：动态规划最优模板知识产权13937636601 计算机算法动态规划
本文系统梳理字节跳动近三年算法面试中的动态规划（DP）高频题型，提炼出适用于80%场景的通用解题模板。通过背包问题、字符串处理、状态压缩等六大核心模块解析，结合跳槽、股票交易、编辑距离等15道真题案例，揭示动态规划的状态转移方程构建规律与维度优化技巧，助您在面试中实现时间复杂度与空间复杂度的双重最优解。第一章动态规划基础框架1.1动态规划三大特征特征判定标准真题案例重叠子问题递归树中存在重复计算节
macOS 使用 enca 识别文件编码类型（比 file 命令准确）知识搬运bot 软件工具/使用技巧 macos enca file iconv 文件编码
文章目录macOS上安装enca基本使用起因-iconv关于enca安装Encaenca&enconv其它用法macOS上安装encabrewinstallenca基本使用encafilepath.txt示例$enca动态规划算法.txt[0]SimplifiedChineseNationalStandard;GB2312CRLFlineterminators起因-iconv在macOS上打开一些
MySQL中基于机器学习的自适应缓存热点识别优化策略——开启数据库性能新纪元墨夶数据库学习资料1 数据库 mysql 机器学习
在数据驱动的世界里，数据库的性能直接影响到整个应用系统的响应速度和用户体验。随着业务量的增长和技术的发展，传统的缓存机制逐渐暴露出局限性。如何更智能地识别并利用热点数据进行缓存优化，成为提升数据库性能的关键所在。今天，我们将深入探讨一种创新的方法——基于机器学习的自适应缓存热点识别优化策略，并分享其在MySQL中的具体实现方案。为什么选择机器学习？‍传统上，开发者们依赖于手动配置或预设规则来决定哪
OpenCV图像拼接（4）图像拼接模块的一个匹配器类cv::detail::BestOf2NearestRangeMatcher 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::BestOf2NearestRangeMatcher是OpenCV库中用于图像拼接模块的一个匹配器类，专门用于寻找两幅图像之间的最佳特征点匹配。它是基于“最近邻与次近邻距离比”原则来过滤匹配点对的，以提高匹配结果的准确性。这个类特别适用于需
股票市场的量化交易策略如何应对市场情绪变化？云策量化程序化炒股量化软件量化交易量化炒股 QMT 股票交易 PTrade 量化交易股票投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》股票市场的量化交易策略如何应对市场情绪变化？在股票市场中，量化交易策略是一种基于数学模型和算法的交易方式，它通过分析历史数据来预测未来价格走势，并据此制定交易决策。然而，市场情绪的变化对股票价格有着不可忽视的影响。本文将探讨量化交易策略如何应对市场情绪的变化，并提供一些具体的代码示例。一、市场情绪的重要性市场情绪是指投资者对市
算法笔记——前缀树、贪心算法（更新ing....... 不吃香菜的码农左神算法笔记算法数据结构贪心算法 leetcode 堆栈
前缀树、贪心算法一、前缀树1.什么是前缀树2.如何生成前缀树二、贪心算法1.拼接字符串2.金条问题3.项目会议时间问题4.项目收益最大化4.随时获得数据流的中位数一、前缀树1.什么是前缀树前缀树一般指字典树这是指一种结构而不是一类题（注意信息是在树的路上）典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
python 列表倒序输出小琳爱分享 python python
python列表倒序输出#使用reverseli1=[1,6,4,3,7,9]li2=['a','m','s','g']li1.reverse()li2.reverse()print(li1,li2)#利用list切片li1=[1,6,4,3,7,9]li2=['a','m','s','g']print(li1[::-1])print(li2[::-1])#利用算法进行转换，这里需要用到深层cop
基于WebAssembly的浏览器密码套件闲人编程 wasm 服务器易于集成跨平台性密码套件浏览器 WebAssembly
目录一、前言二、WebAssembly与浏览器密码套件2.1WebAssembly技术概述2.2浏览器密码套件的需求三、系统设计思路与架构3.1核心模块3.2系统整体架构图四、核心数学公式与算法证明4.1AES-GCM加解密公式4.2SHA-256哈希函数五、异步任务调度与GPU加速设计5.1异步任务调度5.2GPU加速六、GUI设计与功能模块七、完整代码实现九、代码自查与总结十、总结与展望一、前
密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
力扣算法ing(35 / 100) 菥菥爱嘻嘻小白学习算法算法 leetcode typescript javascript
3.22104.二叉树的最大深度我的思路：dfs,深度优先搜索或者说能不能先根搜索，根层数3192nullmax=2202153nullmax=373nullmax=3我的代码：if(head.next===null)maxreturnfunctionmaxDepth(root:TreeNode|null):number{functionfindMax(root:TreeNode|null,dep
力扣算法ing(30 / 100) 菥菥爱嘻嘻小白学习算法算法 leetcode typescript javascript
3.1719.删除链表的倒数第n个结点给你一个链表，删除链表的倒数第n个结点，并且返回链表的头结点。示例1：输入：head=[1,2,3,4,5],n=2输出：[1,2,3,5]示例2：输入：head=[1],n=1输出：[]示例3：输入：head=[1,2],n=1输出：[1]删除指定的节点，给出头节点逆转链表，寻找第n个，删除不行不行，逆转录又要反转回去后面我想到了一个解决办法：利用数组计算总
力扣算法ing(9/100) 菥菥爱嘻嘻小白学习算法算法 leetcode 数据库 typescript
2.26438.找到字符串中所有字母的异位词438.找到字符串中所有字母异位词给定两个字符串s和p，找到s中所有p的异位词的子串，返回这些子串的起始索引。不考虑答案输出的顺序。示例1:输入:s="cbaebabacd",p="abc"输出:[0,6]解释:起始索引等于0的子串是"cba",它是"abc"的异位词。起始索引等于6的子串是"bac",它是"abc"的异位词。示例2:输入:s="abab
【C/C++】在排序数组中查找元素的第一个和最后一个位置（leetcode T34）勇士小蓝0727 c语言 c++leetcode 开发语言算法数据结构蓝桥杯
核心考点：法一双指针法;法二二分查找法题目描述：给你一个按照非递减顺序排列的整数数组nums，和一个目标值target。请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，返回[-1,-1]。你必须设计并实现时间复杂度为O(logn)的算法解决此问题。（示例见文末）答案详解：方法一：双指针法vectorsearchRange(vector&nums,inttarge
每日算法题-Nim 游戏 - 台阶晚夜微雨问海棠呀算法游戏
给定一个台阶数n，玩家每次可以选择跳跃1到m个台阶，最后一个台阶到达者获胜。假设两位玩家都采取最优策略，判断先手玩家是否会获胜。输入格式一行包含两个整数n和m（1≤n,m≤10^9）。输出格式如果先手玩家能获胜，输出"Yes"；否则输出"No"。n,m=map(int,input().split())ifnm时，若n%(m+1)≠0，先手可以通过策略使剩余台阶数变为(m+1)的倍数，将必败态转移给
算法每日一练 (17) 张胤尘算法每日一练算法数据结构
欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录算法每日一练(17)打家劫舍题目描述解题思路解题代码`c/c++``golang``lua`官方站点：力扣Leetcode算法每日一练(17)打家劫舍题目地址：打家劫舍题目描述你是一个专业的小偷，计划偷窃沿街的房屋。每间房内都藏有一定的现金，影响你偷窃的唯一制约因素就是相邻的
算法每日一练 (16) 张胤尘算法每日一练算法数据结构
欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录算法每日一练(16)使用最小花费爬楼梯题目描述解题思路解题代码`c/c++``golang``lua`官方站点：力扣Leetcode算法每日一练(16)使用最小花费爬楼梯题目地址：使用最小花费爬楼梯题目描述给你一个整数数组cost，其中cost[i]是从楼梯第i个台阶向上爬需
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
燃爆！程序员如何借助 AI 大模型冲破编程效率枷锁？（以DeepSeek，ChatGPT为例）羑悻的小杀马特. AI学习 chatgpt deepseek AI大模型开发语言
AI大模型已成为程序员提升效率的有力助手。本文聚焦DeepSeek和ChatGPT，探讨程序员如何借其冲破编程效率枷锁。在代码编写阶段，它们能快速生成基础框架、实现特定功能及复杂算法代码；调试时，精准分析错误并给出优化建议；文档生成方面，为函数、类及项目文档助力。程序员需掌握高效交互技巧，结合自身经验，合理利用AI大模型，全面提升编程效率，开启高效编程新境界。目录一·本篇背景：二、AI大模型简介2
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
【机器学习】算法分类 CH3_CH2_CHO 什么？！是机器学习！！机器学习算法有监督学习无监督学习半监督学习强化学习
1、有监督学习1.1定义使用带标签的数据训练模型。有监督学习是机器学习中最常见的一种类型，它利用已知的输入特征和对应的输出标签来训练模型，使模型能够学习到特征与标签之间的映射关系。在训练过程中，模型会不断地调整自身的参数，以最小化预测值与真实标签之间的误差，从而提高预测的准确性。1.2回归问题1.2.1目标预测连续值。回归问题的目标是预测一个连续的数值结果，模型的输出是一个实数值。1.2.2解释回
如何使用Langchain加载AZLyrics网页到可用文档格式 dgay_hua langchain python
##技术背景介绍在处理歌词数据时，尤其是从网页上获取歌词文本内容，用于自然语言处理或文本分析是常见的需求。AZLyrics是一个提供歌词的主要平台，为我们提供了大量的歌词数据。如果我们可以将这些网页内容自动加载到结构化的文档格式中，将极大地提升我们处理和分析歌词的效率。##核心原理解析Langchain提供了一种简单的方式来将网页内容转换为可用的文档格式。通过使用其文档加载器（DocumentLo
使用Titan Takeoff进行高效的自然语言处理模型推理 scaFHIO 自然语言处理人工智能 python
在自然语言处理(NLP)领域，每一家企业都在寻求更高效的模型训练和推理解决方案。TitanML的平台通过训练、压缩和推理优化帮助企业构建和部署更佳、更小、更便宜、更快速的NLP模型。特别是其推理服务器TitanTakeoff，使得在本地硬件上轻松部署大语言模型(LLMs)成为可能。技术背景介绍TitanTakeoff是TitanML提供的一项服务，它允许用户在本地硬件上运行推理工作负载。支持大多数
数据结构——链表专项 seven——seven linux mailbox之线程邮箱数据结构链表算法
数据结构的总结1.定义一组用来保存一种或者多种特定关系的数据的集合（组织和存储数据）程序的设计：将现实中大量而复杂的问题以特定的数据类型和特定的存储结构存储在内存中，并在此基础上实现某个特定的功能的操作；程序=数据结构+算法高内聚，低耦合2.数据与数据之间的关系数据的逻辑结构：数据元素与元素之间的关系集合：关系平等线性结构：元素之间一对一的关系（表，队列。栈。。。）树型结构：元素之间一对多的关系（
Linux内核中的数据结构与算法（三）哈希链表木木0o0欧尼 Linux 链表数据结构 linux
四，哈希链表谈到链表就不得不谈Linux内核中另外一个重要的结构，哈希链表。讨论这个结构前，你需要对哈希的最基本的概念要清楚哦，由于我们已经讲过Linux内核中的普通链表的结构，这里我们对比他们的区别来了解哈希链表会直观一些。Linux链表认为双指针表头双循环链表对于HASH表来说过于浪费，因而设计了一套用于HASH表的hlist的数据结构，单指针表头双循环链表。hlish表头仅有一个指向首节点的
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

百分点大数据技术团队：基于HugeGraph的知识图谱技术在白酒行业的落地实践

你可能感兴趣的:(自然语言处理,机器学习,算法)