weixin_34384915

SkYjoKEr - 词频统计工程总结T博特别版

听说按照T博流量算分，怒转至T博。

一、首先是对于需求和基本方案：

重新列一下需求，国行中文版。

　　Word 单词定义：

　　　　i.至少含有三个字符、且开头三个字符必须是字母；

　　　　　　　　eg.hao123 == word；123hao！=word

　　　　ii.不包含任何非字母或者数字的字符；

　　　　　　　　助教后来说这个本质就是认为除了字母和数字以外都算分隔符的意思。

　　　　iii.对于同一个单词的计数，大小写不敏感；

　　　　　　　　eg.File == FILE == file

　　扩展模式下进一步：

　　　　两个单词仅有尾部数字不同时，认为是同一个单词。打印时并不忽略数字。

　　　　　　eg. win985 == win98 == win1

　　输出要求：按出现次数排序从大到小排序，每行打印。

　　　　　　: number

　　　　　　为该计数单词在统计文件中出现的ascii码顺序最靠前形式。出现次数相同按　　　　的ascii码序排序。

基本方案：仔细看发现自己对需求理解给错了，人家说的是不区分大小写计词，但是排序的时候还是按ascii码序排，然后不同大小写版本以最靠前的ascii码出现值为准。那这样使用二叉树排序插入+合并排序的方案就没戏了，因为二叉树key一旦定了就不改了，最后还是要重排ascii序。所以还是学乖了，用哈希加快排。

二、上版中存在的问题和修正

　　1、没有把世界上一切除了英文字母和数字以外的字符都当作分隔符，导致各种中文乱码都进来了，这次直接不用string.Split()分词，自己动手读把。

　　2、没有记录输入单词的原始形式，只按照比对key全部输出小写版本。嗯就是说每次添加单词还得记录单词的原始形式，包括扩展模式下的数字后缀。同时要对已存在的最前原始形式进行比对，更新ascii码最靠前的原始形式。

　　3、没有做开始3个字符是否是字母的检查。

三、实现一下程序

　　1、首先自己写以下读取器。基本步骤

　　　　a.从文件按行读取，因为回车一定是分隔符所以这个没压力

　　　　b.按逐字符检查是否是数字或者字母，

　　　　　　if 是，追加到缓冲

　　　　　　else 否，认为监测到分隔符，检查缓冲区字符串是否符合word定义。

　　　　　　　　if 是，添加单词

　　　　　　　　else 否，抛弃缓冲区

　　　　一开始用的string作为缓冲区，后来注意到string的cat比较花时间，使用char[]作为缓冲区，代码最后是这样：　　　　

#endif
            using (StreamReader sr = new StreamReader(file))
            {
                while (!sr.EndOfStream)
                {
                    // read line;
                    string line = sr.ReadLine() + ' ';
                    char[] word = new char[WORD_MAXLENGTH];
                    int word_cur = 0;
 
                    // parse word from line;
                    for (int i = 0; i < line.Length; i++)
                    {
                        if (char.IsLetter(line[i]) || char.IsNumber(line[i]))
                        {
                            // appendix letter
                            word[word_cur++] = line[i];
                        }
                        else
                        {
                            int j;
                            for (j = 0; j < word_cur && j < word.Length && j < WORD_MINLENGTH; j++ )
                            {
                                if (char.IsNumber(word[j]))
                                    break;
                            }
 
                            if (j == WORD_MINLENGTH)
                            {
                                AddWord(new string(word, 0, word_cur));
                            }
                            word_cur = 0;
#if DEBUG
                            count++;
#endif
                        }
                    }
                }
            }
#if DEBUG
            Console.WriteLine(count + " Words Counted");
#endif
        }

　　嗯，这样比Split快，而且修正了错误。

　　2、在网上查了资料，看到关于List.sort()和快排的帖子http://www.pin5i.com/showtopic-24424.html。学习受教了。

　　　不过人家写的这个快排貌似略长。我用了自己以前写的C++版的快排，改了一下，然后加上了小串改用插入排序的改进。但是我试了试好像并不是明显比我之前的合并排序快，有两次还慢了，难道我快排又写史了……

    class QuickSort
    {
        static Random rand = new Random();

        // ISort by Glede
        static void ISort(T[] list, int left, int right, Comparison comparison)
        {
            for(int i = left; i < right - 1; i++)
            {
                int min = i;
                for (int j = i + 1; j < right; j++)
                {
                    if (comparison(list[j], list[min]) < 0)
                        min = j;
                }

                T temp = list[i];
                list[i] = list[min];
                list[min] = temp;
            }
        }

        // QuickSort by Glede
        static void QSort(T[] list, int left, int right, Comparison comparison)
        {
            int length = right - left;

            int border = left + rand.Next() % length;         
            T temp = list[border];                             
            list[border] = list[left];

            int i = left;
            int j = right-1;
            while (i < j){
                for (; i < j && comparison(list[j], temp) >= 0; j--) ;
                if( i == j) break;
                else        list[i++] = list[j];

                for (; i < j && comparison(list[i], temp) <= 0 ; i++) ;
                if( i == j) break;
                else        list[j--] = list[i];
            }
            list[i] = temp;

            if( i - left >= 10 )
                QSort(list, left, i, comparison);
            else
                ISort(list, left, i, comparison);

            if( right - i >= 10)
                QSort(list, i + 1, right, comparison);
            else
                ISort(list, i + 1, right, comparison);
        }

        public static void Sort(T[] list, Comparison comparison)
        {
            if (list.Length >= 10)
                QSort(list, 0, list.Length, comparison);
            else
                ISort(list, 0, list.Length, comparison);
        }
    }

　　　后来听安然说C#里有快排，感觉又给跪了。

　　3、写个WordInfo，基本记录方法是记录key识别键、display打印形式、count出现次数。普通模式下key是输入的形式key的ToUpper()或者ToLower()，扩展模式还要先过滤后缀数字。

　　　　建立哈希表，一个Dictionaryworddict。worddict的key即WordInfo.key。

　　　　添加单词的步骤：

　　　　a.从输出的string建立一个新的 WordInfo wi，根据wi.key去哈希表里搜

　　　　b.使用worddict.TryGetValue测试是否存在wi.key

　　　　　　if 否，添加这个key, WordInfo

　　　　　　else 是，将存在的Value更新一下，count++，如果wi.display的ascii码序更靠前，则display更新为wi.display。

　　象征性地贴代码，之所以要贴我只是因为SortedDictionary我也试试开过了，但是我不会用……：　

        public void AddWord(string word)
        {
            WordInfo wi = new WordInfo(word, mode);
            // added to word list tree
#if HASH
            string key = wi.GetKey();
            WordInfo value;
            if (hashlist.TryGetValue(key, out value))
                value.update(wi);
            else
                hashlist.Add(key, wi);
#else
            // old codes using BTree
#endif
            return;
        }

　　哈希真快啊真快啊真快。

　　小插曲：一开始用的 key 是 char[]，结果尼玛hash出来每个char[]都不一样，133MB的数据输出了一个90+MB的txt……

　　4、打印什么的用原来的就可以了。事实上这样这个工程应该这样就结束了，也就是可以用了。但是这个东西要做性能测试的。

　　嗯，肯定是这样的……。这个事情还可以考虑到hash到相同的单词，程序都要干一件很讨厌的事情，要试试比对一下display。每次比对都是一个比较字符串啊，而且大部分情况下这个字符串很可能是相等的，那就是从头比到尾。不过这好像并不关系到为什么它大部分时间是在ToUpper()...

　　中场休息：

　　　　我认为这个程序当然是那有改进的余地的，而且我一开始也不打算使用这个基本的记录方式，每次检测到相同单词都要再比一个字符串太蛋疼了，因为我们在产生Key的时候，一定会经过一个ToUpper()或者ToLower()，而比较display的过程实质上比较的只不过是两个display的大小写。这很蛋疼。所以我一开始就是用的一个改进的单词记录方法。

　　5、改进的单词记录方法：

　　　　WordInfo中包含一个key识别键，这个识别键其实包含了单词的字母信息，那么只需要再有一个指定其大小写的信息，就可以还原为它的输入状态，也就是display。那么key是怎么来的呢？key是我们的输入状态string.toLower() （或者 toUpper()来的）。做这件事情的时候我们实际上已经得到了它每个字符大小写的信息了。由于大小写只是01状态，那么用一个uint可以记录一个32个字符长的单词的大小写信息，一个ulong可以记录64个字符长的单词的大小写信息。我认为一般uint就够用了，英文单词应该没有那么太长的，程序猿应该更不喜欢打很长的标识符。（虽然后来测试的时候被数据抽了一巴掌，原来真的有32位以上长度的单词……好吧，我用了ulong）

　　　　对大小写信息进行编码之后，我们得到了一个uint（或者ulong），编码顺序要对，使得这个数字的大小能够代表大小写先后顺序，这样每次在更新WordInfo的时候，得到更靠前的ascii码通常只需要比较两个uint的大小（或者ulong = = 讨厌的ulong），这就达到了优化的目的——至少理论上是这样。

　　　　然后考虑一下扩展模式下的数字后缀，这个东西和大小写不一样，虽然它是数字，但它依然是一个字符串，0001和01不一样，不得已会需要用一个string sufNum去记录它，也需要在更新的时候增加一步判断。这个事情不是特别麻烦，而且必须得干。

　　　　最后，在记录完成之后的排序需要用到的是它的最后显示形式，需要从大小写信息和key和numSuf来解码还原一个我们记录的、ascii码最靠前的输入形式，成为我们输出的display，我们还是需要一个string display来记录这个结果以加快对display的多次访问。

　　　　那么经过这样的设计一个改进的WordInfo出炉了。象征性地贴一下代码大概什么样子：

    class WordInfo
    {
        public char[] key;
        public string sufNum;
        public int count;
        public string display;

#if INT64
        public ulong caseValue;
#else
        public uint caseValue;
#endif

        public WordInfo(string word, int mode)
        {
            char[] wordkey;
            caseValue = 0;
            sufNum = string.Empty;
            count = 1;
            display = null;

            // seperate suffix numbers
            int i = word.Length;
            if (mode == Program.MODE_EXTEND)
            {
                for (i = word.Length; i > Parser.WORD_MINLENGTH; i--)
                {
                    if (!char.IsNumber(word[i - 1]))
                    {
                        break;
                    }
                }

                if (i != word.Length)
                {
                    sufNum = word.Substring(i);
                }
            }

            // encode caseValue
            wordkey = new char[i];
            int currentValue = 1;
            for (i--; i >= 0; i--)
            {
                if (char.IsLower(word[i]))
                {
#if INT64
                    caseValue += (ulong)(1 * currentValue);
#else
                    caseValue += (uint)(1 * currentValue);
#endif
                    wordkey[i] = word[i];
                }
                else
                {
#if INT64
                    caseValue += (ulong)(0 * currentValue);
#else
                    caseValue += (uint)(0 * currentValue);
#endif
                    wordkey[i] = char.ToLower(word[i]);
                }
                currentValue *= 2;
            }
            key = wordkey;
        }

        public static int CompareKey(WordInfo a, WordInfo b)
        {
            // compare a.key b.key
            // not for Dictionary
        }

        public static int CompareCaseValue(WordInfo a, WordInfo b)
        {
            // compare a.GetDisplay() b.GetDisplay()
        }

        public static int CompareValue(WordInfo a, WordInfo b)
        {
            // compare count 
            // if a.count == b.count  compare ascii 
        }

        public static int CompareValueReverse(WordInfo a, WordInfo b)
        {
            // compare count reverse
            // if a.count == b.count  compare ascii (no need to reverse)
        }


        public void update(WordInfo value)
        {
            count += value.count;
            if( caseValue < value.caseValue)
                return;
            else if( caseValue > value.caseValue )
            {
                caseValue = value.caseValue;
                sufNum = value.sufNum;
                return;
            } 
            else if( sufNum.CompareTo(value.sufNum ) > 0 )
            {
                sufNum = value.sufNum;
            }
        }

        public string GetKey()
        {
            return new string(key);
        }

        public string GetDisplay()
        {
            if(display == null)
            {
                // decode display from key & caseValue & sufNum
            }
    
            return display;
        }
    }

　　6、性能测试

　　调试一通之后嗯，编解码没问题。然后理论上这能带来性能的提升，实际上我数学很差。必须要做一下实际的测试。

　　还是刚才那个测试数据，使用改进的记录方法：

　　快的不多，总算快了哈。切换着各做5次测试，结果改进的记录方式都能快1秒左右，定性来说和理论还是符合的。数据大一般都能快一些，除非一样的词很少很少很少……

　　虽然优化的不多但是有一点总归是一点。。嗯。。　　

　　感谢队友Anran和Tjamie的提醒和数据对比。

后来：

　　　　Anran说Array.Sort()是快排，我试了试，貌似确实是，可是和我写的快排比略不稳定，有时进8秒，有时上12秒……。　　

　　　　可是Anran的代码没用这么干能杀入到8秒左右……。（牛X给跪）

转载于:https://www.cnblogs.com/buaashine/archive/2012/09/25/2702972.html

VTJ.PRO：打破次元壁！AI驱动 + 双向代码自由穿梭，重新定义Vue高效开发！前端人工智能vue3
“既要低代码的速度，又要手写代码的自由？”——现在，无需妥协！VTJ.PRO革命性推出“双向代码转换引擎”，让开发者在可视化设计与源码编辑间无缝切换，真正实现“设计即代码，代码即设计”的终极工作流！✨核心黑科技：双向自由转换可视化设计→纯净源码拖拽生成的界面，一键转换为高质量Vue3组件代码，无冗余、无黑盒！支持导出标准.vue文件，无缝嵌入现有工程，源码100%自主可控！手写代码→可视化编辑将已
互联网大厂Java面试指南：从基础到高阶技术栈与业务场景实战 yiiyx Java场景面试宝典 Java Spring Boot 微服务面试分布式系统
互联网大厂Java面试指南：从基础到高阶技术栈与业务场景实战场景介绍本文模拟互联网大厂高级Java工程师面试场景，涵盖JavaSE、Spring生态、微服务、数据库、缓存、消息队列等技术栈，结合音视频、电商、金融等业务场景，提供3轮渐进式提问与详细解析。技术栈核心语言与平台:JavaSE(8/11/17),JakartaEE(JavaEE),JVM构建工具:Maven,Gradle,AntWeb框
3 大语言模型预训练数据-3.2 数据处理-3.2.2 冗余去除——2.SimHash算法文本去重实战案例：新闻文章去重场景
SimHash算法文本去重实战案例：新闻文章去重场景一、案例背景与目标二、具体实现步骤与示例1.**待去重文本示例**2.**步骤1：文本预处理与特征提取**3.**步骤2：特征向量化与哈希映射**4.**步骤3：特征向量聚合**5.**步骤4：降维生成SimHash值**6.**步骤5：计算汉明距离与去重判断**三、工程化实现代码（Python简化示例）四、案例总结与优化点一、案例背景与目标假设
多模态大语言模型arxiv论文略读（140）
SemiHVision:EnhancingMedicalMultimodalModelswithaSemi-HumanAnnotatedDatasetandFine-TunedInstructionGeneration➡️论文标题：SemiHVision:EnhancingMedicalMultimodalModelswithaSemi-HumanAnnotatedDatasetandFine-T
本地运行大型语言模型(LLM)的实践指南 yunwu12777 语言模型人工智能自然语言处理
技术背景介绍近年来，项目如llama.cpp、Ollama、GPT4All等的流行标志着在本地设备上运行大型语言模型（LLM）的需求日益增长。选择在本地运行LLM，至少有两个重要的好处：隐私和成本。隐私上，数据不需要发送到第三方，避免了商业服务条款的限制；成本方面，无需支付推理费用，尤其是对于那些需要大量计算的应用，如长时间的模拟和总结。核心原理解析在本地运行LLM，需要准备以下几个条件：开源LL
银行家算法后会无期77 算法算法
文章目录银行家算法概述银行贷款案例A再次申请50万，能批准吗？B再次申请40万，能批准吗？或者C申请20万，能批准吗？安全序列和不安全序列多维度资源分配操作系统资源分配银行家算法总结数据结构银行家算法的步骤安全性算法步骤死锁的避免银行家算法概述银行家算法（Banker’sAlgorithm）是一个避免死锁（Deadlock）的著名算法，是由艾兹格·迪杰斯特拉在1965年为T.H.E系统设计的一种避
电影院售票 - 策略模式（Strategy Pattern）
策略模式（StrategyPattern）策略模式（StrategyPattern）策略模式概述策略模式结构图策略模式主要包含的角色talkischeap，showyoumycode总结策略模式（StrategyPattern）策略模式（StrategyPattern）是一种行为型设计模式，它定义了一系列算法，并将每个算法封装起来，使它们可以相互替换。策略模式让算法独立于使用它的客户端而变化，从而
【Java从入门到放弃之通用容器类】 ThetaarSofVenice #Java从入门到放弃 java python 开发语言
通用容器类通用容器类Collection接口Collection接口源码Collection接口概述List接口List接口源码List接口概述Set接口Set接口源码Set接口概述Queue接口Queue源码Queue概述Map接口Map接口源码总结通用容器类Java提供了一组丰富的通用容器类（也称为集合框架，CollectionsFramework），用于存储和管理一组对象。这些容器类提供了灵
Kyle的天机学堂学习笔记 Z2475269074 学习笔记
本文将展示一个小白从0->1完成项目的全部历练已经心得PS:要求做到真正的自我思考而不是对着教程敲代码，并借用AI进行辅佐与思考DAY1Maven子工程会继承父工程所有依赖有三套生命周期，互不干扰且同一生命周期内执行命令会以此完成之前的命令1.clean2.default(compile,test，package,install)3.site(deploy)对象DTO数据传输对象，用于服务端与客户
【Java从入门到放弃之 ConcurrentModificationException】 ThetaarSofVenice #Java从入门到放弃 java 开发语言
ConcurrentModificationExceptionConcurrentModificationException探索ConcurrentModificationException解决问题总结ConcurrentModificationExceptionConcurrentModificationException是Java中的一种运行时异常，通常发生在使用迭代器遍历集合（如ArrayL
Autosar 下电过程-基于ETAS工具赞哥哥s Autosar进阶 autosar etas EcuM
文章目录前言下电流程图POST_RUNPreShutDownShutdown总结前言本文介绍基于ETAS工具对应的BIP包的下电过程，仅供参考。下电流程图目前下电都是走的网络管理的下电流程。POST_RUN上层检测到下电请求后（如Nm状态由ReadySleep到PreBusSleep）先将模式切换到APP_MODE_REQUEST_POST_RUN示例如下：FUNC(void,NM_CODE)Nm
人工智能的发展历程与未来展望唐骁虎 ai
人工智能的发展历程与未来展望一、人工智能的起源与早期发展1.1人工智能的定义与概念起源人工智能（AI）的定义与概念起源可追溯至20世纪中叶，当时一群具有远见的科学家和工程师开始探索机器是否能够模拟人类智能行为。1956年，在达特茅斯会议上，约翰·麦卡锡首次提出了“人工智能”这一术语，标志着该领域的正式诞生。AI的定义涉及创建能够执行需要人类智能的任务的机器，如视觉感知、语音识别、决策和语言翻译等。
WPF学习笔记（8）数据绑定方向与INotifyPropertyChanged 三千道应用题 WPF学习笔记 wpf
数据绑定方向与INotifyPropertyChanged一、数据绑定方向1.OneWayToSource2.OneWay3.TwoWay二、INotifyPropertyChanged总结一、数据绑定方向Binding类的Mode属性可以指定数据绑定的方向：官方文档：https://learn.microsoft.com/zh-cn/dotnet/api/system.windows.data.
材料力学数值方法：有限元法(FEM)在流体力学中的应用_2024-08-04_00-17-21.Tex chenjj4003 材料力学算法计算机视觉人工智能机器学习网络
材料力学数值方法：有限元法(FEM)在流体力学中的应用绪论有限元法的基本概念有限元法（FiniteElementMethod,FEM）是一种数值计算方法，用于求解复杂的工程问题，如结构力学、热传导、流体力学等。它将连续的物理域离散化为有限数量的、形状规则的子域，即“有限元”。每个子域内的物理量（如位移、压力、温度等）用多项式函数近似表示，通过在每个子域内应用物理定律（如牛顿第二定律、连续性方程等）
[插电式混合动力车辆][交替方向乘子法（ADMM）结合CVX]插电式混合动力车辆的能源管理：基于凸优化算法用于模型预测控制MPC研究（Matlab代码实现）程序辅导帮算法 matlab 人工智能
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述2运行结果3参考文献4Matlab代码、数据、文章⛳️赠与读者‍做科研，涉及到一个深在的思想系统，需要科研者逻辑缜密，踏实认真，但是不能只是努力，很多时候借力比努力更重要，然后还要有仰望星空的创新点和启发点。当哲学课上老师问你什么是科学，什么是电的时
同花顺python_【本地直连】同花顺 Python量化交易接口上线 weixin_39938724 同花顺python
来源：雪球App，作者：私募之家THS，（https://xueqiu.com/5808549553/129022113）导读：同花顺智能交易终端MindGo版已上线2年多，凭借着同花顺深厚的技术底蕴，不断地对终端进行优化。至今，已服务近1000位个人客户，超过200家私募机构，市场份额不断扩大。目前终端已实现：支持股票、指数、基金、期货、外汇、黄金T+D等6个品种日/分钟级策略回测投研策略无缝对
计算机英语上期末复习(广外软工) 记忆中的你问我学习经验分享课程设计笔记其他
前言广外21级软件工程计算机英语期末复习，考试据说只考前10页的内容期末考试题型：1.名词解释2.翻译（如果有翻译错误/小道消息/未补充的知识点请评论，祝大家期末科科4.0！）Chapter01.名词解释computerscienceItisthedisciplinethatseekstobuildascientificfoundationforsuchtopicsascomputerdesign
基于SpringBoot律师事务所案件管理系统的设计与实现一点教程 Java项目 spring boot 后端 java spring 律师事务所案件管理系统
博主主页：一点教程博主简介：专注Java技术领域和毕业设计项目实战、Java微信小程序、安卓等技术开发，远程调试部署、代码讲解、文档指导、ppt制作等技术指导。主要内容：毕业设计，SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Python、Nodejs、小程序、安卓app、大数据等设计与开发感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以和博主沟通，希
2025【一级造价师】备考资料免费分享（超全汇总合集）持续更新！ zjsx138 一造考试一级造价师备考资料一级造价工师学习资料一级造价师网课一造考试资料一造复习资料
【06】2025年造价工程师夸克网盘分享2025造价【土建计量】夸克网盘分享2025造价【水利计量】夸克网盘分享2025造价【水利案例】夸克网盘分享2025造价【交通计量】夸克网盘分享2025造价【计价】夸克网盘分享2025造价【交通案例】夸克网盘分享2025造价【管理】夸克网盘分享2025造价【安装计量】夸克网盘分享2025年造价【（土建安装）案例】夸克网盘分享
【软件系统架构】系列四：数字信号处理器（DSP）
目录一、什么是DSP？二、DSP的核心架构特点1.基本结构2.工作流程：3.关键特性：三、DSP与MCU/MPU/NPU的对比四、DSP与通用处理器的对比五、常用DSP算法类型六、常见DSP芯片平台七、开发工具链与语言支持八、典型应用场景举例通信领域：音频处理：图像与视频处理：工业控制：军事与航空航天：九、选型关键因素十、技术趋势总结一、什么是DSP？DSP（DigitalSignalProces
MQTT 和 CoAP物联网通信协议之争：MQTT 与CoAP 深度对比分析 34号树洞 #MQTT专栏物联网传输层通信专栏物联网通讯协议 MQTT CoAP
目录一、核心特性对比二、关键设计目标1.MQTT2.CoAP三、优缺点分析MQTT的优缺点CoAP的优缺点四、典型应用场景对比五、技术细节对比1.消息传输流程2.安全性实现3.资源发现机制六、选择建议1.优先选择MQTT的场景2.优先选择CoAP的场景3.混合使用策略七、未来趋势总结在物联网（IoT）领域，选择合适的通信协议对于设备性能、电池寿命、网络效率和应用可靠性至关重要。MQTT(Messa
心跳报文 - Linux C++网络编程（二十八）生活需要深度 linux内核网络编程
一：前面学习的总结核心架构浓缩总结实现的功能：（1）服务器按照包头包体格式正确的接收客户端发送过来的数据包；（2）根据手动的包的不同来执行不同的业务处理逻辑；（3）把业务处理产生的结果数据包返回客户端；咱们用到的主要技术（1）epoll高并发通讯技术（2）线程池技术来处理业务逻辑（3）线程之间的同步技术包括互斥量、信号量其他技术：信号，日志打印，fork()子进程，守护进程借鉴了哪些官方nginx
Mac 快捷键快乐的一只小喵喵 mac macos
总结一下Mac快捷键的图形符号：Mac中主要有四个修饰键，分别是Command，Control，Option和Shift。转存失败重新上传取消END基本的快捷键Command是Mac里最重要的修饰键，在大多数情况下相当于Windows下的Ctrl。所以以下最基本操作很好理解：Command-Z撤销Command-X剪切Command-C拷贝（Copy）Command-V粘贴Command-A全选（
【算法设计与分析】（三）二分搜索技术与大整数乘法珹洺 #算法设计与分析算法
【算法设计与分析】（三）二分搜索技术与大整数乘法前言一、二分搜索技术1.为什么需要二分搜索？2.二分搜索怎么做？3.为什么说它很快？4.哪些场景会用到？二、大整数乘法1.问题来了：数字太大怎么办？2.传统方法3.用分治思想优化4.Karatsuba算法：具体怎么算？5.效率提升有多大？6.实际应用场景总结前言在上一篇博客中，我们已深入剖析了递归的本质内涵与分治法的核心思想——通过将复杂问题分解为规
influxdb-comparisons IOT数据测试使用记录外环西路007号 tsdb 物联网 devops 运维时序数据库
文章目录生成测试数据数据倒数influxdb数据导入influxdb后显示结果生成测试数据./bulk_data_gen-formatinflux-bulk-use-caseiot-seed100-sampling-interval10s-scale-var10-timestamp-start"2022-12-01T00:00:00+80:00"-timestamp-end"2023-01-03T
YOLOv13：开启目标检测新时代，手把手教你实操奔跑吧邓邓子必备核心技能 YOLO 目标检测目标跟踪人工智能实操
目录一、YOLOv13初印象1.1YOLO系列发展脉络1.2YOLOv13独特之处二、前期准备工作2.1环境搭建2.2依赖安装三、深入使用指南3.1模型验证3.2模型训练3.3模型推理四、应用案例与拓展4.1实际场景应用展示4.2与其他技术结合思路五、总结与展望一、YOLOv13初印象1.1YOLO系列发展脉络YOLO（YouOnlyLookOnce）系列算法在目标检测领域中，就如同一位不断进化的
07-Seq2Seq英译法案例郜太素自然语言处理人工智能 nlp 自然语言处理 word2vec 机器翻译分类
Seq2Seq英译法案例1任务目的：目的:给定一段英文，翻译为法文典型的文本分类（token分类）任务:每个时间步去预测应该属于哪个法文单词2数据格式注意：两列数据，第一列是英文文本，第二列是法文文本，中间用制表符号"\t"隔开iamfrombrazil.jeviensdubresil.iamfromfrance.jeviensdefrance.iamfromrussia.jeviensderus
从入门到实战：YOLOv13 安装与使用全攻略奔跑吧邓邓子必备核心技能 YOLO 目标跟踪人工智能安装使用全攻略
目录一、YOLOv13简介1.1目标检测与YOLO系列1.2YOLOv13核心技术亮点1.3性能优势展现二、前期准备2.1系统环境要求2.2软件依赖安装三、安装流程3.1获取源码3.2环境搭建3.3安装验证四、使用指南4.1模型验证4.2模型训练4.3模型推理4.4模型导出五、应用案例与技巧5.1实际应用场景展示5.2常见问题与解决方法5.3优化技巧分享六、总结与展望6.1YOLOv13回顾6.2
嵌入式面试笔试那点事2：2025.4.13 失落的多巴胺面试笔试那点事嵌入式硬件面试
做了某厂的笔试题，全程监控监考压力还是挺大的。。。挑几个博主记得比较清楚的有价值的简答题写写。一、详细从生命周期、作用域等方面说明普通局部变量、普通全局变量、静态局部变量、静态全局变量1.普通局部变量定义:在某个函数或代码块内部定义的变量。作用域:仅在定义它的函数或代码块内有效。生命周期:该变量在函数或代码块开始执行时被创建，当函数或代码块执行结束后，变量被销毁。特点:每次进入函数时都会重新创建，
pandas 优雅处理值类型为list的列的csv读写问题 Allocator Python pandas list python
文章目录直接存储joinlist变成字符串存储json.dumps序列化存储以及json.loads反序列化读取总结之所以分析这个问题,是因为读者在跟第三方数据供应商对接数据的时候,老是会遇到数据加载都会出错的问题,其中一个原因就是list类型数据没有正确储存,于是笔者在这篇文章里面详细分析一下list数据怎么优雅的写入csv以及读取.直接存储第一种方法,直接存,不做任何转换defdirect_w
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

SkYjoKEr - 词频统计工程总结T博特别版

你可能感兴趣的:(SkYjoKEr - 词频统计工程总结T博特别版)