housisong

abp竞赛－之－文本文件词频查询优化报告

abp竞赛－之－文本文件词频查询优化报告
HouSisong@GMail. 2007.03.15com

tag：　abp,单词统计,比赛,hash,速度优化,优化报告
摘要：以前参加过几次abp论坛的比赛 http://www.allaboutprogram.com/bb (现在的www.cpper.com/c)
其中的一个竞赛的题目是《文本文件词频查询》，本文章把自己的参赛代码的优化的思路整理出来；
很多时候优化后的版本最高达到了STL实现版本的20倍!

(2007.04.09 确认从MFC移植过来的时候引入了一个bug,“FILE* file=fopen(argv[1], "r" ); ”应该为“FILE* file=fopen(argv[1], "rb" ); ” 找了我好久:(   谢谢 hf1414 ！)

  (2007.03.17修正一个在vc2005编译器下访问vector的bug，将代码 “TNode** end=&(_vbase[_hash_power]); ” 改为 “base_t::iterator end=_vbase.end();” )

(abp现在还能够访问(只读)，会员很多都“搬迁”到了 www.cpper.com/c :)

文本文件词频查询竞赛要求:

OS：Windows 2000 / XP
Compiler：VC6 / VC.net / VC.net 2003
评判标准：正确性 + 速度
截止时间：2003年10月11日前（含）
方法：每个人可以多次提交。每次提交完了，我会告诉你你的成绩和最快的人的成绩。
内容：
一个文件，仅由大小写字母，空格和换行符组成。我们称一个词为连续的大小写字符，两边是空格或者文件头 / 尾。词大小写敏感。
某个词的词频是这个词在这个文件里面出现的次数。
要求，输入一个文件（至少有一个词，并且最大词频的词只有一个），输出那个词频最大的词。
譬如，输入：
aaa bbb
ccc ddd
aaa

输出：
aaa

补充一句：文件可能非常大。（xxxM，xG）
还有就是，文件中不会出现TAB。

(测试程序的时候，我们将vc目录中的源代码文件合成了一个数据文件来作为测试数据)

一个“标准”C++实现版本： (可以作为一个STL使用的实例:)

#pragma warning ( disable : 4786 )
#include < iostream >
#include < fstream >
#include < string >
#include < map >
#include < time.h >
using namespace std;

int main( int argc, char * argv[])
{
    // assert(argc==2);
   clock_t start = clock();
    const char * file_name = argv[ 1 ];
   ifstream in_file(file_name);

   map < string , int > word_table;
    string max_word;
    long max_count = 0 ;
    string word;
    while (in_file >> word)
   {
      long old_count_inc=(++word_table[word]);
      if(old_count_inc>max_count)
      {
          max_word=word;
          max_count=old_count_inc;
      }
   }
   cout << " Word: " << max_word << " Count: " << max_count << endl;
   cout << " Seconds = " << ( ( double )(clock() - start) / CLOCKS_PER_SEC ) << endl;

    return 0 ;
}

我用的测试编译器vc6.0 , CPU赛扬2.0G
下面的代码很多时候速度是上面的版本的20倍,源代码如下(优化说明在代码之后);
（我以前提交的代码使用了MFC库，为了容易编译和理解，我做了一些代码调整,去除MFC依赖，把一个复杂的代码循环展开删除了，可能慢了10%）

#pragma warning ( disable : 4786 )
#include < stdio.h >
#include < time.h >
#include < iostream >
#include < string >
#include < vector >
#include < algorithm >

namespace {
    class CMyAllot
   {
       enum { chunk_size = 1024 * 256   }; // 块大小
       char *    _cur;
       char *    _end;
      std::vector < char *> _vector;
       void *     _new_else(unsigned int size);
    public :
      CMyAllot() :_end( 0 ),_cur( 0 ) { }
       virtual ~ CMyAllot() { if ( ! _vector.empty()) DelAll(); }
      inline void * _fastcall   New(unsigned int size)
      {
         size = ((size + 3 ) >> 2 << 2 ); // 4字节边界对齐
          if (( int )size < (_end - _cur)) // 够用
         {
             char * result = _cur;
            _cur += size;
             return result;
         }
          else // 不够用
             return _new_else(size);
      }
       void    DelAll()
      {
          for ( int i = 0 ;i < ( int )_vector.size(); ++ i)
            delete [] (_vector[i]);
         _vector.clear();
      }
   };
    void * CMyAllot::_new_else(unsigned int size)
   {
       if (size > (chunk_size >> 2 )) // 不够用，而且需要的空间较大
      {
          char * result = new char [size];
          char * old_back = _vector.back();
         _vector[_vector.size() - 1 ] = result;
         _vector.push_back(old_back);
          return result;
      }
       else // 不够用，开辟新的空间
      {
          char * result = new char [chunk_size];
         _cur = result + size;
         _end = result + chunk_size;
         _vector.push_back(result);
          return result;
      }
   }

    struct TNode // hash表使用的节点类型(链表)
   {
      TNode *          pNext;
      unsigned int    count;
       char          str[ 1 ];    // 不一定只有一个字节,会根据字符串分配空间
       struct TComp // 返回时的排序准则
      {
          bool operator ()( const TNode * l, const TNode * r)
         {
             if ((l -> count) == (r -> count))
            {
                return std:: string ( & l -> str[ 0 ]) < ( & r -> str[ 0 ]);
            }
             else
                return (l -> count) > (r -> count);

         }
      };
   };
   inline unsigned int _fastcall hash_value( char * begin, char * end)
   {
      unsigned int result = 0 ;
       do {
         result = 5 * result + ( * begin);    // 利用asm: lea reg0,[reg1*4+reg1],并且5是质数
      } while (( ++ begin) != end);
       return result;
   }
   inline unsigned int _fastcall hash_value( char * pstr)
   {
      unsigned int result = 0 ;
       do {  result = 5 * result + ( * pstr); ;    // 利用asm: lea reg0,[reg1*4+reg1],并且5是质数
      } while (( * ( ++ pstr)));
       return result;
   }
    // 测试字符串是否相同, 如果需要不区分大小写，修改这个函数和hash函数就可以了
   inline   bool _fastcall test_str_EQ( char * begin, char * end, char * str)
   {
       // for (;begin!=end;++begin,++str)
       //    if ( (*begin)!=*(str) ) return false;
       do {
          if ( ( * begin) !=* (str) ) return false ;
          ++ begin; ++ str;
      } while (begin != end);
       return true ;
   }
}

class CHashSet
{
   typedef std::vector < TNode *> base_t;

   inline unsigned int   hash_index( char * begin, char * end) const
      { return hash_value(begin,end) & (_hash_mask); }
   inline unsigned int   hash_index( char * pstr) const
      { return hash_value(pstr) & (_hash_mask); }

    void          resize();
    void _fastcall   move_insert(base_t & v,TNode * pOldNode) const ;
   TNode *    _fastcall NewNode( char * begin, char * end);
    void          Sort(base_t & v,unsigned int sortCount);

   unsigned int       _hash_power;
   unsigned int       _hash_mask;
   unsigned int       _node_count;
   base_t            _vbase;
   CMyAllot         _allot;

    void _fastcall   else_insert(TNode * pNode, char * begin, char * end);

public :
   CHashSet();
    virtual ~ CHashSet();
   unsigned int       size() const { return _node_count; }
   unsigned int       sum();
    void _fastcall      insert( char * begin, char * end);
    void             GetStrList(std::ostream & cout,unsigned int sortCount);

};

CHashSet::CHashSet()
:_hash_power( 2 ),_vbase((unsigned int )(_hash_power),(TNode * ) 0 ) // 注意次序
{
   _node_count = 0 ;
   _hash_mask = _hash_power - 1 ; // _hash_power=1<<n;
}

CHashSet:: ~ CHashSet()
{
   _allot.DelAll();
}

unsigned int CHashSet::sum()
{
   unsigned int sum = 0 ;
    if (_node_count > 0 )
   {
      base_t::iterator end = _vbase.end();
       for (base_t::iterator i = _vbase.begin();i < end; ++ i)
      {
         TNode * pNode = ( * i);
          while (pNode != 0 )
         {
            sum += pNode -> count;
            pNode = pNode -> pNext;
         }
      }
   }
    return sum;
}

void _fastcall CHashSet::insert( char * begin, char * end)
{
   unsigned int index = hash_index(begin,end);
   TNode * pNode = _vbase[index];
    if ( ! pNode) // 节点还没有使用
   {
      _vbase[index] = NewNode(begin,end);
       ++ _node_count;
   }
    else
   {
       if (test_str_EQ(begin,end,pNode -> str)) // 累加
          ++ (pNode -> count);
       else
         else_insert(pNode,begin,end);
   }
}

void _fastcall CHashSet::else_insert(TNode * pNode, char * begin, char * end)
{
    while ( true )
   {
       if ( ! (pNode -> pNext))
      {
         pNode -> pNext = NewNode(begin,end);
          ++ _node_count;
          if (_node_count >= (_hash_power))
            resize();
          break ;
      }
       else if (test_str_EQ(begin,end,pNode -> pNext -> str))
      {
          ++ (pNode -> pNext -> count);
          break ;
      }
      pNode = pNode -> pNext;
   };
}

void _fastcall CHashSet::move_insert(base_t & v,TNode * pOldNode) const
{
   TNode *& pNode = v[hash_index(pOldNode -> str)];
   pOldNode -> pNext = 0 ;
    if ( ! pNode) // 节点还没有使用
   {
      pNode = pOldNode;
   }
    else
   {
       if ( ! pNode -> pNext)
      {
         pNode -> pNext = pOldNode;
      }
       else
      {
         TNode * pListNode = pNode -> pNext;
          while (pListNode -> pNext != 0 )
            { pListNode = pListNode -> pNext; }
         pListNode -> pNext = pOldNode;
      }
   }
}

TNode * _fastcall CHashSet::NewNode( char * begin, char * end)
{
   TNode * pNode = (TNode * )(_allot.New( sizeof (TNode) + end - begin));
   pNode -> pNext = 0 ;
   pNode -> count = 1 ;
    char * i = pNode -> str;
    // for (;begin!=end;++i,++begin)
    //    (*i)=(*begin);
    do {
      ( * i) = ( * begin); ++ i, ++ begin;
   } while (begin != end);
   ( * i) = char ( 0 );

    return pNode;
}

void CHashSet::resize()
{
    if (_node_count >= (_hash_power))
   {
      base_t::iterator end = _vbase.end();
      _hash_power <<= 2 ;
      _hash_mask = (_hash_power) - 1 ;

      base_t   new_vbase(_hash_power,(TNode * ) 0 );
       for (base_t::iterator i = _vbase.begin();i != end; ++ i)
      {
         TNode * pNode = ( * i);
          while (pNode != 0 )
         {
            TNode * temp = pNode -> pNext;
            move_insert(new_vbase,pNode);
            pNode = temp;
         }
      }
      _vbase.swap(new_vbase);
   }
}

/// /

void    CHashSet::Sort(base_t & v,unsigned int sortCount)
{
    if (sortCount == 1 )
   {
      v.resize( 1 );
      base_t::iterator end = _vbase.end();
      TNode * maxNode = _vbase[ 0 ];
      TNode::TComp op;
       for (base_t::iterator i = _vbase.begin();i != end; ++ i)
      {
         TNode * pNode = ( * i);
          while (pNode != 0 )
         {
             if ( (maxNode == 0 ) || (op(pNode,maxNode)) )
               maxNode = pNode;
            pNode = pNode -> pNext;
         }
      }
      v[ 0 ] = maxNode;
   }
    else
   {
      v.resize(_node_count);
       int index = 0 ;
       if (_node_count > 0 )
      {
         TNode ** end =& (_vbase[_hash_power]);
          for (TNode ** i =& (_vbase[ 0 ]);i != end; ++ i)
         {

            TNode * pNode = ( * i);
             while (pNode != 0 )
            {
               v[index] = pNode;
                ++ index;
               pNode = pNode -> pNext;
            }
         }
      }
      std::partial_sort(v.begin(),v.begin() + sortCount,v.end(),TNode::TComp());
   }
}

void CHashSet::GetStrList(std::ostream & cout,unsigned int sortCount)
{
    if (_node_count >= 1 )
   {
       if (sortCount == 0 )
         sortCount = _node_count;
       else if (_node_count < sortCount)
         sortCount = _node_count;
      base_t v;
      Sort(v,sortCount);
       for ( int i = 0 ;i < ( int )sortCount; ++ i)
      {
          std::cout << " 单词: " << ( & (v[i] -> str[ 0 ])) << " 计数: " << (v[i] -> count) << std::endl;
      }
   }
}

class CWords
{
private :
    enum { cibuf_size = 4096 };       // 缓冲区最佳大小
    int             buf_size;          // 动态缓冲区大小
    char *          pBuf;             // 指向缓冲区
    static void CreateGainTab();       // 构造“词”分析用的表
    int   privateGainWord( int dx, int start_offset, bool isEndGain);

   inline int   GainWord( int dx, int start_offset); // 从缓冲区获取词；
   inline void endGainWord( int dx, int start_offset); // 从缓冲区获取词,处理文件尾；
    void _fastcall PushWord( char * begin, char * end);
   __int64      _CPUCount;
   CHashSet   _hash_set;
public :
   CWords();
    virtual ~ CWords();

    void toDo(FILE * file); // 循环读取文件数据到内存缓冲区
    void GetResult(std::ostream & cout,unsigned int sortCount);
};

namespace {
    static unsigned int    GainTab[ 256 ];    // 进行词法分析的表
}
// 构造“词”分析用的表
void CWords::CreateGainTab()
{
    //
    static bool IsDo = false ;

    if (IsDo) return ;

    for ( int i = 0 ;i < 256 ; ++ i)
   {
       if (   ((i >= ' A ' ) && (i <= ' Z ' ))
          || ((i >= ' a ' ) && (i <= ' z ' ))
          // || (i=='_')
          // || ((i>='0')&&(i<='9'))
         )
         GainTab[i] = unsigned int ( - 1 );
       else
         GainTab[i] = 0 ;
   }

   IsDo = true ;
}

CWords::CWords()
{
}

CWords:: ~ CWords()
{
}

#define asm __asm
__declspec( naked ) __int64 CPUCycleCounter() // 获取当前CPU周期计数(CPU周期数)
{
   asm
   {
      RDTSC     // 0F 31   // eax,edx
      ret
   }
}

// 循环读取文件数据到内存缓冲区
void CWords::toDo(FILE * file)
{
   _CPUCount = ::CPUCycleCounter();

   std::vector < char > BufData(cibuf_size);
   buf_size = BufData.size();
   pBuf =& BufData[ 0 ];

    // get file length
   fseek(file, 0 ,SEEK_END);
    int file_length = ftell(file);
   fseek(file, 0 ,SEEK_SET);
    int file_pos = 0 ;

   CreateGainTab();
    int dx = 0 ;
    int start_offset = 0 ;
    while ( true )
   {
       if (file_pos + (buf_size - dx) <= file_length)
      {
         fread(pBuf + dx,buf_size - dx, 1 ,file);
         file_pos += (buf_size - dx);
         dx = GainWord(dx,start_offset);

         start_offset = 0 ;
          if (dx < 0 ) // 处理超长单词
         {
            start_offset = buf_size + dx; // 放大缓冲区
            dx = buf_size;
            BufData.resize(dx * 2 );
            buf_size = BufData.size();
            pBuf =& BufData[ 0 ];
         }
          else // if ( (dx<(cibuf_size>>1)) && (buf_size>(cibuf_size<<1)) )
         {
             // BufData.resize(cibuf_size); // 减小缓冲区
             // pBuf=&BufData[0];
             // buf_size=BufData.size();
         }

      }
       else
      {
          int bordercount = ( int )(file_length - file_pos);
          if (bordercount > 0 )
         {
             fread(pBuf + dx,bordercount, 1 ,file);
             buf_size = dx + bordercount;
              // file_pos+=(bordercount);
             endGainWord(dx,start_offset);
         }

          break ; // end while
      }
   }
   _CPUCount = ::CPUCycleCounter() - _CPUCount;
}

int CWords::privateGainWord( int dx, int start_offset, bool isEndGain)
{
    char * pStart = pBuf + start_offset;
    char * pEnd = pBuf + buf_size;
    int IsInWord = (dx != 0 ) ? int ( - 1 ): 0 ;    // 是否处于“词”中
    char * i = pBuf + dx;

    for (;i != pEnd; ++ i)
   {
       if (IsInWord ^ GainTab[ * (unsigned char * )i])
      {
          if (IsInWord)
            PushWord(pStart,i);
          else
            pStart = i;
         IsInWord = ( ~ IsInWord);
      }
   }

    /////////
   dx = 0 ;
    if (IsInWord)
   {
       if (isEndGain)
          PushWord(pStart,pEnd);   // 最末尾的一个词
       else
      {
          dx = pEnd - pStart;
           if (dx > (buf_size >> 1 )) // 超长单词特殊处理
             dx = ( - dx); // 特殊标记！
           else
          {
              for ( int i = 0 ;i < dx; ++ i) // 把没有处理完的单词拷贝到缓冲区开头
                pBuf[i] = pStart[i];
          }
      }
   }
    return dx;
}

int CWords::GainWord( int dx, int start_offset)
{
     return privateGainWord(dx,start_offset, false );
}

void CWords::endGainWord( int dx, int start_offset)
{
    privateGainWord(dx,start_offset, true );
}

void CWords::GetResult(std::ostream & cout, unsigned int sortCount)
{
   std::cout << " 无重复单词数: " << _hash_set.size() << " 单词总数: " << _hash_set.sum() << std::endl;
   std::cout << " CPU周期计数: " << ( long )_CPUCount << std::endl;
   _hash_set.GetStrList(cout,sortCount);
}

inline void _fastcall CWords::PushWord( char * begin, char * end)
{
   _hash_set.insert(begin,end);
}

////////////////////////////// /

int CreateTxtFile( char * argv[]);
int toWork( int argc, char * argv[]);
const char sParameter [] = " Cpt_hss filename [/N] " ;

// 主程序
int main( int argc, char * argv[])
{
    if (argc <= 1 )
   {
      std::cout << ( " 请输入文件名称! " );
      std::cout << sParameter;
      std::cout << std::endl;
       return 0 ;
   }
    if (std:: string (argv[ 1 ]) == " /? " )
   {
      std::cout << ( " 统计文件中单词出现频率。 " );
      std::cout << (sParameter);
      std::cout << ( "   filename      指定需要进行统计的文件的名称 " );
      std::cout << ( "   [/N]          显示出现频率最高的前N个单词; " );
      std::cout << ( "                 如果单词出现频率相同,则按字母顺序排列; " );
      std::cout << ( "                 N默认为1; " );
      std::cout << ( "                 当N=0时,表示全部显示。 " );
      std::cout << std::endl;
       return 0 ;
   }

    return toWork(argc,argv);

}

int toWork( int argc, char * argv[])
{
   clock_t start = clock();

   FILE * file = fopen(argv[ 1 ], " rb " );
    if (file == 0 )
   {
      std::cout << ( " 打开文件时发生错误! " );
      std::cout << (sParameter);
       return 0 ;
   }
   unsigned int sortCount = 1 ;
    if (argc == 3 )
      sortCount = atoi(argv[ 2 ] + 1 );

   CWords words;
   words.toDo(file);

   fclose(file);
   words.GetResult(std::cout,sortCount);
   std::cout << " Seconds = " << ( ( double )(clock() - start) / CLOCKS_PER_SEC ) << std::endl;
    return 0 ;
}

重点优化说明: （这是本篇文章的重点，讲解一些基本的优化策略）

1.在读取文件方面，使用了一个自己管理的内存缓冲区来读取文件的数据；
（这样处理以后读文件占的时间约占总时间的1/7，还可以进一步优化：
进一步改进方案a：可以考虑用另一个线程异步来加载文件数据(当前处理大量文件数据的高效方案)；
进一步改进方案b：如果文件不太大可以考虑使用内存映射技术来优化这一块，代码也简单很
多，而单词的表示也可以采用一个指针加一个长度(或者用头尾两个指针，或者一个指针+哨兵
位(推荐))来表示，从而避免一次深拷贝）

2.建立了一个查询表GainTab[256]用来判断一个字母是否是单词还是空白区域；
比如：可以把( ((C>='A')&&(C<='Z'))||((C>='a')&&(C<='z')) ) 简写为 ( GainTab[C]!=0 )

(其实也可以建立一个64k的表来捕捉状态，同时用两个字节来查表...)

3.把查找单词的扫描过程理解为从单词区域到空白区域的状态转换(这句可能不好理解);
比如一般常见的实现伪代码：

char * i = pBegin;
while (i!=pEnd)
{
    while((i!=pEnd)&&(!GainTab[*(unsigned char*)i])) //寻找到单词开头
        ++i;
    pStart=i;
    while((i!=pEnd)&&(GainTab[*(unsigned char*)i])) //寻找该单词结束位置
        ++i;
    if (pStart!=i)
        PushWord(pStart,i);
}

我的代码：

for ( char * i = pBegin;i != pEnd; ++ i)
{
     if (IsInWord ^ GainTab[ * (unsigned char * )i]) // 捕捉所属区域状态的变化
    {
         if (IsInWord)
            PushWord(pStart,i);
         else
            pStart = i;
        IsInWord = ( ~ IsInWord);
    }
}

该算法处理两个状态:是否在单词中、“是否在单词中”的状态是否改变；
从而消除了内部的一个循环框架，这在单词和空际较小时将带来更多好处;
（在本程序中可能所起作用不大，这里耗的时间不多，反而调用PushWord的花掉的时间更多）

(还有一个有用的见解：“经过3个字节最多能够计数一个单词”，比如利用这个观点可以建立
2字节或3字节的查询表(表的大小的取舍需要考虑CPU的缓冲区大小)，同时处理更多的字节)

4.为了优化单词使用的内存，减少动态内存分配，自定义了一个CMyAllot类来管理内存的分配

5.我使用了一个自定义的hash表CHashSet(准确点应该叫做map)来储存找到的单词(hash表具有平
均常数时间的单词查找能力)，表的大小会随着无重复单词数的增加而动态增长：某个HashItem
不可用时，会把新的单词加到HashItem后面，即HashItem形成一个单向list,当hash表的负债超过
某个阈值的时候,就会增大表的大小,然后所有的元素重新转移到新的表；

6.我的hash表的大小只可能为2的整数次方，所以hash值在映射到HashItem的序号时可以使用快速
的&运算(hash_value&_hash_mask); 等价于(hash_value%hash_size) , 优化掉一次求余运算
(求余和除法都是很慢的操作)

补充: 我尝试过把char字符流当作wchar_t* 流来处理，希望提高吞吐量
但为保证结果正确代码逻辑变得稍微复杂了一些，结果在我的机子上速度几乎没有变！

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
2024.9.6 Python，华为笔试题总结，字符串格式化，字符串操作，广度优先搜索解决公司组织绩效互评问题，无向图 RaidenQ python 华为 leetcode 算法力扣广度优先无向图
1.字符串格式化name="Alice"age=30formatted_string="Name:{},Age:{}".format(name,age)print(formatted_string)或者name="Alice"age=30formatted_string=f"Name:{name},Age:{age}"print(formatted_string)2.网络健康检查第一行有两个整数m
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
matlab mle 优化,MLE+: Matlab Toolbox for Integrated Modeling, Control and Optimization for Buildings... Simon Zhong matlab mle 优化
摘要：FollowingunilateralopticnervesectioninadultPVGhoodedrat,theaxonguidancecueephrin-A2isup-regulatedincaudalbutnotrostralsuperiorcolliculus(SC)andtheEphA5receptorisdown-regulatedinaxotomisedretinalgan
Android应用性能优化轻口味 Android
Android手机由于其本身的后台机制和硬件特点，性能上一直被诟病，所以软件开发者对软件本身的性能优化就显得尤为重要；本文将对Android开发过程中性能优化的各个方面做一个回顾与总结。Cache优化ListView缓存：ListView中有一个回收器，Item滑出界面的时候View会回收到这里，需要显示新的Item的时候，就尽量重用回收器里面的View；每次在getView函数中inflate新
TextFiled 中输入金额宁梓茞
要求:输入的金额不能超过六位,小数点后面只能输入两位小数如果textFIled中第一位输入的是0,后面必须输入小数点,否则禁止输入用到textfiled代理方法#pragmamark----textFiledDelegate-----(BOOL)textField:(UITextField*)textFieldshouldChangeCharactersInRange:(NSRange)range
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
《 C++ 修炼全景指南：九》打破编程瓶颈！掌握二叉搜索树的高效实现与技巧 Lenyiin C++修炼全景指南技术指南 c++算法 stl
摘要本文详细探讨了二叉搜索树（BinarySearchTree,BST）的核心概念和技术细节，包括插入、查找、删除、遍历等基本操作，并结合实际代码演示了如何实现这些功能。文章深入分析了二叉搜索树的性能优势及其时间复杂度，同时介绍了前驱、后继的查找方法等高级功能。通过自定义实现的二叉搜索树类，读者能够掌握其实际应用，此外，文章还建议进一步扩展为平衡树（如AVL树、红黑树）以优化极端情况下的性能退化。
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

abp竞赛－之－文本文件词频查询 优化报告

你可能感兴趣的:(优化,vector,String,File,insert,iostream)

abp竞赛－之－文本文件词频查询优化报告