yd808

C6XX优化经验总结

C6XX 优化经验总结
一、 c6x 的编译的常用选项
（一） c6x 的编译程序为 “cl6x.exe” 使用的方法

Cl6x [options] [filenames]

Cl6x ：    编译程序
Options ：    编译选项
Filenames ：   C 或汇编源文件

说明：
编译选项是一个字母或者两个字母，对大小写不敏感。
编译选项的前面需要有一个 “ － ” 符号。
一个字母的选项可以合并在一起。比如 “ － sgq” 与 “ － s － g － q” 相同。
两个字母的选项如果第一个字母相同也可以合并在一起。比如 “ － mgt” 与 “ － mg － mt” 相同。

（二）有关优化的选项
-mt ：表示在程序中没有使用 alaising 技术，这使得编译器可以进行比较好的优化。
-o3 ：对文件级别进行最强的优化，一般在编译时应该使用这个选项。但是在个别情况下使用这个选项优化程序可能会出现
错误（ -o2 有相同现象， -o0 和 -o1 不会出现错误）。可能是在优化循环，组织流水线的时候发生错误。如果有这种现象出现可以同时
使用 -g 选项，程序优化就不会出现错误，但是优化效果会下降。另外可以调整程序的表达方式，可能会避免编译器发生错误。
-pm ：在程序级别进行优化。可以将所以文件联合在一起进行优化，主要有去掉没有被调用的函数、总是常数的变量以及没有使用的
函数返回值。建议由程序员自己进行这种优化工作。使用这个选项在 win98 下编译可能会出现找不到编译程序的情况。
-ms0 ：不使用冗余循环进行优化，减小程序的大小。一般情况下这个选项对程序大小的优化作用不明显。
-mh[n] ：去掉流水线的 epilog ，减小程序的大小。这个选项的作用比较明显。但是有可能出现读取地址超出有效范围的问题，
所以要在数据段的开始和结尾处增加一些 pading ，或者在分配内存时保证数组的前面和后面一段范围内都是有效的地址。
可选的参数 n 给出这种 pading 的长度字节数。

（三）保留编译和优化信息的选项
-k ：保留优化后生成汇编语言文件。
-s ：汇编语言文件中加入优化信息，如果没有则加入 C 语言源程序作为注释。
-mw ：在汇编语言文件加入软件流水线信息。

（四）有关调试和剖析的选项
-g ：允许符号调试，在 “out” 文件中包含符号信息和行号信息，可以在 c 语言级别进行调试和剖析。使用联合使用－ g 、－ mt 和－ o3 可以保
证能够进行符号调试的情况下最大限度的优化。
-mg ：允许 profile 优化后的程序。在 “out” 文件中包含符号信息和很少的行号信息。允许在 c 语言的函数基本进行剖析。
如果联合使用这两个选项，－ g 选项可能被忽略，结果与只用－ mg 相同。

（五）其它类型
-mln ：生成大内存模式的程序。
   － ml0 ：缺省情况下将集合变量（数组和结构）作为 far 型。
  -ml1 ：缺省情况下将全部函数作为 far 型
  -ml2 ：等于 -ml0 加 -ml1
  -ml3 ：缺省情况下将全部数据和函数作为 far 型

（六）建议使用的编译方式
Cl6x － gk － mt － o3 － mw － ss  “filename”
方式 1 用于程序的调试，这种方式具有比较强的优化能力，并且支持符号调试。在编译的过程中不会发生错误。
由于生成的 “out” 文件中包含了符号信息和行号信息，所以比较大。
Cl6x － k － mgt － o3 － mw － ss  “filename”
方式 2 用于程序的剖析（ profile ），这种方式的优化能力几乎最强（绝大多数情况下与方式 3 相同），
并且支持对程序进行 profile 。文件中只包含了符号信息和很少的行号信息，所以 “out” 文件比较小。
Cl6x － k － mt － o3 － mw － ss  “filename”
方式 3 用于最终的发行版本程序，可以对程序进行最强的优化，并且去掉了全部的符号和行号信息，所以 “out” 文件比较小。
由多个文件组成的程序应该编写 makefile ，将编译参数放在该文件中，并在其中说明使用的编译器的版本号。

（七）连接参数
－ heap ：指定堆的大小
－ stack ：指定栈的大小
连接的各种选项应该统一放在 “cmd” 文件中
二、双重循环和多重循环的优化总结

双重循环多重循环看起来比较复杂，但实际上多重循环优化方法比较简单，就在于一个字： “ 拆 ” ，一旦完成这一步之后，
多重循环就成为单层循环，优化就可以按照普通的单层循环来做了。
多重循环的特点是在优化器优化时只在最内层循环中形成一个 pipeline ，这样循环语句就不能充分利用 C6 的软件流水线，
而且对于内部循环的次数较少的情况，消耗在 prolog 和 eplog 上的 cycle 数也是不可忽视的。
针对这种状况可以考虑将多重循环拆开形成一个单层循环，可以拆外层循环也可以拆内层循环，
一般视具体情况而定。这样就可以充分利用优化器构成的 Pipeline 。如下例：

  void fir2(const short input[], const short coefs[], short out[])
  {
  int i, j;
  int sum = 0;
  for (i = 0; i < 40; i++)
  {
  for (j = 0; j < 16; j++)
    sum += coefs[j] * input[i + 15 - j];
  out[i] = (sum >> 15);
  }

内层循环循环次数较少，运算量也不大，资源方面只占用了一个乘法器，一个 cycle 只使用一次乘法器，
而事实上我们可以在一个 cycle 内使用两个乘法器，所以还可以充分利用另外的一个乘法器。因此考虑将内层循环拆开来执行，如下：

  void fir2_u(const short input[], const short coefs[], short out[])
  {
  int i, j;
  int sum;
    for (i = 0; i < 40; i++)
      {
    sum = coefs[0] * input[i + 15];
    sum += coefs[1] * input[i + 14];
    sum += coefs[2] * input[i + 13];
    sum += coefs[3] * input[i + 12];
    sum += coefs[4] * input[i + 11];
    sum += coefs[5] * input[i + 10];
    sum += coefs[6] * input[i + 9];
    sum += coefs[7] * input[i + 8];
    sum += coefs[8] * input[i + 7];
    sum += coefs[9] * input[i + 6];
    sum += coefs[10] * input[i + 5];
    sum += coefs[11] * input[i + 4];
    sum += coefs[12] * input[i + 3];
    sum += coefs[13] * input[i + 2];
    sum += coefs[14] * input[i + 1];
    sum += coefs[15] * input[i + 0];
    out[i] = (sum >> 15);
  }

这样虽然代码长度增加了，可变成了单循环，所有的运算都参加到 pipeline 中来，在 Piped loop kernal
中产生每一个 cycle 内都使用了两个乘法器，充分利用了 DSP 内部的资源，提高了运行效率。又如下例：

tot = 4;
for (k = 0; k < 4; k++)
  {
    max = 0;
    for (i = k; i < 44; i += STEP)
    {
      s = 0;
      for (j = i; j < 44; j++)
      s = L_mac(s, x[j], h[j - i]);
      y32[i] = s;
      s = L_abs(s);
      if (L_sub(s, max) > (Word32) 0)
      max = s;
    }
    tot = L_add(tot, L_shr(max, 1));
  }
在这个多层循环中一共有三层循环，而最内层的循环的运算量很小，只有一次乘累加操作，
而我们知道 C6 中一个 packet 中可以做两个乘累加运算，所以为了增加内部循环的运算，减少外部循环的层数，
我们可以将第一层循环的操作拆开，其负责的运算加入到内部循环中，也就是在内层循环中一次做四次的乘累加运算，
这样将多次操作形成 pipeline ，提高了运行效率，优化后的 C 代码如下：
tot = 4;
   max0=0;
   max1=0;
   max2=0;
   max3=0;
  for (i = 0; i <44; i += STEP) //STEP=4, 11 times cirs
   {
//code
   for (j=0;j<=40-i;j++)
{s0=(Word32)(_sadd(s0,_smpy(hh[j],xx[j+i])));
s1=(Word32)(_sadd(s1,_smpy(hh[j],xx[j+i+1])));
s2=(Word32)(_sadd(s2,_smpy(hh[j],xx[j+i+2])));
s3=(Word32)(_sadd(s3,_smpy(hh[j],xx[j+i+3])));
}
}
//code

CCS 的优化：
三、 16 位变为 32 位操作，使用 intrinsic 函数，用 const 等。

1 、源代码：
Word32 L_mpy_ll(Word32 L_var1, Word32 L_var2)
{
double aReg;
Word32 lvar;
/* (unsigned)low1 * (unsigned)low1 */
aReg = (double)(0xffff & L_var1) * (double)(0xffff & L_var2) * 2.0;
/* >> 16 */
aReg = (aReg / 65536);
aReg = floor(aReg);
/* (unsigned)low1 * (signed)high2 */
aReg += (double)(0xffff & L_var1) * ((double)L_shr(L_var2,16)) * 2.0;
/* (unsigned)low2 * (signed)high1 */
aReg += (double)(0xffff & L_var2) * ((double)L_shr(L_var1,16)) * 2.0;
/* >> 16 */
aReg = (aReg / 65536);
aReg = floor(aReg);
/* (signed)high1 * (signed)high2 */
aReg += (double)(L_shr(L_var1,16)) * (double)(L_shr(L_var2,16)) * 2.0;
/* saturate result.. */
lvar = L_saturate(aReg);
return(lvar);
}

2 、改编后的代码：
static inline Word32 L_mpy_ll(Word32 L_var1, Word32 L_var2)
{
Word32 aReg_hh;
Word40 aReg,aReg_ll,aReg_lh,aReg_hl;

aReg_ll = (Word40)_mpyu(L_var1, L_var2)>>16;
aReg_lh = (Word40)_mpyluhs(L_var1, L_var2);
aReg_hl = (Word40)_mpyhslu(L_var1, L_var2);
aReg_hh = _smpyh(L_var1, L_var2);
aReg = _lsadd(aReg_ll, _lsadd(aReg_lh, aReg_hl));
aReg = _lsadd(aReg>>15, aReg_hh);

return(_sat(aReg));
}

3 、优化方法说明：
C6000 编译器提供的 intrinsic 可快速优化 C 代码， intrinsic 用前下划线表示同调用函数一样可以调用它，即直接内联为 C6000 的函数。
例如，在上例的源代码中没有使用 intrinsics ，每一行 C 代码需多个指令周期，在改编后的代码中，每一行代码仅需一个指令周期。
例如，
“aReg_ll = (Word40)_mpyu(L_var1, L_var2)>>16” 中 “_mpyu” 就是一个 intrinsics 函数，它表示两个无符号数的高 16 位相乘，
结果返回。 C6000 支持的所有 intrinsics 指令及其功能参见《 TMS320C6000 系列 DSP 的原理与应用》一书的第 265 、 266 页，
该书还提供了另外的例子。这些内联函数定义在 CCS 所在的 C6000/CGTOOLS/Include 目录下的 C6X.h 文件中。
下面这个例子是 C6000 的 “Programmer's Guide” 上提取的使用 intrinsics 优化 C 代码的例子。
源代码：
int dotprod(const short *a, const short *b, unsigned int N)
{
int i, sum = 0;

for (i = 0; i < N; i++)
sum += a[i] * b[i];
return sum;
}

改编后代码：
int dotprod(const int *a, const int *b, unsigned int N)
{
int i, sum1 = 0, sum2 = 0;

for (i = 0; i < (N >> 1); i++)
{
sum1 += _mpy (a[i], b[i]);
sum2 += _mpyh(a[i], b[i]);
}
return sum1 + sum2;
}

技巧：
在 C 语言的调试全部通过以后，可以尝试将尽可能多的语句使用 intrinsics 函数加以改编，
尤其在循环体内，这种改编可以大幅度减少执行时间。

四、
1 、源代码：
void fir_fxd1(short input[], short coefs[], short out[])
{
int i, j;
for (i = 0; i < 40; i++)
{
for (j = 0; j < 16; j++)
out[i*16+j]= coefs[j] * input[i + 15 - j];
}
}

2 、改编后的代码：
void fir_fxd2(const short input[], const short coefs[], short out[])
{
int i, j;

for (i = 0; i < 40; i++)
{
for (j = 0; j < 16; j++)
out[i*16+j]= coefs[j] * input[i + 15 - j];
}

3 、优化方法说明：
C6000 编译器如果确定两条指令是不相关的，则安排它们并行执行。关键字 const 可以指定一个变量或者一个变量的存储单元保持不变。
这有助于帮助编译器确定指令的不相关性。例如上例中，源代码不能并行执行，而结果改编后的代码可以并行执行。

4 、技巧：
使用 const 可以限定目标，确定存在于循环迭代中的存储器的不相关性。

五、
1 、源代码：
void vecsum(short *sum, short *in1, short *in2, unsigned int N)
{
int i;

for (i = 0; i < N; i++)
sum[i] = in1[i] + in2[i];
}

2 、改编后的代码：
void vecsum6(int *sum, const int *in1, const int *in2, unsigned int N)
{
int i;
int sz = N >> 2;

_nassert(N >= 20);

for (i = 0; i < sz; i += 2)
{
sum[i] = _add2(in1[i] , in2[i]);
sum[i+1] = _add2(in1[i+1], in2[i+1]);
}
}

3 、优化方法说明：
源代码中，函数变量的定义是 short *sum, short *in1, short *in2, 改编后的代码函数变量是
int *sum, const int *in1, const int *in2, 整数类型由 16 位改编成 32 位，这时使用内联指令 “_add2” 一次可以完成两组 16 位整数的
加法，效率提高一倍。注意这里还使用了关键字 const 和内联指令 _nassert 优化源代码。

4 、技巧：
用内联指令 _add2 、 _mpyhl 、 _mpylh 完成两组 16 位数的加法和乘法，效率比单纯 16 位数的加法和乘法提高一倍。

六、 if...else... 语句的优化
（一）
1 、源代码：
if (sub (ltpg, LTP_GAIN_THR1) <= 0)
{
adapt = 0;
}
else
{
if (sub (ltpg, LTP_GAIN_THR2) <= 0)
{
adapt = 1;
}
else
{
adapt = 2;
}
}

2 、改编后的代码：
  adapt = (ltpg>LTP_GAIN_THR1) + (ltpg>LTP_GAIN_THR2);

（二）
1 、源代码：
if (adapt == 0)
{
if (filt>5443)
{
result = 0;
}
else
{
if (filt < 0)
{
result = 16384;
}
else
{
filt = _sshl (filt, 18)>>16; // Q15
result = _ssub (16384, _smpy(24660, filt)>>16);
}
}
}
else
{
result = 0;
}

2 、改编后的代码：
filt1 = _sshl (filt, 18)>>16;
tmp = _smpy(24660, filt1)>>16;
result = _ssub(16384, tmp * (filt>=0));
result = result * (!((adapt!=0)||(filt>5443)));

（三）
1 、源代码：
static Word16 saturate(Word32 L_var1)
{
  Word16 swOut;

  if (L_var1 > SW_MAX)
  {
    swOut = SW_MAX;
    giOverflow = 1;
  }
  else if (L_var1 < SW_MIN)
  {
    swOut = SW_MIN;
    giOverflow = 1;
  }
  else
    swOut = (Word16) L_var1;    /* automatic type conversion */
  return (swOut);
}

2 、改编后的代码：
static inline Word32 L_shl(Word32 a,Word16 b)
{
return ((Word32)((b) < 0 ? (Word32)(a) >> (-(b)) : _sshl((a),(b)))) ;
}

3 、优化方法说明：
如果在循环中出现 if...else... 语句，由于 if...else... 语句中有跳转指令，而每个跳转指令有 5 个延迟间隙，
因此程序执行时间延长；另外，循环内跳转也使软件流水受到阻塞。直接使用逻辑判断语句可以去除不必要的跳转。
例如在例 1 的源代码最多有两次跳转，而改编后不存在跳转。例 2 和例 3 同样也去掉了跳转。

4 、技巧：
尽可能地用逻辑判断语句替代 if...else... 语句，减少跳转语句。

七、
1 、源程序
  dm = 0x7FFF;
  for (j = 0; j < nsiz[m]; j = add(j, 1))
  {
    if (d[j] <= dm)
    {
      dm = d[j];
      jj = j;
    }
  }
  index[m] = jj;
2 、优化后的程序
  dm0 = dm1 = 0x7fff;
  d0 = (Word16 *)&d[0];
  d1 = (Word16 *)&d[1];
  #pragma MUST_ITERATE(32,256,64);
  for (j = 0; j < Nsiz; j+=2)
  {
    n0 = *d0;
    d0 += 2;
    n1 = *d1;
    d1 += 2;
    if (n0 <= dm0)
    {
      dm0 = n0;
      jj0 = j;
    }
    if (n1 <= dm1)
    {
      dm1 = n1;
      jj1 = j+1;
    }
  }
  if (dm1 != dm0)
  {
    index[m] = (dm1 < dm0)? jj1:jj0;
  }
  else
  {
    index[m] = (jj1 > jj0)? jj1:jj0;
  }
3 、优化说明
   求数组的最小值程序，优化时为了提高程序效率在一个循环之内计算 N=1,3,5.. 和 n=2,4,6... 的最小值，
   然后在比较二者的大小以求得整个数组的最小值。

八、
1 、源程序
  for (k = 0; k < NB_PULSE; k++)
  {
    i = codvec[k];
    j = sign[i];
    index = mult(i, Q15_1_5);
    track = sub(i, extract_l(L_shr(L_mult(index, 5), 1)));
    if (j > 0)
    {
      if (i < l_subfr) code[i] = add(code[i], 4096);
      codvec[k] += (2 * L_SUBFR);
    }
    else
    {
      if (i < l_subfr) code[i] = sub(code[i], 4096);
      index = add(index, 16);
    }
    if (indx[track] < 0)
    {
      indx[track] = index;
    }
    else
    {
      if (((index ^ indx[track]) & 16) == 0)
      {
        if (sub(indx[track], index) <= 0)
        {
          indx[track] = shl((indx[track] & 16), 3)
             + shr(extract_l(L_mult((indx[track] &                15), NB_POS)), 1) + (index & 15);
        }
        else
        {
          indx[track] = shl((index & 16), 3)
             + shr(extract_l(L_mult((index & 15),                  NB_POS)), 1) + (indx[track] & 15);
        }
      }
      else
      {
        if (sub((indx[track] & 15), (index & 15)) <= 0)
        {
          indx[track] = shl((index & 16), 3)
             + shr(extract_l(L_mult((index & 15),                  NB_POS)), 1) + (indx[track] & 15);
        }
        else
        {
          indx[track] = shl((indx[track] & 16), 3)
             + shr(extract_l(L_mult((indx[track] & 15),              NB_POS)), 1) + (index & 15);
        }
      }
    }
  }
2 、优化后的程序
  for (k = 0; k < 8; k++)
  {
    i    = codvec[k];
    j    = sign[i];
    index = _smpy(i, 6554)>>16;
    track    = i - index*5;
    con = (j > 0);
    codvec[k] = codvec[k] + 110*con;
index = index + (!con)*16;
    conn = (i < l_subfr);
    cono  = (j > 0)? 1:-1;
    code[i] = code[i] + 4096*conn*cono;
n0   = index;
t0  = indx[track];
n1   = n0&16;
t1   = t0&16;
n2   = n0&15;
t2   = t0&15;
    tmp0   = (_sshl(n1,19)>>16) + n2*NB_POS + t2;
    tmp1   = (_sshl(t1,19)>>16) + t2*NB_POS + n2;
    conp   = (((n1 == t1)&&(t0 > n0))||((n1 != t1)&&(t2 <= n2)));
tmp   = conp*tmp0 + (!conp)*tmp1;
    if (t0 < 0)
      indx[track] = n0;
    else
      indx[track] = tmp;
  }
3 、优化说明
   源程序中在循环中含有许多的 if 结构，在优化时对 if 结构首先进行化简，
   再将化简后的 if 结构用条件运算表达式进行改写，最后使循环可以 Pipeline 。
九、
1 、源程序
  for (i = 0; i < n; i++)
  {
   max = -32767;
   for (j = 0; j < n; j++)
   {
    if (sub (tmp2[j], max) >= 0)
    {
      max = tmp2[j];
      ix = j;
    }
   }
   tmp2[ix] = -32768;
   tmp[i] = ix;
  }
2 、优化后的程序
if (n0>n1) {temp=n0;n0=n1;n1=temp;}
if (n1>n2) {temp=n1;n1=n2;n2=temp;}
   if (n2>n3) {temp=n2;n2=n3;n3=temp;}
   if (n3>n4) {temp=n3;n3=n4;n4=temp;}
   if (n0>n1) {temp=n0;n0=n1;n1=temp;}
   if (n1>n2) {temp=n1;n1=n2;n2=temp;}
   if (n2>n3) {temp=n2;n2=n3;n3=temp;}
   if (n0>n1) {temp=n0;n0=n1;n1=temp;}
   if (n1>n2) {return n1;}
3 、优化说明
   源程序也为一个求中值的问题，由于已知循环次数固定为 5 ，因此将循环展开使用 if 语句直接求取中值。
十、
1 、源程序
static Word16 Bin2int (Word16 no_of_bits, Word16 *bitstream)
{
Word16 value, i, bit;

value = 0;
for (i = 0; i < no_of_bits; i++)
{
value = shl (value, 1);
bit = *bitstream++;
if (sub (bit, BIT_1) == 0)
value = add (value, 1);
}
return (value);
}

for (i = 0; i < prmno[mode]; i++)
{
prm[i] = Bin2int (bitno[mode][i], bits);
bits += bitno[mode][i];
}
2 、优化后的程序
value = 0;
  bitsp = bits;
  bitnop= &bitno[mode][0];
j = *bitnop++;
j1 = *bitnop++;
j2 = *bitnop++;
j3 = *bitnop++;
j4 = *bitnop++;
_nassert(loop[mode]>=35);
for (i = 0; i < loop[mode]; i++)
{
value = value*2 + *bitsp++;
j--;
if (j == 0)
{
*prm++ = value;
value = 0;
j = j1;
j1 = j2;
j2 = j3;
j3 = j4;
j4 = *bitnop++;
}
}
3 、优化说明
   源程序按照数据位流定义取出参数，为双重循环结构，优化中采用重新根据位流的 bit 长度定义循环次数，
   化简为单重循环，然后优化循环，去除 boundary ，使 pipeline 的数目最小。

十一、 copy 程序的优化
  1 、源代码：
Word16 i;
for (i = 0; i < L; i++)
{
y[i] = x[i];
}
  2 、改编代码：
（ 1 ）要求数组长度能被 2 整除
Word32  i;
Word32   temp;
int *p1 = (int *)&x[0];
int *q1 = (int *)&y[0];
for (i = 0; i < L/2; i++)
{
temp = *p1++;
*q1++ = temp;
}
（ 2 ）要求数组长度能被 4 整除
Word32  i;
Word32   temp1, temp2;
Word32   *pin1, *pin2, *pout1, *pout2;
pin1 = (Word32 *)&x[0];
pin2 = (Word32 *)&x[2];
pout1= (Word32 *)&y[0];
pout2= (Word32 *)&y[2];
for (i = 0; i < L/4; i++)
{
temp1 = *pin1;
temp2 = *pin2;
pin1+=2;
pin2+=2;
*pout1= temp1;
*pout2= temp2;
pout1+=2;
pout2+=2;
}
3 、优化方法说明：
把一次循环拷贝一个 word16 的数改为一次循环拷贝 2 个 word16 或 4 个 word16 的数。
4 、技巧：
充分利用 c6xx 一次读取 32 位数的特性，并利用一个指令周期能读取两个数据的特点。
十二、 set_zero 程序的优化
  1 、源代码：
Word16 i;
for (i = 0; i < L; i++)
{
x[i] = 0;
}
  2 、改编代码：
（ 1 ）数组长度能被 2 整除
Word32 i;
int *x1 = (int *)&x[0];
for (i = 0; i < L/2; i++)
{
*x1++ = 0;
}
（ 2 ）数组长度能被 4 整除
Word32 i;
int *x1 = (int *)&x[0];
int *x2 = (int *)&x[2];
for (i = 0; i < L/4; i++)
{
*x1 = 0;
*x2 = 0;
x1++;
x2++;
x1++;
x2++;
}
3 、优化方法说明：
把一次循环为一个 word16 的数赋值改为一次为 2 个或 4 个 word16 的数赋值。
4 、技巧：
充分利用 C6XX 一次读取 32 位数的特点，并利用一个指令周期能读取两个数据的特点。
十三、 32bit 数与 16bit 数相乘
1 、源代码：
L_tmp0 = Mac_32_16(L_32, hi1, lo1, lo2);
2 、改编代码：
L_tmp0=_sadd(_sadd(_smpyhl(hl32, lo2),
  (_mpyus(hl32, lo2)>>16)<<1), L_32);
3 、优化方法说明：
  hl32 是 32bit 的数， hi1 和 lo1 是 16bit 的数，且 hl32 = hi 1<<16 + lo1 << 1 ，即 hi1 和 lo1 分别是 hl32 的高 16 位数和低 16 位数。
   函数 Mac_32_16(L_32, hi1, lo1, lo2) 实现
    L_32 = L_32 + (hi1*lo2)<<1 + ((lo1*lo2)>>15)<<1
   源代码是把一个 32 位的数拆成两个 16 位的数与一个 16 位的数相乘，优化后的代码不拆开 32 位的数，
   直接用 32 位的数与 16 位的数相乘。运用这种方法必须保证 hl32 的最低一位数必须为 0 ，否则应用指令 _clr(hl32, 0, 0) 把
   最低位清零。
4 、技巧：
   源代码中的低 16 位数 lo1 是 hl32 的低 16 位右移一位得到的（留出一位符号位）。在与 lo2 相乘时又右移了 15 位，
   所以在改编代码中右移 16 位，并且是以无符号数与 lo2 相乘。
十四、 32bit 数与 32bit 数相乘
1 、源代码：
L_tmp = Mac_32 (L_32, hi1, lo1, hi2, lo2);
2 、改编代码：
  L_tmp = _sadd(_sadd(_smpyh(hl1_32, hl2_32),
      ((_mpyhslu(hl1_32, hl2_32)>>16)<<1)+
      ((_mpyhslu(hl2_32, hl1_32)>>16)<<1)), L_32);
3 、优化方法说明：
   两个 32 位的数相乘，不必分成四个 16 位的数相乘，直接用 32 位相乘。其中：
    hl1_32 = hi1<<16 + lo1<<1, hl2_32 = hi2 <<16 + lo2 <<1 。
源代码实现： L_32 = L_32 + (hi1*hi2)<<1 + ( (hi1*lo2)>>15 + (lo1*hi2)>>15 )<<1
4 、技巧：
低 16 位与高 16 位相乘时，低 16 位使用的是无符号数。
十五、 16 位除法的优化
1 、源代码：
Word16 div_s (Word16 var1, Word16 var2)  // 实现 var1/var2
{
Word16 var_out = 0;
Word16 iteration;
Word32 L_num = (Word32)var1;
Word32 L_denom = (Word32)var2;
for (iteration = 0; iteration < 15; iteration++)
{
var_out <<= 1;
L_num <<= 1;
if (L_num >= L_denom)
{
L_num = L_sub (L_num, L_denom);
var_out = add (var_out, 1);
}
}
return (var_out);
}
2 、改编代码：
Word16 div_s1 (Word16 var1, Word16 var2)
{
Word32 var1int;
Word32 var2int;
var1int = var1 << 16;
var2int = var2 << 15;
var1int = _subc(var1int,var2int);
var1int = _subc(var1int,var2int);
var1int = _subc(var1int,var2int);
var1int = _subc(var1int,var2int);
var1int = _subc(var1int,var2int);
var1int = _subc(var1int,var2int);
var1int = _subc(var1int,var2int);
var1int = _subc(var1int,var2int);
var1int = _subc(var1int,var2int);
var1int = _subc(var1int,var2int);
var1int = _subc(var1int,var2int);
var1int = _subc(var1int,var2int);
var1int = _subc(var1int,var2int);
var1int = _subc(var1int,var2int);
var1int = _subc(var1int,var2int);
return (var1int & 0xffff);
}
3 、优化方法说明：
实现 16 位的除法，要求被除数 var1 和除数 var2 都是整数，且 var1<=var2 。利用 C6XX 特有的指令 subc ，实现除法的循环移位相减操作。
4 、技巧：
把被除数和除数都转换成 32 位数来操作，返回时取低 16 位数。
十六、 C6X 优化 inline 举例 :

1 、原程序：
  for (i = LO_CHAN; i <= HI_CHAN; i++)
  {

    norm_shift = norm_l(st->ch_noise[i]);
    Ltmp = L_shl(st->ch_noise[i], norm_shift);

    norm_shift1 = norm_l(st->ch_enrg[i]);
    Ltmp3 = L_shl1(st->ch_enrg[i], norm_shift1 - 1);

    Ltmp2 = L_divide(Ltmp3, Ltmp);
    Ltmp2 = L_shr(Ltmp2, 27 - 1 + norm_shift1 - norm_shift);  // * scaled as 27,4 *

    if (Ltmp2 == 0)
      Ltmp2 = 1;

    Ltmp1 = fnLog10(Ltmp2);
    Ltmp3 = L_add(Ltmp1, LOG_OFFSET - 80807124);  // * -round(log10(2^4)*2^26 *
    Ltmp2 = L_mult(TEN_S5_10, extract_h(Ltmp3));
    if (Ltmp2 < 0)
      Ltmp2 = 0;
    // * 0.1875 scaled as 10,21 *
    Ltmp1 = L_add(Ltmp2, CONST_0_1875_S10_21);
    // * tmp / 0.375 2.667 scaled as 5,10, Ltmp is scaled 15,16 *
    Ltmp = L_mult(extract_h(Ltmp1), CONST_2_667_S5_10);
    ch_snr[i] = extract_h(Ltmp);
  }
  */



2 、优化后程序：
  // 因循环体太大，拆成两个循环并把相应的函数内嵌以使程序能 pipeline ，
  // 用 L_div_tmp[] 保存因拆分而产生的中间变量。
  for (i = LO_CHAN; i <= HI_CHAN; i++)
  {
    //norm_shift = norm_l(st->ch_noise[i]);
    norm_shift = _norm(st->ch_noise[i]);
    Ltmp = _sshl(st->ch_noise[i], norm_shift);

    //norm_shift1 = norm_l(st->ch_enrg[i]);
    norm_shift1 = _norm(st->ch_enrg[i]);
    //Ltmp3 = L_shl1(st->ch_enrg[i], norm_shift1 - 1);
    LLtmp1 = st->ch_enrg[i];
    LLtmp1 = LLtmp1 << (norm_shift1 + 7);
    Ltmp3 = (Word32)(LLtmp1 >> 8);

    Ltmp2 = IL_divide(Ltmp3, Ltmp);
    //Ltmp2 = L_shr(Ltmp2, 27 - 1 + norm_shift1 - norm_shift);
    Ltmp2 = (Ltmp2 >> (27 - 1 + norm_shift1 - norm_shift));

    if (Ltmp2 == 0)
      Ltmp2 = 1;
    L_div_tmp[i] = Ltmp2;
  }
  for (i = LO_CHAN; i <= HI_CHAN; i++)
  {
    Ltmp2 = L_div_tmp[i];
    Ltmp1 = IfnLog10(Ltmp2);
    //Ltmp3 = L_add(Ltmp1, LOG_OFFSET - 80807124);
    Ltmp3 = _sadd(Ltmp1, LOG_OFFSET - 80807124);
    //Ltmp2 = L_mult(TEN_S5_10, extract_h(Ltmp3));
    Ltmp2 = _smpy(TEN_S5_10, (Ltmp3 >> 16));
    if (Ltmp2 < 0)
      Ltmp2 = 0;

    Ltmp1 = _sadd(Ltmp2, CONST_0_1875_S10_21);

    //Ltmp = L_mult(extract_h(Ltmp1), CONST_2_667_S5_10);
    Ltmp = _smpy((Ltmp1 >> 16), CONST_2_667_S5_10);
    //ch_snr[i] = extract_h(Ltmp);
    ch_snr[i] = (Ltmp >> 16);
  }

3 、优化说明
   观察上面这个循环，循环体本身比较大，且含有两个函数 L_divide （）和
  fnLog10 （），而 C62 内部只有 32 个寄存器，且有些寄存器是系统用的，如 B14 、 B15 这样循环体太大将会导致寄存器不够分配，
   从而导致系统编译器无法实现循环的 pipeline 。

   为了实现循环的 pipeline 。我们需要把循环体进行拆分，拆分时要考虑以下几点：
   （ 1 ）、拆分成几个循环比较合适？在各个循环能 pipeline 的前提下，拆开的循环个数越少越好。这就要求尽可能让各个
   循环的运算量接近。
   （ 2 ）考虑在什么地方把程序拆开比较合适？循环体里的数据流往往并不是单一的，在拆开的断点处势必要用中间变量保
   存上次的循环运算结果，供以后的循环用。适当的拆开循环体，使所需的中间变量越少越好。
   （ 3 ）循环体中的函数调用必须定义成内嵌形式，含有函数调用的循环系统是无法使之 pipeline 的；各个循环体中的判断分支
   机构不可太多，否则系统也无法使之 pipeline ，为此应近可能把可以确定下来的分支确定下来，并尽可能用内嵌指令。

   针对上面这个例子，考虑：
   （ 1 ）为让各个循环的运算量大致相当，应把 L_divide （）和 fnLog10 （）分到两个循环中去，从循环体大小上考虑，
   估计拆成两个循环比较合适。
   （ 2 ）考虑在什么地方把程序拆开比较合适？在
    if (Ltmp2 == 0)
      Ltmp2 = 1;
后拆开，因为后面用到的数据只有 Ltmp2 ，故只需用一个数组保存每次循环的 Ltmp2 值即可。
   （ 3 ）循环体中的两处函数调用 L_divide （）和 fnLog10 （）都定义了其内嵌形式， IL_divide （）和 IfnLog10 （）。
   当把可以确定下来的分支作确定处理，并尽可能用内嵌指令后，该循环体中所剩的分支结构已很少，循环体可以 pipeline 。
   优化前程序用 2676 cycle ，优化后用 400 cycle 。优化后两个子循环的 MII 分别为 14 和 6cycle 。

内存地址形式：奔腾， C6000 都是 32 位计算机，字长 32 ，但内存地址都是按字节组织的一个字 4 字节（查看内存时候各个字
时候 : 例如两个连续字 ox1000 ox1004) 写汇编程序时候 , 下一个字也需要 +4, 但写 C 语言时候 ,int 型 ,+1 就是加 4

但是 , 在 Tiger SHARC 中 , 虽然也是 32 位机 , 但内存是地址是按字组织的 , 查看内存时 , 连续的字地址相差 1

// 自己写的一段性能很高的代码 ///
#include
#define INTRINSIC

short add(short var1,short var2)
{
short var_out;
int L_somme;

L_somme = (int) var1 + var2;
return(var_out);
}

int main()
{
int i,result;
#ifdef INTRINSIC
for(i=0; i<1000;i++)
{
result=_sadd(100000,20);
result>0X00007fff?result=0x7fff:(result<0x8000?result=0x8000:0);
}
#else
for(i=0;i<1000;i++)
add(10,20);
#endif

return 0;
}

你可能感兴趣的:(DSP,代码优化,优化,c,input,编译器,filenames,n2)

rabbitmq3.5.1 原理和集群安装「已注销」大数据网络运维
参考http://dl528888.blog.51cto.com/2382721/1864895http://kaibinyuan.blog.51cto.com/7304008/1610110原因：最近有一个异步需要使用消息队列，或许最终会选择阿里的rocketmq性能单台TPS基本上是在2000-3000左右最新rabbitmq版本是3.6.2yum安装配置文件RPM-/etc/rabbitmq
java实现数据上传到接口,Java 导入数据到Excel并提供文件下载接口梨漾 java实现数据上传到接口
依赖net.sourceforge.jexcelapijxl2.6.12复制代码我们需要用到jxl包的类，而jxl.jar正是操作excel表格的工具类库，除了jxl以外，poi包也是一个操作excel的类库。而对比两个包，jxl更适用与数据量大的情况，而poi在数据量不高(大约5000以内)时，效率较高，但占用内存大，更容易内存溢出。测试数据privateintid;privateStringn
RabbitMQ，RocketMQ，Kafka 消息模型对比分析 Java架构设计 java Java程序员消息模型开发语言程序人生
消息模型消息队列的演进消息队列模型早期的消息队列是按照”队列”的数据结构来设计的。生产者（Producer）产生消息，进行入队操作，消费者（Consumer）接收消息，就是出队操作，存在于服务端的消息容器就称为消息队列。当然消费者也可能不止一个，存在的多个消费者是竞争的关系，消息被其中的一个消费者消费了，其它的消费者就拿不到消息了。发布订阅模型如果一个人消息想要同时被多个消费者消费，那么上面的队列
批量更新 AWS ECS Fargate 服务：自动化平台版本升级 ivwdcwso 开发运维 aws 自动化云计算 Fargate ecs
在使用AWSECSFargate时，我们经常会收到平台版本更新的通知。为了确保我们的服务运行在最新的平台版本上，我们需要更新所有受影响的任务。本文将介绍如何使用Python和AWSSDK(boto3)来批量更新ECSFargate服务，自动化这一过程。背景AWSFargate会定期发布新的平台版本，以提供新功能和进行例行维护。当新版本发布时，AWS会通知用户在特定日期之前更新他们的任务。虽然AWS
ubuntu20 安装RabbitMq 帅的没朋友~ #Linux System ubuntu rabbitmq
一：安装erlang1.执行以下命令来确保所有系统软件包都是最新的sudoaptupdatesudoaptupgrade2.将存储库添加到您的Ubuntu系统echo"debhttps://packages.erlang-solutions.com/ubuntufocalcontrib"|sudotee/etc/apt/sources.list.d/erlang-solution.list3.使用
【学习笔记】Python基础-字典Dict和Set和List与Str扩展法迪 Python基础 python hashmap Dict set list
Dict使用大括号围起来，这里提供一种键值对的list表示方法1.Dict{}2.List[]3.turple()实例代码#!/usr/bin/envpython3#-*-coding:utf-8-*-#字典dict类似Java的HashMap#Dict{}#List[]#turple()mDict={"Lava":90,"Huawei":100,"Sony":60}print(mDict['La
百问网imx6ullpro调试记录（linux+qt）嵌入式修炼师 linux驱动 linux qt
调试记录文章目录调试记录进展1.开发板相关1.1百问网乌班图密码1.2换设备开发环境搭建串口调试网络互通nfs文件系统挂载1.3网络问题1.4系统启动1.5进程操作2.QT2.1tslib1.获取源码2.安装依赖文件3.编译2.2qt移植1.获取qt源码2.配置编译器3.编译2.3拷贝到开发板1.拷贝2.修改开发板配置文件qttslib3.验证是否生效2.4安装QtCreator1.获取安装包2.
LeetCode 热题 100 TTXS123456789ABC #BS_算法 leetcode 算法职场和发展
LeetCode热题1001.快速/归并排序快速排序归并排序2.动态规划_必考2.1多维动态规划_必考3.二叉树_必考4.链表_必考5.二分查找6.其他热门算法哈希双指针滑动窗口子串普通数组矩阵图论回溯栈堆贪心算法技巧踏踏实实连SQL几大题型。1.快速/归并排序，2.动态规划（背包爬楼），3.二叉树，4.链表反序，5.二分查找，6.其他杂七杂八（三数之和这种）。1.快速/归并排序快速排序归并排序2
flink核心特性 24k小善 flink 大数据 java 架构
ApacheFlink核心特性详解一、流处理与批处理的统一Flink的核心设计理念之一是将流处理和批处理统一在一个框架中。这种统一性使得Flink在处理实时数据和批量数据时具有高度的灵活性和一致性。1.流处理与批处理的统一计算引擎流处理作为批处理的特例：Flink将批处理视为有限流（FiniteStream），从而实现了流处理和批处理的统一。统一API：Flink提供了DataStream和Dat
flink反压详解 24k小善 flink 架构大数据 AI编程
Flink背压/反压（Backpressure）详解在ApacheFlink中，背压（Backpressure）是一个常见的性能问题，通常表现为数据流在某些节点处积压，导致整体处理速度下降甚至停滞。背压的发生可能源于硬件资源限制、任务逻辑复杂性、数据分布不均或外部系统瓶颈等因素。本文将从多个角度详细讲解Flink的背压问题，包括其成因、影响以及解决方案。一、什么是Flink背压？背压是指在数据流处
CHRONOS - 新闻时间线摘要小众AI AI开源服务器人工智能 AI编程
CHRONOS是一种新颖的基于检索的时间线摘要（TLS）方法，通过迭代提出有关主题和检索到的文档的问题来生成按时间顺序排列的摘要。为开放域TLS构建了一个最新的数据集，它在大小和时间线持续时间方面都超过了现有的公共数据集。⚗️OPEN-TLS数据集我们发布了用于开放域时间线摘要的Open-TLS数据集。目标新闻查询以以下格式显示，地面实况时间线按以下格式显示：news_keywords.pydat
十四、Flink源码阅读--JobGraph生成过程灰二和杉菜 Apache Flink Flink JobGraph生成源码分析
上篇分析了client整个提交任务过程，最终提交的是一个JobGraph对象，那么是如何从jar或sql任务转为JobGraph的呢，这篇我们仔细研究一下,版本为1.6.3源码分析上篇我们介绍client端提交任务最终会到到ClusterClient.run()方法，就在这个方法中封装了JobGraph的步骤。publicJobSubmissionResultrun(FlinkPlancompil
6种MySQL高可用方案对比分析 m0_74823595 mysql adb android
大家好，我是V哥，关于MySQL高可用方案，在面试中频频出现，有同学在字节面试就遇到过，主要考察你在高可用项目中是如何应用的，V哥整理了6种方案，供你参考。V哥推荐：2024最适合入门的JAVA课程MySQL的高可用方案有多种，常见的包括以下几种：1.主从复制（Master-SlaveReplication）原理：主库进行写操作，数据通过异步或半同步复制到从库。可以通过从库进行读操作，实现读写分离
python中的dict与set “光光” python
python内置字典：dict支持key-value存储方式，在放进去的时候，必须根据key算出value的存放位置，这样取出来的时候才能根据key拿到value。由于一个key只能对应一个value,所以，多次对一个key放入value,后面的值会将前面的值覆盖掉。如果key不存在，dict就会报错要避免key不存在的错误，有两种方法：1）通过in判断key是否存在>>>d=｛'a':'1'｝>
推荐文章：md2pptx - Markdown到PowerPoint转换神器，让文档制作更简单！邬情然Harley
推荐文章：md2pptx-Markdown到PowerPoint转换神器，让文档制作更简单！项目地址:https://gitcode.com/gh_mirrors/md/md2pptx在快节奏的工作和学习环境中，高效地整理和展示信息变得至关重要。今天，我们来聊聊一个开源宝藏工具——md2pptx，它能将简洁的Markdown格式文本轻松转化为专业的PowerPoint演示文稿。对于那些喜欢Mark
Python基础---Dict（字典） grace666 Python
1.字典以键值对组成，包含在{}中，字典的键必须为hashable，即不可变（字符串、元组、数字），并且唯一；值可以是任何类型#dict1={[1]:1}#报错：TypeError:unhashabletype:'list'#dict1={{1}:1}#报错：TypeError:unhashabletype:'set'dict1={(1,):1}print(dict1)#{(1,):1}dict1
Markdown 到 PowerPoint 转换工具——md2pptx 伍盛普Silas
Markdown到PowerPoint转换工具——md2pptxmd2pptxMarkdownToPowerPointconverter项目地址:https://gitcode.com/gh_mirrors/md/md2pptxmd2pptx是一个开源项目，它可以将Markdown格式的文本转换为PowerPoint演示文稿。该项目主要使用Python编程语言实现。项目基础介绍md2pptx是一个
探索未来云部署：Spring Boot、Docker与AWS Fargate的完美融合秦贝仁Lincoln
探索未来云部署：SpringBoot、Docker与AWSFargate的完美融合去发现同类优质开源项目:https://gitcode.com/在这个日益数字化的时代，【DeploySpringBootandDockerMicroservicestoAWSusingECSandAWSFargate】项目为我们提供了一个创新的方式来部署Java微服务到亚马逊云。该项目不仅涵盖了SpringBoot
md2pptx 项目教程宣勇磊Tanya
md2pptx项目教程md2pptxMarkdownToPowerPointconverter项目地址:https://gitcode.com/gh_mirrors/md/md2pptx项目介绍md2pptx是一个用于将Markdown格式的幻灯片转换为PowerPoint文件的脚本。该项目旨在帮助用户恢复旧的教学材料，尽管目前功能较为基础，但仍有潜力进行进一步开发以提高实用性。项目快速启动安装首
[开发杂项][编辑器][代码阅读]ctags&vim xcy6666 杂集编辑器 vim linux
~/.ctagsctags--recurse=yes--exclude=.gitgeneratetagsforvimcaddconfigat~/$cat~/.tags--recurse=yes--exclude=.git--exclude=BUILD--exclude=.svn--exclude=*.js--exclude=vendor/*--exclude=node_modules/*--exc
Python网络爬虫-WebSocket数据抓取程序小勇 faiss 爬虫 python 网络协议 websocket 开发语言
目录前言1、WebSocket请求的分析通常涉及以下几个方面：2、利用WebSocket爬取数据总结最后，创作不易！非常感谢大家的关注、点赞、评论啦！谢谢三连哦！好人好运连连，学习进步！工作顺利哦！博主介绍：✌专注于前后端、机器学习、人工智能应用领域开发的优质创作者、秉着互联网精神开源贡献精神，答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战，
Docker部署项目，Mysql数据库总是宕机并且上传数据全部被删除了 lemonMann 开发过程中遇到的问题及解决方案数据库 docker 容器
刚开始排查原因我以为是一些内存占用问题的原因，后来查看数据库日志发现有多个异常ip尝试连接数据库并且也连接成功了随后数据库就被异常关闭了，然后我就重启容器远程连接数据库发现数据全没了，又在数据库中找到了如下内容：Allyourdataisbackedup.Youmustpay0.0080BTCtobc1q8r9zejh0ch22frh4pfdx2tlwf864sv42756yemIn48hours
小白也能安装：Ubuntu20.04 安装 RabbitMQ Valishment RabbitMQ ubuntu rabbitmq linux 阿里云 java
开始我使用的是阿里云的轻量级服务器Ubuntu20.04系统镜像作为平台因为要使用RabbitMQ,想着步骤有点繁琐,写篇记一记安装基本依赖项更新源sudoapt-getupdate-y下载签名密钥和软件包所需的先决条件sudoapt-getinstallcurlgnupgdebian-keyringdebian-archive-keyring-y添加存储库签名密钥(指示易于信任由该密钥签名的软件
ubuntu 安装rabbitmq Spmal ubuntu linux ruby
1、更新系统包sudoapt-update2、安装sudoapt-getinstallrabbitmq-server3、启动sudosystemctlstartrabbitmq-server4、查看状态sudosystemctlstatusrabbitmq-server5、启动管理界面sudorabbitmq-pluginsenablerabbitmq_management6、创建用户sudora
设计模式笔记10 | 适配器模式在源码中的应用 | Spring源码的 AOP 注册中心存储了不同的适配器实现 | SpringMVC源码doDisPatch方法里的 HandlerAdapter 「已注销」设计模式设计模式适配器模式 spring
文章目录一、适配器模式知识回顾二、类适配器使用案例之拓展登陆业务2.1模拟登陆的旧系统2.2旧系统拓展【类适配器】2.3旧系统拓展【接口适配器】三、适配器模式在Spring源码中的应用四、SpringMVC中的适配器模式五、总结参考资料一、适配器模式知识回顾适配器定义：将一个类的接口转换成另一种目标接口，使得原本由于接口不兼容而不能一起工作的类能一起工作适配器分类：类结构型模式（耦合读较高）和对象
最新Apache Hudi 1.0.1源码编译详细教程以及常见问题处理 Toroidals 大数据组件安装部署教程 hudi1.0.1 源码编译教程最新
1.最新ApacheHudi1.0.1源码编译2.Flink、Spark、Hive集成Hudi1.0.13.flinkstreaming写入hudi目录1.版本介绍2.安装maven2.1.下载maven2.2.设置环境变量2.3.添加Maven镜像3.编译hudi3.1.下载hudi源码3.2.修改hudi源码3.3.修改hudi-1.0.1/pom.xml，注释或去掉410行内容3.4.安装c
Pytorch实现论文之一种基于扰动卷积层和梯度归一化的生成对抗网络这张生成的图像能检测吗 GAN系列优质GAN模型训练自己的数据集 pytorch 人工智能机器学习生成对抗网络神经网络计算机视觉深度学习
简介简介：提出了一种针对鉴别器的梯度惩罚方法和在鉴别器中采用扰动卷积，拟解决锐梯度空间引起的训练不稳定性问题和判别器的记忆问题。论文题目：APerturbedConvolutionalLayerandGradientNormalizationbasedGenerativeAdversarialNetwork（一种基于扰动卷积层和梯度归一化的生成对抗网络）会议：20244thInternationa
Pytorch实现之在LSGAN中结合重建损失这张生成的图像能检测吗 GAN系列优质GAN模型训练自己的数据集 pytorch 人工智能 python
简介简介：这篇论文在LSGAN的基础上结合了重建损失来产生通过传统不良数据检测（BDD）机制的人工测量。这篇博客的主要内容是关于实现了重建损失与LSGAN的结合。论文题目：FalseDataInjectionAttacksBasedonLeastSquaresGenerativeAdversarialNetworkswithReconstructionLoss（基于重构损失最小二乘生成对抗网络的虚
Pytorch实现论文：利用推土机距离与梯度惩罚在ACGAN中训练。这张生成的图像能检测吗优质GAN模型训练自己的数据集 pytorch 人工智能深度学习 gan 机器学习生成对抗网络
论文简介论文：ACWGAN-GPformillingtoolbreakagemonitoringwithimbalanceddata（ACWGAN-GP用于铣削工具断裂监视的数据不平衡数据）出处：RoboticsandComputer-IntegratedManufacturing论文摘要：铣削操作过程中的刀具破损监测(TBM)对于确保工件质量和最大限度减少经济损失至关重要。在训练数据充足、分布均
[生活杂项][运动教程]自由泳 xcy6666 生活
https://v.youku.com/v_show/id_XMzgzMjkwMzg0MA==.html?spm=a2h0k.11417342.soresults.dtitlehttps://v.youku.com/v_show/id_XMzgxNjM2NjY4NA==.html?spm=a2h0k.11417342.soresults.dtitle
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep