alysn

基于AVX2的YUV420转RGB C++代码

第一次写博文，不好意思，写的应该不好，另外我只是C++的业余程序员，C++功底很一般，见谅！

我在做视频识别的工程中要用到YUV转RGB的功能，以前我用过MMX指令的代码，那是网上找的代码，我当时并不懂MMX，也不懂汇编，只是知道MMX比普通代码要快，确实很快，现在知道SSE2比MMX要快一倍，AVX2比SSE2要快一倍，所以想尝试用AVX2来实现YUV转RGB的功能，在网上寻找多次，也没找到AVX2的现成代码，只找到libyuv库中有用AVX2来实现，但测试发现它的性能没有比MMX快4倍，只快一倍多一点，分析发现里面还用了SSE3指令：

__declspec(naked)
void ARGBToRGB24Row_SSSE3(const uint8* src_argb, uint8* dst_rgb, int width) {
	__asm {
		mov       eax, [esp + 4]   // src_argb
		mov       edx, [esp + 8]   // dst_rgb
		mov       ecx, [esp + 12]  // width
		movdqa    xmm6, xmmword ptr kShuffleMaskARGBToRGB24

		convertloop :
		movdqu    xmm0, [eax]   // fetch 16 pixels of argb
			movdqu    xmm1, [eax + 16]
			movdqu    xmm2, [eax + 32]
			movdqu    xmm3, [eax + 48]
			lea       eax, [eax + 64]
			pshufb    xmm0, xmm6    // pack 16 bytes of ARGB to 12 bytes of RGB
			pshufb    xmm1, xmm6
			pshufb    xmm2, xmm6
			pshufb    xmm3, xmm6
			movdqa    xmm4, xmm1   // 4 bytes from 1 for 0
			psrldq    xmm1, 4      // 8 bytes from 1
			pslldq    xmm4, 12     // 4 bytes from 1 for 0
			movdqa    xmm5, xmm2   // 8 bytes from 2 for 1
			por       xmm0, xmm4   // 4 bytes from 1 for 0
			pslldq    xmm5, 8      // 8 bytes from 2 for 1
			movdqu[edx], xmm0  // store 0
			por       xmm1, xmm5   // 8 bytes from 2 for 1
			psrldq    xmm2, 8      // 4 bytes from 2
			pslldq    xmm3, 4      // 12 bytes from 3 for 2
			por       xmm2, xmm3   // 12 bytes from 3 for 2
			movdqu[edx + 16], xmm1   // store 1
			movdqu[edx + 32], xmm2   // store 2
			lea       edx, [edx + 48]
			sub       ecx, 16
			jg        convertloop
			ret
	}
}

这是将RGBA转成RGB的代码，这里降低了性能

下面是AVX2的YUV420转RGBA代码，libyuv里面的，汇编格式的宏

#define YUVTORGB_AVX2(YuvConstants) __asm {                                    \
    __asm vpmaddubsw ymm2, ymm0, ymmword ptr [YuvConstants + KUVTOR] /* R UV */\
    __asm vpmaddubsw ymm1, ymm0, ymmword ptr [YuvConstants + KUVTOG] /* G UV */\
    __asm vpmaddubsw ymm0, ymm0, ymmword ptr [YuvConstants + KUVTOB] /* B UV */\
    __asm vmovdqu    ymm3, ymmword ptr [YuvConstants + KUVBIASR]               \
    __asm vpsubw     ymm2, ymm3, ymm2                                          \
    __asm vmovdqu    ymm3, ymmword ptr [YuvConstants + KUVBIASG]               \
    __asm vpsubw     ymm1, ymm3, ymm1                                          \
    __asm vmovdqu    ymm3, ymmword ptr [YuvConstants + KUVBIASB]               \
    __asm vpsubw     ymm0, ymm3, ymm0                                          \
    /* Step 2: Find Y contribution to 16 R,G,B values */                       \
    __asm vpmulhuw   ymm4, ymm4, ymmword ptr [YuvConstants + KYTORGB]          \
    __asm vpaddsw    ymm0, ymm0, ymm4           /* B += Y */                   \
    __asm vpaddsw    ymm1, ymm1, ymm4           /* G += Y */                   \
    __asm vpaddsw    ymm2, ymm2, ymm4           /* R += Y */                   \
    __asm vpsraw     ymm0, ymm0, 6                                             \
    __asm vpsraw     ymm1, ymm1, 6                                             \
    __asm vpsraw     ymm2, ymm2, 6                                             \
    __asm vpackuswb  ymm0, ymm0, ymm0           /* B */                        \
    __asm vpackuswb  ymm1, ymm1, ymm1           /* G */                        \
    __asm vpackuswb  ymm2, ymm2, ymm2           /* R */                        \
  }

所以我尝试自己写AVX2的代码，但我没有汇编基础，很难真接在libyuv的基础上改，所以一直在网上找其它方法，

后来才知道C++有AVX2、SSE2等系列的非汇编调用的方法，但基本上要在VC2005以上的版本下才可以使用。

这种非汇编的方式我应该可以尝试，后来我在网上找到有人用SSE2的非汇编方式的YUV转RGB32的代码，我就是从这里开始升级到AVX2，下面是SSE2的代码：

void yuv420_to_argb8888( uint8_t *yp, uint8_t *up, uint8_t *vp,
                         uint32_t sy, uint32_t suv,
                         int width, int height,
                         uint32_t *rgb, uint32_t srgb )
{
    __m128i y0r0, y0r1, u0, v0;
    __m128i y00r0, y01r0, y00r1, y01r1;
    __m128i u00, u01, v00, v01;
    __m128i rv00, rv01, gu00, gu01, gv00, gv01, bu00, bu01;
    __m128i r00, r01, g00, g01, b00, b01;
    __m128i rgb0123, rgb4567, rgb89ab, rgbcdef;
    __m128i gbgb;
    __m128i ysub, uvsub;
    __m128i zero, facy, facrv, facgu, facgv, facbu;
    __m128i *srcy128r0, *srcy128r1;
    __m128i *dstrgb128r0, *dstrgb128r1;
    __m64   *srcu64, *srcv64;
    int x, y;

    ysub  = _mm_set1_epi32( 0x00100010 );
    uvsub = _mm_set1_epi32( 0x00800080 );
    
    facy  = _mm_set1_epi32( 0x004a004a );
    facrv = _mm_set1_epi32( 0x00660066 );
    facgu = _mm_set1_epi32( 0x00190019 );
    facgv = _mm_set1_epi32( 0x00340034 );
    facbu = _mm_set1_epi32( 0x00810081 );
    
    zero  = _mm_set1_epi32( 0x00000000 );

    for( y = 0; y < height; y += 2 ) {

        srcy128r0 = (__m128i *)(yp + sy*y);
        srcy128r1 = (__m128i *)(yp + sy*y + sy);
        srcu64 = (__m64 *)(up + suv*(y/2));
        srcv64 = (__m64 *)(vp + suv*(y/2));

        dstrgb128r0 = (__m128i *)(rgb + srgb*y);
        dstrgb128r1 = (__m128i *)(rgb + srgb*y + srgb);

        for( x = 0; x < width; x += 16 ) {

            u0 = _mm_loadl_epi64( (__m128i *)srcu64 ); srcu64++;
            v0 = _mm_loadl_epi64( (__m128i *)srcv64 ); srcv64++;

            y0r0 = _mm_load_si128( srcy128r0++ );
            y0r1 = _mm_load_si128( srcy128r1++ );

            // constant y factors
            y00r0 = _mm_mullo_epi16( _mm_sub_epi16( _mm_unpacklo_epi8( y0r0, zero ), ysub ), facy );
            y01r0 = _mm_mullo_epi16( _mm_sub_epi16( _mm_unpackhi_epi8( y0r0, zero ), ysub ), facy );
            y00r1 = _mm_mullo_epi16( _mm_sub_epi16( _mm_unpacklo_epi8( y0r1, zero ), ysub ), facy );
            y01r1 = _mm_mullo_epi16( _mm_sub_epi16( _mm_unpackhi_epi8( y0r1, zero ), ysub ), facy );

            // expand u and v so they're aligned with y values
            u0  = _mm_unpacklo_epi8( u0,  zero );
            u00 = _mm_sub_epi16( _mm_unpacklo_epi16( u0, u0 ), uvsub );
            u01 = _mm_sub_epi16( _mm_unpackhi_epi16( u0, u0 ), uvsub );

            v0  = _mm_unpacklo_epi8( v0,  zero );
            v00 = _mm_sub_epi16( _mm_unpacklo_epi16( v0, v0 ), uvsub );
            v01 = _mm_sub_epi16( _mm_unpackhi_epi16( v0, v0 ), uvsub );

            // common factors on both rows.
            rv00 = _mm_mullo_epi16( facrv, v00 );
            rv01 = _mm_mullo_epi16( facrv, v01 );
            gu00 = _mm_mullo_epi16( facgu, u00 );
            gu01 = _mm_mullo_epi16( facgu, u01 );
            gv00 = _mm_mullo_epi16( facgv, v00 );
            gv01 = _mm_mullo_epi16( facgv, v01 );
            bu00 = _mm_mullo_epi16( facbu, u00 );
            bu01 = _mm_mullo_epi16( facbu, u01 );

            // row 0
            r00 = _mm_srai_epi16( _mm_add_epi16( y00r0, rv00 ), 6 );
            r01 = _mm_srai_epi16( _mm_add_epi16( y01r0, rv01 ), 6 );
            g00 = _mm_srai_epi16( _mm_sub_epi16( _mm_sub_epi16( y00r0, gu00 ), gv00 ), 6 );
            g01 = _mm_srai_epi16( _mm_sub_epi16( _mm_sub_epi16( y01r0, gu01 ), gv01 ), 6 );
            b00 = _mm_srai_epi16( _mm_add_epi16( y00r0, bu00 ), 6 );
            b01 = _mm_srai_epi16( _mm_add_epi16( y01r0, bu01 ), 6 );

            r00 = _mm_packus_epi16( r00, r01 );         // rrrr.. saturated
            g00 = _mm_packus_epi16( g00, g01 );         // gggg.. saturated
            b00 = _mm_packus_epi16( b00, b01 );         // bbbb.. saturated

            r01     = _mm_unpacklo_epi8(  r00,  zero ); // 0r0r..
            gbgb    = _mm_unpacklo_epi8(  b00,  g00 );  // gbgb..
            rgb0123 = _mm_unpacklo_epi16( gbgb, r01 );  // 0rgb0rgb..
            rgb4567 = _mm_unpackhi_epi16( gbgb, r01 );  // 0rgb0rgb..

            r01     = _mm_unpackhi_epi8(  r00,  zero );
            gbgb    = _mm_unpackhi_epi8(  b00,  g00 );
            rgb89ab = _mm_unpacklo_epi16( gbgb, r01 );
            rgbcdef = _mm_unpackhi_epi16( gbgb, r01 );

            _mm_store_si128( dstrgb128r0++, rgb0123 );
            _mm_store_si128( dstrgb128r0++, rgb4567 );
            _mm_store_si128( dstrgb128r0++, rgb89ab );
            _mm_store_si128( dstrgb128r0++, rgbcdef );

            // row 1
            r00 = _mm_srai_epi16( _mm_add_epi16( y00r1, rv00 ), 6 );
            r01 = _mm_srai_epi16( _mm_add_epi16( y01r1, rv01 ), 6 );
            g00 = _mm_srai_epi16( _mm_sub_epi16( _mm_sub_epi16( y00r1, gu00 ), gv00 ), 6 );
            g01 = _mm_srai_epi16( _mm_sub_epi16( _mm_sub_epi16( y01r1, gu01 ), gv01 ), 6 );
            b00 = _mm_srai_epi16( _mm_add_epi16( y00r1, bu00 ), 6 );
            b01 = _mm_srai_epi16( _mm_add_epi16( y01r1, bu01 ), 6 );

            r00 = _mm_packus_epi16( r00, r01 );         // rrrr.. saturated
            g00 = _mm_packus_epi16( g00, g01 );         // gggg.. saturated
            b00 = _mm_packus_epi16( b00, b01 );         // bbbb.. saturated

            r01     = _mm_unpacklo_epi8(  r00,  zero ); // 0r0r..
            gbgb    = _mm_unpacklo_epi8(  b00,  g00 );  // gbgb..
            rgb0123 = _mm_unpacklo_epi16( gbgb, r01 );  // 0rgb0rgb..
            rgb4567 = _mm_unpackhi_epi16( gbgb, r01 );  // 0rgb0rgb..

            r01     = _mm_unpackhi_epi8(  r00,  zero );
            gbgb    = _mm_unpackhi_epi8(  b00,  g00 );
            rgb89ab = _mm_unpacklo_epi16( gbgb, r01 );
            rgbcdef = _mm_unpackhi_epi16( gbgb, r01 );

            _mm_store_si128( dstrgb128r1++, rgb0123 );
            _mm_store_si128( dstrgb128r1++, rgb4567 );
            _mm_store_si128( dstrgb128r1++, rgb89ab );
            _mm_store_si128( dstrgb128r1++, rgbcdef );

        }
    }
}

这个代码出自这个网址：点击打开链接

我英语不好，是初中文化，分析这个代码还是非常吃力的，都是各种翻译

分析后认为他的方式还有些问题

1：精度不高，因为他用的定量整型是字节大小，像这些

facy  = _mm_set1_epi32( 0x004a004a );

2：只输出RGB32格式，看这里

_mm_store_si128( dstrgb128r0++, rgb0123 );

我原来用的MMX的定量就是short,像这个：mmw_mult_Y = 0x2568256825682568;

还有这个版本只输出RGB32，但识别用到的是RGB24，所以他这个代码必须还要改。

MMX版的代码我就不贴出了。

后来我在CSDN中找到一个大神，汇编很厉害，他做了很多计算性能的研究，下面是他的链接

YUV视频格式到RGB32格式转换的速度优化上篇

YUV视频格式到RGB32格式转换的速度优化中篇

我分析了好几天他的代码，但我很难直接用他的方式改，他里面用的汇编代码我还不能完全理解，

后来结合外国人的SSE2与这位大神的代码我改出了基于SSE2的代码，并正确转换，看下面

void yuv420_to_rgb24_sse3(uint8_t *yp, uint8_t *up, uint8_t *vp, int sy, int suv, int width, int height,
	uint8_t *rgb, int srgb)
{
	//定义空间
	__m128i y0r0, y0r1, u0, v0;
	__m128i y00r0, y01r0, y00r1, y01r1;
	__m128i u00, u01, v00, v01;
	__m128i rv00, rv01, gu00, gu01, gv00, gv01, bu00, bu01;
	__m128i r00, r01, g00, g01, b00, b01;
	__m128i rgb0123, rgb4567, rgb89ab, rgbcdef;
	__m128i gbgb;
	__m128i ysub, uvsub;
	__m128i zero, facy, facrv, facgu, facgv, facbu;
	__m128i *srcy128r0, *srcy128r1;
	uint8_t *dstrgbr0, *dstrgbr1;
	__m128i maskrgb;
	__m64   *srcu64, *srcv64;

	//定义核，公式定量
	ysub = _mm_set1_epi16(0x0010);
	uvsub = _mm_set1_epi16(0x0080);
	zero = _mm_set1_epi16(0x0000);

	maskrgb = _mm_set_epi8(128, 128, 128, 128, 14, 13, 12, 10, 9, 8, 6, 5, 4, 2, 1, 0); 

	facy = _mm_set1_epi16(0x2543);
	facrv = _mm_set1_epi16(0x3313);
	facgu = _mm_set1_epi16(0xF377);
	facgv = _mm_set1_epi16(0xE5FC);
	facbu = _mm_set1_epi16(0x408D);

	for (int y = 0; y < height; y += 2) {
		//源数据指针
		srcy128r0 = (__m128i *)(yp + sy*y);
		srcy128r1 = (__m128i *)(yp + sy*y + sy);
		srcu64 = (__m64 *)(up + suv*(y / 2));
		srcv64 = (__m64 *)(vp + suv*(y / 2));

		dstrgbr0 = rgb + srgb*y;
		dstrgbr1 = rgb + srgb*y + srgb;

		for (int x = 0; x < width; x += 16) {
			//加载行数据
			u0 = _mm_loadl_epi64((__m128i *)srcu64); srcu64++;
			v0 = _mm_loadl_epi64((__m128i *)srcv64); srcv64++; 
 
			y0r0 = _mm_load_si128(srcy128r0++);
			y0r1 = _mm_load_si128(srcy128r1++);

			//计算YUV中的Y向量
			y00r0 = _mm_mulhi_epi16(_mm_slli_epi16(_mm_sub_epi16(_mm_unpacklo_epi8(y0r0, zero), ysub), 3), facy);
			y01r0 = _mm_mulhi_epi16(_mm_slli_epi16(_mm_sub_epi16(_mm_unpackhi_epi8(y0r0, zero), ysub), 3), facy);
			y00r1 = _mm_mulhi_epi16(_mm_slli_epi16(_mm_sub_epi16(_mm_unpacklo_epi8(y0r1, zero), ysub), 3), facy);
			y01r1 = _mm_mulhi_epi16(_mm_slli_epi16(_mm_sub_epi16(_mm_unpackhi_epi8(y0r1, zero), ysub), 3), facy);			  

			//展开u和v，使它们与y值对齐
			u0 = _mm_unpacklo_epi8(u0, zero);
			u00 = _mm_slli_epi16(_mm_sub_epi16(_mm_unpacklo_epi16(u0, u0), uvsub), 3);
			u01 = _mm_slli_epi16(_mm_sub_epi16(_mm_unpackhi_epi16(u0, u0), uvsub), 3);

			v0 = _mm_unpacklo_epi8(v0, zero);
			v00 = _mm_slli_epi16(_mm_sub_epi16(_mm_unpacklo_epi16(v0, v0), uvsub), 3);
			v01 = _mm_slli_epi16(_mm_sub_epi16(_mm_unpackhi_epi16(v0, v0), uvsub), 3);

			//计算两行UV的向量
			rv00 = _mm_mulhi_epi16(facrv, v00);
			rv01 = _mm_mulhi_epi16(facrv, v01);
			gu00 = _mm_mulhi_epi16(facgu, u00);
			gu01 = _mm_mulhi_epi16(facgu, u01);
			gv00 = _mm_mulhi_epi16(facgv, v00);
			gv01 = _mm_mulhi_epi16(facgv, v01);
			bu00 = _mm_mulhi_epi16(facbu, u00);
			bu01 = _mm_mulhi_epi16(facbu, u01);
 
			//计算出最后RGB		行0
			r00 = _mm_add_epi16(y00r0, rv00);
			r01 = _mm_add_epi16(y01r0, rv01);
			g00 = _mm_add_epi16(_mm_add_epi16(y00r0, gu00), gv00);
			g01 = _mm_add_epi16(_mm_add_epi16(y01r0, gu01), gv01);
			b00 = _mm_add_epi16(y00r0, bu00);
			b01 = _mm_add_epi16(y01r0, bu01);

			//排列RGB数据
			r00 = _mm_packus_epi16(r00, r01);         // rrrr.. 组合计算
			g00 = _mm_packus_epi16(g00, g01);         // gggg.. 组合计算
			b00 = _mm_packus_epi16(b00, b01);         // bbbb.. 组合计算

			r01 = _mm_unpacklo_epi8(r00, zero); // 0r0r..//取低位
			gbgb = _mm_unpacklo_epi8(b00, g00);  // gbgb..
			rgb0123 = _mm_unpacklo_epi16(gbgb, r01);  // 0rgb0rgb..
			rgb4567 = _mm_unpackhi_epi16(gbgb, r01);  // 0rgb0rgb..

			r01 = _mm_unpackhi_epi8(r00, zero);			//取高位
			gbgb = _mm_unpackhi_epi8(b00, g00);
			rgb89ab = _mm_unpacklo_epi16(gbgb, r01);
			rgbcdef = _mm_unpackhi_epi16(gbgb, r01);

			//输出RGB数据 
			rgb0123 = _mm_shuffle_epi8(rgb0123, maskrgb);
			_mm_store_si128((__m128i *)dstrgbr0, rgb0123); dstrgbr0 += 12;

			rgb4567 = _mm_shuffle_epi8(rgb4567, maskrgb);
			_mm_store_si128((__m128i *)dstrgbr0, rgb4567); dstrgbr0 += 12;

			rgb89ab = _mm_shuffle_epi8(rgb89ab, maskrgb);
			_mm_store_si128((__m128i *)dstrgbr0, rgb89ab); dstrgbr0 += 12;

			rgbcdef = _mm_shuffle_epi8(rgbcdef, maskrgb);
			memcpy(dstrgbr0, &rgbcdef,12); dstrgbr0 += 12;			 

			//计算出最后RGB		行1
			r00 = _mm_add_epi16(y00r1, rv00);
			r01 = _mm_add_epi16(y01r1, rv01);
			g00 = _mm_add_epi16(_mm_add_epi16(y00r1, gu00), gv00);
			g01 = _mm_add_epi16(_mm_add_epi16(y01r1, gu01), gv01);
			b00 = _mm_add_epi16(y00r1, bu00);
			b01 = _mm_add_epi16(y01r1, bu01);

			r00 = _mm_packus_epi16(r00, r01);         // rrrr.. saturated
			g00 = _mm_packus_epi16(g00, g01);         // gggg.. saturated
			b00 = _mm_packus_epi16(b00, b01);         // bbbb.. saturated

			r01 = _mm_unpacklo_epi8(r00, zero); // 0r0r..
			gbgb = _mm_unpacklo_epi8(b00, g00);  // gbgb..
			rgb0123 = _mm_unpacklo_epi16(gbgb, r01);  // 0rgb0rgb..
			rgb4567 = _mm_unpackhi_epi16(gbgb, r01);  // 0rgb0rgb..

			r01 = _mm_unpackhi_epi8(r00, zero);
			gbgb = _mm_unpackhi_epi8(b00, g00);
			rgb89ab = _mm_unpacklo_epi16(gbgb, r01);
			rgbcdef = _mm_unpackhi_epi16(gbgb, r01);

			rgb0123 = _mm_shuffle_epi8(rgb0123, maskrgb);
			_mm_store_si128((__m128i *)dstrgbr1, rgb0123); dstrgbr1 += 12;

			rgb4567 = _mm_shuffle_epi8(rgb4567, maskrgb);
			_mm_store_si128((__m128i *)dstrgbr1, rgb4567); dstrgbr1 += 12;

			rgb89ab = _mm_shuffle_epi8(rgb89ab, maskrgb);
			_mm_store_si128((__m128i *)dstrgbr1, rgb89ab); dstrgbr1 += 12;

			rgbcdef = _mm_shuffle_epi8(rgbcdef, maskrgb);
			memcpy(dstrgbr1, &rgbcdef, 12); dstrgbr1 += 12;
		}
	}
}

这个输出的是RGB24，符合我的需求，其效率也是MMX的两倍。

接下来是AVX2版本的，这是花了好多天才成功实现的，看下面

//定义核，公式定量
static const __m256i ysub = _mm256_set1_epi16(0x0010);
static const __m256i uvsub = _mm256_set1_epi16(0x0080);
static const __m256i zero = _mm256_set1_epi16(0x0000);

static const __m256i facy = _mm256_set1_epi16(0x2543);
static const __m256i facrv = _mm256_set1_epi16(0x3313);
static const __m256i facgu = _mm256_set1_epi16(0xF377);
static const __m256i facgv = _mm256_set1_epi16(0xE5FC);
static const __m256i facbu = _mm256_set1_epi16(0x408D);

//RGB排列掩码
static const __m256i maskrgb = _mm256_set_epi8(128u, 128u, 128u, 128u, 14u, 13u, 12u, 10u, 9u, 8u, 6u, 5u, 4u, 2u, 1u, 0u,
	128u, 128u, 128u, 128u, 14u, 13u, 12u, 10u, 9u, 8u, 6u, 5u, 4u, 2u, 1u, 0u);
static const __m256i offsetyuv0 = _mm256_set_epi32(7, 3, 5, 1, 6, 2, 4, 0);
static const __m256i offsetyuv1 = _mm256_set_epi32(7, 5, 3, 1, 6, 4, 2, 0);
static const __m256i offsetrgb = _mm256_set_epi32(7, 3, 6, 5, 4, 2, 1, 0);
 
void yuv420_to_rgb24(uint8_t *yp, uint8_t *up, uint8_t *vp, int sy, int suv, int width, int height,
	uint8_t *rgb, int srgb)
{
	//定义空间
	__m256i y0r0, y0r1, u0, v0;
	__m256i y00r0, y01r0, y00r1, y01r1;
	__m256i u00, u01, v00, v01;
	__m256i rv00, rv01, gu00, gu01, gv00, gv01, bu00, bu01;
	__m256i r00, r01, g00, g01, b00, b01;
	__m256i rgb0123, rgb4567, rgb89ab, rgbcdef, rgb256;
	__m256i gbgb, *srcy256r0, *srcy256r1; 
	uint8_t *dstrgbr0, *dstrgbr1;
	__m128i *srcu, *srcv; 
		
	for (int y = 0; y < height; y += 2) {
		//源数据指针
		srcy256r0 = (__m256i *)(yp + sy*y);
		srcy256r1 = (__m256i *)(yp + sy*y + sy);
		srcu = (__m128i *)(up + suv*(y >> 1));
		srcv = (__m128i *)(vp + suv*(y >> 1));

		dstrgbr0 = rgb + srgb*y;
		dstrgbr1 = rgb + srgb*y + srgb;

		for (int x = 0; x < width; x += 32) {
			//加载行数据
			u0 = _mm256_load_si256((__m256i *)srcu); srcu++;
			v0 = _mm256_load_si256((__m256i *)srcv); srcv++;

			u0 = _mm256_permute4x64_epi64(u0, 216);//对调	:0,1,4,5,2,3,6,7
			v0 = _mm256_permute4x64_epi64(v0, 216);//对调	:0,1,4,5,2,3,6,7

			y0r0 = _mm256_load_si256(srcy256r0++);
			y0r1 = _mm256_load_si256(srcy256r1++);

			//计算YUV中的Y向量		根据YUV420转RGBA的公式，其中YUV是YUV420P
			y00r0 = _mm256_mulhi_epi16(_mm256_slli_epi16(_mm256_sub_epi16(_mm256_unpacklo_epi8(y0r0, zero), ysub), 3), facy);
			y01r0 = _mm256_mulhi_epi16(_mm256_slli_epi16(_mm256_sub_epi16(_mm256_unpackhi_epi8(y0r0, zero), ysub), 3), facy);
			y00r1 = _mm256_mulhi_epi16(_mm256_slli_epi16(_mm256_sub_epi16(_mm256_unpacklo_epi8(y0r1, zero), ysub), 3), facy);
			y01r1 = _mm256_mulhi_epi16(_mm256_slli_epi16(_mm256_sub_epi16(_mm256_unpackhi_epi8(y0r1, zero), ysub), 3), facy);

			//展开u和v，使它们与y值对齐
			u0 = _mm256_unpacklo_epi8(u0, zero);
			u00 = _mm256_slli_epi16(_mm256_sub_epi16(_mm256_unpacklo_epi16(u0, u0), uvsub), 3);
			u01 = _mm256_slli_epi16(_mm256_sub_epi16(_mm256_unpackhi_epi16(u0, u0), uvsub), 3);

			v0 = _mm256_unpacklo_epi8(v0, zero);
			v00 = _mm256_slli_epi16(_mm256_sub_epi16(_mm256_unpacklo_epi16(v0, v0), uvsub), 3);
			v01 = _mm256_slli_epi16(_mm256_sub_epi16(_mm256_unpackhi_epi16(v0, v0), uvsub), 3);

			//计算两行UV的向量
			rv00 = _mm256_mulhi_epi16(facrv, v00);
			rv01 = _mm256_mulhi_epi16(facrv, v01);
			gu00 = _mm256_mulhi_epi16(facgu, u00);
			gu01 = _mm256_mulhi_epi16(facgu, u01);
			gv00 = _mm256_mulhi_epi16(facgv, v00);
			gv01 = _mm256_mulhi_epi16(facgv, v01);
			bu00 = _mm256_mulhi_epi16(facbu, u00);
			bu01 = _mm256_mulhi_epi16(facbu, u01);

			//计算出最后RGB		行0
			r00 = _mm256_add_epi16(y00r0, rv00);
			r01 = _mm256_add_epi16(y01r0, rv01);
			g00 = _mm256_add_epi16(_mm256_add_epi16(y00r0, gu00), gv00);
			g01 = _mm256_add_epi16(_mm256_add_epi16(y01r0, gu01), gv01);
			b00 = _mm256_add_epi16(y00r0, bu00);
			b01 = _mm256_add_epi16(y01r0, bu01);

			//排列RGB数据
			r00 = _mm256_packus_epi16(r00, r01);         // rrrr.. 组合计算
			g00 = _mm256_packus_epi16(g00, g01);         // gggg.. 组合计算
			b00 = _mm256_packus_epi16(b00, b01);         // bbbb.. 组合计算 

			r00 = _mm256_permutevar8x32_epi32(r00, offsetyuv0);         //由于AVX2处理数据的方式，这里需要重新排列数据
			g00 = _mm256_permutevar8x32_epi32(g00, offsetyuv0);         //。。。。。。
			b00 = _mm256_permutevar8x32_epi32(b00, offsetyuv0);         //。。。。。。

			r01 = _mm256_unpacklo_epi8(r00, zero); // R0R0..//取低位
			gbgb = _mm256_unpacklo_epi8(b00, g00);  // GBGB..  
			rgb0123 = _mm256_unpacklo_epi16(gbgb, r01);  // RGB0RGB0..
			rgb4567 = _mm256_unpackhi_epi16(gbgb, r01);  // RGB0RGB0..

			r01 = _mm256_unpackhi_epi8(r00, zero);			//取高位
			gbgb = _mm256_unpackhi_epi8(b00, g00);
			rgb89ab = _mm256_unpacklo_epi16(gbgb, r01);
			rgbcdef = _mm256_unpackhi_epi16(gbgb, r01);

			//输出RGB数据  			
			rgb256 = _mm256_shuffle_epi8(rgb0123, maskrgb);				//RGB32转RGB24，去0
			rgb256 = _mm256_permutevar8x32_epi32(rgb256, offsetrgb);	//由于AVX2处理数据的方式，这里需要重新排列数据
			_mm256_store_si256((__m256i *)dstrgbr0, rgb256); dstrgbr0 += 24;

			rgb256 = _mm256_shuffle_epi8(rgb89ab, maskrgb);
			rgb256 = _mm256_permutevar8x32_epi32(rgb256, offsetrgb);
			_mm256_store_si256((__m256i *)dstrgbr0, rgb256); dstrgbr0 += 24;

			rgb256 = _mm256_shuffle_epi8(rgb4567, maskrgb);
			rgb256 = _mm256_permutevar8x32_epi32(rgb256, offsetrgb);
			_mm256_store_si256((__m256i *)dstrgbr0, rgb256); dstrgbr0 += 24;

			rgb256 = _mm256_shuffle_epi8(rgbcdef, maskrgb);
			rgb256 = _mm256_permutevar8x32_epi32(rgb256, offsetrgb);
			memcpy(dstrgbr0, &rgb256, 24); dstrgbr0 += 24;				//这里用memcpy是因为用AVX2指令会覆盖下一行数据

			//计算出最后RGB		行1
			r00 = _mm256_add_epi16(y00r1, rv00);
			r01 = _mm256_add_epi16(y01r1, rv01);
			g00 = _mm256_add_epi16(_mm256_add_epi16(y00r1, gu00), gv00);
			g01 = _mm256_add_epi16(_mm256_add_epi16(y01r1, gu01), gv01);
			b00 = _mm256_add_epi16(y00r1, bu00);
			b01 = _mm256_add_epi16(y01r1, bu01);

			r00 = _mm256_packus_epi16(r00, r01);    
			g00 = _mm256_packus_epi16(g00, g01);    
			b00 = _mm256_packus_epi16(b00, b01);    

			r00 = _mm256_permutevar8x32_epi32(r00, offsetyuv1);		//由于AVX2处理数据的方式，这里需要重新排列数据
			g00 = _mm256_permutevar8x32_epi32(g00, offsetyuv1);		//。。。。。。
			b00 = _mm256_permutevar8x32_epi32(b00, offsetyuv1);		//。。。。。。

			r01 = _mm256_unpacklo_epi8(r00, zero); // R0R0..//取低位
			gbgb = _mm256_unpacklo_epi8(b00, g00);  // GBGB.. 
			rgb0123 = _mm256_unpacklo_epi16(gbgb, r01);  // RGB0RGB0..
			rgb4567 = _mm256_unpackhi_epi16(gbgb, r01);  // RGB0RGB0..

			r01 = _mm256_unpackhi_epi8(r00, zero);			//取高位
			gbgb = _mm256_unpackhi_epi8(b00, g00);
			rgb89ab = _mm256_unpacklo_epi16(gbgb, r01);
			rgbcdef = _mm256_unpackhi_epi16(gbgb, r01);

			//输出RGB数据  			
			rgb256 = _mm256_shuffle_epi8(rgb0123, maskrgb);
			rgb256 = _mm256_permutevar8x32_epi32(rgb256, offsetrgb);
			_mm256_store_si256((__m256i *)dstrgbr1, rgb256); dstrgbr1 += 24;

			rgb256 = _mm256_shuffle_epi8(rgb4567, maskrgb);
			rgb256 = _mm256_permutevar8x32_epi32(rgb256, offsetrgb);
			_mm256_store_si256((__m256i *)dstrgbr1, rgb256); dstrgbr1 += 24;

			rgb256 = _mm256_shuffle_epi8(rgb89ab, maskrgb);
			rgb256 = _mm256_permutevar8x32_epi32(rgb256, offsetrgb);
			_mm256_store_si256((__m256i *)dstrgbr1, rgb256); dstrgbr1 += 24;

			rgb256 = _mm256_shuffle_epi8(rgbcdef, maskrgb);
			rgb256 = _mm256_permutevar8x32_epi32(rgb256, offsetrgb);
			memcpy(dstrgbr1, &rgb256, 24); dstrgbr1 += 24;
		}
	}
}

原来AVX2不像SSE2那样直接升级，AVX2它是每128位处理，所以会出现顺序颠倒问题，这是困扰我好几天的一大原因，我这个AVX2是直接输出RGB24的，就是输出RGB24和顺序原因，这个版本并不比SSE2那一版快一倍，只快50%。

使用AVX2要加上immintrin.h头文件

调用方式

yuv420_to_rgb24(yuv[0], yuv[1], yuv[2], WIDTH, WIDTH >> 1, WIDTH, HEIGHT, pRGBBuf, WIDTH * 3);
yuv[0]：Y地址

yuv[1]：U地址

yuv[2]：V地址

pRGBBuf：RGB缓冲地址

WIDTH：图像宽，SSE2中必须是16的倍数，AVX2中必须是32的倍数
HEIGHT：图像高，必须是2的倍数

libyuv中的调用并不限定宽高，那里代码里做了处理，但我所用的图像都是从摄像机里出的YUV420数据，目前的摄像机的图像尺寸都是32的倍数，所以我并没写未对齐的处理。

关于性能，我认为上面AVX2的版本再做优化，还可以提升50%或更高，如果哪位大神在这个版本上做了优化提升，希望指教指教。

2021-04-28 紫色小路
忙碌的一天，既要批卷又要听教研培训，其他同事还要上课。我们批的是作文，两个临近的退休的老教师，一个戴着老花镜，一个拿下近视眼。你看看我，我看看你，忍俊不禁。学生作文为什么老是离题，令人惊讶。按理说审题不设障碍，但学生却依然读不懂。问题出在哪？个人以为审题不能没一点难度。首先考核学生阅读能力，再考核学生思维以及认知。
Django模板——自定义过滤器折月竹酒 Django django 模板过滤器自定义
文章目录Django模板——自定义过滤器1代码布局1.1app特有模板标签1.2可复用标签2定义过滤器2.1模板过滤器的本质3注册过滤器4使用5.期望字符串的模板过滤器Django模板——自定义过滤器1代码布局1.1app特有模板标签app目录下创建名为templatetags的包templatetags目录下创建python模块（通常只需创建.py文件）1.2可复用标签专门创建一个做模板标签的a
11.Django中常用过滤器孤寒者 Django框架从入门到实战 Python全栈系列教程过滤器 python django 自动转义
目录：每篇前言：（1）Django模板变量过滤器详解1.过滤器的作用与特点2.基本语法3.链式调用4.带参数的过滤器5.注意事项6.总结（2）Django中实战使用——常用的过滤器：①项目目录下的views.py文件：②项目目录下templates模板文件夹下的模板文件index.html：③效果展示：date和time过滤器格式：拓展——简介自动转义：每篇前言：作者介绍：【孤寒者】—CSDN全栈
cx_Oracle.DatabaseError: Error while trying to retrieve text for error ORA-01804 智海观潮 Oracle oracle python
问题：使用cx_Oracle连接oracle时报错cx_Oracle.DatabaseError:ErrorwhiletryingtoretrievetextforerrorORA-01804samplecode:importcx_Oracleconn=cx_Oracle.connect(user,pwd,self.ois_tns)解决：排查服务器执行该代码的Linux用户下的.bash_prof
发哥诡谈：灵异故事之死亡电话！发哥诡谈
免责声明：发哥诡谈发布的作品如涉版权等问题，请尽快联系我们（微.信ID：fageguitan），我们将在第一时间删除。转载旨在分享交流！更多同类型故事就在发哥诡谈！这年秋天，中原市公安局的警官胡军被送到公安学院进行在职培训。一年来，胡军学习勤奋刻苦，能力超群，深受教官们的赏识，只要通过了结业考试，他就可以回到工作岗位上大显身手了。可就在这节骨眼上，胡军却患了闹心的重感冒，为了不影响第二天的综合能力
2019-11-13过滤器和拦截器的区别江南皮哥厂
1过滤器依赖于servlet，回调机制拦截器依赖于web框架，基于java的反射机制2就是在service或者一个方法前，调用一个方法，或者在方法后，调用一个方法，比如动态代理就是拦截器的简单实现，在调用方法前打印出字符串（或者做其它业务逻辑的操作），也可以在调用方法后打印出字符串3捕获.PNG
Django母婴商城项目实践（二）- 商城项目环境配置 ITB业生 Django django 数据库 python
2、母婴商城项目环境配置环境配置：Python3.12解释器PycharmProfessional2025.1编辑器Django4.2（或Django5.x）MySQL8.0.28数据库1、Django框架介绍Django是一个高级的PythonWeb应用框架，可以快速开发安全和可维护的网站。由经验丰富的开发者构建，Django负责处理网站开发中麻烦的部分，可以专注于编写应用程序，而无需重新开发。
2023全国电赛E题-目标控制与自动追踪系统-电控与图像处理代码（国一）井incloud《stdi0》; c语言单片机
本方案在2023年获得全国一等奖，红绿激光主控均采用openmv，能准确识别红绿激光，稳定性强，在初测与复测时均能稳定运行。以下是控制红色激光的openmv内置代码：importsensor,image,time,pyb,lcdfrompybimportUART,Pin,Timer,ServofrompidimportPIDpin1=Pin('P1',Pin.IN,Pin.PULL_DOWN)##
你相信命运吗，你对命运如何理解？ 960927173172
首先给出结论：我个人是相信命运、运气这种说法的。拿破仑曾说：“没有机遇，能力就毫无意义。”我回归我自己的经历，我跟同村的发小，一起出门，她总能获得意外收获，同时走一条路，同样做一件事，他的运气就比我好，比如：我们同样在一起走，她能看到地上的钞票，我却看不到，同时是买一些刮刮乐，他能中奖，而我却中不到，这些都是凭借运气获得的，这些微乎其微的小事，也足以说明一个人的运气是多么重要，可见做一个事情其中掺
SPARKLE：深度剖析强化学习如何提升语言模型推理能力
摘要：强化学习（ReinforcementLearning，RL）已经成为赋予语言模型高级推理能力的主导范式。尽管基于RL的训练方法（例如GRPO）已经展示了显著的经验性收益，但对其优势的细致理解仍然不足。为了填补这一空白，我们引入了一个细粒度的分析框架，以剖析RL对推理的影响。我们的框架特别研究了被认为可以从RL训练中受益的关键要素：（1）计划遵循和执行，（2）问题分解，以及（3）改进的推理和知
专属于你的一份牵挂叶梓Q
昨晚又是一整晚睡不着，对于我来说这也不是什么稀奇的事儿了。在我发表一篇日志后，闺蜜突然找我聊天说她睡不着有点烦躁，问其原因，她说害怕有一天我们会生疏了，我告诉她，以后我们会各自忙碌，可能见面会少，但是感情一直不会变，在心底我会永远留一份牵挂专属于她。我和闺蜜认识十年左右了，起初只是怯怯的走到她身边拉着她的小手说想和她做朋友，然而就一直持续十年之久，我们陪伴了彼此一整段青春，怎能说散就散。记得曾经告
【踩坑】Docker deamon.json 文件修改之后重启不生效 ku_code_ku 编程踩的坑 docker 容器运维
1.系统环境介绍ubuntu22.04_amddocker27.012.背景介绍最近在安装Docker，第一次尝试从官网上的教程上面安装Docker，很遗憾被墙了。下面是官网安装教程地址（避免入坑）https://docs.docker.com/engine/install/ubuntu/#install-using-the-repositoryhttps://docs.docker.com/en
Nginx+Gunicorn部署Django项目闻风听雨1562 Django nginx gunicorn django
1.项目文件传输和依赖安装1.1网络环境下pip安装依赖，离线则传输安装（略）2.Django设置2.1关闭调试模式，设置允许访问IP在项目同名路径下的settings中设置DEBUG=FalseALLOWED_HOSTS=['*']#允许所有地址访问2.2配置静态文件STATIC_URL='/static/'STATIC_ROOT=os.path.join(BASE_DIR,'static')#
“福气”是啥样的？软萌可爱的“小福气”来啦，赶快迎春接福喽！等一个奇迹
宫崎骏在《千与千寻》中描绘的那种光怪陆离的世界，令无数人一眼难忘，这不仅仅是因为它画面的精美，还因为故事的完美，更因为它展现了一个人所未见的奇妙领域，以及它所引起的情感共鸣。而我们中国的漫画，多数显得创作者过于急躁。在我曾写过的另一篇书评的评论区，有位读者对中国的漫画给出这样的评价：……国产漫画，现在很多都是为了赚钱而画，而根本不是精心地去打磨一个故事……我觉得这不但是现代美术专业人才的尴尬，更是
数据结构与算法学习 (08)字符串匹配--BF算法/RK算法暱稱已被使用
BF算法也就是串的模式匹配算法，在主串中查找与模式T（副串）相匹配的子串，如果匹配成功，找到该子串在主串出现的第一个字符。模式匹配不一定是从主串第一个字符开始，可以在主串中指定起始位置。算法思想：将目标串S的第一个字符与模式串T的第一个字符进行匹配，若相等，则继续比较S的第二个字符和T的第二个字符；若不相等，则比较S的第二个字符和T的第一个字符，依次比较下去，直到得出最后的匹配结果。BF算法是一种
PDF表格信息提取 StataPython数据分析
本文作者：王碧琪文字编辑：钱梦璇技术总编：张邯在《提取PDF文本信息：入门》中，我们介绍了使用pdfminer提取PDF中的信息，其中提取的是文本内容，而对于表格内容，使用pdfminer会输出无格式的文本，不能保留表格格式，而pdfplumber就能很好的解决问题。本文将比较两个方法的差异。待处理的PDF文档中的表格如下：image一、pdfminer我们用以下程序使用pdfminer进行提取(
基于Socket来构建无界数据流并通过Flink框架进行处理每天五分钟玩转人工智能 Flink技术实战 flink 大数据 Flink 分布式无界数据
本文重点随着大数据技术的不断发展，实时数据流处理已成为企业应对海量数据、实现快速决策的关键技术。ApacheFlink是一个开源的流处理框架，它能够对无界数据流进行高效的、精确的处理。本文将介绍如何通过Socket构建无界数据流，并利用Flink框架进行无界流处理。基于Socket构建无界数据无界数据指的是源源不断产生的数据，这些数据通常来自各种实时数据源，如用户行为日志、传感器数据等。Socke
《一线带班》读书笔记（四）河南张俊红
第四章抓作业做为一线老师，花时间最多的不是课堂教学，而是作业、作业。每天可能最头疼的就是学生的作业了，对于优秀生来说，老师布置的作业不算什么，三下五除二，一会儿就写好了，而对于班里个别的学困生来说，简直就是一场灾难，从早上磨蹭到晚上，却很难完成，有什么好办法吗？管老师的经验是：六问。第一问：作业要求怎么安排？可以分“三个阶段”整体考虑，第一阶段：及时+工整，人生及时第一，工整第二。优等生工整第一，
【c++】提升用户体验：问答系统的交互优化实践——关于我用AI编写了一个聊天机器人……（12） gfdhy 算法数据结构 c++c语言人工智能 tf-idf
本期依旧使用豆包辅助完成代码。从功能到体验的转变上个版本已经实现了问答系统的核心功能：基于TF-IDF算法的问题匹配和回答。它能够读取训练数据，处理用户输入，并返回最相关的答案。但在用户体验方面还有很大提升空间。让我们看看改进版做了哪些关键优化：1.引导系统上个版本仅在启动时显示简单的"Hello!输入'exit'结束对话。"提示，对于初次使用的用户来说不够友好。改进版增加了：详细的欢迎信息和功能
读书随笔《硅谷超级家长课》悦忆抒
这本书写的是一个妈妈培养出了三个优秀的女儿，方法其实很简单。她的方法就是五个原则——“TRICK教养法”，让孩子做自己的CEO。1.通过相信孩子培养孩子的信任能力，让孩子感受自身的价值。2.对孩子给予最大的尊重，但是不能降低要求。3.告诉孩子他可以是独立的。4.在信任、尊重和独立的前提下会合作。5.言传不如身教。不要把焦虑传给孩子。教育孩子是很艰巨的任务，要正确引导，善于发现孩子的优点，不要因为孩
读李笑来老师推荐的《随机漫步的傻瓜》所记长期主义者庆福
1.现实⽣活中，会出现⼈们误把运⽓当做个⼈能⼒，请举例说明（1）买彩票。看到许多爷爷奶奶会因为无聊去研究彩票，中了第一次后，可能觉得是运气。但是中了第二次、第三次…可能就不觉得是运气了，可能有一部分是自己研究每天晚上可能开奖的号码和生肖经验得来的。这也导致了他们会在买彩票的中与亏中来来回回，亏了不甘心，想再下一次中赢回来；中了，会很开心，但是这多数是靠运气的（他们觉得是有自己一部分的能力的功劳），
vue2 面试题及详细答案150道（121 - 130）
《前后端面试题》专栏集合了前后端各个知识模块的面试题，包括html，javascript，css，vue，react，java，Openlayers，leaflet，cesium，mapboxGL，threejs，nodejs，mangoDB，MySQL，Linux…。前后端面试题-专栏总目录文章目录一、本文面试题目录121.Vue2中如何实现组件的动态样式绑定？122.Vue2中如何处理跨域请求
《大衣换草鞋，我千亿物资亏到死！》沈括沈国伟&全集目录-在线阅读小说推书
《大衣换草鞋，我千亿物资亏到死！》沈括沈国伟&全集目录-在线阅读主角：沈括沈国伟简介：大衣换草鞋，我千亿物资亏到死！可以关注微信公众号【放心文楼】去回个书号【24】，即可免费阅读【大衣换草鞋，我千亿物资亏到死！】小说全文！看着爷爷的背影消失在视线之中，我这才退回到店里面，打开了视频。看着爷爷艰难的上山，我揪心得紧，直到看到苏长春带着几个战士从上山迎来，接过爷爷身上的物品，我这才露出欣慰的笑容。“沈
一个人住，千万要注意空心白竹
1林子大了，什么鸟都有，出门在外，安全最重要。女孩子一个人住一定要注意自身安全，学会保护好自己。昨天看到一个视频，看完很鄙视这种男人；男的一直在租房门口蹲点，看到隔壁女孩出门路过强行抱进自己房里，后面的可想而知........看到这样的人渣真的不知道说什么好，不仅毁了别人也同样害了自己。如果真的那么饥渴完全可以外出花钱就能解决的事，非得犯法，只能说这类人脑子有问题。一个人住一定要留个心眼，更不要引
“陕西男子活埋母亲”事件：获救后母亲担心儿子被判重刑你就是你自己
近日，陕西靖边“男子将母亲活埋进墓坑”事件持续引发关注。1.事情的始末是这样的：2020年5月2日，58岁的马某在自己家中将瘫痪在床79岁的母亲王某芳用手推车拉走，次日凌晨2时许独自一人推着车子回到家中，家人见状向其询问母亲去向，马某某谎称送往庆阳的客车上去亲戚家了。凌晨4点左右，马某离开家人的视线，独自一人出走失联至今未归。5日上午，马某的妻子张某报警后，警方立即对马某和其母亲进行寻找。在找到马
事缓则圆--05-13 季中
很多的事，只有留给时间来解决小时候，记得我父亲给我讲一句话：事缓则圆。很多的事，如果不是缓一下，先思考一些，则永远都做不圆，甚至完全做不成。很多的事，世界上的万事与万物，都有成住坏空这几个阶段，就象台风一样，从空空的海面上升起来，以极大的能量带着强烈的降水，横扫着沿路上的一切。似乎不可一世，但是要不了多久，就会慢慢衰弱，到了最后，消失在某一个地方，除了一些雨水，什么也不会剩下。还有一些事，象是20
离婚后对方纠缠不休怎么办？ d5c0d6b5c9b5
离婚后，对方纠缠不休的情况五花八门，总结起来，骚扰者可以划分为以下几个派别。第一类，温和派的，这一派人离婚了才发现原配的好处，于是重新开始追求前配偶，希望和前配偶可以重续前缘，破镜重圆。虽然前配偶对他一再拒绝，但他还是死缠烂打，绝不放过；第二类，极端派的，这一派人虽然知道双方已经离婚了，但还是不准前配偶和其他异性交往，不准前配偶再次恋爱和结婚，如果前配偶有了新的异性朋友，他就想方设法的去破坏和干预
多变的天气啊大甘
多变的天气近几日广东的天气变的有些让人措手不及，从上周开始气候就不稳定了。这边的空气比较潮湿，我也是第一次见到这边所谓的回南天。上周六一整天都是湿润的天气，虽然外面没有下雨但是空气非常湿润，从周五晚开始整间屋子都是湿润的，地板都积了一层水。我反反复复用拖把擦拭了几次，都是湿润的。刚好水渍少一些了，不到两个时辰又是一层水。这种天气也是非常的奇怪，也许在我们那边没有这种天气，所以那晚我竟彻夜失眠。总觉
枕一瓣落花梦一个烟雨中的人一抹繁华123
流年的岸边等待是一场花开听过一帘烟雨看过一窗花开花落轻轻走过是谁的声音飘落是一瓣桃花的深红浅红落花无声流水不语指尖是谁的滑落散落一地的忧伤一季烟雨还有多少远去的回忆拾一瓣落花剪一缕月光听风吹落花香一缕枕一瓣落花梦一个烟雨中的人
风的足迹笔下耕耘
曾经打搅了我的睡意尔后又令我百感交集朦胧中告诉我一个讯息尔后可能是一场暴雨这位信使虽然那么简单没有形状更不会言谈却将万物融入它的港湾那嘈杂的刮动声必然是人间最普遍的赞叹那优雅的花草浓绿的树木不正是它的遗产吗到了冬日白雪飘扬之时有了它岂不令雪景更加浪漫殷实送给寒冷一件完美的衣衫这就是风的魅力处处都有的画卷只要有热爱就有成为诗人的一天图片发自App
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

基于AVX2的YUV420转RGB C++代码

你可能感兴趣的:(基于AVX2的YUV420转RGB C++代码)