python爬虫中遇到“\xb5”、“xa0”等字符时报错编码错误的处理方式

写python爬虫是遇到编码错误 

报错为:

UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' 

经过多方查找发现 \xa0是html网页源码中的空格

解决方法

替换掉字符 :replace(u'\xa0', u' ')

下面是一些html中的常见符号

chr 

HexCode  

Numeric  

HTML entity 

"

\x22

"

"

&

\x26

&

&

\x3C

<

<

\x3E

>

>

空格

\xA0

 

 

¡

\xA1

¡

¡

¢

\xA2

¢

¢

£

\xA3

£

£

¤

\xA4

¤

¤

¥

\xA5

¥

¥

¦

\xA6

¦

¦

§

\xA7

§

§

¨

\xA8

¨

¨

©

\xA9

©

©

ª

\xAA

ª

ª

«

\xAB

«

«

¬

\xAC

¬

¬

 

\xAD

­

­

®

\xAE

®

®

¯

\xAF

¯

¯

°

\xB0

°

°

±

\xB1

±

±

²

\xB2

²

²

³

\xB3

³

³

´

\xB4

´

´

µ

\xB5

µ

µ

\xB6

·

\xB7

·

·

¸

\xB8

¸

¸

¹

\xB9

¹

¹

º

\xBA

º

º

»

\xBB

»

»

¼

\xBC

¼

¼

½

\xBD

½

½

¾

\xBE

¾

¾

¿

\xBF

¿

¿

×

\xD7

×

×

÷

\xF7

÷

÷

ƒ

\u0192

ƒ

ƒ

ˆ

\u02C6

ˆ

ˆ

˜

\u02DC

˜

˜

\u2002

\u2003

\u2009

 

\u200C

 

\u200D

 

\u200E

 

\u200F

\u2013

\u2014

\u2018

\u2019

\u201A

\u201C

\u201D

\u201E

\u2020

\u2021

\u2022

\u2026

\u2030

\u2032

\u2033

\u2039

\u203A

\u203E

\u2044

\u20AC

\u2111

?

\u2113

 

\u2116

 

\u2118

\u211C

\u2122

\u2135

\u2190

\u2191

\u2192

\u2193

\u2194

\u21B5

\u21D0

\u21D1

\u21D2

\u21D3

\u21D4

\u2200

\u2202

\u2203

\u2205

\u2207

\u2208

\u2209

\u220B

\u220F

\u2211

\u2212

\u2217

\u221A

\u221D

\u221E

\u2220

\u2227

\u2228

\u2229

\u222A

\u222B

\u2234

\u223C

\u2245

\u2248

\u2260

\u2261

\u2264

\u2265

\u2282

\u2283

\u2284

\u2286

\u2287

\u2295

\u2297

\u22A5

\u22C5

\u2308

\u2309

\u230A

\u230B

\u2329

\u232A

\u25CA

\u2660

\u2663

\u2665

\u2666

 

你可能感兴趣的:(python)