Colab平台利用gensim包实现Word2Vec和FastText(CBOW, Skip Gram两种实现)
重复造轮子不可取,要合理学会调(tou)包(lan)!Gensim是一个可以用来进行无监督学习和自然语言处理的开源库,编写语言为Python和Cython,更多细节可以上官网查询。首先导入基本的包:importpprintimportre#ForparsingourXMLdatafromlxmlimportetree#Fordataprocessingimportnltknltk.download