2020_1_16学习笔记

主要学习了pgmpy库的一些内容
Introduction to Probabilistic Graphical Models

ML=》prediction=》probabilistic model =》PGM

scalar在API文档中意为标量,设置一些参数的属性,比如半径。
pandas 用.index 来选某一列

plt.scatter(x,y,c,s,alpha)

(x,y)点坐标,c颜色, s(scalar or array_like(2,))散点半径,alpha透明度, (2,)表示list的shape即dim 属性。此外x,y,z必须同维度

在jupyter notebook代码中加上%matplotlib inline 指令调用matplotlib.pyplot绘图时,可直接在console里生成图像。

DataFrame.iloc[:,:2]只能在方括号内写整数,.loc则可以直接用列名,一般用下标取列时用iloc, 用列名取值是loc. 值得一提的是iloc 中的数字2 只会取2列而不是3列,对于loc 如果出现相同列名,则以最后一个为准。

numpy.random.normal(loc, scale, size) #可用于增加噪声
loc表示均值,scale表示方差,size对应shape

交叉验证(cross validation)from sklearn
X_train, X_test, y_train, y_test = train_test_split(x,y,test_size)#监督学习常用
其中X_train 和y_train 作为训练集

采用概率模型(Probabilistic Model)可利用DataFrame的groupby([列名]).size()/总数来统计联合概率(JPD, Joint Probability Distribution),主要实现的方法是边缘化(marginalize)
示例:
2020_1_16学习笔记_第1张图片
在统计完数据获取联合概率分布后,利用极大似然估计可采用
numpy.argmax()
示例:
预测
由此也引申出为何采用概率图模型,在概率模型的联合概率分布中,存储容量同状态数成指数关系,即指数爆炸。而概率图则可根据条件独立(conditional independencies)来拆分成条件概率分布(CPDs, conditional probability distributions).从而减少存储量

你可能感兴趣的:(2020_1_16学习笔记)