数据处理第三方包准备

  • pycharm的注册码
    server选项里边输入 http://elporfirio.com:1017/就可以了。
    不行再尝试:
    server选项里边输入 http://idea.imsxm.com/。
  • 准备:
    • import numpy as np
    • from scipy import linalg(线性计算)
    • import pandas as pd(高级数据结构,Series,DataFrame)
    • import matplotlib.pyplot as plt(绘图)
    • import seaborn as sns(绘图)
    • import nltk(自然语言处理包)
    • from igraph import *(pip install -U python-igraph)
    • scikit-learn(pip install -U scikit-learn,基于scipy)
  • numpy
    • 线性计算
      • 计算行列式的值:
        a = np.array([[1,2][3,4]])
        linalg.det(a)
        即计算(14/23)=-2
  • pandas
    • 序列:
      • s = pd.Series([1,3,5,np.nan,6,8]),dtype:float64
      • dates = pd.date_range('20170101',periods=6)从2017-01-01到2017-01-06的日期list,dtype:datetime64[ns],freq='D'
    • DataFrame
      • df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD')),6行4列的数据,索引和列名.
      • df.head(),展示前几行,不加参数展示全部
      • df.tail(2),展示后几行
      • df.describe(),查看数据的均值,方差,以及极值等等
      • df.T(),行列转换
      • df.sort_values(by='C'),通过C列排序
  • matplotlib
    • 示例:
      plt.plot([1,2,3])
      plt.ylabel('some numbers')
      plt.show()
  • seaborn
    • 示例:
      sns.set(color_codes=True)
      x = np.random.normal(size=100)
      sns.distplot(x)
  • NLTK
    • 下载预料库
      nltk.download()
    • 文本提取
    • 词汇切分
    • 词频分析
    • 词袋模型
    • 情感分析
  • igraph (节点和边的关系)
    • 示例:
      g = Graph([(0,1),(0,2),(2,3),(3,4)])每个元素都是俩个节点和一条边
      sumary(g)计算有几个节点和几条边
      g.degree()每个节点几条边
  • scikit-learn
    • 分类,聚类,回归和降维

你可能感兴趣的:(数据处理第三方包准备)