集体智慧编程的笔记

从evernote搬家过来,希望可以分享给更多的同学。

  1. Euclidean distance and Pearson Correlation Score
    • Euclidean distance:以经过人们一致评价的物品为坐标轴,然后将参与评价的人绘制到图上,并考察他们彼此间的距离远近。(处于“偏好空间”中人们的分布状况)
    • Pearson Correlation Score:修正了“夸大分值(grade inflation)”的情况。如果某人总是倾向于给出比另一个人更高的分值,而二者的分值之差又始终保持一致,则他们依然可能会存在很好的相关性。而Euclidean则会出现不相近的结论。
  2. from imp import reload 来定义reload。
  3. 经过recommendations.py,可以发现:选择不同的相似性度量方法,对结果的影响是微乎其微的。
    我们所要做的全部事情就是:建立一个涉及人员、物品和评价值的字典,然后就可以借此来为任何人提供建议了。
    • 将人和物对调并不总是会得到有价值的结果,但是大多数情况下,这将有助于做出有意义的对比。可以找到购买某些商品的潜在客户。又或者为了清仓处理某些商品而在市场营销投入方面指定的规划,也许是有意义的。
    • 另一个潜在用途是,在专门推荐链接的网站上,这样做可以确保新出现的链接,能否被那些最有可能对它产生兴趣的网站用户找到。
  4. 两种过滤技术:user-based collaborative filtering, item-based collaborative filtering.
    • item-based: 为每件物品预先计算好最为相似的其他物品——查看想要为其推荐的曾经评过分的物品,从中选出排位靠前——构造出加权列表。
      优势:物品间的比较不会像用户间的比较那么频繁变化。
  5. Data clustering: 一种用以寻找紧密相关的事、人或观点,并将其可视化的方法。
  6. Supervised learning methods: 利用样本输入和期望输出来学习如何预期的技术。
  7. Unsupervised learning 之一:聚类。目的是要在一组数据中找寻某种结构,而这些数据本身并不是我们要找的答案。其他无监督学习的例子还包括non-negative matrix factorization and self-organizing maps
  8. Hierarchical Clustering: 通过连续不断地将最为相似的群组两两合并,来构造出一个群组的层级结构。其中的每个群组都是从单一元素开始的。在每次迭代的过程中,分级聚类算法会计算每两个群组间的距离,并将距离最近的两个群组合并成一个新的群组。这一过程会一直重复下去,直到只剩一个群组为止。通常待分级聚类完成之后,我们可以采用一种图形化的方式来展现所得的结果,这种图被称为dendrogram。
  9. (第三章聚类因源数据问题,先暂缓学习)
  10. Information retrieval
  11. urllib2在Python3已拆分更名为urllib.request和urllib.error

    Python3的urllib包含5个模块: http://www.tuicool.com/articles/mQJvu2

  12. 栈溢出:由于缓冲区溢出而使得有用的存储单元被改写,往往会引发不可预料的后果。向这些单元写入任意的数据,一般只会导致程序崩溃之类的事故,对这种情况我们也至多说这个程序有bug。但如果向这些单元写入的是精心准备好的数据,就可能使得程序流程被劫持,致使不希望的代码被执行,落入攻击者的掌控之中,这就不仅仅是bug,而是漏洞(exploit)了。

  13. BeautifulSoup在py3k里改名为bs4
    最新版地址:https://pypi.python.org/pypi/beautifulsoup4/#downloads 







你可能感兴趣的:(笔记,python,笔记,集体智慧编程)