我的机器学习之路V1.28

2017.03.12

mac安装tensorflow
python文件处理

2017.03.13

使用TensorFlow实现手写识别（Softmax）
今天主要跟着tensorflow的官方教程跑了第一个练习，通过这个例子理解tensorflow是如何工作的，也为后续算法的进一步学习找到了方向，后续将继续按照实践-->挖原理--->实践的路线学习。
翻译官方文档是个艰难的过程，虽然影响进度，但是我相信只是暂时的，以后会越看越快，毕竟理解英文容易，但是转成中文表达却难，刻意的让自己表达更确切也能增强对知识的理解。

2017.03.14

今天有一个项目需要找两组数据之间的关系，对于一个刚入门只会线性回归的菜鸟来说很棘手，遇到重重大山，今天一天分为磨刀和砍柴两部分，上午磨刀，主要读了官方文档的能实现线性函数的其他教程和API，通过不停地搜索实验，对昨天的手写识别又有了新的认识，对原理更加清晰了，下午砍柴，顺利地解决用pandas读csv格式数据后就一直在卡，示例太少了，只能自己摸索，结果跑出来一个几乎没有正确率的模型……停下来思考后发现可能是数据维度有问题，明天继续探索，加油！

2017.03.15

使用TensorFlow的Linear/DNNRegressor预测数据
历时两天，这个小任务算是告一段落了，Python不写返回类型好不习惯，看一个API看不懂参数，类型上老报错，只好不停地打印类型打印类型，然后百度python基础，这两天最大的收获就是渐渐习惯，也摸清楚那个API到底要什么类型的参数了，真是艰难。这种突然来的实践真是考验人，不得不顾及交差的期限，顾不得能力有多差，只能硬着头皮闯，但是收获往往也很大，接下来的几天就静心补基础，补原理。准备迎接下一个带期限的实战

2017.03.16

今天研究了softmax regression，读的是ufldl教程，看英文比较吃力，因为好多数学专业术语，但是能明显发现英文教程的严谨。现在不光要补充计算机知识了，还得补充高数知识，有很多公式远离原理和意义都不是很清楚，所以对问题的认识比较浅，想要提炼论文的创新点，就必须对公式原理了如指掌。看了四天回归，只是机器学习的局部，这次的学习我忽略了一个大问题——我忘记列全部的提纲了，整个框架还不是很明确，各种方法的优点缺点还模棱两可，稍后就进行总结。

2017.03.17

TensorBoard官方文档翻译
今天翻译了tensorboard的官方文档，按照教程运行出来了Tensorboard，但是很多图都看不懂……明天要参加IPM Power机器学习大赛，今天大部分时间都在做赛前准备，希望明天不会拖团队的后腿。

2017.03.18

参加了12个小时的IBM power 编程马拉松，要求实现遮挡脸部检测，虽然最后没有写完代码，但是收获颇多。

了解了半监督学习的思路，对算法的具体实现和运行过程不是很理解，日后需要整理
需要查询fast-rcnn，rcnn，faster-rcnn，ladder network，mscn（mstn？记不清了）
需要搞懂python语法和tensorflow使用
关注宋煜老师的开源项目eyes
运行成功程序
对于任何知识，理解它只占40%，还远远不够，最重要的是知识输出，如果没有结果，说什么都站不住脚。
比赛只是一个开始，真正的挑战在后面。

2017.03.19

今天是真的没有学什么，彻底地放松了一天，和好友看了场《美女与野兽》，感觉好棒，是时候写论文了，明天开始，加油

2017.03.20

今天学习了支持向量机和主成分分析。把算法过了一遍，用MNIST写了一个PCA的demo，但是疑问很多，对支持向量机的功用了解了，会用了，但是原理总觉得在云里雾里，对于改进这件事根本无从下手，好忧伤T.T

2017.03.21

今天最大的收获是搞懂了主成分分析，用MNIST数据集做了一个demo，由于内容太多还没有整理完，明天发，打算和线性回归结合，看看是否能提高精度。
今天找到了适合自己学习的路线：是什么，做什么，怎么用，效果怎么样，原理什么，有什么利弊。把原理放在了后面，因为我发现可视化意义可以提起对一件事的兴趣，通过它能干嘛，我能更好的理解原理，思考原理，这对我来说是一种很好接受知识的方式。

2017.03.22

主成分分析法降维（MNIST数据集）
历时两天，整理了这份主成分分析法，用例和代码解析部分算是完全原创了，感觉好兴奋，本想继续做后面的softmax分类，但是没想到数学部分花了我整整一下午的时间，数学基础还是有些薄弱，网上和书上的深度还是不够，总觉得心里有太多疑问没有解决，数学是个美妙的东西，只是现有的资料把它枯燥化了，希望能遇到一本高质量的数学书，或许我应该看看数学家们的著作。刚开始数学耗的时间久，不过没关系，以后会越来越快，磨刀不误砍柴工。
今天听分答里的一个快速阅读的小讲，竟然和我高中时候研究的右脑开发不谋而合，更好的是它里面有具体的方法，可以练习就能达到2000字／分的速度，高度利用大脑，能让一切变得简单。

2017.03.23

今天看了SVD，但是不是很懂，数学还是瓶颈，对昨天的协方差矩阵，求特征向量的具体求法还是不够透彻，要做点题了。

2017.03.24

今天心情很糟，什么都没做。。。

2017.03.25

为了处理昨天的事情，今天大部分时间都在路上，只看了一点python的基础知识。

2017.03.26

奇异值分解
今天看了SVD及其在推荐系统和图像压缩方面的应用，概念基本理解了，在推荐系统上的应用算法和代码都理解的不是很好，打算再看看，总结一下各大推荐系统，完成毕业设计的最后一小模块。

2017.03.27

今天一天都在看推荐算法，在ipad上找到了超好的画流程图的app，晚上回宿舍前画了一张，好有成就感，边画边理思路，哦对还看了皮尔逊相关系数的数学推导，越来越爱数学了。

2017.03.28

基于协同过滤的推荐引擎（理论部分）
终于完成了，这篇文章最有成就感的就是画的，各种流程图，全部原创，自己看着都漂亮，哈哈哈，昨天看不懂的代码今天都看懂了，还写了详细的介绍，感觉真爽。

2017.03.29

今天一整天都在搞推荐实战，发现以下几个问题

大数据量如何部分评分置零
大数据量怎么整成物品用户矩阵
相似度计算上似乎可以创新
评价指标需要完善

大数据置0和荟文讨论出丢弃法，能快速置0。矩阵不好拼，代价太高，也不拼了，讨论出横向计算和纵向计算两种方式，明天都试试，我们两个人的思想融合一下应该就能有比较好的效果，还有一个思路，就是用卷积矩阵，还有相似度的不断维护上，总感觉有什么好的想法，明天实现完具体看。大数据量是个问题，值得好好研究，不知不觉快被引到分布式了。喜欢思想碰撞，总能有好多新思路，数学依然是短板，需要好好研究。

2017.03.30

今天一天都在写推荐论文，事情总是一执行就和猜想不一样，写起来才发现各种问题。

2017.03.31

终于写完了小论文的初稿，三天没做知识输出感觉好惭愧，争取明早发一波。加油。

2017.04.1-2017.04.04

长岛旅行。

2017.04.05

一趟旅游似乎规律被打乱了，时间如白驹过隙，一转眼十天就过去了，论文也没写，实验也没做，想想接下来面临的事就觉得一团乱麻，明明计划好了，怎么感觉玩了一趟懵逼了，还是记录做的不到位，时间没有规划好。今天只做了改论文一件事，说是修改，感觉重新写了一遍，还有一部分，明天写吧。

2017.04.06

今天一天都在奋笔疾书，修改论文，一直在考虑如何表述的更清楚，看了自己前几天写的，发现长篇大论却依然没有表达清楚意思，有的问题能够说的清楚，但是落在笔上就完全变了意思，所以写作的功底还需要练习，希望通过这次的论文能提高表达能力。

2017.04.07

终于完成了小论文，迎面而来的还有七千字的大论文，半个月没有知识输出了，感觉好空虚，好像时间喂了狗，整个人都不好了。。。

2017.04.08

没有什么比满血复活更重要
今天被通知实验室停电，刚好赶上同学过生日，所以整个白天都没有来实验室。

今天做的最重大的决定就是将自己从前几天的空虚中拯救出来，为了寻求刺激感，也为了给老爸省钱，决定用仅剩的10天学完优达学城机器学习纳米工程师课程，这是个极大的挑战，因为本是一年的课程，可能很少有人能十天内完成，但是也只有这件事让我想起来就满血复活，所以我决定用这样的方式给自己充电，唤醒身体。

下午六点到实验室，开始着手写基于协同过滤的推荐算法实战部分，中间有一个小时左右的时间给同学在实验室办了一个小party，其余时间都在写，直到十点半回宿舍，还有一个小尾巴，决定明早完成。

2017.04.09

基于协同过滤的推荐算法（实战部分）
7:30 - 9:30，完成实战部分。
10：00 - 11:40，优达学城项目P1——波士顿房价预测。
15:30 - 18:00，优达学城项目P1——波士顿房价预测。
19:00 - 20:00，优达学城项目P1——波士顿房价预测。
今天是开始拿下纳米学位的第一天，任务是波士顿房价预测，今天完成了波士顿房价预测，后面还有一个选做的北京房价预测，明早完成。要补充整理的知识有：
numpy的统计方法
python绘图
影响中位数、平均数、方差等的因素
模型的偏差和方差有什么不同，如何判断模型是方差偏大还是偏差偏大
网格搜索
K折交叉验证
网格搜索如何结合交叉验证寻找最优参数
交叉验证与ShuffleSplit的异同点
波士顿房价预测用到的算法和函数

2017.04.10

8:00 - 9:48 完成北京房价预测选做题。果然用起来就会了，发现对交叉验证和网络搜索似乎有了更深的认识。接下来有两个选择，继续做项目还是停下来看补充整理的知识。我选择后者，稳步前进。
10:10 - 11:40 听波士顿房价预测项目的视频
13:30 - 14:00 听波士顿房价预测项目的视频
14:40 - 15:00 听完了波士顿房价预测项目的视频，发现做项目时候遇到的问题配套视频中都有讲解，下一个项目我决定先以现有的知识做，卡住的到视频里听一下，做完后不提交，把视频听完，根据感想和新学的知识再做一遍项目，巩固所学。到目前为止，最大的收获就是知道了一个问题从开始的分析到后面的建模到最后测试验证的全部流程，是一个很重要的框架。

2017.04.11

机器学习项目流程和模型评估验证
7:10 到实验室，做了一组唤醒身体的动作
8:00 开始第三次修改项目这一次终于弄懂了网格搜索和交叉验证彻底懂了很感谢reviewer的严厉和指点
后面的时间都在改论文。。。
晚上总结回顾了所学

2017.4.12

今天看了一部分P2，很想快点做完和小波老师一起探讨，没想到下午就开始改论文……又要重新写一遍了。

2017.4.13 - 2017.4.14

要写论文写吐了T.T

2017.4.15

今天最大的收获就是参加了高校物联网竞赛的答辩，听Aws的博士讲当今科技，如果不是今天，我的眼界还局限在埋头钻研，最可怕的就是闭门造车。学会站在巨人的肩膀，眺望远方的同时学会如何长高。

2017.4.16

今天终于小论文第三版搞定，明天可以安心学习udacity了。

2018.4.17

时隔一年，很巧合，日期刚好拼接起来。接触机器学习已经整整一年了。一路跟着udacity的脚步，拿下了机器学习工程师纳米学位，收获还是很大的，尤其在解决问题的思维上，感觉真正入行的一个项目就是udacity的毕设项目，我选择的是kaggle两年前的一个比赛——侦测走神司机，这个项目的最低要求是达到top10%，也就是拿到铜牌。这是个很好的开始，我花了三个月的时间终于到了铜牌垫底，这是我第一次垫底还这么开心，我决定把这个项目当做研究生毕设项目，一直做到top10。