对话吴恩达(Andrew Ng):超级大咖深度解析人工智能 以及如何成为已经数据挖掘工程师

4月14日对话吴恩达(Andrew Ng):超级大咖深度解析人工智能的发展现状与未来沙龙实录

2016-04-16  机器学习研究会  数盟
【数盟致力于成为最卓越的数据科学社区,聚焦于大数据、分析挖掘、数据可视化领域,业务范围:线下活动、在线课程、猎头服务、项目对接】

【优惠倒计时】数据定义未来,2016年5月12日-14日DTCC2016中国数据库技术大会登陆北京!4月20日前输入数盟专属购票优惠码iir46am3立享88折上折,猛戳文末“阅读原文”直接购买!


本文转载自微信公众号“机器学习研究会”


时间:2016年4月14日(周四)21:00 - 22:30


嘉宾:- 吴恩达(Andrew Ng):百度首席科学家,“百度大脑”、“谷歌大脑”负责人,斯坦福大学计算机科学系和电子工程系终身教授,人工智能实验室主任,Coursera联合创始人- 徐伟:百度IDL杰出科学家,前Facebook大规模推荐平台负责人、NEC lab高级研究员- 韩旭:密苏里大学教授,百度硅谷人工智能实验室任Principal Scientist
主持人:雷鸣:北大大数据与机器学习中心联合主任,百度创始七剑客,酷我创始人
内容:1)深度学习的技术现状和未来发展2)语音识别、计算机视觉和自然语言等领域的现状、挑战和未来发展预期3)自动驾驶、机器人等AI技术产业化的未来预期和相关探索4)对于AI领域专业人士的职业发展建议

对话吴恩达(Andrew Ng):超级大咖深度解析人工智能 以及如何成为已经数据挖掘工程师_第1张图片


【精华实录】 环节一:沙龙对话
话题一:深度学习的技术现状和未来发展
【雷鸣】首先我们探讨第一个问题:深度学习的技术现状和未来发展,是否会成为通用基础技术?现在深度学习非常火热,被吹得神乎其神。这个技术是否会成为某种意义的终极技术? 【徐伟】深度学习是为人工智能的一个重要部分。未来人工智能会是运用非常广泛的技术,所以深度学习也将被广泛使用。 【吴恩达】Regarding the second question, yes there's been a lot of hype about Deep Learning. I think it is creating tremendous value today—it is letting us turn the huge amounts of data we have into huge amounts of value. I'm also confident that deep learning will keep on creating a lot of value in the next few years—we still have far too many ideas, and too few people to do them. But we're also very far from "human level intelligence," and do not yet see any clear path to get there. I think some of the 炒作 has been a bit irresponsible.人工智能会对整个社会有很大的影响力,so I think it's important that all of us have a clear understanding of what's coming, but also what is not, so that we can plan appropriately.关于第二个问题,现在确实有太多关于深度学习的夸大的宣传。我认为深度学习正在创造很多价值——帮助我们把海量数据转化成巨大的价值;同时,我也相信深度学习在未来若干年仍将继续创造大量的价值——我们仍有太多的想法需要去实现,却只有很少的人在做这些事情。但是,我们离真正人类水平的人工智能还相差甚远,而且也还没有找到清晰的实现路径。我认为一些相关的炒作是不太负责任的。人工智能会对整个社会有很大的影响力,所以我认为,对于我们来说了解清楚它能带来什么和不能带来什么是非常重要的,所以我们需要制定相应的规划。
【雷鸣】一个问题, 如果在有比较充分的数据和运算能力的条件下,是否深度学习可以超越几乎所有的经典的数据挖掘算法?
【徐伟】可以说对大多数监督式学习问题,深度学习会超越传统的算法;对于一些非监督学习的问题,似乎还不是很明确。
【雷鸣】@徐伟,那对于半监督学习呢?
【徐伟】目前为止一个比较成功的非监督的例子是word embedding;不过也有很多人不认为word embedding 是深度学习。另外word embedding 和传统的非监督学习也并不完全一样,实际上运用了上下文作为监督。我认为非监督学习要取得成功,实际上更会使用类似这样的弱监督学习。
【吴恩达】I agree with Xu Wei. Despite all the value created by Deep Learning, most of it is currently supervised learning, meaning learning relatively simple A-->B mappings. For example, perhaps A is an email, and B whether or not it is spam. That's a spam filter. Or perhaps A is an image, and B is an object label. That's object recognition. With a lot of labeled data (i.e., (A, B) pairs) and a big enough network, you can prove that a deep learning algorithm can learn almost any function to a very high level of accuracy. one of the most exciting recent breakthroughs is Deep Learning algorithms can now learn A-->B mapping where B isn't just 0/1 or an integer (like the examples above), but can be very complex things like a sentence.我同意徐伟的观点。深度学习所创造的所有价值,大部分现在都是监督学习,也就是学习相对简单的A-->B映射。举例来说:可能A是一封电子邮件,B表示A是或不是垃圾邮件,这就是一个垃圾邮件过滤器;或者A是一个图像,B是一个对象标签,这就是物体识别。有很多标记的数据(例如A,B配对)和一个足够大的网络,你可以证明一个深度学习算法可以以极高的精度学习任意函数。近期最激动人心的重大突破之一就是:深度学习算法现在可以学习一个A-->B的映射,其中B不只是1 /0或一个整数(如前述的例子),而可以是非常复杂的事情,比如一句话。  【雷鸣】@Andrew,你在说自然语言吗?是指的翻译,语音识别,还是语义处理级别的?
【吴恩达】For example, if A is an image, and B is a caption, then that's image captioning. (The first paper to do this was by Xu Wei and his colleagues. :-)) Or if A is an English sentence, and B is a french sentence, then that's machine translation, which was done by Ilya Suskevar and others. Or if A is an (Image, Question) pair and B is an answer, that's Image Question Answering (also by Xu Wei!). Supervised learning has been very successful for both 翻译 and 语音识别。Our most successful approach at Baidu on speech recognition has been to use a very large neural network, and to learn an A-->B mapping directly where A is an audio clip and B is the text transcript. Tony who's next to me had led the team working on the mandarin version of this, and we believe this is now the world's best mandarin speech recognition system.例如:A是图片,B是对应的文字说明,这个问题就可以被定义为图像摘要生成 (第一篇论文由徐伟以及他的同事发表);如果A是英语句子,B是法语句子,这个问题就是机器翻译问题(可以参考Ilya Suskevar等人的研究);如果A是图片问题对,B是相应的答案,这个问题就变成了基于图像的QA问题(也是徐伟的成果)。监督学习在机器翻译和语音识别里得到了广泛的应用。例如,在百度语音识别系统里,我们利用大规模的神经网络系统让机器学习将语音片段映射到相应的文本。坐在我身边的Tony负责其中的普通话识别版本,我们相信这个系统是目前最好的普通话识别系统。 【雷鸣】看起来不仅仅是语言,还包括了图像,这个进展是非常大的。
话题二:语音识别、计算机视觉和自然语言处理等领域的现状、挑战和未来发展预期
【雷鸣】下面我们聊一下在一些领域,深度学习带来的一些新的进展。比如说语音识别,我前些时间到百度美国研究院,看到Andrew给我演示的语音识别:在非常大的噪音环境下,我基本上听不出来里面的人说什么,但是语音识别出来了;之后我仔细听,发现语音识别是对的。 @Andrew,方便介绍一下全球在语音识别方面的最新进展吗?对于语音识别,随着技术进步,我们做出超过人对人声识别的系统,是否是一个必然结果?
【吴恩达】I think speech recognition will move toward end-to-end learning. We are finding that the dataset size is one of the biggest drivers of performance. I find some of the recent work on attention models also promising. We were also very heavily influenced by Alex Grave's work on CTC.我认为语音识别会逐步使用端到端的学习方法。在这些方法里,数据集的大小是影响性能的重要因素。最近我发现使用基于attention模型的结果很好。我们的工作也深受Alex Grave在CTC工作上的影响。Two challenges that remain: Transcribing long utterances. We surpass human-level performance for short phrases, out of context. But we are still much worse than human-level performance when there's more context, such as long conversations. A second major challenge is understanding the content of the text, rather than only transcribing it.目前还有两个主要的挑战:第一个是对于长句子的识别。我们的语音识别系统,在没有上下文的时候,对短句子的识别超过了人类的水平;然而在有上下文的情境下,比如在长对话中,系统的识别效果还是不如人类。另一个挑战就是理解文本的内容。But I'm excited about building a speech-enabled world. Just as (thanks to Steve Jobs) the smartphone touchscreen fundamentally changed how we interact with computers, I think that speech will also fundamentally transform how we interact with computers in the next few years.尽管如此,我还是很期待建立一个语音驱动的世界。就如乔布斯用触摸屏改变了我们与手机交互的方式,我认为语音会在未来进一步改变我们与机器交互的方式。
【徐伟】目前的语音识别系统还没有像人那样能够很好的利用上下文信息。
【雷鸣】另外一个问题是关于图片识别以及视频内容识别,全球的最新进展如何?微软最近的一个图像识别的进展,用了100多层的深度神经网络,得到了不错的效果。是否超深的神经网络,也是一个发展方向?
【徐伟】对像ImageNet这样的问题,目前的deep residue net的结果已经非常好了。目前我们也看到很深的模型在一些NLP也有很好的效果。对于视频内容,运算能力还是一个重大的瓶颈;只有百万级别的数据,训练就需要数天。
【雷鸣】对于计算机视觉,尤其是运动图像(视频)处理,当前的进展和挑战如何?在自然语言对话领域,现在深度学习应用的效果如何?
【徐伟】目前深度学习模型最大的难点之一还是记忆以及知识表达,还有推理也是一个难点。
【雷鸣】@徐伟,是否面临的最大问题,正如你上面说的, 是记忆和知识表达?
【徐伟】深度学习模型还不能很好地利用已有知识库。
话题三:自动驾驶、机器人等AI技术产业化的未来预期和相关探索
【雷鸣】下面我们聊一下一些实用的领域,比如现在百度大力发展的无人驾驶,这块的挑战和机遇是什么?对于无人驾驶,在5年内我们真的能够在大街上乘坐商用的无人驾驶汽车吗?
【吴恩达】I'm fortunate to have gotten to work on several different cars before. The Baidu one is the 4th car I've helped build. But this is the first time in my life that I've felt we see a clear path to making autonomous vehicles a reality. Just for fun, here're pictures of some other cars I had worked on!我很幸运我之前做过几次无人车的项目。在百度,已经是我第四次参与无人车研发了。但是这一次,我们将会把自动驾驶变成现实!这也是我有生以来,第一次感到前路如此的清晰!下面是我之前 几次研发的无人车。 
【吴恩达】Here in China, 500 people a day die from car accidents. If we can make autonomous driving a reality only one day sooner, that's an extra 500 people whose lives we save. This will be one of the most important applications of AI in this decade. Why do I think we now have a clear shot toward making this a reality? We now have very sophisticated deep learning algorithms that are performing far better than ever before. We were fortunate that Lin Yuanqing had joined Baidu a few months ago and is now leading a big part of this effort. But in addition to that, we have also developed a unique strategy that is different than most others that have been working on autonomous driving. We call this strategy TRAIN TERRAIN (铁轨战略).在中国,每天都有500人死于车祸。我们的无人驾驶技术早实现一天,就相当于多拯救了500人的生命,这将会是十年来最重要的科技应用之一。为什么我觉得这一技术非常有希望实现呢?一方面,我们有着性能远超从前的复杂的深度学习算法。我们非常荣幸林元庆先生几个月前加入百度,承担其中的重要工作;另一方面,我们也制定了独一无二的无人车发展战略——铁轨战略。
【雷鸣】@Andrew,你是说给无人驾驶汽车规定路线?那我们五年内有可能在大街上乘坐无人驾驶车吗?
【吴恩达】We hope to have commercial autonomous driving services by 2018, and be in mass production by 2020. Here're the key elements of the TRAIN TERRAIN strategy:我们计划在2018年开始提供商用的无人驾驶服务,并在2020年前将其推广普及。下面是“铁轨战略”的核心要点:1.Don't try to roll out autonomous vehicles everywhere all at once. Instead, start from a small region (such as a shuttle route or small city), and grow from there.不要试图将无人车一下子覆盖到每个地方,先从局部展开(比如班车或者小城市),然后逐步推广。2.Realize that computer-driven cars are not the same thing as a human-driven car. They behave differently: They never drive drunk. But, they don’t understand a policeman’s hand gestures. Make sure people in the “autonomy enabled” regions have realistic expectations.计算机驾驶车辆和人驾驶车辆有所不同:计算机从不醉酒,但也不能理解交警的手势。所以需要确保人们对无人车有切合实际的期望。3.Design autonomous cars to be clearly recognizable, so that people can immediately spot them for what they are.将无人车设计的容易识别,这样大家能够很快发现他们。4.Make the behavior of the autonomous cars highly predictable. Predictability, even more than cleverness, leads to safety.让无人车的行为非常容易预测,这一点比“智能”更能带来安全。5.Implement modest infrastructure changes in the autonomy enabled regions to make sure the cars understand what they need to do. For example, give emergency workers a clear way (such as a wireless becon) to communicate with the car. Make sure the roads are well maintained, with clearly painted lines. And so on. With these changes, I think we can safely put autonomous cars on the roads soon.适度改变一些基础设施,让无人车明白它们需要做什么。比如,给应急人员配备同无人车交互的设备(例如无线航标器),确保道路维护良好,划线都很清晰等等。有了这些改变,我想无人车应该很快就可以上路了。6.We are rapidly growing our teams in both Beijing and in the US (Silicon Valley) office. Thanks to our unique strategy, we've been thrilled at the number of people applying to join us to work on this grand mission of saving 500 lives per day!我们在北京和硅谷的团队都在快速壮大。在这一战略的指导下,我们非常地兴奋的看到,有大批的人都在申请加入我们,为“每天拯救500人”而努力!
【雷鸣】自动驾驶,一个挺科幻的概念,再有几年就满大街都是,真让人感慨技术发展速度啊。我们再谈一下机器人,Google现在要销售掉Boston Dynamics,让人非常震惊! 【吴恩达】Yes I agree! I want to say something to all the young people reading this. I think we're in an unique moment in history where AI can really change the world. If you know how to use or apply AI, you can be a position where the decision you make today will really change how the world is in 10 years. There will be thousands or millions whose would have lost their lives but for your efforts. Or you can transform entire industries, and help countless people. That's why I'm really excited about AI. If you are young and considering what career path to pursue, I hope that you will consider learning about AI, and joining the AI research and development community at Baidu or elsewhere, so that we can all work together to make the world a better place!是的!我想和在座的年轻人说几句话。我们处在一个独特的时期,一个人工智能改变世界的时期。如果你知道怎么运用人工智能,你将有可能在这十年里改变世界。你的努力可能会拯救数以万计甚至百万计的生命。也正因如此,我对人工智能如此兴奋!如果你还年轻,正在考虑未来的职业如何规划,我希望你能够考虑人工智能,加入百度或者其他地方的人工智能研发团队。让我们一起让世界变得更加美好!
【雷鸣】@Andrew,这确实非常激动人心!现在已经有无数的人为AI痴迷。现在的理科学生们确实都在学习机器学习。
【吴恩达】我很高兴听到有很多人对机器学习感兴趣。现在的问题是机器学习的想法和机会太多,不过能做的人太少。The world needs more AI people!
【雷鸣】@Andrew,你也多做一些好的在线课程,让大家多学习!这次活动,一共有20个大群,近10,000人参加,可见现在大家对AI是多么感兴趣。
【雷鸣】机器人真的离我们还非常遥远吗?是否近5年都没有巨大的商业化机会?
【徐伟】功能非常专用的机器人,应该还是会有很快的发展和应用。但像人那样的机器人,还比较遥远。self-driving car可能是最重要的一种。未来几年内,家用机器人还很难真正帮人做事。
【雷鸣】现在销售量最大的应该是扫地机器人,不过很多人都觉得他们不像机器人。 那么在未来几年,会有那些机器人领域大放异彩?工业机器人?家庭机器人?服务机器人?
【吴恩达】There's a lot of exciting work in robotic applications right now that focuses on specific narrow/vertical applications. Other than autonomous cars, I see exciting work in precision agriculture, automated power plant inspection, automated picking (for ecommerce fulfillment), automated security robots, and so on. Most of these robots have hardware and software designed to carry out that particular task, and so do not look like humanoid robots. I think truly general-purpose robots (other than robot arms in factory automation) are still a little further away.机器人在一些垂直细分的领域也有了很多令人振奋的应用。除了无人驾驶,还有精准农业、电站自动检查、电子商务自动取件、安全机器人等等。这些机器人中,大部分的硬件和软件都是为了特定任务设计的,因此他们并非人形机器人。我认为,真正的通用机器人(并非工厂里面的机械臂)离我们还有一些距离。
【雷鸣】What do you think about Amazon Echo. It's pretty popular in US now.你怎么看待Amazon Echo,它在美国非常流行
【吴恩达】I have an Amazon Echo in my home. I think it is a nice start to home automation using voice commands, but it is still the very early days of a new industry. I've been impressed by Amazon's work, but it's still too early to say whether this will be the right design in the long term.我家里面就有一个Amazon Echo。我认为这是基于语音的家庭自动化的很好的开始,但这一新的产业现在仍然处于最早期。亚马逊的产品非常棒,但是从长期来讲,我认为现在来讨论这个设计是否正确仍然为时尚早。
【吴恩达】But I do think that in the future, we should be able to talk to all the devices in our homes and have them understand and respond to us. I hope that a few decades from now, I will have grandchildren who are mystified as to how, back in 2016, if you were to go home and say something to your microwave oven, it would just sit there and rudely ignore you!但是我的确认为在将来,我们可以与家里面所有的设备对话,让它们理解并且能回应我们。我期待几十年后,我们的孩子们会对我们今天的生活感到非常神秘。他们会感到非常不可思议,当你和家里的微波炉讲话时,它居然会不搭理你!
话题四:对于AI领域专业人士的职业发展建议
【雷鸣】对于AI从业的人士,Andrew有什么职业发展建议?
【吴恩达】AI is changing so rapidly, I think all of us that work in AI have to keep on learning. Once again, I want to say something to the young people reading this. Every Saturday, you will have a choice: You can either watch TV, or you can study. If you study, it turns out that there will be almost no short term reward. The following Monday, you won't be that much better at your job, and your boss almost certainly won't know you spent all day studying nor tell you "good job." So, you have almost nothing to show for your day of hard work. But here's the secret: If you study hard not just for one weekend, but do so weekend after weekend… for a year… then you will become great at it. I think studying has almost no short term rewards. But the long term rewards are huge!人工智能发展的如此迅猛,从事这一行业的我们应该不断的学习。再一次,我想跟在座的年轻人共勉:每个周六,你可以选择看美剧,也可以选择学习。如果你学习,两天后的周一,你不会很快的就在工作中出彩,你的老板也不会知道你花了整天的时间学习,更不会夸奖你什么。这一整天的努力,你却无法显示出任何的收获。但是我想告诉大家:如果你每个周末都这样努力工作,持之以恒,你会发现你已经突飞猛进。我认为,学习是一件几乎没有短期回报,但是长期回报巨大的事情。
【雷鸣】非常鼓励的话,大家共勉!
【吴恩达】So one of the challenges - which I hope many readers will rise to—is to keep ourselves motivated and to keep learning and studying, week after week, year after year.所以,一个巨大的挑战——我想大家都会遇到的挑战——就是让我们自己始终充满动力地学习,日复一日,年复一年!
【徐伟】说到reward, 延迟很久的reward目前也是deep reinforcement learning很难处理的一点。
【雷鸣】@徐伟,对人类也相当复杂的问题,对机器学习也一样啊。
环节二:问答探讨
1、End to end的方法,对数据的依赖有多高?机器学习如何提高对数据的学习和处理能力,而不是所有的数据必须人工标注后才能使用?如果不能解决这个问题,AI如何真正的进化?
【徐伟】所以需要Agent在环境中能主动地获取数据,像人那样。
2、深度学习应用在自然语言处理方面感觉还是不怎么理想。有这么一种说法:图像是你直接看到的,语言却是人类抽象之后的;特别是将深度学习应用在贴吧的帖子,或者电商网站上的评论数据,貌似效果都不如人为的规则+传统的模型。你们怎么看呢?
【徐伟】人类对话还涉及了大量的知识的运用,目前深度学习还很缺乏这一点。在较少依赖语言的一些NLP问题上(比如机器翻译),我们的试验显示深度学习目前已经可以超越传统模型了。
3、在传统的机器学习任务上,模型选择一直是个问题。现在深度学习给人的感觉是要比传统的svm、决策树、或者boosting等都要好,但是实际应用中真是这样吗?像搜索排序、推荐等问题,业界已经成熟运用深度学习了吗?
【吴恩达】谢谢你的问题。Yes, Deep Learning is the best algorithm for a lot of the most important tasks that we use in production systems, including search, recommendations, and others. The general pattern is as follows: If you have a relatively small training set, then the performance depends more on your skill at hand-engineering features, and deep learning won't have a significant advantage over SVMs, Boosting, Decision Trees. But in the regime of big data—where you have a massive labeled training set—the supervised deep learning is more likely to do well. This is partially because deep learning algorithms are very "high capacity" (say high VC dimension, if you know what that is). This lets it exploit very large datasets better than most other algorithms. They are also more scalable than say an SVM with a non-linear kernel. This lets us build the systems needed to train them on huge datasets. To help visualize all this, here is a cartoon plot that explains how I think of the overall trends of the performance of DL vs. more traditional algorithms.谢谢你的问题。是的,深度学习是业界在许多重要任务上所使用的效果最好的算法,包括检索、推荐等等。一般的情况是这样的:如果你的训练集相对较小,那么最终的性能更多地取决于你设计特征的能力,深度学习同SVM、boosting、决策树等传统方法相比就没有很大的优势。但是在大数据领域——也就是你可以获得庞大的带标记的训练集——那么有监督的深度学习往往更合适。这种情况的部分原因是由于深度学习是“大容量的”(也就是很高的VC维,如果你知道这个的具体含义)。这个特点使它与其它的许多算法相比能更好地处理非常大的数据集。深度学习模型往往比传统方法,比如非线性核SVM具有更好的数据扩展性,这让我们可以构建基于大量数据集的训练模型。为了帮助大家更直观地理解,这里用一个标图来帮助解释我对于深度学习同传统算法的性能比较整体趋势的观点。

4、请问两位老师:第一个问题,怎样用深度学习做点击率预测CTR?其中一个难点在于输入特征维度高而且sparse,深度学习针对这类问题怎么解决?第二个问题,深度学习在推荐方面有什么好的方法?
【徐伟】其实这是深度学习的一个优势,把高位稀疏直接作为输入,它学到的是类似embedding一样的东西。Thus, my question is whether it is possible to apply some methods in NLP to deal with biology problems, and which ones might be most possible? -- The most widely used model for NLP is recurrent models. Perhaps they are already used for biology problems.其实这是深度学习的一个优势,把高位稀疏直接作为输入,它学到的是类似embedding一样的东西。所以,我的问题是能否将一些在NLP(自然语言处理)上的方法应用到生物学问题上?如果可以,那哪个方法最有可能呢?——在NLP中应用最广泛的模型是递归模型。它们已经在解决生物学问题上有所应用了。
5、Do you know any work is being done where AI actually helps extending and training human intelligence? Take the example of google AlphaGo. Would it be nice if professional GO players can benefit from AlphaGo's reasoning of a game?您知道有什么方面AI(人工智能)实际上能帮助扩展或者训练人类的智能吗?例如谷歌的alphaGO,专业的围棋选手是否可能通过学习它的推理过程获得提升?
【吴恩达】We saw this happen after Gary Kasparov lost to Deep Blue. Human chess players are now far better through learning from and also partnering with computer chess players. I've heard of this starting in Go as well, but that feels like it's in an earlier stage. But more generally, I see a lot of opportunities for computers to supplement the human brain. I am especially excited about online education. I think MOOCs like Coursera and open.163.com have been a great start. I hope that online education becomes more adaptive and flexible over time, and that computers can really help customize our learning experiences, the way a personal tutor might.其实从Gary Kasparov输给深蓝之后,这种情况就发生了。现在的象棋选手可以通过向电脑棋手学习或者与其对战而提高自己的水平。我也听说了关于围棋这方面的消息,但是这么说还为时尚早。更一般地说,我看到了许多计算机可以来弥补人脑的机会。我对在线教育很感兴趣,我认为像Coursera和网易公开课都是一个很好的开始;我希望随着时间的推移,在线教育将来可以更加灵活、更能适应需求,可能会成为大家的私人导师。
6、For medical imaging, it's very difficult to collect large scale, accurate, well labeled data. How can we get a better performance?对于医学影像处理,收集大规模、准确以及带标记的数据是非常困难的。请问我们如何提高性能?
【吴恩达】There's a lot of low-hanging fruit today in deep learning in problems with a lot of data. If you don't have a lot of data, in the short term you might end up have to just rely on more traditional engineering methods (including careful feature design). But looking slightly further out, I'm excited about other forms of learning, including transfer learning, semi-supervised learning and unsupervised learning - and quite possibly ones we haven't imagined yet - that would help us do well even on small amounts of data. There's a lot of active research on these topics in Baidu and elsewhere. I don't think any of us feel like we have the right algorithms yet, but I'm seeing a lot of progress each year.深度学习目前在大规模数据的应用上取得了许多唾手可得的成果。如果你并没有大的训练数据,那么短期来看,你只能从更传统的工程方法入手(包括细心设计你的特征提取)。稍微往前来看,有许多激动人心的其他形式的学习方法,包括迁移学习、半监督学习以及无监督学习——以及其他一些我们现在没法想像的方法——能帮助我们在小训练集上也能取得更好的性能。百度和其他机构都在这些领域积极开展研究。我认为没有谁现在已经找到了最佳算法,但是我可以看到每年都会有许多进步。
【徐伟】Human has the amazing ability to learn from a small amount of data, partly from its modeling capability, partly from its ability to learn from other human. Current deep learning is still lacking these abilities.人类拥有基于小规模样本进行学习的能力,一部分依赖于人类的建模能力,一部分来源于可以向其他人学习。深度学习目前还缺少这些能力。
7、Will deep learning networks evolve to develop logical thinking? Or logical thinking is completely different from deep learning methods in nature so we need different method to compensate deep learning network?深度学习网络会进化到能够进行逻辑思考吗?或者说逻辑思考与深度学习方法在本质上相差甚远,所以我们需要其他的方法来弥补深度学习网络?
【徐伟】Right now, there is no good way for to evolve a large deep learning model (there's work on evolving small models). So whether we will have deep learning model capable of handling logical reasoning will depends on the new models designed by researchers. But I do believe it is possible to be achieved by deep learning model, as evidenced by the rapid progress in the area of NLP using deep learning.目前为止,还没有好的方法去进化一个大型的深度学习模型(但在小模型的进化上有一些研究)。所以,能否让深度学习网络具有逻辑思辩能力就取决于研究者设计的新的模型。但是我认为深度学习是有可能实现这一点的,这个判断是基于深度学习在NLP上取得的飞速进展。
【雷鸣】回答结束,那我们就结束今天的讲座吧。很高兴和各位分享交流!非常感谢几位嘉宾在百忙之中参加活动!
【吴恩达】 谢谢大家的热情,这么晚的时间还在和我与徐伟交流。我们也希望未来会有更多的机会和中国的人工智能人士交流,也希望会有机会来支持中国的人工智能发展!

【徐伟】谢谢大家的非常好的问题。时间有限,不能一一解答。我们今天的沟通到此结束!谢谢大家!


如何在一年之内成为一名数据挖掘工程师?

时间: 2016-04-13 09:59 来源: CDA数据分析师 作者: 胡晓曼
分享到: QQ空间 新浪微博 腾讯微博 人人网 0

 

 

 

不管是数据分析师还是数据挖掘工程师,我们的目标都是认识数据,从数据中发现需要的信息。

 

 

 

所需要的技能

 

 

做数据分析,统计的知识肯定是需要的,Excel、SPSS、R等是需要掌握的基本技能。

我是做数据挖掘的,所以重点讲一下数据挖掘方面的技能。我本身是学数学专业的,接触数学比较多。数据挖掘要从海量数据中发现规律,这就需要一定的数学知识,最基本的比如线性代数、高等代数、凸优化、概率论等。

举个栗子,比如朴素贝叶斯算法需要概率方面的知识,SKM算法需要高等代数或者区间论方面的知识。当然,你可以直接套模型,R、Python这些工具有现成的算法包,可以直接套用。但如果你想深入学习这些算法,最好去学习一些数学知识,也会让你以后的路走得更顺畅。

我们经常会用到的语言包括Python、Java、C或者C++,我自己用Python或者Java比较多。有时用MapReduce写程序,再用Hadoop或者Hyp来处理数据,如果用Python的话会和Spark相结合。

工作内容

 

 

数据分析更偏向统计分析,出图,作报告比较多,做一些展示。知乎上有一个叫团支书的答主,他就比较偏向于数据分析。

数据挖掘更偏向于建模型。比如,我们做一个百货的数据分析。万达电商的数据非常大,具体要做什么需要项目组自己来定。百货数据能给我们的业务什么样的推进,我们从这一点入手去思考。我们从中挑出一部分进行用户分群。

消费者在商场购物消费会有一个刷卡的数据记录,万达会员卡的卡号信息以及购物记录也会在数据中呈现,数据体量是很大的。我们用这些数据做一个聚类,分成几个用户群,比如偏向亲子的、时尚女装和奢侈品的、汽车配饰的,分群之后再去给他们做推荐就相对更加容易。

我们做用户分群会用到一些聚类模型,比如K-means、K-means++等,处理数据的维度特别大,是300w*142维,如果全部拿来聚类,效果不太好,因为有一些是没有含义的,所以我们会进行降维。

降维一般会用到主成分分析,我们用的是深度学习的一个算法——Auto Encoder。它有一个输入层,一个隐含层,一个输出层,数据从输入层进去时会进行编码,从输出层出来时解码,比如我们把142维数据灌进去,在隐含层降成50维数据,输出还是142维数据。也就是说把一开始的142维数据投射到50维数据之后,再还原成142维,这142维与之前的142维数据之间的映射关系是一样的,那么我们就可以用中间50维的数据做聚类分析。

最后我们得到了一个评价指标,你可以理解为这个指标数值越小越好,越小代表各个值离中心越近。如果不用深度学习算法,得出的评价指标是20万左右,而降维之后得出的指标是600多,效果是很显著的。

我讲这个例子也是想告诉大家,如果你不具备数学知识,只是去套模型也可以做,但永远只是停留在入门阶段。大家如果想做数据挖掘工程师的话,我建议编程语言至少要会一门,数学方面至少需要线性代数、概率论和凸优化的知识,了解一些机器学习算法的推导,以及深度学习的算法。这个学习起来并不是特别难,我从毕业到现在有一年的时间,一些基本的算法已经了解的差不多了。

发展的建议

每个人都有自己的偏好。有的人会说,数学太难了,我不想做挖掘,就想做一些数据分析,做一些酷炫的分析图,这个当然可以。如果想要自己的职业生涯有长足发展的话,不要贪多贪杂,在某一个领域深入进去。你可以结合自己的兴趣,在那一个领域成为专家。

提高自己的技术和业务能力。技术能力相对来说是比较好提高的,学R或者Python这类简单的语言是很快的,Java或者C++会比较慢。当技术能力提高到一定程度的时候,就很难跟别人有技术上的差别了。可能工作一年的时候你只会R,等两三年之后相关的工具技术你都会了,这个时候你跟其他同事的区别就在于业务能力。

很多做技术的一开始会觉得技术就是特别牛特别厉害,但是光有技术并不能让你成为公司的核心成员,必须要提高自己的业务能力。如果你做的技术出的结果跟业务不相关,对公司无法产生效益,领导是不会要这个结果的,除非你是研究人员。

几个小tips

 

 

学历重要吗?

校招渠道比较看重学历,但是随着工作经验的增加,你的技术达到了一定的水平,你是二本三本实际上和985毕业的人并没有太大区别。当然,对于应届毕业生来说,学历高学校好更有优势,这是大厂的敲门砖。

也有人会问需不需要考研。考研要跟你以后的工作道路结合起来,如果想做数据挖掘,就可以选择考数学类专业的研究生,可以提高自己的竞争力。

以我的经历来说,我本科是在湖北一个很普通的学校,研究生报考武汉大学的计算数学专业。但因为两分之差,调剂到了基础数学。当时家人劝我服从调剂,好歹研究生是武大出来的。不过我的兴趣不在基础数学,这个专业也并不能给我想要从事的数据挖掘加分,还不如先在工作中积累一些实践经验,所以就放弃了读研。如果我工作几年之后需要提升能力,可以再去考个研究生,不一定非要现在就考。

转行可不可以学?

现在这个行业越来越火,很多人想要转行做数据分析。转行学数据分析师是可以的,但最好先去看一下招聘单位的工作内容,如果招聘要求懂PPT、Excel之类的就可以不要考虑了,因为这种通常招的是统计员,不是分析师,对你的职业道路不会有太大的帮助。如果要求会Python、R或者建模,你可以去尝试一下。可能别人不一定会要你,但如果你表现出足够的诚意和自学能力的话,依然有被录用的机会。

我大学读数学专业时只学了MATLAB,学了不到一年,当时在学校参加MATLAB建模比赛得了一等奖,觉得自己挺牛。但是在找工作时发现很多公司不用MATLAB或者SAS,因为比较贵,很多都会用开源的R。面试的时候,我说我不知道R是什么,领导说,给你两个星期,学。后来在工作里一点点看书,也就入门了。

跳到第四个问题,选数据分析还是数据挖掘?

很多人觉得数据挖掘很厉害,但是一转行就跳到数据挖掘是不太可能的。数据挖掘要求比较深的代码功底。

一开始我也不会写代码,毕业之后我去了一家公司,Title是中级数据分析师,但干的是数据挖掘的事儿。刚入职的一个月内,老板让我用Python出结果。之前没学过Python,我边学边做,这样把Python也学会了。后来在这家公司做过一个垃圾文本分类的项目,这个方面以前也没有接触过,就一边查资料一边自己做。一开始用公式套,但是准确率只有80%左右,我就开始看公式的推导,看懂公式原理之后就知道某些地方是可以挑优的,自己可以对算法做一些改进。不要只套公式,也要弄明白其中的公式推导,搞懂源代码,慢慢提高自己的代码能力。

怎么选公司

大公司当然是最好的。大公司一般走校招,如果你通过校招进了大公司,但是非核心的岗位,比如百度搜索方面的挖掘,当然是最好的,如果进入不了这样的岗位,不如去一些新发展起来的公司,比如美团、滴滴,这样的公司有一定的数据量,也会有一些比较强的人。

第三类公司是创业公司。如果是刚毕业最好不要选创业公司,风险比较大。你比较难以从表面上判断这家公司能不能存活下来,有没有牛人值得跟。而一些二线公司的业务骨干大多是从BAT过来的,具有比较丰富经验,跟着他们学习能让自己快速成长。

怎么面试

一定要诚实。不要造假工作经验和年限,没有必要,对自己也没有好处。毕业生求职时可以表现得真诚一点,不能说一上手就能做很多工作,但是可以展示自己的学习能力。

我也不是一开始就做数据挖掘,也是在工作中慢慢转。如果你真的想做这一行,就要有决心,不能着急。

讲个小故事,当时想转数据挖掘的时候,我不知道是选择Java还是C++。当时我投了很多数据挖掘岗位,我知道面试通过的可能性不大,但我就跟面试官聊天,请教经验。我说自己是数学专业毕业的,想要转做数据挖掘工程师,需要掌握哪些能力。面试官就画了一个图说,一个圆代表数学,一个圆代表计算机,我们需要的就是两个圆交叉的部分,如果编程语言求快的话可以先学Java;我接着问他需要看哪些资料等等,我们聊了差不多一个小时。其实很多老人带新人是很乐于分享的,多看前人的经验,帮助自己成长,一定会在这个行业有所收获。


你可能感兴趣的:(机器学习)