《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:11 如何提高你的NLP技能

11 如何提高你的NLP技能

  • 11.1 开始新的NLP职业生涯
  • 11.2 备忘列表
  • 11.3 确定你的领域
  • 11.4 通过敏捷的工作来实现成功
  • 11.5 NLP和数据科学方面一些有用的博客
  • 11.6 使用公开的数据集
  • 11.7 数据科学领域需要的数学知识
  • 11.8 总结

本附录将为您提供更多关于如何提高NLP技能的信息。这也将帮助您更新您的知识。

11.1 开始新的NLP职业生涯

如果你是一名编码员,想要在NLP工作,那么记住以下几点:

NLP,和人工智能一样,发展得如此之快,以至于你仅仅获得这些技能是远远不够的。您还需要更新它们。

Kaggle是所有NLP和数据科学人员最好的学习平台之一。如果你是第一次听说这个Hackathon平台,那么我相信通过点击这个链接,你不会失望:https://www.kaggle.com/。

参加格格舞比赛。学习、讨论和实施。

如果你来自编码背景,那么github就是你的新简历。所以,尝试创建新项目并将它们放到Github上。

参与开源社区项目。这将有助于您的思考过程,以及您的编码技能。

参加各种会议。尝试探索新的想法和技术。

阅读研究论文和文章。

成为社区和对话的一部分。

问问题。简言之,打开你自己的锁。

想想产品架构。

把你所有的学习结合起来,试着看到你的开发产品的大局。

如果你认为你已经学到了足够的东西,那么再想想。有时,您尝试过的用例、应用程序等非常相似,以至于您找不到非常有趣的东西。回忆你所有的学习和经历。给你的想法一个更好的新方向(就像牛顿或爱因斯坦一样)。他们停止学习,开始思考,给了我们伟大的科学理论。试着做一些对他人生活有积极影响的有用的事情。

11.2 备忘列表

我在这个链接上为库和框架提供备忘表:
https://github.com/jalajthanaki/NLPython/tree/master/Appendix2/Cheatsheets
备忘表包括以下库、工具和框架。这些备忘单不是我写的。我想充分赞扬为以下主题制作了备忘表的个人作者:
Linux books for beginners
Python
NumPy
SciPy
pandas
Fask
scikit-learn
TensorFlow API at https://www.tensorflow.org/api_docs/python/
TensorFlow cheat sheet at
https://github.com/crscardellino/cheatsheets/blob/master/tensorflow.md
which was made by Cristian Cardellino
Keras
PySpark
Math
Git
Linux

11.3 确定你的领域

读完所有的章节后,你可能知道足够的知识来决定你喜欢什么。是否要构建核心ML内容?您喜欢在Hadoop、Spark等框架上工作吗?你喜欢设计框架吗?您想为可视化做出贡献吗?思考和选择。

您可以从数据科学中选择任何领域,也可以成为整个数据科学产品开发生命周期的一部分。我想举个例子。我曾与中型企业和初创企业合作过。到目前为止,我有自由探索与数据科学相关的各个领域,例如提出一个数据科学产品和发布该产品。在分析了商业机会后,我曾经提出过一种新产品。我总是认为,如果我们要生产这个产品,那么我们的最终用户会使用它,作为回报,我所工作的公司将获得它的积极影响,从而验证我的产品提案。然后,我将通过问许多问题开始设计部分的工作,例如我们需要什么类型的数据,我们将使用什么数据资源,我们需要收集哪些关键数据点,产品的架构是什么,我们将使用什么机器学习模型,我们将如何与现有产品集成,当WI我们可以释放它,等等。如果你像我一样思考,想要在所有领域,以及数据科学产品的每个组成部分上工作,那么这是一件非常好的事情。只需用心并充满激情地完成你的工作。也可以看到大局。

11.4 通过敏捷的工作来实现成功

NLP或其他与数据科学相关的项目需要多次迭代才能获得最佳输出。你需要理解问题陈述。在此之后,为了获得最佳结果,您需要从分析数据开始。在分析了数据之后,做一个基本的原型。然后验证您的模型。如果它给你最好的结果,那么你就完成了;如果没有,那么尝试实现不同的算法,进行超参数调整,或者更改或改进你的特性集。你需要在工作过程中保持敏捷。试着找出你的问题或错误,然后做聪明的迭代。询问有关堆栈溢出的问题。尝试搜索答案。这真的对你有帮助。用所有的技术和工具来更新你自己。有一些库可以解决您的问题。寻找任何可用的付费第三方工具,并尝试了解其工作原理。在使用该工具之后,您有可能成为产品的主人,并且您的产品对最终用户更有价值。

11.5 NLP和数据科学方面一些有用的博客

Here are some important blogs for NLP and data science:
http://www.datasciencecentral.com/
https://nlp.stanford.edu/blog/
http://www.kdnuggets.com/
https://nlpers.blogspot.in/
https://lingpipe-blog.com/lingpipe-home-page/

11.6 使用公开的数据集

以下是可用数据集的列表:
Kaggel dataset: https://www.kaggle.com/datasets
UCI machine learning: http://archive.ics.uci.edu/ml/
Reddit: https://www.reddit.com/r/datasets/
包含公共数据集列表的出色Github存储库:
https://github.com/caesar0301/awesome-public-datasets
Google Advanced Search is also handy when you are searching for datasets:
https://www.google.co.in/advanced_search

11.7 数据科学领域需要的数学知识

如果你是非技术背景的学生,你想学习数学可能对你的NLP或其他任何数据科学项目有帮助,然后你可以开始从此网站学习:
h t t p s ?/w w w . k h a n a c a d e m y . o r g /m a t h .
如果要访问参考链接、研究论文和书籍,则可以单击以下Github链接:
https://github.com/jalajthanaki/NLPython/tree/master/Appendix2

11.8 总结

本节的重点是向您提供有关安装各种库的详细信息。我还提供了各种IDE的安装步骤。为了让您的生活更轻松,我开发了一个PIP需求文档。通过运行前面给出的命令,您将能够安装python依赖项。我已经给出了在您的机器上安装Hadoop和Spark的步骤,并在单个节点集群中运行这两个步骤。如果你想问我安装方面的问题,你也可以和我联系。

致谢
《Python自然语言处理》1 2 3,作者:【印】雅兰·萨纳卡(Jalaj Thanaki),是实践性很强的一部新作。为进一步深入理解书中内容,对部分内容进行了延伸学习、练习,在此分享,期待对大家有所帮助,欢迎加我微信(验证:NLP),一起学习讨论,不足之处,欢迎指正。
在这里插入图片描述

参考文献


  1. https://github.com/jalajthanaki ↩︎

  2. 《Python自然语言处理》,(印)雅兰·萨纳卡(Jalaj Thanaki) 著 张金超 、 刘舒曼 等 译 ,机械工业出版社,2018 ↩︎

  3. Jalaj Thanaki ,Python Natural Language Processing ,2017 ↩︎

你可能感兴趣的:(2017年度)