书声琅琅旗下智圭谷科技:Python数据分析相关的库和软件的精选清单

概述
这是一个Python 相关的框架,库和软件的精选清单,引用自 awesome-Python项目,并翻译补充而来这是一个Python 相关的框架,库和软件的精选清单,引用自 awesome-Python项目,并翻译补充而来


资源(视频)
What is a data warehouse
解读-数据仓库到底是什么?
A day in the life of a data scientist
数据科学家日常的一天
Getting started with anaconda individual edition
初学Python者自学Anaconda 的正确姿势是什么?What are the skills you need to become a data scientist in 20202020成为数据科学家需要的技能
What`s a tensor? 
张量究竟是什么?
Python编程 
快速掌握python用法与其核心操作
Python可视化 
进行数据可视化
机器学习实战 
用代码实现算法
机器学习sklearn 
探索算法的神秘世界
数据分析

用于数据分析的库。

  • Blaze -NumPy和Pandas连接到大数据。

  • Pandas界面中的Open Mining-商业智能(BI)。

  • Orange -通过可视化编程或脚本进行数据挖掘,数据可视化,分析和机器学习。

  • Pandas-一个提供高性能,易于使用的数据结构和数据分析工具的库。

  • Optimus -敏捷数据科学的工作流程变得容易与PySpark。

  • AWS Data Wrangler -AWS上的Pandas。
     

数据可视化

用于可视化数据的库。另请参阅awesome-javascript。

  • Altair-用于Python的声明性统计可视化库。

  • Bokeh -Python的交互式Web绘图。

  • bqplot -Jupyter Notebook的交互式绘图库

  • Dash -建立在烧瓶顶部,反应,Plotly旨在分析Web应用程序。

    • awesome-dash

  • diagrams -图表为代码。

  • plotnine-基于ggplot2的Python图形语法。

  • Matplotlib-一个Python 2D绘图库。

  • Pygal-一个Python SVG图表创建器。

  • PyGraphviz - Graphviz的 Python接口。

  • PyQtGraph-交互式和实时2D / 3D /图像绘制以及科学/工程小部件。

  • Seaborn -使用Matplotlib统计数据可视化。

  • VisPy-基于OpenGL的高性能科学可视化。
     

数据库

用Python实现的数据库。

  • pickleDB -Python的简单轻量级键值存储。

  • tinydb-一个小型的,面向文档的数据库。

  • ZODB -Python的本机对象数据库。键值和对象图数据库。


数据库驱动程序

用于连接和操作数据库的库。

  • MySQL- 很棒的MySQL

    • mysqlclient-支持Python 3的MySQL连接器(mysql-python fork)。

    • PyMySQL-与mysql-python兼容的纯Python MySQL驱动程序。

  • PostgreSQL- 很棒的 Postgres

    • psycopg2-最受欢迎的Python PostgreSQL适配器。

    • queries -psycopg2库的包装,用于与PostgreSQL交互。

  • 其他关系数据库

    • pymssql -Microsoft SQL Server的简单数据库接口。

    • SuperSQLite-建立在apsw之上的增压SQLite库。

  • NoSQL数据库

    • cassandra-driver -Apache Cassandra的Python驱动程序。

    • happybase -Apache HBase的开发人员友好型库。

    • kafka-python -Apache Kafka的Python客户端。

    • py2neo-用于Neo4j的客户端库和工具包。

    • pymongo -MongoDB的官方Python客户端。

    • redis-py -Redis的Python客户端。

  • 异步客户端

    • motor -MongoDB的异步Python驱动程序。
       

日期和时间

用于处理日期和时间的库。

  • Arrow-一个Python库,提供了一种明智且人性化的方法来创建,操作,格式化和转换日期,时间和时间戳。

  • Chronyk-一个Python 3库,用于解析人类编写的时间和日期。

  • dateutil-标准Python datetime模块的扩展。

  • delorean-一个库,用于清除与日期时间有关的不便的事实。

  • moment -一个Python库用于处理日期/时间。受到Moment.js的启发。

  • Pendulum -Python日期时间变得容易。

  • PyTime-一个易于使用的Python模块,旨在按字符串操作日期/时间/日期时间。

  • pytz-世界时区定义,现代和历史。将tz数据库引入Python。

  • when.py-提供用户友好的功能来帮助执行常见的日期和时间操作。

  • maya-人类的日期时间。
     

深度学习

  • caffe-深度学习的快速开放框架。

  • keras-一个高级神经网络库,能够在TensorFlow或Theano之上运行。

  • mxnet-专为效率和灵活性而设计的深度学习框架。

  • pytorch-具有强大GPU加速功能的Python中的张量和动态神经网络。

  • SerpentAI-游戏代理框架。使用任何视频游戏作为深度学习沙箱。

  • tensorflow -Google创建的最受欢迎的深度学习框架。

  • Theano-一个用于快速数值计算的库。
     

地理位置

用于对地址进行地理编码以及使用纬度和经度的库。

  • django-countries-一个Django应用,为模型和表单提供国家/地区字段。

  • GeoDjango-世界一流的地理网络框架。

  • GeoIP的 - Python的API为的MaxMind GeoIP的遗留数据库。

  • geojson -GeoJSON的Python绑定和实用程序。

  • geopy -Python地理编码工具箱。

  • pygeoip-纯Python GeoIP API。
     

HTTP客户端

使用HTTP的库。

  • grequests-异步HTTP请求的request + gevent。

  • httplib2-全面的HTTP客户端库。

  • httpx-用于Python的下一代HTTP客户端。

  • 请求 -人类的HTTP请求。

  • treq -Python要求,例如在Twisted的HTTP客户端之上构建的API。

  • urllib3-具有线程安全连接池,文件发布支持,友好的HTTP库。
     

机器学习

机器学习图书馆。另请参阅很棒的机器学习。

  • H2O-开源快速可扩展机器学习平台。

  • Metrics -机器学习评估指标。

  • NuPIC -Numenta智能计算平台。

  • scikit-learn-最受欢迎的机器学习Python库。

  • Spark ML - Apache Spark的可扩展机器学习库。

  • vowpal_porpoise-用于Vowpal Wabbit的轻量级Python包装器。

  • xgboost-一个可扩展,可移植和分布式的梯度增强库。
     

自然语言处理

用于使用人类语言的图书馆。

  • 一般

    • gensim-人类主题建模。

    • langid.py-独立的语言识别系统。

    • nltk-用于构建Python程序以使用人类语言数据的领先平台。

    • pattern -Web挖掘模块。

    • polyglot-支持数百种语言的自然语言管道。

    • pytext的 -基于PyTorch自然语言建模框架。

    • PyTorch-NLP-一种工具包,可用于研究的快速深度学习NLP原型。

    • spacy -一种用于Python和用Cython工业强度的自然语言处理库。

    • Stanza -Stanford NLP Group的官方Python库,支持60多种语言。

  • 中文

    • jieba-最受欢迎的中文文本分割库。

    • pkuseg-python-用于各种领域的中文分词的工具包。

    • snownlp-一个处理中文文本的库。

    • funNLP-中国NLP的工具和数据集的集合。
       

推荐系统

用于构建推荐系统的库。

  • annoy -C ++ / Python中的近似最近邻居针对内存使用进行了优化。

  • fastFM-用于分解机的库。

  • implicit -对隐式数据集进行协作过滤的快速Python实现。

  • libffm-现场感知分解机(FFM)的库。

  • lightfm-许多受欢迎的推荐算法的Python实现。

  • spotlight -使用PyTorch的深度推荐模型。

  • Surprise-用于构建和分析推荐系统的scikit。

  • tensorrec -TensorFlow中的推荐引擎框架。
     

网络爬虫

库可自动进行网页抓取。

  • cola-分布式抓取框架。

  • feedparser-通用供稿解析器。

  • 抓 -网站抓取框架。

  • MechanicalSoup-用于自动与网站进行交互的Python库。

  • pyspider-强大的蜘蛛系统。

  • robobrowser-一个简单的Pythonic库,无需独立的Web浏览器即可浏览Web。

  • scrapy-快速的高级屏幕抓取和网络爬网框架。

  • portia - Scrapy的视觉抓取。
     

兼容性
从Python 2迁移到3的库。

  • python-future -Python 2和Python 3之间缺少的兼容性层。

  • python-modernize-为最终的Python 3迁移现代化Python代码。

  • six -Python 2和3兼容性实用程序。

计算机视觉

计算机视觉图书馆。

  • Kornia - PyTorch的开源可区分计算机视觉库。

  • OpenCV-开源计算机视觉库。

  • pytesseract - Google Tesseract OCR的另一个包装。

  • tesserocr-tesseract-ocr用于OCR 的API的简单,友好的包装器。

  • SimpleCV-用于构建计算机视觉应用程序的开源框架。
     

并发与并行

用于并发和并行执行的库。另请参阅awesome-asyncio。

  • parallel.futures-(Python标准库)用于异步执行可调用对象的高级接口。

  • multiprocessing-(Python标准库)基于进程的并行性。

  • eventlet-具有WSGI支持的异步框架。

  • gevent-使用greenlet的基于协程的Python网络库。

  • uvloop-在.NET之上的asyncio事件循环的超快速实现libuv。

  • scoop -Python中的可伸缩并发操作。

你可能感兴趣的:(python资讯)