想到专业,我反正第一个反应就是professional,和这个那些个看不懂摸不着的专业名词,特别是那些关于我们工作中的很多引文词汇,存在便有意义,专业词汇一方面方便了业内人士的沟通,另一方面也是鉴别专业人士的一道行业门槛(就跟那个土匪的黑话一个理儿)。最近自己准备换一份工作,所以会经常浏览各大招聘网站,遇到了各种各样岗位要求中的英文单词,我作为一名负责人的大数据工程师,今儿我以我的角度来为大家整理下(括号中的数字为我统计所得在各岗位要求中出现的次数,并会按多寡进行排序,当然很多我也不是很懂哈,都是些自己言简意赅的理解碎片,专业人士请纠正或无视~)。
-
编程语言
-
java (37)
现在最主流的编程语言,烂大街了,但也是应用最广泛的语言,很多大数据框架都是基于它。 -
python (28)
一种胶水儿语言(也就是什么工具包都能调用),自从人工智能以来,简直火到没朋友,不管科研、业务、生产 现在各行各业都有相应的工具包可以调用,未来也不可限量。前不久不刚加入到了计算机二级的行列吗,可见国家还是很重视的。 -
C++ (19)
老而弥坚的一门语言,其作者就是想创造一种不带更多约束,更能体现programer 编程艺术的语言。偏底层一些,是好多语言它亲爹,也是很多互联网大公司,或有实力发掘底层潜力公司的招贤技能目标。 -
C (17)
这么说呢?就类似于山顶洞人,元谋人 在人类历史上的地位,C++它祖上,运行效率极高,底层技术,面向过程,第一代高级语言(类比第一代智人),很多对运行效率有要求,或安全方面的公司会用到的语言。 -
GO (8)
大公司,强调一下,大公司google 推的语言,不是很懂,但看名字就知道6B,over。 -
PHP (6)
世界上最好的语言,呵呵~ 但搭建网站什么的快的飞起。 -
Perl (6)
好像是处理报表的还是咋的,作者说这语言很“高级”,看不上前面几种,说其他高级语言在perl面前顶多算“中高级”,直接提供泛型这些,直观易懂,接近人类语言。 -
Shell (4)
原名内核,Linux的概念,一种脚本语言。 -
sql (3)
结构化查询语言,就是数据库用的语言,增删改查这些,以前在公司里面快用到吐了~ -
R (3)
一种统计和绘图语言,特别是数学专业,和科研机构使用的特别多,市场占有率高于Python,主流数据分析语言之一。 -
jquery (2)
脚本语言(什么是脚本语言?就是说批量执行的命令,类比演员的剧本的什么吧,照着这个来~),基于JavaScript的,是对其进行一次封装,便于使用吧。 -
Ruby (2)
来自日本的编程语言,面向对象,命令式,函数式,动态通用,秉持"人主机仆"的设计思想,更符合人的思考方式。 -
Swift (1)
苹果系开发中,原Object-c的替代者,相对更符合现代编程潮流,能在书写工程中便呈现结果。 -
lua (1)
一款用c编写的轻量级脚本语言,常用作其他语言的嵌入式脚本语言,来实现程序可配置性和可拓展性。
-
-
操作系统
-
Linux (14)
好像是个大学教授为了方便自己实验而编写的轻量级操作系统,因为非常简洁、方便、好用,所以被广泛应用于服务器,单片机。同样因为是开源的,不管大小公司出于成本考虑都爱以其为平台。 -
Android (11)
google旗下的开源移动端系统,平板、手机、汽车都能用,与ios系统分庭抗礼。特点为:开源,灵活,基于java,利于程序员。 -
IOS (11)
apple公司的移动端系统,主要用在其ipad和iphone上,前期使用object-c进行软件开发,后期转为swift,ide为xcode。特点:封闭,安全,优化还是比较到位的,用户用起来方便。 -
unix (8)
大型商用操作系统,功能完整、完善,比较贵,不开源,Linux的爹吧~ -
Windows (2)
世界上占有率最高的商用操作系统(占领中国主要还是靠盗版),虽然一直在用,但对其内核运行和运行的机制不太了解,因为占有率高,所以各种软件都能支持,通用。一代一代人的回忆呀,说不定你现在就在用。
-
-
数据库相关
-
MySQL (14)
目前最通用的关系型数据库,轻便,小巧,而且开源,但对于大数据量的数据不能很好支持。 -
Oracle (10)
非常普及的一款数据库,很多互联网公司在使用大数据系统之前,都是用它,市场占有率最高的一款非开源数据库了吧,其DBA市场价值颇高。 -
NoSQL (6)
不同于传统关系型数据库,不适用sql作为查询语言,存储数据不需要固定的表格模式,避免jion操作,水平可拓展。 -
SQL Server (6)
微软的数据库,封装的很厚,但使用起来比较方便,也算微软的特点吧,以前公司里面天天用,快写吐了。 -
PostgreSQL (6)
可编程性非常高的数据库,面向对象的思想在数据库中的应用,没用过,应该很不错。 -
Redis (4)
nosql 的一种,因为属于常驻内存的键值对数据库,所以响应速度极快,可以归纳为大数据技术的一部分吧。 -
BASE (4)
计算机系统从集中式向分布式变革期间产生的数据库理论,是CAP中一致性(C)和可用性(A)权衡的结果,由基本可用性(basically availability)、软状态(soft state)和最终一致性(eventually consistency)组成。 -
DBA (3)
数据库管理员。 -
Cassandra (2)
开源分布式nosql数据库,facebook应用后开源,宽列(二维),各节点地位平等,依概率存储。 -
sharding (2)
数据库分片,一般指开源数据库拓展性解决方案。 -
DB2 (2)
IBM的一款关系型数据库,听说功能强大,但很贵,国内很多国企、央企在使用,类似的有OREACAL,据说是第一个使用sql的数据库。 -
CAP (2)
nosql数据库设计三基石,一致性(consistency)、可用性(availability)和分区容错性(partition tolerance),分布式系统中三者不可兼得。 -
2pc (2)
(two-phrases commit )分布式架构下,为保证各节点事务提交一致性而设计的算法,也可以看成一种协议。类似的还有3pc。 -
ACID (1)
数据库事务四特性:原子性(atomicity)、一致性(consistency)、隔离性\独立性(isolation)和持久性(durability)。
-
-
云技术
-
Google Cloud Platform (2)
google云平台,使用了google基础架构、数据分析和机器学习技术的云计算服务。市场占有率不如AMS和azure,擅长AI。 -
DRDS (2)
分布式关系型数据库服务(distributed relational database service),阿里自主研发的数据库中间件,支持mysql协议和语法,解决单机数据库流量瓶颈、扩容困难、使用成本高等问题。 -
AMS (2)
亚马逊云服务平台(amazon web service),与阿里云类似,提供计算、存储和内容交付等功能。 -
ADS (1)
阿里分析数据库技术(analysis databases service),阿里提供的云端实时高并发在线分析服务(realtime OLAP),毫秒级针对千亿数据分析。 -
ACE (1)
阿里云引擎 AliCloud Engine。
-
-
人工智能相关
-
NLP (6)
natural language process 自然语言处理 -
tensorflow (6)
google brain团队开发的的一个开源软件库,用于各种感知和语言理解任务的机器学习。现在最流行的深度学习框架之一。 -
Caffe (5)
深度学习框架,cpu、gpu无缝切换,比较流行,社区开放。 -
sklearn (4)
全称scikit-learn,功能强大的Python工具包,在数据量不是很大的情况下能解决大多数机器学习和数据挖掘方面的问题。 -
ML (2)
machine learning 机器学习。 -
DL (2)
deep learning 深度学习,属于机器学习的一种。 -
Parameter Server (2)
参数服务器,主要是分布式参数服务器,拥有计算节点和参数存储节点,为大型机器学习和神经网络存储和计算大量参数,已解决AI发展带来的硬件性能瓶颈。 -
AI (1)
artificial intelligence 人工智能。 -
GPU (1)
图形处理器(graphics processing unit),比CPU拥有更多线程,更多寄存器,更长流水线,更擅长计算密集性和易于并行的程序(比如DeepLearning、SIMD)。 -
Graphical models (1)
图模型,描述点和点之间的边的模型,特别的PGM(probability graphical models)对于构建大型机器学习至关重要。 -
online learning (1)
工业界常用机器学习方法,是对于模型的一种训练方法,能够根据线上的反馈数据调整和训练模型,以反应实时变化,提高预测的准确率。
-
-
大数据开发
-
spark (25)
准实时计算系统,现在最火的开源大数据集群计算框架,内存运算,相较于MapReduce框架速度能快100倍以上,搭配集群管理员(spark本地、yarn、mesos)和分布式文件存储系统(hdfs)。 -
Hadoop (22)
搞大数据的人都应该知道的一款分布式大数据处理框架,是google 论文 MapReduce的实现,HDFS的文件系统+MapReduce的文件处理系统,键值对为基本数据单元,擅长大批量数据处理,特别是内存不怎么大时,现在慢慢被更为强大的spark所代替。 -
storm (15)
分布式实时流处理和计算框架,特点是实时计算,但不会提供手机和存储功能,所以应用于 流处理和实时性要求高的场景。 -
Hive (9)
构建在hadoop之上的一款数据仓库工具,能将结构化的数据映射并存储到hdfs上,并能将sql查询转换为MapReduce命令,方便了数据的精炼、查询和分析。 -
HBase (6)
也是对google论文bigtable的实现,以hdfs分布式文件存储系统,基于列的模式,更适用于非结构化数据库,hive和pig提供了高层的语言支持,速度快。 -
Flink (6)
针对流数据和批数据的分布式处理引擎,支持快速迭代和环形迭代,可定制化内存管理,应用场景类似于storm。 -
ElasticSearch (4)
一款基于Lucene 的大数据存储和搜索引擎,具体不是很清楚,但功能强大。 -
kafka (4)
大型的消息系统吧,现在很多公司流行使用其作为消息系统,有生产者、消费者等诸多概念。因为使用顺序读写磁盘,所以可以很好地缓存消息队列,功能强大。 -
mapreduce (4)
hadoop架构的一部分,用于大规模数据的并行运算,map(映射)、reduce(归纳),键值对的分解和组合,体现了函数式编程的思想。 -
ETL (4)
描述数据从来源端经 抽取(extract)=> 转换(transform)=> load(装载) 到达目的端的过程。 -
Dubbo (3)
阿里开源分布式服务框架,消费者服务者模式,分层解耦,与spring无缝衔接。 -
Memcache (2)/memcahced (2)
自由开源的,高性能的,分布式内存对象缓存系统,基于内存key-value存储,支持多核。 -
ZK (2)
全称ZooKeeper,动物园管理员,顾名思义,是一款开源分布式应用程序协调服务,google Chubby的开源实现。据我所知,很多大数据的工具都会支持zookeepr 以提供统一化的管理。 -
mesos (2)
apache开源资源集群管理调度软件,hadoop、spark、kafaka、Elastic search 都能用,同类型的有yarn,但相较于yarn,管理粒度更细,大型互联网公司可能跟偏向于用mesos。 -
Impala (2)
构建在hadoop的hdfs和hbase上的新型查询系统,提供sql语义,不同于hive的MapReduce实现,它借鉴了MPP(massively parallel processor)大规模并行处理的思想,所以在查询速度上更加快速。 -
Spanner (2)
google cloud 平台下的全球级分布式数据库,通过同步复试和多版本来保证外部一致性,良好可用性。依赖GPS和原子钟api,并融入了google大量的专有技术。 -
odps (2)
(open data process server)阿里通用计算平台提供的快速PB级数据仓库解决方案,现已经改名MaxCompute,为用户提供完善数据导入和多种经典分布式计算模型。 -
MPP (2)
大规模并行处理(massively parallel processing),多个处理器处理同一个程序的不同部分时,该程序的协调过程。松散耦合,用于允许平行搜索大量数据库的应用程序。 -
OLAP (2)
(online analysis processing)联机分析处理,在OLTP无法满足企业数据分析的现状下,提出的对数据仓库的FASMI(fast analysis of shared multidimensional information)。切片切块、钻取和旋转为其核心功能。 -
paxos (2)
一种一致性算法,解决分布式系统中消传递过程中节点故障容错的问题。 -
HDFS (1)
apache下一款通用的高容错分布式文件系统,hadoop的核心,现在大数据普遍都在使用它,可以部署到廉价机上面,适合大规模数据集。
-
-
物联网
-
iot (3)
internet of things 物联网。
-
-
前端相关
-
react (4)/ReactJS (1)
facebook开发的一套JS库,通过操作virtual dom 用diff算法 实现dom单向绑定。使代码编写更专注于UI,实现可预期和声明式的web界面,功能强大。 -
UI (3)
user interface 用户界面,泛指用户操作界面。 -
vue (2)
构建用户界面的渐进式框架,可自底向上逐层应用,核心库只关注于视图层,当前社区活跃度很高。 -
angular (2)
一套功能强大的JavaScript框架,扩展了html,声明式编程的思想,核心在 MVW(model view whatever)、模块化,自动双向绑定,语义化了标签,注入依赖等。擅长构建CRUD(creative、retrieve、update、delete) web应用。 -
node.js (2)
能够在服务器端运行JavaScript的运行环境,大致理解为可以将后端的一部分工作交给前台代码实现,其代码逻辑可以延伸到服务器端,程序可以脱离iis,server等独立运行。事件驱动、非阻塞I/O、高效、轻量级。 -
html (2)
标记语言,将内容按功用分类的意思吧~ 标明什么是什么,每个元素是什么东西。 -
css (2)
配合html,为html中的元素定义显示方式,最新的css3还能支持样式的动态表现。 -
react-native (2)
相对于react更关注UI,它照顾到了view层具体原生组件的实现,提供了封装好的原生组件(ios、Android、web、甚至windows、macOS等),提供了react组件实现原生app的能力。 -
fiber (2)
全称react-fiber,react引入的纤程的概念后的版本,相较于线程有更精细的调度和控制,只为解决react virtual dom渲染过程中的界面卡顿现象。 -
reactconf 2017 (2)
应该是react官方大会,一年一度,会上会对react社区的各个方面的新成果和技术做展示和开源,同时回顾过去展望未来。 -
ecmascript (2)
Europe computer manufactures association script 欧洲计算机制造商协会标准化脚本语言,网景公司将JavaScript 交给该协会进行标准化后的产物,目前JavaScript的功能已经超出了该标准范围。 -
gulp (2)
前端基于文件流的构建工具,自动化完成任务,与grunt类似,但流程上由于后者。 -
native (2)
原生应用,就是说直接基于平台运行的应用(如ios、Android、mac等等),使用平台推荐的开发语言和工具。 -
redux (2)
react的一部分,视web应用为一状态机,状态与视图一一对应,所有状态保存于一个对象里面,以方便大型应用解决代码结构和组件间通信的问题。 -
rxjs (2)
react extension for javascript,javascript的响应式拓展。思路是将随时间不断变化的数据、状态和事件转化为可被观察到的序列,然后订阅observable的变化,若有变化则执行事先安排好的各种转换操作。作为js库,可与各种框架混用。 -
H5 (1)
html5,w3c上定义为xml和html的结合,下一代互联网页面标签的标准,具有很好地跨平台性,恩,就是一套标准。 -
Zepto (1)
轻量级针对高级浏览器的JavaScript库,类似于jQuery,但更面向移动端。
-
-
后台技术
-
spring (8)
j2ee开源框架,分层架构,AOP和IOC帮助其实现松散耦合。现在的主流j2ee框架。 -
Tomcat (5)
Apache 基金会下jarkata项目组开发的一个开源servlet容器,内涵http服务器,可被视为单独的web服务器。 -
j2ee (5)
(java 2 platform,enterprise edition)为大型主机级计算而设计的java平台,是一种主流标准。 -
JBoss (5)
基于J2ee开放源代码的应用服务器,是管理EJB的容器和服务器,核心不包括支持servlet/jsp的web容器,一般与tomcat结合使用。 -
jvm (4)
java virtual machine java虚拟机,具有自己完整的硬件架构和指令系统,屏蔽了与操作系统有关的信息,使java程序只需生成在java虚拟机上运行的目标代码即可不加修改的在多种平台上运行。 -
iBatis (4)
Apache开源项目,O/R mapping 解决方案,实现java对象和数据库表之间的映射,小巧简单,上手快,现改名为mybatis。 -
springMVC (3)
springFrameWork 后续产品,经典的教科书般的MVC框架,现在的主流产品。 -
Kubernate (2)/Kubernetes (2)
也称K8s,自动化容器操作开源平台,支持自动化容器部署和部署,扩展和收缩容器规模,容器间负载均衡,容器弹性等。 -
Django (2)
python的一款开源web框架,遵循mvc,开发快速。 -
flask (2)
Python的一款轻量级web框架,被称为“microframework”,使用简单的核心,用extension添加功能。 -
Hibernate (2)
java下对象关系映射解决方案,将java类映射到数据库中的表,将程序员从大量的持久层编程工作中解放出来,以实现敏捷开发。 -
mycat (2)
分布式开源数据库系统,是一个实现了mysql协议的服务器,前端可视为数据库代理,后端与多个主流数据库建立通信,分库分表为其核心功能。 -
Nginx (2)
一个异步框架的web服务器,常用作反向代理、负载均衡和http缓存,可进行大量并行处理,基于linux会更快,市场占有率高,被认为是目前最好的web服务器。 -
maven (1)
项目管理和自动化构建工具,遵循约定优于配置,本质是一个插件框架,插件与maven生命周期绑定在一起,构建工作交由插件执行。
-
-
运维技术
-
Docker (1)
容器技术,相较于虚拟机,容器实现进程隔离,并共享操作系统。 -
Docker Swarm (2)
Docker的集群管理工具,可以封装并虚拟化多个Docker,现在还处于apha阶段。
-
-
文件系统
-
IO (3)
input & output 输入和输出。 -
RawFs (2)
原生文件系统,将整个磁盘看成大文件,通过字节偏移量来访问,提供简单缓冲方法,对于简单、底层的磁盘I/O,拥有最快速度和最省空间。 -
Ceph (1)
符合POSIX,开源分布式文件系统,主线linux内核的一部分。
-
-
网络相关
-
DNS (2)
域名服务器。 -
AD (2)
活动目录(active director),windows server 平台核心组件,方便用户管理网络环境中各组成要素。 -
RPC (1)
远程过程调用(remote procedure call)为一通信协议,允许一台计算机的程序调用另一台计算机的子程序。 -
TCP/IP (1)
互联网的协议族,因其核心协议TCP和IP最早得到通过,故得其名。可以说是现代网络的基石。
-
-
信息安全
-
CSRF (1)
跨站请求伪造(cross-site request forgery),简单理解就是 攻击者盗用你的身份,以你的名义发送恶意请求。 -
XSS (1)
跨网站指令码(cross-site scripting),代码注入的一种,将脚本代码注入到网页上,影响其他用户使用该网页。
-
-
中间件
-
WebLogic (2)
Oreacle 公司出的一个application server,本质是基于J2EE架构的中间件,用于集成web应用、网络应用和数据库应用。 -
WebSphere (2)
IBM出品的web应用服务器,本质也是一款集成中间件。 -
ActiveMQ (2)
apache 开源消息中间件技术,是JMS标准的一个实现,支持多种语言,功能全面而丰富,低 TPS下首选。 -
DBproxy (1)
360开发的数据库中间件,水平拓展数据库,通过路由连接到指定数据库,解决直连数据库带来的性能瓶颈问题,可实现读写分离。
-
-
硬件相关
-
SSD (2)
solid state disk 固态硬盘,以闪存作为永久性存储介质,读写速度优于普通磁盘。
-
-
软件工程
-
DevOps (4)
development 和 operates 的组合词,一种自动化开发和运维的软件交付和架构变更的流程,实现敏捷开发。 -
DevSecOps (2)
development、security、operates 的组合词,在DevOps流程中加入安全概念,从重视风险的角度帮助企业最小化危险。 -
Code Review (2)
顾名思义,对代码做复查,软件工程中pair work 方法中的一部分。 -
BI (2)
business intelligence 商业智能。 -
CRM (1)
client relationship management 客户关系维护。 -
PM (1)
project manager 项目经理,链接客户和项目团队,管理并协调团队人员完成相应目标任务。 -
POC (1)
概念验证(proof of concept),对某个想法不完整的实现,以证明其可行性,示范其原理,目的是验证一些概念或理论。 -
HIS (1)
hospital information system 医院信息管理系统。 -
pos (1)
point of sale(销售终端),商场里面经常见到,连接网络可以完成资金自动划拨结算。 -
IOE (1)
IBM的小型机,oracle的数据库,emc的高端存储,现在好多企业提出去ioe,目的就是为了降低成本和提供对未来业务的可拓展。 -
PRD (1)
产品需求文档(product requirement document)。 -
SOA (1)
面向服务的架构(service oriented architecture),将应用程序的各个功能模块定义良好的接口,使标准化的服务能跨硬件,跨操作系统,跨编程语言的提供,以统一通用的方式交互。 -
SRE (1)
site reliability engineer 网站可靠性工程师,软件工程师和系统管理员的结合,掌管互联网公司的机器和服务,保证网站不宕机是他们的使命。
-
-
一些证书
-
ACA (1)
Alibaba Cloud Certified Associate 阿里云云计算助认证。 -
ACP (1)
全称PMI-ACP(project management institute - agile certified practitioner),敏捷开发管理认证。
-
-
常用工具
-
webpack (2)
模块打包机,分析你的项目,把JavaScript和其他浏览器不能直接运行的拓展语言,转换和打包成合适的格式供浏览器使用。 -
AntD (1)
一款java生成工具,跨平台编译和生成你的项目。 -
Excel (1)
谁用谁知道的表格统计软件,微软出的办公软件,可用于数据分析,功能强大。
-
-
常见术语
-
web (13)
world wide web 全球广域网,万维网。建立在internet上的,基于http和超文本的信息系统。 -
app(2)
application 应用、软件。 -
O2O (1)
online to offline,线上获取,线下交易。将线下的商业机会与互联网相结合,让互联网成为线下交易的信息平台。
-
了解并记住这些名词,能帮助你与不同部门的同事更有效的沟通,开会的时候也能更好的跟上大家的思路,下来自主学习也能把握好各方面知识的维度。当然最重要的是,各种套路各种B随便装,哈哈哈。想想,当你满口高级专业词汇的时候,同事小妹妹投来的仰慕的目光,恩,我不懂你,但你至少看起来很专业!
PS:网上查这些资料,真的是累死个人,但收获了不少,思路和视野也开拓了很多。