广州-小护士

招聘工程学第一集 - 寻觅有钱的公司

大家好啊，我是小护士。今天，我将会陆续编写招聘工程学相关的内容，并以此给大家带来全新的技术博客阅读体验，希望大家喜欢，谢谢。

如你所见，招聘工程学是一种利用计算机软件技术重新定义招聘的工作方法。这里说的招聘，并不是传统意义上站在雇主的角度去看待的事情。老板可以招聘员工，员工也可以招聘老板，这是双向的选择。我认为传统招聘都是基于过程式流程式的事务处理，从雇主发布招聘信息开始，然后人选投递简历，再到简历筛选、通知面试、通知招聘结果，最后进行入职流程。招聘工程学没有那么简单，它需要先采集大量无效信息，然后经过自动化处理后提取有用的信息，帮助雇主和人选进行有效的匹配，节省招聘时间，提高招聘效率。这里可能描述得有点抽象，不管怎么样，我会用时间来证明它的价值。招聘工程学不是小护士个人画的大饼，它是基于一个个实在的软件工程任务组合起来的方法论。而今天，它的第一个主要任务就是寻觅有钱的公司。

工具箱

首先，我会严选一下需要用哪些工具完成今天的任务。

工具	性质	用途	官网链接
Python 3.4	编程语言	完成任务逻辑	https://docs.python.org/3/
MongoDB 4.0	NoSQL数据库	存储数据	https://docs.mongodb.com/v4.0/
Requests	Python代码库	处理HTTP协议网络任务	http://docs.python-requests.org/en/master/
Beautiful Soup 4	Python代码库	解析HTML格式文本	https://www.crummy.com/software/BeautifulSoup/bs4/doc/
Pymongo	Python代码库	处理MongoDB存储任务	http://api.mongodb.com/python/current/tutorial.html

以上这些工具，我是非常推荐大家去经常使用的。它们代表着前沿的技术潮流，非常酷炫，用起来犹如回到未来。但是，在本篇博客中，我不会介绍如何在开发环境或者生产环境去安装这些工具。这些事情只能靠大家自己动手去实践，如果不知道从何开始，那就先准备好一杯尚好的咖啡，挨着点击上面的官网链接，花一个小时阅读里面的安装指南。

Github代码仓库

第二件事情就是在Github建立一个不太著名的开源项目（代码仓库）。

这是我的代码仓库地址，以enginploy命名：
https://github.com/william8188/enginploy

然后，用一个简单的命令下载已经建好的仓库：

git clone [email protected]:william8188/enginploy.git

非常简单，是不是。
如果大家还没准备好ssh公私钥来连接Github，可以点击下面的链接学习如何生成它：
https://help.github.com/articles/generating-a-new-ssh-key-and-adding-it-to-the-ssh-agent/

寻觅有钱的公司

All right, getting started the main mission. Where to find the rich companies? 36kr website !
万事俱备，开始今天的主要任务！但去哪找有钱的公司呢？我就以36氪为例吧。

1. 检查robots.txt

开干之前，必须先检查robots.txt文件：
https://www.36kr.com/robots.txt

# robots.txt
User-agent: *
Disallow: /users
Disallow: /xiaozhi
Disallow: /asynces
Disallow: /goods

我是一个诚实谦虚的程序猿，我发誓我应该会遵守机器排他性协议并且合法地获取公开信息。大家也可以参考一下。

所以，我不可以直接抓取 /users, xiaozhi, /asynces, /goods 这些URL路径。

2. 寻找信息的规律

在浏览网站几分钟后，我终于知道如何从查找到那些最近非常有钱的公司了。何种公司才算有钱呢？公开宣布融资信息算是一种。因此，我打算这么做：

浏览这个URL https://www.36kr.com/search/articles/36%E6%B0%AA%E9%A6%96%E5%8F%91
提取类似这样的文章标题： “36氪首发 | 做零售门店营销工具小程序，「企迈云商」获5000万元A轮融资”
通过定位 “「” 和 “」” 两个字符位置提取公司名称.

代码实现

1. 用Requests访问目标URL

import requests

URL = r'https://www.36kr.com/search/articles/36%E6%B0%AA%E9%A6%96%E5%8F%91'
r = requests.get(URL)
print(r.text)

一旦打印了request对象的text，就可以了解HTML格式的文本了。

2. 用Beautiful Soup 4处理HTML格式的文本

from bs4 import BeautifulSoup
import re

html_stuff = r.text
soup = BeautifulSoup(html_stuff, 'html.parser')
script_list = soup.find_all('script', string=re.compile('window.initialState='))
print(len(script_list))
print(script_list[0])

那些文本有很多无效的信息，需要裁剪处理一下。

3. 转换String为JSON

裁剪后，得到如下文本：

<script>window.initialState={"searchResultData":{"code":0,"data" ... script>

继续裁剪文本，然后获得一个干净的JSON格式的文本。

html_string = str(script_list[0])
html_string = html_string.replace('','')
json_string = html_string
print(json_string)

4. 观察JSON结构

我把那个JSON格式的文本复制到这个网站上进行观察：
https://www.json.cn/

然后，我就可以清晰的知道在哪个层级获取文章标题。

{
    "searchResultData":{
        "code":0,
        "data":{
            "searchResult":{
                "code":0,
                "data":{
                    "items":[
                        {
                            "id":5169947,
                            "title":"36氪首发 | 做零售门店营销工具小程序，「企迈云商」获5000万元A轮融资",
                            "project_id":"1",
                        
                        ...

5. 获取文章标题信息

import json

json_dict = json.loads(json_string)
items = json_dict['searchResultData']['data']['searchResult']['data']['items']
titles = []
for item in items:
    titles.append(item['title'])
    print(item['title'])

处理后，会得到如下打印结果：

36氪首发 | 做零售门店营销工具小程序，「企迈云商」获5000万元A轮融资
36氪首发 |「新声信息技术」完成A轮融资，将建设多家新兴产业引领中心
36氪首发 | 母婴经济正当时，高端月子护理品牌「圣贝拉」获 5000 万元 A 轮融资
36氪首发 |「阿博茨科技」宣布完成 3000 万美元 B 轮融资，人工智能在金融领域落地加速
36氪首发 | 「iFaster 甄快」获 1000 万天使轮融资，想用快充解决方案切入电动车充电市场

6. 提取公司名称

这里，我用了正则表达式来提取公司名称，简单问题简单解决。

PATTERN = '.*「(.+)」.*'
infos = []
for title in titles:
    if re.match(PATTERN, title):
        res = re.search(PATTERN, title)
        infos.append(
            {
                'name': res.groups()[0],
                'title': title
            }
        )

Pretty close. Now I have store these infomation to MongoDB. But before that, hash code should be calculated.
今天的任务差不多要完成了，现在我只需要把这些公司信息存储到MongoDB就行了。但在此之前，先计算好哈希值，以此代表那些公司信息的唯一性。

7. 计算哈希值

import hashlib

for info in infos:
    m = hashlib.md5()
    m.update(info['title'].encode())
    hashcode = m.hexdigest()
    info['hashcode'] = hashcode
    print(info['name'], info['hashcode'])

打印一下！

兰渡文化 f0ff5f576ca8f049514ed9a4e27c6a82
畅行智能 ffcc09b6431364a01f06f373f0aa26f3
捍宇医疗 0c7eb712f09cb5d2d4a8cc089d89b185
葡萄智学 40d7f2a903e448f6ed683817a181392c
锐吉科技 8c0bec2c846974cb59f13adcc51f6795

8. 存储数据到MongoDB

import pymongo

mongo_client = pymongo.MongoClient('mongodb://localhost:27017/')
db = enginploy_db = mongo_client['enginploy']
company_36kr = db['company_36kr']
for info in infos:
    company_36kr.find_one_and_replace(
        {'hashcode': info['hashcode']}, info, upsert=True)

经过处理后，我在命令行窗口检查MongoDB的数据情况，查询到如下结果：

> db.company_36kr.find()
{ "_id" : ObjectId("5c29e56338c7150eb0a59fcd"), "name" : "企迈云商", "hashcode" : "116f850e060823ae38425b493ef6f7b2", "title" : "36氪首发 | 做零售门店营销工具小程序，「企迈云商」获5000万元A轮融资" }
{ "_id" : ObjectId("5c29e56338c7150eb0a59fcf"), "name" : "新声信息技术", "hashcode" : "3321713e18ddd40a35b9109dd3ec0a35", "title" : "36氪首发 |「新声信息技术」完成A轮融资，将建设多家新兴产业引领中心" }
{ "_id" : ObjectId("5c29e56338c7150eb0a59fd1"), "name" : "圣贝拉", "hashcode" : "3565af0ab172c112a78be8ebee309f8c", "title" : "36氪首发 | 母婴经济正当时，高端月子护理品牌「圣贝拉」获 5000 万元 A 轮融资" }

大功告成。

任务完成

现在，我终于完成今天的任务了，迈出了一小步，有点小开心。

说实在，当招聘工程学的想法从脑海中闪现出来时，我就决定花一个下午去整理开发环境，阅读必要技术文档，然后对程序进行一次又一次的调试。而且我非常喜欢在探究发现问题的同时写代码解决问题。

这里是招聘工程学第一集-寻觅有钱的公司。我希望大家喜欢这样全新的博客。我会继续推出更多招聘工程学的内容。我是小护士，我们下次再见。

注：中文版内容不是纯粹的翻译，对英文版内容有所补充。

你可能感兴趣的:(ENGINPLOY)

ENGINPLOY Ep3 - Pyecharts Visualize Data 广州-小护士 ENGINPLOY
ENGINPLOYEp3-PyechartsVisualizeDataHelloguys,IamWilliamLee,andthisisEnginployEpisodeThree.Today,Iwanttogiveyouguyssomethingsspecial.IusedPyechartstovisualizethedatathatwehavecollectedinthepreviousepis
ENGINPLOY Ep1 - Find Some Rich Companies 广州-小护士 ENGINPLOY
ENGINPLOYEp1-FindSomeRichCompaniesHelloguys,IamWilliamLee.Today,Iamgoingtobringawholenewblogwiththewholenewexperiencetoyouguys.Asyoucansee,hereisENGINPLOY,thatredefinesthewayofemploymentwithcomputerte
ENGINPLOY Ep2 - Find Some Jobs 广州-小护士 ENGINPLOY 小护士 enginploy fake-useragent python
ENGINPLOYEp2-FindSomeJobsHelloguys,IamWilliamLee,andthisisEnginployEpisodeTwo.Today,Iamgoingtofindsomejobsforyouguys.Let’srockandroll!FirstthingIneedtodoislistingthesteps:Queryallcompaniesnamewhichwer
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

招聘工程学 第一集 - 寻觅有钱的公司

招聘工程学 第一集 - 寻觅有钱的公司

工具箱

Github代码仓库

寻觅有钱的公司

1. 检查robots.txt

2. 寻找信息的规律

代码实现

1. 用Requests访问目标URL

2. 用Beautiful Soup 4处理HTML格式的文本

3. 转换String为JSON

4. 观察JSON结构

5. 获取文章标题信息

6. 提取公司名称

7. 计算哈希值

8. 存储数据到MongoDB

任务完成

你可能感兴趣的:(ENGINPLOY)

招聘工程学第一集 - 寻觅有钱的公司

招聘工程学第一集 - 寻觅有钱的公司