他的爬虫软件助3000企业抓取数据 最高日采8000万条 营收50万元

他的爬虫软件助3000企业抓取数据 最高日采8000万条 营收50万元_第1张图片

◆ “前嗅”创始人陈玉立

文| 铅笔道 记者 代伟

►导语

“前嗅”是一个大数据软件提供商,客户根据需求选择不同版本的爬虫软件(ForeSpider前嗅爬虫系统),在网站和数据平台采集所需的结构化或非结构化数据,该爬虫软件支持Cookie技术、Https安全协议、OAuth认证,内置有独立知识产权的JS引擎系统,“能精准提取所需数据”。

自去年6月网站上线以来,“前嗅”服务3000余家付费客户,公司总营收为50万元左右,已实现收支平衡。

“前嗅”创始人陈玉立现寻求天使轮融资,计划融资600万元,出让股份10%。

他的爬虫软件助3000企业抓取数据 最高日采8000万条 营收50万元_第2张图片

注:陈玉立承诺文中数据无误,为其真实性负责,铅笔道已备份录音速记,为内容客观性背书。

由于感觉不受重视,陈玉立带着自己独立开发的爬虫技术从上家公司撤出来,于2015年3月创立“前嗅”,旨在做一款大数据系统。

辞职后,陈玉立找来3位做技术的朋友,同年8月,“前嗅”正式运营。

陈玉立自投了50余万用来招揽人员和技术研发,同时,团队会接一些建网站的项目来获得收入。

去年6月,“前嗅”网站进入试运行阶段,用户可线上免费下载爬虫软件试用。两个月后,第一家客户在百度上看到“前嗅”网站,打来电话。

对方是一家面向高校老师的教育创业公司,想要抓取科研网站数据,“但是因为产品缺陷,我们抓取不了”,团队经过半个多月的优化,攻克关键词搜索、验证码开发等研究工作,产品终于完善。该爬虫软件支持Cookie技术、Https安全协议、OAuth认证,内置有独立知识产权的JS引擎系统,“能精准提取所需数据”。

当时“前嗅”用的是阿里最低级的服务器(1G内存,单核),每秒仅能访问100次左右。“如今我们只是将内存从1G提升到4G,每秒访问量能提升至10万次。”提速的原因在于团队研发的KSP语言,“性能优于PHP、JSP、ASP三大主流服务器脚本语言”。

客户根据需求选择不同版本的爬虫软件(ForeSpider前嗅爬虫系统),在网站和数据平台采集所需的结构化或非结构化数据,服务流程如下:

他的爬虫软件助3000企业抓取数据 最高日采8000万条 营收50万元_第3张图片

通过百度知道、知乎等推广方式,团队现有3000余家付费客户(如搜狗、岛津等),每月新增500个~1000个用户,“其中60%~80%会选择付费”。客户可根据不同需求选择不同版本软件,详情如下:

他的爬虫软件助3000企业抓取数据 最高日采8000万条 营收50万元_第4张图片

此外,“前嗅”还有10余家定制化客户,涵盖物流仓储、基因检测、病理头像分析等领域,团队根据项目收费(10万元~30万元)后,帮其采集数据搭建大数据应用系统。

自去年6月网站上线以来,公司总营收为50万元左右,已实现收支平衡。陈玉立现寻求天使轮融资,计划融资600万元,出让股份10%。

你可能感兴趣的:(1024事件)