关于网页信息采集器,垂直信息检索的讨论[聊天语录]

A: 问 Q 答 字母写反了。太多行了,不想改了。。

A: 要做一个搜索引擎,涉及到主要技术难题是什么
Q:难题很多。主要是各种平时我们司空见惯的问题,算法都会成为瓶颈 
 
A:算法还是信息采集
Q: 比如你从网页里新发现一个url,需要跟已经存在的上百万个url作比较。 
 
A: 假设我使用现有的软件针对特定的网站的某些信息已经能够采集到了本地了呢
Q: 我的blog有关于google基本原理的论文转载,你可以先看看。
垂直搜索现在已经有一种模式,就是针对特定行业抓取,然后分类,以及抽取数据。但不容易出新。 
 
A: 某互联网采集软件的老总告诉我采集数据这部分他们完全可以保证
Q:不容易有新意。 
 
A: 他们未必能保证信息采集的完整和准确性?
Q:如果他能,他已经可以上市了。有时话说来非常容易。 
 
A:那么除了信息采集这部分呢
Q:采集也不是一个模式。旅游和药品的采集方法就不一样。 
 
A:还有什么比较费劲的地方
Q: 你以前积累的技术?还有你拥有多少资金? 
 
A: 资金不多
Q: 技术上可能非常考验程序的效率,资金方面可能开发时间非常长,调试以及测试,取得用户的反馈积累,服务器和宽带都很费钱。 
 
A: 除了信息采集还有很多要开发的吗
Q: 国内很多人已经提前尝试了。但流量非常有限。流量有限,则根本无法拓展业务,也吸引不到资金。
你如果对技术不了解,建议不要涉足。这包括检索技术和编程技术,服务器群组技术,以及个人对商业模式的见解。我认为这几个方面缺一不可。 
 
A: 行业搜索引擎的广告客户对流量的要求应该没有平面搜索那么苛刻吧(意思:本钱小)
Q: 不是流量问题。而是资金链断裂的问题。就是说广告收入很少。开销很大,无法融资。则自己就崩溃了。 
 
A: 这个行业好像有人做过,但现在没了
Q: 我咨过一个在中搜作过的朋友。垂直搜索至少也需要几十台服务器。人工加服务器加宽带两三年就能耗掉几百万资金。所以技术上来讲,找以前开发过类似技术的人,一两年也可以作出来。难题在资金和商业运行。
所以如果资金不多,先不要成立公司,可以先作一些开发探索。 
 
A: 开销是:采集的费用;服务器费用,还有网站建设,维护的人工
Q: 你请三个工程师两年开发也要工资50万啦。

A: 我定位的行业信息量比较少(意思是:难度小)
Q: 人的需求总是无耻的,google可以一个多月更新一次,因为数量多,没有人作得比它更好所以没人有意见,但是垂直搜索象kooxoo的能作到几分钟。你如果作到一天也不算先进。所以技术总是相对得,企业总是竞争的。
另外如果信息太少。就不适合作搜索。犯忌啊。(信息少就不需要搜,或者群体少,无价值,kooxoo的创始人曾用配钥匙的需求来比喻过)

你如果自己懂编程,倒可以找一个朋友开始探索,而不懂技术,就不好尝试。 
 
A: 某采集器的老总跟我说,要一台服务器,一台采集机,一个网站维护的,慢慢养
Q: 他根本不懂这一行。是你养他,而不是养客户。(名言) 
 
A:  因为我要买他的服务
Q: 如果有他说的那么简单。搞几台服务器,多作几个行业。则一天至少可以有百万流量,广告费都收入不少了。。但他怎么不作呢? 
 
A: 我也这么说,他说他是做采集服务的,不做搜索引擎
Q: 采集比较单一。针对某个或某类网站设置好模板。但是现在网页技术这么发达。新的技术比较ajax的运用,javascrip的解析等。需要解决的问题很多。信息采集考虑的问题很单一。
但采集器的确有市场。首先它能作到低成本,第二有人需要抓资料。第三,即使一个http download的动作也有人不会自己开发。
 
A:  数据库的数据呈现比较难实现?
Q: 作为公司,你要考虑全部过程,产品和服务要比同类要好,资料要准,更新要快,需要广告人来投放广告,需要融资,需要谈合作,而作采集软件的人怎么会考虑这些呢?他不能保证什么也不需要向你保证,他卖的是工具。
 
 A: 对现有数据库里的数据的准确检索过程容易实现不?
Q: 就算现在送给你一天100w流量,你有多少服务器,多少带宽,以什么后台架构来服务这100w流量呢?
这些岂是作采集软件的人的水平能搞定的。 
 
A: 这样的流量应该不用担心广告了吧
Q: 关键是先有庙才有和尚啊。 
问题是你如何作到这一步嘛。这个问题我都考虑过的.靠自己力量,能作到3w/天就不得了,可以找融资了。

A: 对现有数据库里的数据的准确检索过程容易实现不?
Q: 对现有数据库里的数据的准确检索:也需要作倒排索引,跟在网上抓做法一样。
就是把内容倒排成字典一样。 
 
A: 现有数据库的关键词分类做的比较完整,检索是不是容易些?
Q: 那就是一般的mis系统了。而不叫搜索了。。 
 
A: 我已经采集到这些信息了
Q: 当然。不一定按全文检索的模式。垂直搜索应该结合行业特点。对用户感兴趣的字段检索。。。
也可以不叫垂直搜索,叫专业数据库,供求数据库我觉得更合适。 
 
A: 我想提供供求信息
Q: 行业这么多?不可能每种都作啊。 
我以前有评论几个网站,成了信息小偷了。 
 
A: 对分散的网站没有坏处
Q: 不过你可以写写你的计划书。筹划一下。如果先用一台服务器来测试,也是可以的。成本不高。 
 
A: 你觉得信息采集软件里面哪个性价比高
Q: 如果要自己作。要自己开发所有技术。不要想着靠谁。以后运行很久了,调整,优化是长期的。如果代码不是自己的,怎么行呢。(借鸡只能下普通的蛋,不可能有谁借能下金蛋的鸡给你。--日后会成为明言) 
 
A: 你是说不要用别人的采集软件?但是开发周期可能会很长,而且开发成本也不比买服务高吧
Q: 我的建议是,掌握不了技术就不要作。因为这个本身就是技术见长的公司。如果只是为搭建web而购买采集器,未来也作不出什么成就,有资金有这样想法的人太多了。
我有个建议。当然也是对自己的建议,如果没有作到国内前三名的野心,就不要作(当然至少也要前十名吧??)。因为前三名之外连汤都没得喝。--国内融资失败的公司的确被VC认为是业务重复和没能力进入前三名。VC要培养霸主而不是窝里斗。
 
A: 雄心!
Q: 因为招聘信息的栏位太相似和固定了,所以对招聘信息能准确采集并不能说明什么。市面上的采集我也不好评价。

A: 不过国内搜索引擎大大小小也有140家左右了,前三名我想都不敢想,不过这行业小,以前听说有过做的也夭折了,现在没人做
Q: 换个角度,你思考一下,对建筑装饰材料信息进行采集,种类有上千种,每种的特性都不一样。你怎么采集??
可能这个问题你花一年时间也未必能解决。有的问题说白了根本没有解决方法。因为形式多样,纷繁复杂,异构而且缺乏真实保证。
 
A: 我的栏位非常固定
Q: 那你可以看看跟你想法类似的网站他们赚不赚钱再说,分析一下他们的流量,知名度。再说。 
 
A: 提醒了我,让我觉得好像这么做没有核心竞争力,门槛太低了
Q: 已经有全国各地很多朋友跟我在qq上讨论了这个问题。有的人甚至半年就炮制了一个网站。这能有什么核心竞争力呢。服务器启动那一天就是亏损的一天。当一个摆设在那里有什么用。 
公司的竞争力无外乎三个方面。一个技术,一个业务拓展能力,一个是独特或独占资源 
 
A: 后者是个未知数呵呵
Q: 可以看看类似的网站嘛。何必要简单重复呢?没有资金就作不大了。作不大能坚持几天啊。
 
A:有做招聘的搜索吗
Q: 第一应该是中华英才网吧。还有智联招聘吧。 
 
A: 可是前两个不是搜索引擎。不能互通,中华查不到智联的信息
Q: 恰恰就是因为你对这个太缺乏了解和研究了。
招聘恰恰需要行业网站这种形式或者人才市场这种形式,反而不需要垂直搜索。 
 
A: 能够一次性找到所有网站上我们需要的职位信息不是更好吗?
Q: 这个问题留给你自己去研究吧。呵呵。这个中间有一个最重要的原因。 
 
A: 用户习惯的转变需要时间?
那就是宣传没做到位?

Q: 留给你自己去想。这个问题至少需要你花三个月去研究的
如果想得清楚。证明你适合作,如果想不清。建议你别作。呵呵 
 建议你写出自己的计划放在自己的薄客里问问其它人的意见。这种方式最好。
这个世界太复杂了。不然人人都可以一夜就办成一个大公司。只有研究分析才可能得出客观的结论,并经过检验才能证明结论正确。

A: 刚才发现一个网站的有些服务模式竟然和我凭空想象的一样,窃喜而悲哀
Q: 如果你办自己的网站一年后,一天的访问量才几千,那才悲哀呢
花了几十万出去,得来几千的访问量那才叫悲哀。
作其它原则也一样。就是前三的目标。如果一开始就只想作不起眼的网站,作不知名的公司。。就趁早不作,真的
(名言)

A:差异化,好听不好实现
先可以作些尝试,比如一台服务器,是可以的。但是不要太猛。自己同时还有最重要的是对自己要从事的事业有研究和了解。深入了解。没了解之前把钱存起来最保险。 
 

你可能感兴趣的:(关于网页信息采集器,垂直信息检索的讨论[聊天语录])