conjecture: the architecture of some portal

1. 用全文检索进行搜索

2. 用的是JAVA

3. 信息量很大,会不定时的进行各个城市服务器之间的信息汇总。

4. 在同步时,信息发布的时间不是特别精确。 估计只精确到分,造成了多个服务器的数据合并之后,顺序跟原有顺序不相同的情况。
每次同步,会有 2K 个打算顺序的数据产生。
其中1K2是原有的重复数据, 0.8K是 新数据。
07-02 846 newed, 484 duplicated

5. 由于使用了JAVA, 那么就会用到LUCENE, SOLR等系统。 性能良好,支持近似于实时的内容检索 (real time search) ,但是依赖硬件,而且修改代码特别麻烦。估计平时要有10个 3 年+ JAVA经验的人在维护。

6. has black list feature。 should have establish a security department.

你可能感兴趣的:(猜想)