上周技术关注:Technorati的后台数据库架构

  • [Technorati; 数据库技术] 了解一下 Technorati 的后台数据库架构 #
    目前处理着大约 10Tb 核心数据, 分布在大约 20 台机器上.通过复制, 多增加了 100Tb 数据, 分布在 200 台机器上. 每天增长的数据 1TB. 通过 SOA 的运用, 物理与逻辑的访问相隔离, 似乎消除了数据库的瓶颈. 值得一提的是, 该扩展过程始终是利用普通的硬件与开源软件来完成的. 毕竟 , Web 2.0 站点都不是烧钱的主. 从数据量来看,这绝对是一个相对比较大的 Web 2.0 应用.Tag 是 Technorati 最为重要的数据元素. 爆炸性的 Tag 增长给 Technorati 带来了不小的挑战.2005 年 1 月的时候, 只有两台数据库服务器, 一主一从. 到了 06 年一月份, 已经是一主一从, 6 台 MyISAM 从数据库用来对付查询, 3 台 MyISAM 用作异步计算.
  • [Java开发; Feedburner] FeedBurner:基于MySQL和JAVA的可扩展Web应用 #
    最后FB的运维总监Joe Kottke给了四点建议:1、 监控网站数据库负载。2、 “explain”所有的SQL语句。3、 缓存所有能缓存的东西。4、 归档好代码。
  • [sun; java; 开源] Sun says open-source Java possible in 'months' #
    A Sun Microsystems Inc. executive said Tuesday said the company is 'months' away from releasing its trademark Java programming language under an open-source license.
  • [sns; 开源; 数据库技术] mixi.jp:使用开源软件搭建的可扩展SNS网站 #
    Mixi采用开源软件作为架构的基础:Linux 2.6,Apache 2.0,MySQL,Perl 5.8,memcached,Squid等等。到目前为止已经有100多台MySQL数据库服务器,并且在以每月10多台的速度增长。Mixi的数据库连接方式采用的是每次查询都进行连接,而不是持久连接。数据库大多数是以InnoDB方式运行。Mixi解决扩展问题主要依赖于对数据库的切分。
  • [程序人生] 技术过载 #
    最好的做法大概是,对所有这些技术保持足够了解,如果有必要就深入 (As to keeping up with all of these technologies, probably the best bet is keeping abreast of them and knowing enough to be ready to dive in when necessary)。
  • [搜索技术; Google; 数学] 数学之美 系列九 -- 如何确定网页和查询的相关性 #
    相关性的一个简单的度量。概括地讲,如果一个查询包含关键词 w1,w2,...,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, ..., TFN。 (TF: term frequency)。 那么,这个查询和该网页的相关性就是:TF1 + TF2 + ... + TFN。
  • [社区; bbs; group] 有关社区系统中的“群组” #
    为什么会有群组的应用呢?论坛作为一个大茶馆,里面人来人往,各种声音都有,在这种情况下,一些人可能仅仅想与有相同兴趣的网友一起,不为外界干扰。这样的情况下,以群组最为合适了。

更多技术动态,请访问我的365KeyRSS),你可以通过365Key订阅

你可能感兴趣的:(应用服务器,linux,mysql,memcached,SNS)