分布式的数据库集群和海量数据存储的一点思考

April 3rd, 2009 by admin Leave a reply »

题目很大,如果以为这是篇技术文章,那可就错了:)

过年的时候,回来和几个老朋友见面。大家好像都碰到面临着海量数据存储和数据处理能力overflow的压力。

一个哥们,一直做移动行业的ETL,N久没见。给我的第一个电话,就是讨论详单海量数据能否由过去的集中处理,能否考虑在ETL中使用分布式的集群。

另外一个老朋友,工作在一个亚洲数得着的一个大规模订单处理和流转系统环境里面从事应用架构方面的工作,现在也在考虑数据库层面架构的重构。过年就那么几天,和他喝了一次咖啡,吃了一次日本菜。每次主要讨论的都是系统架构的技术细节(:

至于我,以前从事过移动和烟草的一些项目,也对RAC和DPF,oltp/olap都有一些自己的体验,所以对架构这块也有一些兴趣。虽然目前的公司在我眼里是一个老牌保守的那种正统商业公司,但是随着公司内部”Open Source policy”的发布和Amazon saas这样服务在国外的流行,公司内部的论坛上对saas和cloud的讨论也越来越集中。而且已经有超过60个节点的cluster被用来做CAD计算。

对于db2来说,一直以来我在思考的就是两个问题,在大规模的分布式环境里面如何分离读写IO和DPF如何满足OLTP的要求。前一个问题,几年前和IBM讨论的时候,记得他们的技术人员提到用SQL复制/Q复制来做。对于这点,我是有疑虑的。经过几个项目的体会,这两种都基本上是表层面的,而且SQL复制性能相当一般。Q复制,性能还行,但是对于通道的维护那还是比较麻烦的,也不适合。最近,了解到一些新的解决方案可以帮助我找到答案。另一个问题,虽然听过沈刚的presentation,有一些启发但是这个还得结合应用来考虑。

就国内来说,阿里的Jacky.zhang目前主持的Amoeba+db的分布式架构和mysql的廉价集群项目,无疑是值得期待的。希望他的blog能继续给我们带来更detail的技术细节和更新的技术思路。

Jacky.Zhang,俺看好你哟:)

Advertisement

1 comment

  1. jacky says:

    这个题目确实有点大,不仅仅涉及到数据库,也涉及到应用的架构,我们也在探索中前进,海量数据处理可以关注下greenplum数据库。

Leave a Reply