TDW腾讯分布式数据仓库

腾讯分布式数据仓库(TDW)是腾讯公司海量数据处理平台的核心部件,它承载了腾讯公司各业务群产品数据(如互联网增值、SNS、网游、电商等)的存储和处理工作。 该平台基于开源软件HIVE和Hadoop进行了大量的改造和优化工作,克服并解决了大量的技术挑战。

TWD特性

  1. 存储和计算线性扩展
  2. 扩充了SQL语法如insert、update、delete等
  3. 支持SQL简单函数、聚合函数、窗口函数等
  4. 支持以python为母语的过程语言
  5. 支持多存储引擎,包括文本、结构化、protobuf、pgdata、rcfile等存储引擎
  6. 基于角色的权限管理
  7. 实现了SQL/MED标准,支持在TDW中访问PostgreSQL中的数据
  8. cube、rollup等多维分析功能
  9. CTE with功能