大家有没有对列式数据库比较关注的

18 views
Skip to first unread message

彭立勋

unread,
Feb 3, 2010, 8:12:02 PM2/3/10
to imysql
最近研究一些OLAP系统,接触一种不同于一般数据库行式存储的列式数据库,大家有没有对列式数据库有所关注?
讨论一下。什么情况下列式数据库效率高,列式数据库如何组织数据结构以供快速查询,列式数据库的压缩办法等等~

--
Best Wishes

Lixun Peng (P.Linux)

Mobile Phone: +86 15950506746 (Nanjing)
Gtalk: penglixun(at)gmail.com
Twitter: http://www.twitter.com/plinux
Blog: http://www.penglixun.com

杨海朝

unread,
Feb 3, 2010, 8:54:41 PM2/3/10
to imy...@googlegroups.com
之前看过一点这方面的知识。
对于update操作,不涉及其他column,比row-base database的效率高一些。
对于类似sum的聚合运算,column-base database效率高一些。
在存储方式上column-base database的效率更高一些。

google的bigtable, amazon的Compute Cloud 数据库系统,就是一种column-base database实例。


2010/2/4 彭立勋 <peng...@gmail.com>:

> --
> 您收到此邮件是因为您订阅了 Google 网上论坛的“[MySQL中文用户群]”论坛。
> 要向此网上论坛发帖,请发送电子邮件至 imy...@googlegroups.com
> 要取消订阅此网上论坛,请发送电子邮件至 imysql+un...@googlegroups.com
> 若有更多问题,请通过 http://groups.google.com/group/imysql?hl=zh-CN 访问此网上论坛。
>

彭立勋

unread,
Feb 3, 2010, 8:57:37 PM2/3/10
to imy...@googlegroups.com
我测试了基于MySQL的Inforight,40M的数据导入后只有1M多,压缩比惊人,同时对于单列的选择速度极快,不知道一般列式存储采用什么样的压缩方式,能达到如此大的压缩比。

2010/2/4 杨海朝 <jackb...@gmail.com>

杨海朝

unread,
Feb 3, 2010, 9:06:09 PM2/3/10
to imy...@googlegroups.com
infobright engine会根据不同的数据类型采用不同的压缩算法,和archive engine某些方面有些类似。

2010/2/4 彭立勋 <peng...@gmail.com>:

简朝阳

unread,
Feb 4, 2010, 12:19:17 AM2/4/10
to imy...@googlegroups.com
column based database 主要用在每次读取的数据集中在一个或者少数几个column的场景下,比如某些分析型数据库,分类统计等操作。

column based database 的压缩比率当某些column的值比较类似的情况下会非常的大
Sky.Jian   iMySQLer
个人站点:http://www.jianzhaoyang.com
BBS交流:http://iMySQLer.com
邮件组:http://groups.google.com/group/mysqler

彭立勋

unread,
Feb 4, 2010, 12:23:59 AM2/4/10
to imy...@googlegroups.com
朝阳一说有点明白压缩的方法了,对于值的差异性很小的情况下,列式存储记录的是值的重复次数和row_id,这样应该可以大大压缩数据大小。

2010/2/4 简朝阳 <sky...@gmail.com>

杨海朝

unread,
Feb 7, 2010, 9:21:56 PM2/7/10
to imy...@googlegroups.com
每一列在存储时会基于数据类型去选择压缩算法,迭代的应用这种算法到每一个数据包,直到最大的压缩比。对于一个列的数据包压缩比率不同,依赖于这个列的数据的是怎样重复的。

2010/2/4 彭立勋 <peng...@gmail.com>:

Reply all
Reply to author
Forward
0 new messages