关于论坛数据库的设计（分表分库等-转）

关于论坛数据库的设计（分表分库等-转）

2024-11-06 23:03

关于论坛数据库的设计

关于论坛数据库的设计（分表分库等-转）

文章分类:数据库
一个简单的论坛系统

1：包含下列信息：

2：每天论坛访问量300万左右，更新帖子10万左右。

请给出数据库表结构设计，并结合范式简要说明设计思路。

一. 发帖主题和回复信息存放在一张表，并在这个表中增加user_name字段
对数据库的操作而言，检索数据的性能基本不会对数据造成很大的影响（精确查找的情况下），而对表与表之间的连接却会产生巨大的影响，特别在有巨量数据的表之间；因此对问题的定位基本可以确定：在显示和检索数据时，尽量减少数据库的连接以及表与表之间的连接；
引用
1: user:用户基本信息表
字段有：user_id,user_name,email,homepage,tel,add...

2: forum_item:主题和回复混合表
字段有：id,parent_id,user_id,user_name,title,content,....

parent_id=0或者null表示是主题，否则=n表示是id=n那条帖子的回复
UserName字段是冗余的，因此在用户修改UserName的时候就会产生同步数据的问题，这个需要程序来进行弥补

二. 主题表和主题回复分开保存
引用
1: user:用户基本信息表
字段有：user_id,user_name,email,homepage,tel,add...

2: forum_topic:主题表
字段有：id,user_id,title,content,....

3: forum_topic_back:主题回复表
字段有：id,topic_id,user_id,title,content,....

三. 主题表的内容单独设计成一个表
引用
1: user:用户基本信息表
字段有：user_id,user_name,email,homepage,tel,add...

2: forum_topic:主题表
字段有：id,user_id,title,....

3: forum_topic_content:主题内容表
字段有：id,topic_id,content

4: forum_topic_back:主题回复表
字段有：id,topic_id,user_id,title,content,....

四.用户信息分2个表保存，并对相关表进行分表处理
引用
1: 简单用户表 tb_user:
id , username

2: 用户详细信息表 tb_userinfo
id,userid , email , homepage , phone , address ...

3: 论坛主题表 tb_bbs
id , userid , title , ip , repleycount , replyuserid , createtime , lastreplytime

4: 论坛内容标 tb_bbs_content (此表可按照bbsid进行分表存储)
id,bbsid , content;

5: 论坛回复表 tb_bbs_reply (此表可按照bbsid进行分表存储)
id , bbsid , userid , content , replytime , ip

五.增加一个主题缓存表，取每个区的前面100条记录
引用
1: 简单用户表 tb_user:
字段有：id , username

2: 用户详细信息表 tb_userinfo
字段有：id,userid , email , homepage , phone , address ...

3: 论坛主题表 tb_bbs
字段有：id , userid , title , ip , repleycount , replyuserid , createtime , lastreplytime

4: 论坛内容标 tb_bbs_content (此表可按照bbsid进行分表存储)
字段有：id,bbsid , content;

5: 论坛回复表 tb_bbs_reply (此表可按照bbsid进行分表存储)
字段有：id , bbsid , userid , content , replytime , ip

6: 主题缓存表 tb_bbs_cache
字段有：id , userid , title , ip , repleycount , replyuserid , createtime , lastreplytime

------------------------------------------------------------------------------
下面是针对上面的方案展开的讨论：

1：方案一表面上看起来好像少查了一张表，但由于冗余，因为帖子数量极大，会占用大量的空间。这种数据量大，但是对实时和数据绝对安全性要求较低的应用，大量使用缓存的话可以极大提高处理能力。

2：方案一你这么设计的话，索引怎么建比较好呢，还有就是会不会造成这个表过热，还有…… 我觉得像论坛这样的系统，使用缓存可以大大降低数据库的负载

3：大家的意思是分成主题表、回复表等多个表？还是合成一个表然后做物理分区？哪种更好呢？

4：再这么高插入更新的频率下索引就有些不实用了，创建索引会降低插入更新的速度而且访问量这么大的情况下，索引不建议采用

5：就这样的一个论坛，实时在更新、发帖、回帖。我觉得在数据库上建立索引不太好，但是如果不建立索引如何来提高查询等方面性能呢？

6：都是分布式数据库了。放在多个表中，直接关联一点都没问题。重要是横向切分

7：认同分表，分库，缓存的做法
引用
问题分析:
每天论坛访问量300万左右，更新帖子10万左右。
1. 读写比例在30:1左右, 应向读取效率方面倾斜. 索引建立需参考常用读取的主关键字.
2. 每月数据在10W*30=300W. 可按月分表
3. 每年帖子在300W*12=3600W, 推算数据不会小于30T. 可按年分库

结构:
用户信息：独立表，userid主键
发帖、回帖：按月表存储，帖子唯一ID主键，日期索引。
帖子内容明细：按月存储，帖子唯一ID主键

8：拿一张500万的表来说事
引用
更新的时候如果没有索引的话
更新时间大概需要30秒左右指的是全表更新~~
而查询某单行记录却需要10秒左右~~

而加入索引的话
更新时间差不多慢了一倍有余
而查询记录则缩减到毫秒级~~
快了百倍有余~~

孰重孰轻自己选

9：自己的一点经验:
引用
1.分表存储;
2.建立索引;SQL按所以查询的速度还是很快的;
3.避免整表扫描;先读取主题,在按照主题ID读取回复;再按照用户ID读取用户;而不要使用关联;
4.使用缓存;

10：需要分3张表，且建立索引。。。
理由如下：
引用
1：建立3张表可以避免冗余数据，维护起来方便。。。
2：每天论坛访问量300万左右，可见主要的压力来自于查询，sql查询的效率在于避免全表扫描，可见建立索引是必须的。。。
3：关于创建索引会降低插入更新的速度这个问题是不存在的。。。因为，索引之所以会降低更新的速度的速度，是因为在更新完对应字段后还需要更新对应字段的索引。
4：看到更新帖子10万左右，这句话是说，我们可能对发帖标题，发帖内容，回复标题，回复内容这4个字段做更新。。。需要注意的是，这四个字段并不是用来建立表连接的字段，为了优化查询速度我们不会在这四个字段上建立索引，所以从这道题目出发，我们建立的索引不会影响更新帖子的性能。。。

所以，我认为最后的答案是建立3张表，在连接用到的字段上建立索引。。。

11：
引用
兩個表然後建一個視圖是否可行呢？

视图也是很慢的。

12：每天就更新10万个帖子，每天访问那么多，肯定是不能把所有的主贴放在一个表里，大表分小表，建立常用字段的索引，然后配置缓存。级联关系最好不要配置，等需要的时候再查询。

13：虽然题目中没有说明，但实际应用中，查阅帖子通常只会分页显示，而一页最多也就显示几十个帖子，那么实际上只要SQL语句构造得好，T_USER表其实只是跟一个只有几十行结果集的的子查询进行连接，应该基本不用担心出现性能问题。

而且实际上，一个万行级的表简单关联百万行级的表（其实镇魂歌数量级在我看来其实也算不上很大的表），在数据库方面完全有很多优化方式，甚至可以通过提高硬件配置来改善性能，实在没有很大必要进行结构上的冗余。一旦结构有冗余，为了保证数据一致性，往往你还要消耗更多的资源，反而得不偿失。

14：分表有垂直和水平分表
引用
1：无论你拿多少记录(甚至是1条),如果两个大表关联都可能会产生非常大的中间值,如果你排序(排序字段没有用到索引),你都可能导致数据库采用各种各样的方式来计算。

2：索引会导致插入、更新记录很慢,大家都是知道的。

3：水平分表可以解决这个问题,只要你能保证每个表只存适合的记录数(例如100W一个表) (水平分区也可以解决IO的一些问题)

4：还有就读写分离,master是写,slave是读 (再加上cache,一般问题都还好了)

上面都是比较大的工作量,最好是保证你的数据库设计是合理的(范式是第一步,然后考虑反范式),基本上也能满足很多问题了。

15：方案四把内容与其它信息分开的好处就是可以让每个表的文件最小化,对数据库操作压力会减小,操作速度会快,还可以搭配缓存,把内容根据情况进行缓存,可以尽量很少访问表数据。
引用
1：对于上述分表方式也可以适用于分库操作,这样就降低了数据库单库的压力,把压力分散到各个机器
2：我的做法就是尽量避免表关联
3：再就是对于sql语句尽量都保证索引有效,不能索引的sql,尽量采用能索引的高效方式解决

16：外围的方案：
引用
1 读方面，生成静态页，或者缓存最新最热的帖子。
2 写方面，估计主要是INSERT吧，这个可以异步操作的。所有的写贴操作放到一个队列然后批量执行插入数据库操作。

17：方案四比较靠谱，再加上定期转储，海量的cache，大型论坛就此搞定。

18：我觉得应该还是使用3张表比较合适。
引用
1：业务上说,很可能主贴跟回复贴拥有不同的扩展,比如附件什么的,都放在一张表里面,假如主贴跟回复存在个性需求,怎么办？无限加字段么？
2：主贴跟回复在同一张表里,会增大锁表的几率。
3：索引的确会降低表更新的速度,但是带来的查询效率提升也是很可观的,因此我觉得,索引不能不用,但是要少用。
4：建立表时,确实可以通过楼上某位仁兄回复所言,用水平分表的方式,其实原理就是用先算再查嘛。
5：在前端表现上,可以使用ajax等方式,分步骤取数据,比如主贴的内容先取出来,然后再逐步加载回复信息等。

19：提高速度的关键:
引用
1.建立索引并在查询时充分利用;
2.避免使用关联,这样避免整表扫描;使用关联不如多次使用主键查询来的快;
3.一些处理的功能尽可能放到内存中来做,比如组织主题和回复;
4.使用静态页面也是个不错的做法;

20：方案三是延续了hibernate二级缓存的思想，对于经常更新的数据都设计成单独表，这样可以最大程度的利用hibernate缓存

21：没有fast=true的设置,有人说or比in 好,exists比in 好,索引比全表扫描好,分区能提高查询效率,但是分区要降低插入效率
我要说的是,没有fast=true的选项, 如果能找到一步,或者几步公式化的方法能提高效率,那么优化器自己就会做了,根本不用用户担心。
假设 or比in好,数据库优化器把in语法和or语法走的执行计划一样就可以了,何必折磨用户呢。
说点实际的,很多人张嘴就说,SQL优化就是避免全表扫描,不知道大家有没有了解过索引查找的原理.索引查找数据,有两步要做,第一步是索引中快速查询,索引里只存储了对应表数据的rowid, 所以还有第二步,根据rowid去得到全部的数据, 所以需要一次磁盘i/o, 不要小看磁盘I/O,通过索引查询出的结果比较多的时候,磁盘i/o的时间是非常大的,这个时候比全表扫描慢得多, 实际上,oracle 10g基于成本的优化器(CBO),选择性不高的索引,优化器根本不会使用,而自动采用全表扫描的方式来做.

22：这个量级的bbs我设计过,当时是这样做的(方案五)：
引用
共四个表：
1. 用户表
2. 主题表(包含最后回复信息,最后回复人,最后回复id等)
3. 回复表
4. 主题缓存表(这个取每个区的前面100条记录),一般来说负载最大的就是主题的第一页,所以缓存表是个小表。

共3台app集群,1台web,2台oracle一主一备,运行下来速度还是可接受的。

23：不建议进行表的设计冗余，感觉就想重复代码一样，有坏味道
引用
1：缓存常用的页面和数据
2：读写表或库分开(基于垂直分隔)
3：数据库可以进行垂直分隔(字段分到多个表中)，再进行水平分隔（数据分到多个表中）
4：论坛功能可以进行分隔，不同的服务器负责不同的功能,如图片服务器，web服务器,邮件服务器等

总之，就是要细化分工

24：支持方案三的设计
读取的操作：
引用
1：显示帖子列表界面,如果主贴内容放在forum_topic表,那么这就是冗余的,假设都要获取100个帖子,一行的数据长度越大,数据库需要扫描的数据块就越多,性能也越差。
2：在打开一个帖子时,读操作通过索引关联到两张表（forum_topic和forum_topic_content）性能消耗对整个数据库来说不多。

写帖子的操作：
引用
发表帖子,对标题表和内容表分别作一个插入

更新非索引列不会引起索引更新:
引用
只要被索引的列（例如回复表的标题ID）不被频繁更新,即使索引所在地行的其它列被频繁update,索引也不会被更新从而产生性能消耗,一张表一天30万次的索引更新,因它引起的性能消耗小到即使数据库安装在奔腾3单核CPU下都能轻松承担下来, 为什么会有人对索引有这么大的误解呢？。对一个论坛(或者绝大部分的系统)来说,检索(SELECT)数据耗费的系统资源远远高于更新数据(INSERT/UPDATE)本身,而索引是专门为检索数据服务的,难道就为了节省更新数据的小小的性能消耗,付出检索100条数据时需要数据库扫描几千万上亿条数据进行数据匹配的代价？如果是这样的话,即使是有32核顶级CPU的数据库作并行查询都未必顶得住。

做数据库设计,还是多了解数据库的原理才好。