データベースの設計

10 views
Skip to first unread message

Taro L. Saito

unread,
Nov 19, 2008, 10:11:35 PM11/19/08
to UTGB Users JP
バイオデータベースサーバー構築演習受講者の皆様

次回までの課題は「データベースのスキーマ(テーブル構造)を設計する」です。

作成したいゲノムブラウザとその用途に合わせて、

・テーブル構造と各列(カラム)のデータ型
・どの列にインデックス(B+-tree) を作成するか
・どのような検索をするか (select 文、left join、範囲検索など)
・データベースの大きさは?(エントリ数、テーブルの数)

などを吟味し、メーリングリストに投稿してください。
質問にも随時答えていきます。

演習日は、2008年12月18日(木)10:00~ (1hほど)となります。
しばらく間が空いてしまうので、実際にデータベースをSQLite, H2などで構築してみるとよいでしょう。

次回は、
・各自のDB設計の性能評価
・UTGBをインストール
・DBを検索した結果を表示するWeb APIの作成

を行う予定です。


Nakazato T.

unread,
Dec 15, 2008, 2:38:44 AM12/15/08
to utgb-u...@googlegroups.com
なかざと です。

とりあえずですがメールします。

ゲノムの上にマイクロアレイのデータを乗せてそこにいろいろ情報を
乗せていくという感じで。


table 1: マイクロアレイの各プローブの情報
column 1:primary key
column 2:probe ID … VARCHAR(チップベンダーによってID体系が違うので可変長)
column 3:ベンダー … VARCHAR(選択式だから、別テーブルの方がよい?)
column 4:対応するGene ID


table 2:遺伝子情報
column 1:primary key
column 2:GeneID … VARCHAR
column 3:遺伝子名 … VARCHAR

table 3:実験
column 1:primary key
column n:各発現量 … FLOAT

実験名とかはどうなるんだ?


とりあえず、メモ程度で送ります。
時間ができたらアップデートします。



2008/11/20 12:11 Taro L. Saito <l...@cb.k.u-tokyo.ac.jp>:

Hiromasa ONO

unread,
Dec 16, 2008, 8:34:57 PM12/16/08
to utgb-u...@googlegroups.com
おの@DBCLS です。

自分の持っているマイクロアレイデータとそれに関連するpublicなデータをゲノム上に並列にならべて、その発現量を比較するというコンセプトです。

table1: マイクロアレイのプローブ情報
column1: primary key
column2: probe ID (VARCHAR)
column3: probe IDに対応するrefseq ID もしくはensembl transcript ID (VARCHAR)

table2: 遺伝子情報
column1: primary key
column2: refseq ID もしくはensembl transcript ID (VARCHAR)
column3: gene symbol (VARCHAR)
column4: description (VARCHAR)

table3: 自分の実験データ
column1: primary key
column2: probe ID (VARCHAR)
column3: コントロール区と実験区のlog ratio (FLOAT)
column4: p-value (FLOAT)

tabel4: publicな実験データ
column1: primary key
column2: probe ID (VARCHAR)
column3: コントロール区と実験区のlog ratio (FLOAT)
column4: p-value (FLOAT)

データベースのエントリ数は、使用するマイクロアレイ(Affy HG U133 plus2)のID数である 54,675 の予定です。
検索は、自分の実験のlog ratio で昇順・降順など基本的なところをいまのところ想定しています。

Taro L. Saito

unread,
Dec 16, 2008, 8:51:23 PM12/16/08
to UTGB Users JP

これに加えて、probeをゲノム上のどの位置に設計したか、などの情報が必要そうですね。
table1 -- (GeneID) --> table2 --> (GeneID, ゲノム配列の種類(生物種、染色体など), start,
end)


On Dec 15, 4:38 pm, "Nakazato T." <chalkl...@gmail.com> wrote:
> なかざと です。
>
> とりあえずですがメールします。
>
> ゲノムの上にマイクロアレイのデータを乗せてそこにいろいろ情報を
> 乗せていくという感じで。
>
> table 1: マイクロアレイの各プローブの情報
> column 1:primary key
> column 2:probe ID ... VARCHAR(チップベンダーによってID体系が違うので可変長)
> column 3:ベンダー ... VARCHAR(選択式だから、別テーブルの方がよい?)
> column 4:対応するGene ID
>
> table 2:遺伝子情報
> column 1:primary key
> column 2:GeneID ... VARCHAR
> column 3:遺伝子名 ... VARCHAR
>
> table 3:実験
> column 1:primary key
> column n:各発現量 ... FLOAT

Taro L. Saito

unread,
Dec 16, 2008, 8:57:08 PM12/16/08
to UTGB Users JP
log ratioの値を並び替えて行う検索が多いなら、indexを作ると良さそうです。

ryu

unread,
Dec 16, 2008, 11:19:12 PM12/16/08
to UTGB Users JP
制限酵素の切断部位

よく使われる、重要な制限酵素の情報テーブル。
テーブル1:認知部位4塩基の情報  例え:AA||TT
テーブル2:認知部位5塩基の情報 CCA||GG CCC||GG
テーブル3:認知部位6塩基の情報 CCG||CGG
テーブル4:認知部位7塩基の情報 CCTN||AGC

このような情報あれば、現在solexaで発見したSNPより、すぐ遺伝子関連情報を解読可能になれる、大変便利だと思う。
Reply all
Reply to author
Forward
0 new messages