ご注文はリード化合物ですか?〜医薬化学録にわ〜

自分の勉強や備忘録などを兼ねて好き勝手なことを書いていくブログです。

生物活性物質データベース ChEMBL の使い方

QSAR モデルを構築するためには、多くのデータが必要です。 化合物とその生物活性についてまとめられたデータベースは色々ありますが、よく使われるものの一つに ChEMBL というデータベースがあります。

www.ebi.ac.uk

アルツハイマー病治療薬であるドネペジルのターゲットでもあるアセチルコリンエステラーぜ(AChE)を例に、ChEMBL から QSAR モデル構築に使うためのデータを取得してみましょう。

最初に、トップページから、ターゲットとなるタンパク質を検索します。

f:id:imedchem:20200930233457p:plain
検索バーで AChE を検索

検索結果が出てきますが、左上の Targets を選択すると、タンパク質のアッセイデータセットが複数出てきます。

f:id:imedchem:20200930234410p:plain
検索結果(データの数でソート済み)

カラムの右側の方に、「Compounds」という項目があるので、右側の矢印を押して、データ数の多い順にソートしましょう。一回だと、データ数の少ない順にソートされるので、二回押す必要があります。 Organism のカラムには細胞の由来が記載されているので、目的に応じてデータを選択してください(今回は Homo sapiens を選びます)。Name にはタンパク質の名前があるので、確認しましょう(例えば EGFR で検索すると、EGFR1 と EGFR2 両方のデータが出てきます)。 欲しいデータセットを見つけたら、緑色で書かれている ChEMBL ID をクリックしてください(今回は ChEMBL220 を選択してみます)。

Target Report Card のページが出てくるので、少し下に行くと、Associated Bioactivities と書かれた円グラフが出てきます。円グラフ中の欲しいデータの領域をクリックすると、そのデータだけ得られます(今回は IC50 を選択します)。タンパク質によりますが、IC50 が最も多く、次に Ki が多数を占める場合が多いです。

f:id:imedchem:20200930234927p:plain
活性値の種類に関する円グラフ

Browse Activities に移動したら、中央上部に緑で小さく書かれた Select All を押して、左側の Table をクリック、最後に、右側の緑の CSV or TSV ボタンを押すと、化合物と生物活性のデータを落とすことができます。

f:id:imedchem:20200930235805p:plain
Table を押して CSV or TSV で落とす

原因は不明ですが、うまくデータがダウンロードできない場合があります。そのときは、ブラウザを変更するなどの対応をすると、落とせる場合があります(直近だと何故か Safari で落とせず、Google Chrome に変更したら落とせた)。 ダウンロードしたデータは、化合物の重複があったり、濃度が違ったりするデータも含まれるので、必要なデータの前処理をしていく必要があります。

タンパク質名以外にも、アッセイ方法などで検索をかけることもできます。 色々なデータを実際に触ってみて、ケモインフォマティクスで使われるデータの感覚に慣れてみてください。