生物活性物質データベース ChEMBL の使い方 - ご注文はリード化合物ですか？〜医薬化学録にわ〜

QSAR モデルを構築するためには、多くのデータが必要です。化合物とその生物活性についてまとめられたデータベースは色々ありますが、よく使われるものの一つに ChEMBL というデータベースがあります。

www.ebi.ac.uk

アルツハイマー病治療薬であるドネペジルのターゲットでもあるアセチルコリンエステラーぜ（AChE）を例に、ChEMBL から QSAR モデル構築に使うためのデータを取得してみましょう。

最初に、トップページから、ターゲットとなるタンパク質を検索します。

f:id:imedchem:20200930233457p:plain — 検索バーで AChE を検索

検索結果が出てきますが、左上の Targets を選択すると、タンパク質のアッセイデータセットが複数出てきます。

f:id:imedchem:20200930234410p:plain — 検索結果（データの数でソート済み）

カラムの右側の方に、「Compounds」という項目があるので、右側の矢印を押して、データ数の多い順にソートしましょう。一回だと、データ数の少ない順にソートされるので、二回押す必要があります。 Organism のカラムには細胞の由来が記載されているので、目的に応じてデータを選択してください（今回は Homo sapiens を選びます）。Name にはタンパク質の名前があるので、確認しましょう（例えば EGFR で検索すると、EGFR1 と EGFR2 両方のデータが出てきます）。欲しいデータセットを見つけたら、緑色で書かれている ChEMBL ID をクリックしてください（今回は ChEMBL220 を選択してみます）。

Target Report Card のページが出てくるので、少し下に行くと、Associated Bioactivities と書かれた円グラフが出てきます。円グラフ中の欲しいデータの領域をクリックすると、そのデータだけ得られます（今回は IC50 を選択します）。タンパク質によりますが、IC50 が最も多く、次に Ki が多数を占める場合が多いです。

f:id:imedchem:20200930234927p:plain — 活性値の種類に関する円グラフ

Browse Activities に移動したら、中央上部に緑で小さく書かれた Select All を押して、左側の Table をクリック、最後に、右側の緑の CSV or TSV ボタンを押すと、化合物と生物活性のデータを落とすことができます。

f:id:imedchem:20200930235805p:plain — Table を押して CSV or TSV で落とす

原因は不明ですが、うまくデータがダウンロードできない場合があります。そのときは、ブラウザを変更するなどの対応をすると、落とせる場合があります（直近だと何故か Safari で落とせず、Google Chrome に変更したら落とせた）。ダウンロードしたデータは、化合物の重複があったり、濃度が違ったりするデータも含まれるので、必要なデータの前処理をしていく必要があります。

タンパク質名以外にも、アッセイ方法などで検索をかけることもできます。色々なデータを実際に触ってみて、ケモインフォマティクスで使われるデータの感覚に慣れてみてください。