PubCaseFinder:症例報告を活用した希少疾患および遺伝性疾患の診断を支援するウェブサービス
藤原 豊史
(ライフサイエンス統合データベースセンター)
email:藤原 豊史
DOI: 10.7875/first.author.2018.105
Toyofumi Fujiwara, Yasunori Yamamoto, Jin-Dong Kim, Orion Buske, Toshihisa Takagi
American Journal of Human Genetics, 103, 389-399 (2018)
目 次
要 約
筆者らは,希少疾患および遺伝性疾患の診断を支援する医療関係者むけのウェブサービスとしてPubCaseFinderを開発した.希少疾患および遺伝性疾患については,診断のつかない多くの患者が存在する.PubCaseFinderは,患者の症状をキーワードとして,約4000件の希少疾患,約7000件の遺伝性疾患,約30万件の症例報告を対象に,疾患名および症例報告を関連性の高い順にランキングとして提示する.上位にランキングされた疾患名は患者の診断の候補として可能性が高く,また,上位にランキングされた症例報告は患者と症状の類似する過去の症例であり診断に役だてることができる.PubCaseFinderのすべての機能はウェブサービスとして無償で自由に利用できる.
はじめに
希少疾患および遺伝性疾患は6000以上も存在し,適切な治療のためには早期の診断が必要であるが,実際には,診断まで多くの時間を要している1).そこで近年では,早期の診断を目的として希少疾患あるいは遺伝性疾患の疑われる未診断の患者を対象にエキソーム解析などゲノム解析を実施するプロジェクトが世界各国で進められている2).しかし,それらプロジェクトにおける診断率は25~40%と報告されており3),患者の60%以上はゲノム解析を用いても診断がつかない.また,未診断のすべての患者がゲノム解析を容易にうけられるわけではない.
これら患者の早期の診断のためには,医療関係者が希少疾患および遺伝性疾患の情報や過去の症例を容易に検索できる環境の整備が重要である4).筆者らは,患者の症状を入力するだけで関連する希少疾患および遺伝性疾患の候補を可能性の高い順にランキングとして提示する,医療関係者むけの希少疾患および遺伝性疾患の診断を支援するウェブサービスとして,PubCaseFinder(https://pubcasefinder.dbcls.jp)を開発した.
1.PubCaseFinderの概要
PubCaseFinderは,希少疾患のデータベースであるOrphanet(https://www.orpha.net)に含まれる約4000件の疾患,および,遺伝性疾患のデータベースであるOMIM(https://www.omim.org)に含まれる約7000件の疾患を対象とする.また,おのおのの疾患にはPubMed(https://www.ncbi.nlm.nih.gov/pubmed/)から取得した約30万件の症例報告をひもづけてあり,疾患ごとに関連性の高い過去の症例を検索することができる.PubCaseFinderは,診断の候補として可能性の高い疾患を提示し,さらには,患者と類似する過去の症例を提示することにより診断を支援する.
患者の症状をもとに疾患および症例報告をランキングするためには,あらかじめ,疾患に対しては過去に報告された症状をひもづけ,症例報告に対しては記載された症状をひもづける必要がある.“患者の症状のセットと疾患の症状のセット”あるいは“患者の症状のセットと症例報告の症状のセット”を比較し,その類似度により疾患名または症例報告をランキングする.Orphanetに収納された希少疾患については,文献から抽出された疾患に対する症状の情報が公開されている.また,OMIMに収納された遺伝性疾患については,Human Phenotype Ontology(HPO,https://hpo.jax.org)コンソーシアムにより,文献から抽出された疾患に対する症状の情報が公開されている4).しかし,これらの情報はおもにキュレーターが手動で抽出しているため,その精度は高いものの情報の不足が問題となっている5).そこで,Orphanetに収載された希少疾患に対する症状を,PubMedに収納されている約100万件の症例報告からテキストマイニングの技術を用いて自動的に抽出した.この自動的に抽出された症状とOrphanetが提供する症状とをあわせて利用した場合に疾患のランキングの精度が向上するかどうか,希少疾患の症例のデータセットを用いて評価した結果,自動的に抽出された疾患に対する症状の情報が有効であることが確認された.
2.PubCaseFinderの利用
PubCaseFinderにおける検索は,患者の症状を入力するところからはじまる(図1).症状はHPOに含まれる約13,000の用語から選択する.HPOは,ヒトの遺伝性疾患においてよくみられる症状を記述する標準的な用語を提供するために,おのおのの疾患の専門家によりキュレーションされたオントロジーである.現在,PubCaseFinderが利用しているバージョンreleases/2017-06-30は,12,786の用語から構成され,9473の症状の定義および16,320の類義語を含み,また,16,443の用語間の上位概念と下位概念との関係を含む.HPOは英語だけでなく日本語を含む複数の言語への対応が進められており,PubCaseFinderは英語および日本語による症状の入力に対応している.
HPOの用語数は約13,000と膨大であり,目的の症状をさがすのは容易ではない.そこで,PubCaseFinderは目的の症状を簡単にさがすため2つの機能を提供している.症状検索機能においては,文字列を入力すると,その文字列を含むすべての症状が約100万件の症例報告における出現頻度の順に表示される.また,症状階層探索機能においては,入力した症状をクリックするとその症状の定義および類義語を確認することができ,さらに,上位概念となる症状および下位概念となる症状が表示され症状の階層を自由に探索できる.この2つの機能を利用することにより,最初から目的の症状をさがせなくても,おおよその症状を検索しその周辺の症状を探索することにより,目的の症状を効率的にさがしだすことができる.
症状を入力し検索を実行すると,OrphanetおよびOMIMにおける疾患のランキングが同時に提示される.おのおのの疾患には,入力された症状のセットとオントロジーにおいてもっとも近い症状のセット,疾患の原因遺伝子,疾患の定義,Google画像検索,症例報告の検索のリンクが表示される.これらの情報は,おのおのの疾患を診断の候補として検討する際に活用できる.また,“疾患を絞り込む”に疾患の原因遺伝子を入力することによりランキングを絞り込むことができる.この機能は,患者のゲノム解析により疾患の原因遺伝子の候補となる複数の遺伝子を取得した場合などに活用できる.つまり,この絞り込みの機能を利用すれば患者の症状と遺伝情報の両方を利用して診断の候補となる疾患を検索できる.ランキングの結果はダウンロードでき,OrphanetあるいはOMIMにおいてトップ10にランキングされた疾患のみをまとめてダウンロードすることも可能である.
おのおのの疾患に対する症例報告は,症例報告のタイトルおよびアブストラクトに含まれる疾患名をもとにひもづけてあり,疾患ごとに症例報告を検索することができる.症例報告も患者の症状と関連の高い順にランキングとして表示される.おのおのの症例報告には,入力された症状のセットとオントロジーにおいてもっとも近い症状のセット,症例報告に含まれる遺伝子名およびバリアントの情報,PubMedによりタグづけされたMeSHの用語が表示される.これらの情報をもとに症例報告を絞り込むことが可能で,たとえば,“症例報告を絞り込む”に“infant”と入力すれば幼児の症例報告を絞り込むことができる.
3.疾患に関連する症状の取得および疾患に対するランキングの精度の評価
Orphanetは2478の疾患に対し51,590件の疾患に対する症状の情報を提供しているが,情報の不足が課題となっている.症例の数が少ない希少疾患あるいは遺伝性疾患における疾患に対する症状の情報の抽出には,少数の症例についてまれな症状や薬剤の副作用を報告する症例報告が有効であることが報告されている6).また,症例報告および症例報告を掲載するジャーナルは年々増加している.そこで,より多くの疾患に対する症状の情報を取得するため,PubMedに収納されている症例報告を活用した.
症例報告のタイトルおよびアブストラクトから,症状としてHPOの用語を,Orphanetの疾患名としてOrphanet Rare Disease Ontology(ORDO,http://www.orphadata.org/)の用語を抽出し,それらの情報から疾患に対する症状の情報を抽出した.オントロジーの用語のテキストからの抽出には複数のツールが存在するが,よく利用されているNCBO Annotator,MetaMap,ConceptMapperについて,8つのオントロジーに対する抽出の精度が比較され7つのオントロジーにおいてConceptMapperがもっともよいと報告されている7).筆者らも,これら3つのツールについて処理の速度を比較した結果,ConceptMapperはほかのツールよりも50倍以上も高速であることが確認された.これらの結果からConceptMapperを採用し,HPOおよびORDOの用語を抽出した.そして,同一のセンテンスにおいてHPOの用語とORDOの用語とが共起している場合に,それらを疾患に対する症状の情報として抽出した.これは単純な方法ではあるが,過去の複数のプロジェクトにおいてよい結果が得られている8).その結果,Orphanetの3072の疾患に対し70,011件の疾患に対する症状の情報を取得した.Orphanetの提供する情報との重複を除くと新たに取得した情報は64,794件で,Orphanetの提供する情報から約1.26倍に増加した.
症例報告から抽出された疾患に対する症状の情報がランキングの精度の向上に有効であるかどうか,希少疾患の患者から得た症例のデータセットを用いて評価した.症例のデータセットとしては,カナダにおけるプロジェクトCare4Rare(http://care4rare.ca)において収集された135件の症例を利用した.おのおのの症例には複数の症状がHPOの用語により割りあてられており,診断名としてOMIM IDが割りあてられている.Orphanetの疾患において評価するため,ORDOを用いて診断名のOMIM IDをOrphanet IDに変換した.そして,Orphanetの提供する疾患に対する症状の情報のみを利用した場合,Orphanetの提供する疾患に対する症状の情報と症例報告から抽出した疾患に対する症状の情報をあわせて利用した場合,希少疾患の診断を支援する既知のシステムであるOrphamizer(http://compbio.charite.de/phenomizer_orphanet/)を利用した場合,のそれぞれについて,症例のデータセットから疾患のランキングを取得した.ランキングの再現率を計算した結果,Orphanetの提供する疾患に対する症状の情報のみを利用した場合よりも症例報告から抽出した疾患に対する症状の情報もあわせて利用した場合のほうが精度は高く,また,OrphamizerよりもPubCaseFinderのランキングのほうが精度の高いことが確認された.これらの結果から,症例報告から自動的に抽出した疾患に対する症状の情報が疾患のランキングに対する精度の向上に有効であることが示された.
4.国内外のほかのシステムとの連携
PubCaseFinderが多くの医療関係者に活用されるよう,PubCaseFinderのAPIをGlobal Alliance for Genomics and Health(GA4GH,https://www.ga4gh.org/)のドライバープロジェクトであるMatchmaker Exchange(https://www.matchmakerexchange.org)のAPIとして提供している.Matchmaker Exchangeは各国の症例リポジトリが症例のデータを共有するための取り組みで,成果として,すでに多くの新規の疾患が定義され,また,疾患の原因となる多くの変異が同定されている9).それらの症例リポジトリのうち,日本の未診断疾患イニシアチブ(https://www.irud.jp),カナダのPhenomeCentral(https://www.phenomecentral.org),オーストラリアのPatientArchive(http://patientarchive.org)が,Matchmaker ExchangeのAPIを経由してPubCaseFinderの疾患および症例報告を検索する機能を活用している.今後は,症例リポジトリだけではなく,日本人のゲノム情報についての統合データベースであるTogoVar(https://togovar.biosciencedbc.jp)との連携や,オープンソースによる症例の登録システムであるPhenoTips(https://phenotips.org)との連携を進め,PubCaseFinderの機能を拡張する予定である.
おわりに
近年,希少疾患および遺伝性疾患が疑われる患者の診断を支援するため,PubCaseFinderと同様に,患者の症状から関連性の高い疾患を検索するシステムが数多く開発されている4).今後,エキソーム解析や全ゲノム解析などを適用しても診断のつかない患者に対しこれらシステムがよりよい支援を行うためには,疾患に対するランキングの精度のさらなる向上が重要であり,疾患に対する症状の情報の整備や,症状セットどうしの類似度を計算する手法の改良が必要とされている.
文 献
- Yu, H. & Zhang, V. W.: Precision medicine for continuing phenotype expansion of human genetic diseases. Biomed Res. Int., 2015, 745043 (2015)[PubMed]
- Stranneheim, H. & Wedell, A.: Exome and genome sequencing: a revolution for the discovery and diagnosis of monogenic disorders. J. Intern. Med., 279, 3-15 (2016)[PubMed]
- Sawyer, S. L., Hartley, T., Dyment, D. A. et al.: Utility of whole-exome sequencing for those near the end of the diagnostic odyssey: time to address gaps in care. Clin. Genet., 89, 275-284 (2016)[PubMed]
- Kohler, S., Vasilevsky, N. A., Engelstad, M. et al.: The Human Phenotype Ontology in 2017. Nucleic Acids Res., 45, D865-D876 (2017)[PubMed]
- Groza, T., Kohler, S., Moldenhauer, D. et al.: The Human Phenotype Ontology: semantic unification of common and rare disease. Am. J. Hum. Genet., 97, 111-124 (2015)[PubMed]
- Sudhakaran, S. & Surani, S.: The role of case reports in clinical and scientific literature. Austin J. Clin. Case Rep, 1, 1006 (2014)
- Funk, C., Baumgartner, W. Jr., Garcia, B. et al.: Large-scale biomedical concept recognition: an evaluation of current automatic annotators and their parameters. BMC Bioinformatics, 15, 59 (2014)[PubMed]
- Garten, Y., Coulet, A. & Altman, R. B.: Recent progress in automatically extracting information from the pharmacogenomic literature. Pharmacogenomics, 11, 1467-1489 (2010)[PubMed]
- Buske, O. J., Schiettecatte, F., Hutton, B. et al.: The Matchmaker Exchange API: automating patient matching through the exchange of structured phenotypic and genotypic profiles. Hum. Mutat., 36, 922-927 (2015)[PubMed]
活用したデータベースにかかわるキーワードと統合TVへのリンク
著者プロフィール
略歴:2018年 東京大学大学院新領域創成科学研究科 修了,ライフサイエンス統合データベースセンター 特任研究員.
研究テーマ:希少疾患および遺伝性疾患に関するインフォマティクス.
抱負:診断,治療,創薬に役だつ希少疾患および遺伝性疾患の統合データベースを構築したい.
© 2018 藤原 豊史 Licensed under CC 表示 2.1 日本