利用者:Shinmura Shuichi/sandbox
ここはShinmura Shuichiさんの利用者サンドボックスです。編集を試したり下書きを置いておいたりするための場所であり、百科事典の記事ではありません。ただし、公開の場ですので、許諾されていない文章の転載はご遠慮ください。
登録利用者は自分用の利用者サンドボックスを作成できます(サンドボックスを作成する、解説)。 その他のサンドボックス: 共用サンドボックス | モジュールサンドボックス 記事がある程度できあがったら、編集方針を確認して、新規ページを作成しましょう。 |
[null 癌の遺伝子解析(1)]
癌症例と正常症例あるいは別の癌症例のMicroarrayデータで、癌遺伝子を特定する研究が30年以上おこなわれ、芳しい成果を得ていない。
統計的判別分析には4つの大きな問題があり、これを誤分類数最小(Minimum Number of Misclassifications, MNM)化基準で新しい最適線形判別関数のRevised IP-OLDF(RIP)を開発した。2015年10月25日にその成果を統計シンポジュームで発表した。その際、別の発表で米国の6研究グループが論文発表に用いているMicroarrayデータを、他の研究者が検証するために公開していることを知った。そこで、この30年以上解決されていない5番目の判別分析の問題を応用問題として取り上げた。28日から分析すると12月20日までに、すべてのデータがMNM=0であり、10個から30個程度の遺伝子の判別係数だけが0でなく残り全てが自然に0になった。この遺伝子の組をSmall Matryoshka(SM1)とし、全体の遺伝子から省いて再度判別すると別のSM2が求まる。このようにして、MNMが1以上になるまで繰り返し、Microarrayデータは、MNM=0になるSMの排他的和集合の信号空間と、残りのMNM>=1の雑音空間に簡単に分離できた。
30年以上成功していないのは、これまでの統計的判別関数がMNM=0になる遺伝子データを正しく判別できないためである。多くの実証研究をResearch Gateにすべて公開してある。
1.「癌の遺伝子解析」の定義と3つの問題
ここで取り上げる「癌の遺伝子解析」とは、癌症例[null n1]件と正常あるいは他の癌症例[null n2]件の計n(= n1+ n2)件のデータをp個のMicroarrayのような遺伝子の発現量などで2クラス判別し、癌症例と正常症例(あるいは他の癌症例)を良く分ける遺伝子の組を見つけることと考える。
ハーバード大学医学部教授のGolubら[4]は、Scienceに発表した論文の中で彼らは30年以上研究を行っているが、Microarrayデータから統計的に有効な結論を得ていないと真摯に述べている。
一般的にnが100症例程度でpが1万件前後のn<<pのデータの分析で、次の3つの問題があると指摘されている。
(1)「Small n Large p」問題は、この問題の困難な説明によく使われている。例えば、早い時期にFisherの線形判別関数(Linear Discriminant Function,LDF)のF-LDFで遺伝子解析を行う研究が行われ、解説書も出版された。この問題はわずか100件のデータで1万個の分散共分散行列を推定することが難しく、少なくとも1995年以前に統計の研究テーマとして取り上げられたが、いつの間にか研究発表がなくなっていった。統計ソフトのJMPは、2015年の米国、ヨーロッパ、北京、東京の4都市で開催しているDiscovery Summitで、創業者のJohn Sall博士が基調講演「横長データの統計解析」を行った。この講演で、JMP[6]がこの問題を扱うF-LDFを開発し、Microarrayデータで誤分類数(Number of Misclassification, NM)が0でない例を報告した。無償で最新版のJMPを借りて判別したところNMは確かに0でなかった。しかし新村[8]- [10]が開発した誤類数最小化(Minimum Number of Misclassifications, MNM)基準による最適判別関数(Revised IP-OLDF, RIP)[27]で判別すると、数秒でMNM=0の結果が得られた。すなわち、既存の正規分布を仮定した分散共分散行列に基づく判別関数は、線形分離可能なデータ(Lineary Separable Data, LSD)を正しく判別できない致命的な欠点がある。
LSD判別が理論的に正しく行えるのは、Vapnik[33]が導入したハードマージン最大化SVM(H-SVM)とRIPだけである。しかも、LSD判別に限れば、計算時間は非常に速い。また、n<<pのデータを分散共分散行列を計算する必要がなく問題なく対応できる。
(2)この問題が難しいのは、「NP-hard」であるからといわれている。1万個の遺伝子を説明変数として判別分析する場合、(210000-1)個のモデルがある。この中からある基準に該当する最適なモデルを探すのは一般的に困難である。しかし、多くの遺伝子解析の研究で「癌遺伝子の定義」がはっきりしていない点である。それにもかかわらずLASSOで(重回帰分析や)判別分析を行い、[null 判別係数の幾つかを0にする]研究に期待が集まっている。判別係数の幾つかを0にすることは、部分空間のMNM=0になる最適解を求めることであるという明確な目的が見えない。「癌の遺伝子解析(3)-LSD判別分析に持ちいる8種のLDF- 」で詳細を示すが、これは多くの判別関数ではできない。これに対して、整数計画法(Integer Programming, IP)のアルゴリズムで分枝限定法(Branch & Bound Method)を用いているLINGO[7]は、簡単に多くの判別係数を自然に0にできる。このことは自然に変数選択できることであるが、小さな遺伝子の部分空間の最適解(MNM=0)を見つけることでもある。
(3)Big DATAは「大きな雑音の中に信号が埋もれていて、その信号を取り出すことが困難」と指摘されている。そして工学的に各種のフィルタリング・システムが提案されている。この場合も、何を信号と考えるか明確でない。[null 「癌の遺伝子解析」]が30年以上成功せず、周辺の研究者は「遺伝子の発現量で癌遺伝子を発見することはできない」と考えている風潮がある。しかし次で紹介するGolubらを含む米国の主要な6研究グループの公開データは、2015年10月28日から12月20日まででRIPで判別すると、全てがMNM=0であり、小さなMNM=0になるSMの排他的な和集合になることが分かった([27]の8章)。すなわち、信号区間と雑音空間に自然に分離できた。すなわちLSDの判別で、MNMが1以上になるモデルは考慮する必要がなく、雑音と明確に定義できる。数多くあるLSDの部分空間で、何が癌の医学診断で重要かが次の研究課題にすべきである。
これらのSMは10から30個程度の遺伝子の組であり、癌症例と正常症例をMNM=0で分けるので、統計的な「癌遺伝子」と定義してもよいと考える。これらが医学的に癌遺伝子であるか否かは、専門家による検証が必要である。
[null 癌の遺伝子解析]は以下の点を今後明らかにすべきである。
・研究に用いていないMicroarrayデータも、LSDであるか否かを検証する必要がある。もし、研究用に厳しく癌症例と正常症例が集められておれば、多くがLSDになることを期待している。もしLSDでない例があったとしても、結果が明瞭なLSDのデータの研究を最初に行うべきである。結果が不明瞭なオバーラップするデータで比較評価すべきではない。
・これまで行われているLASSOや工学的なフィルタリング手法は、すでに結果が出ている6種類のデータで追試し、比較し、その成果を公表すべきである。
ここ10年に行われている[null 癌の遺伝子解析]は、判別分析が役に立たないためかt検定やクラスター分析が多く用いられている。
・t検定で、おそらくt値が正の大きなものを癌遺伝子として探していると考えられる。しかしSMに含まれる遺伝子のt値は、正の値からほぼ0になるもの、そして負になるものがある。負になるものは癌の抑制遺伝子に関係していると考えられる。ほぼ0になるものは、おそらく他の遺伝子と交互作用があると考えられる。結論は、t値が大きなものを癌遺伝子とする根拠はなく、t値で癌遺伝子を探せない。また癌のデータでは、異常値のためt値が大きく影響を受けることを考えていないようだ。
・クラスター分析が「癌の遺伝子解析」に限らず医学分野で多用されている。これは、クラスター分析は数多くの手法がありオプションの選択で種々のクラスターが得られて、医学的な研究成果を説明するための表現手段として有用なためと考えられる。クラスター分析で癌の遺伝子を特定することは難しいと考える。
2.癌遺伝子の研究に有用な6種類のMicroarrayデータ
癌遺伝子を統計的に特定する研究は、近年流行のビッグ・データ解析の走りである。米国の6研究グループが、表1に示す6種類のMincroarrayデータを集め、研究成果を著名な学術誌に発表している。これらの論文は、Datasets欄の文献番号に対応している。そして、他の研究者が検証できるように公開している。
Jefferyら[5]は、彼ら自身それらを用いてFeature Selection Method などの研究を行うと同時に、HPからダウンロードできるように6種類のデータを公開していて便利である。ただし、実際の遺伝子名が扱いにくいので他の別名に置き換えている問題がある。
新村[26]は、2015年10月28日にこれらのデータをダウンロードし、Shippら[30]のデータを、[null MNM基準による最適判別関数の RIP]と[null H-SVM]とF-LDFで2群判別を行った。JMPのロジスティック回帰では、n<<pのデータの分析は行えない。
RIPでは、MNM=0であり僅か32個の遺伝子の判別係数が0でなく、残り7065個が自然に0になった。H-SVMのNMは0であるが、判別係数は0になるものがなかった。このため、RIPが求めた32個の遺伝子でNM=0になるかどうかは、すべてのモデルを探索する必要があり「NP-hard」な困難な問題になる。これは、多くの判別関数が部分空間のMNM=0になる最適解を見つけることができないためである(「癌の遺伝子解析(3)-LSD判別分析に持ちいる8種のLDF- 」参照)。
一方、JMPは2015年11月の東京で開催されたDiscovery Summitでn<<pに対応したF-LDFのリリースを発表したが、ShippらでNM=29になった。MNM=0になる多くのデータでも従来の統計的判別関数が正しくNM=0と判別できないことが、30年以上[null 「癌の遺伝子解析」]が行えない直接的な理由である。このため、色々なアプローチが提案されいるが、「癌の遺伝子解析」には直接的に役に立たない。癌症例と正常症例あるいは異なった癌症例を遺伝子から癌遺伝子を特定できるのは、判別関数による直接のアプローチだけである。
すなわち、ShippらのデータはLSDである。LSDデータを理論的に判別できるのはH-SVM(NM=0)とRIP(MNM=0)だけである。Golubら[4]は、30年以上統計的に癌遺伝子の研究を行っていることを述べている。「なぜ、がんの遺伝子解析」が30年以上成功しなかったかは、統計的判別関数がLSDを正しく判別できないためである。
ただし、H-SVMは正しくMicroarrayデータがLSDであることを判別できる。なぜこれまでの研究で、少なくともこれらの6種類は全てLSD(MNM=0)という報告がなかったかである。これは推測の域を出ないが、H-SVMはオーバーラップしている多くの現実のデータに適用するとエラーになり、ソフトマージンSVM(S-SVM)を用いる必要があるため、誰も実際にH-SVMで判別していないのではないかと考えられる。さらに多くの研究者は、LSD判別分析の研究を重要と考えず、S-SVMを適用あるいはKernel SVMに注目したからでないかと考える。
この6種のデータに限定すればMNM=0であるので、一応癌遺伝子とは「癌症例と正常症例をMNM=0またはNM=0となる遺伝子の組み合わせ」と仮に定義する。そしてこのような遺伝子の空間と部分空間をマトリョースカ(Matryoshka)と呼ぶことにする。RIPはフルモデルの遺伝子空間から一気に32個の遺伝子の部分空間を自然に変数選択できた。これをSMと呼ぶ。これは、この分野でいろいろな“Feature Sellection Method”が提案されているが、これらの研究が必要ないことを示す。また、統計ではLassoという研究で、幾つかの判別係数を0にすることを研究している。しかし数千個の判別係数を0にすることなどを想定していないようだ。分散共分散行列に基づく正規分布を仮定した判別手法では、
1)LSDを正しくNM=0と判別できない。
2)これができないのに、MNM=0になる低次元のMatryoshkaは見つけられない。
この主張が正しくないことを証明するのは簡単である。これまでの研究で開発された手法で表1のデータを判別して結果を比較してみれば明らかになる。NMが0でないオバーラップしたデータで研究し評価しても結果が明瞭でない。折角MNM=0になる有用なデータが公開されているので、このデータで検証すべきである。また、多くのMNM=0になる排他的なSMを見つけたので他の統計研究でも有用である。JMP欄の数字はNMであり括弧の数字は誤分類確率である。すなわち過去の判別分析を用いた研究で、誤分類確率が高くて中断した研究でも、MNM=0であることを明記する。判別分析には、判別分析に5個の大きな問題があり[10]、[27]の1章で、また5章では試験の合否判定を学生がとった得点の大門で合否判定できないことを紹介している。すなわち、合計得点で誰もが合格と不合格のLSDを正しく判別できるのに、統計的判別関数を使うとできないということは注意すべきである。
表1 6種類のMicroarrayデータ
Datasets | 2群と患者数 | 遺伝子数 | JMP | SM |
Alon et al. | Normal (22) vs. tumour cancer (40) | BGS130 | ||
Alon et al. [1] | Normal (22) vs. tumour cancer (40) | 2000 | 5(8.0) | 64 [11] |
Singh et al. [31] | Normal (50) vs. tumour prostate (50) | 12625 | 2(1.6) | 179 [12] |
Golub et al. [3] | All (47) vs. AML (25) | 7129 | 8(11.6) | 69 [10] |
Tien et al. [33] | False (36) vs. True (137) | 12625 | 3(3.9) | 159 [13] |
Chiaretti et al. [2] | B-cell (95) vs. T-cell (33) | 12625 | 10(9.8) | 95 [14] |
Shipp et al. [30] | Follicular lymphoma (19) vs. DLBCL (58) | 7130 | 29(16.8) | 130 [9] |
3.マトリョースカ特徴抽出法(Matryoshka Feature Selection Method)
遺伝子全体をRIPで判別すると、自然に32次元のMatryoshkaすなわち32個の遺伝子で癌症例と正常症例がMNM=0であることが分かった。すでに、スイス銀行1000フラン紙幣は、真札と偽札各100件の6個の計測値の有名なデータがある。Flury & Rieduel[3]が集めて、判別分析の解説書で分析しているが、彼らはLSDであることを指摘していない。このデータは、(X4,X6)でMNM=0であり、この2変数を含むすべての16モデルがMNM=0である。これは、MNMの単調減少性(MNMp≧MNM(p+1))によるものである([27]の1章)。すなわち、MNM(X4,X6)=0であるので(X4,X6)を含む16個のモデルがMNM=0になる。残り47モデルがLSDでない。すなわち6次元の大きなMatryoshkaに15個の部分空間がロシア人形のように入れ子状に含まれている。Shippでは、7130個の大きなMatryoshkaに32個のSMまでの多くのMatryoshkaが含まれている。SMを130個見つけたが、これらの各SMに含まれていない遺伝子を順次追加してもMNM=0になる。一方、SMに含まれる最小次元のSMを癌の基本遺伝子(Basic Gene Set, BGS)と仮に定義する。このBGSから1個の遺伝子を省くと、MNMは1以上になる。2016年には、Alonら[1]が130個のBGSの排他的和集合で雑音がほどんとないことを示している。彼らは、医学的に2000個の遺伝子まで候補を絞ってきたようだが、それが統計的には130個のBGSの排他的和集合であるという同じ結果を得た。
次に全遺伝子から最初に求まった32次元のSM(SM1と呼ぶ)を省いて判別すると、別のSM2が求まった。これを繰り返し、MNMが1以上になるまで繰り返して、すべてのMNM=0になるSMを求めた [9]-[14]。すなわち、Microarrayデータは、SMの排他的和集合になることが分かった。これを数理計画法ソフトのLINGO[7]でプログラムを作成し、表1の6種類全てでSMをリストアップした。これがSM欄の文献に掲載されている。
しかし、Jeffereyらのデータでは、真の遺伝子名が統計的に扱いやすい別名に置き換えられている。誰か、これらの対応表の入手方法を教えてください。もし、真の遺伝子名が分かれば、別途癌遺伝子のリストを作成しResearch Gate(RG)に公表します。これらのSMに含まれる遺伝子のt検定を行えば、t値でもって癌遺伝子を探す研究が間違っていることが分かる。また主成分析やクラスター分析で2群がLSDであることを示す兆候が発見できない。すなわち、多くの統計手法はLSDデータを正しく分析できない、あるいはそれを示す兆候wp示せないことが分かる。唯一、ロジスティック回帰は、小標本であり全SMをNM=0で判別できる。この事実は、表1のSMがLSDであることを別の手法が保証できたことを示している。
米国の6研究グループの研究者は、他の研究テーマを選んでおれば大きな成果を出せたと考えられる。間違った統計手法を信じたために悪戯に貴重な研究人生を送ったことは、統計研究者として反省せざるを得ない。癌の遺伝子解析は、決して難しくあきらめる研究テーマではない。
[null Reference]
[1] Alon U, Barkai N, Notterman DA, Gish K, Ybarra S, Mack D, Levine AJ (1999) Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays. Proc. Natl. Acad Sci USA, 96(12): 6745-6750
[2] Chiaretti S, Li X, Gentleman R, Vitale A, Vignetti M, Mandelli F, Ritz J, Foa R (2004) Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood April 1, 2004, 103/7: 2771-2778
[3] Flury B, Riedwyl H (1988) Multivariate Statistics: A Practical Approach. Cambridge University Press New York
[4] Golub TR, Slonim DK, Tamayo P, Huard C, Gaasenbeek M, Mesirov JP, Coller H, Loh ML, Downing JR, Caligiuri MA, Bloomfield CD, Lander ES (1999) Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring. Science 286(5439): 531-537
[5] Jeffery IB, Higgins DG, Culhane C (2006) Comparison and evaluation of methods for generating differentially expressed gene lists from microarray data. BMC Bioinformatics 7:359: 1-16 (doi: 10.1186/1471-2105-7-359)
[6] Sall JP, Creighton L, Lehman A (2004) JMP Start Statistics, Third Edition. SAS Institute Inc. USA (Shinmura S. edits Japanese version)
[7] Schrage L (2006) Optimization Modeling with LINGO. LINDO Systems Inc. (Shinmura S translates Japanese version)
[8] Shinmura S (2000b) Optimal Linear Discriminant Function using Mathematical Programming. Dissertation, March 2000: 1-101, Okayama University, Japan
[9] Shinmura S (2010a) The optimal linearly discriminant function. Union of Japanese Scientist and Engineer Publishing, Japan (ISBN 978-4-8171-9364-3) (最適線形判別関数,日科技連)
[10] Shinmura S (2015c) Four Serious Problems and New Facts of the Discriminant Analysis. In: Pinson E, Valente F, Vitoriano B (ed) Operations Research and Enterprise Systems: 15-30. Springer, Berlin (ISSN: 1865-0929, ISBN: 978-3-319-17508-9, DOI: 10.1007/978-3-319-17509-6)
[11] Shinmura S (2015e) The Discrimination of microarray data (Ver. 1). Research Gate (1): 1-4, 28 Oct 2015
[12] Shinmura S (2015f) Feature Selection of three Microarray data. Research Gate (2): 1-7, 1 Nov 2015
[13] Shinmura S (2015g) Feature Selection of Microarray Data (3) – Shipp et al. Microarray Data. Research Gate (3): 1-11, 3 Nov 2015
[14] Shinmura S (2015h) Validation of Feature Selection (4) – Alon et al. Microarray Data. Research Gate (4): 1-11, 5 Nov 2015
[15] Shinmura S (2015i) Repeated Feature Selection Method for Microarray Data (5). Research Gate (5): 1-12, 9 Nov 2015
[16] Shinmura S (2015j) Comparison Fisher’s LDF by JMP and Revised IP-OLDF by LINGO for Microarray Data (6). Research Gate (6): 1-10, 11 Nov 2015
[17] Shinmura S (2015k) Matroska Trap of Feature Selection Method (7) –Golub et al. Microarray Data-. Research Gate (7): 1-14, 18 Nov 2015
[18] Shinmura S (2015l) Minimum Sets of Genes of Golub et al. Microarray Data (8). Research Gate (8): 1-12, 22 Nov 2015
[19] Shinmura S (2015m) Complete Lists of Small Matroska in Shipp et al. Microarray Data (9). Research Gate (9): 1-81, 4 Dec 2015
[20] Shinmura S (2015n) Sixty-nine Small Matroska in Golub et al. Microarray Data (10). Research Gate: 1-58, 4 Dec 2015
[21] Shinmura S (2015o) Simple Structure of Alon et al. et al. Microarray Data (11). Research Gate (11): 1-34, 4 Dec 2015
[22] Shinmura S (2015p) Feature Selection of Singh et al. Microarray Data (12). Research Gate (12): 1-89, 6 Dec 2015
[23] Shinmura S (2015q) Final List of Small Matroska in Tian et al. Microarray Data. Research Gate (13): 1-160, 7 Dec 2015
[24] Shinmura S (2015r) Final List of Small Matroska in Chiaretti et al. Microarray Data. Research Gate (14): 1-16, 20 Dec 2015
[25] Shinmura S (2015s) Matroska Feature Selection Method for Microarray Data. Research Gate (15): 1-16, 20 Dec 2015
[26] Shinmura S (2016a) Matroska Feature Selection Method for Microarray Data. Biotechno 2016:1-8 (Best Paper Award)
[27] Shinmura S (2016d) New Theory of Discriminant Analysis after R. Fisher, Springer, Dec. 2016. (ISBN 978-981-10-2163-3 ISBN 978-981-10-2164-0 (eBook) DOI 10.1007/978-981-10-2164-0)
[28] Shinmura S (2017c) Cancer Gene Analysis by Singh et al. Microarray Data. ISI2017: 1-6.
[29] Shinmura, S (2017d) From Cancer Gene Analysis to Cancer Gene Diagnosis. Amazon Kindle.
[30] Shipp MA, Ross KN, Tamayo P, Weng AP, Kutok JL, Aguiar RC, Gaasenbeek M, Angelo M, Reich M, Pinkus GS, Ray TS, Koval MA, Last KW, Norton A, Lister TA, Mesirov J, Neuberg DS, Lander ES, Aster JC, Golub TR (2002) Diffuse large B-cell lymphoma outcome prediction by gene-expression profiling and supervised machine learning. Nature Medicine 8(1): 68-74. (Doi:10.1038/nm0102-6)
[31] Singh D, Febbo PG, Ross K, Jackson DG, Manola J, Ladd C, Tamayo P, Renshaw AA, D’Amico AV, Richie JP, Lander ES, Lada M, Kantoff PW, Golub TR, Sellers WR (2002) Gene expression correlates of clinical prostate cancer behavior. Cancer Cell 1(2): 203-209
[32] Tian E, Zhan F, Walker R, Rasmussen E, Ma Y, Barlogie B, Shaughnessy JD (2003) The Role of the Wnt-signaling Antagonist DKK1 in the Development of Osteolytic Lesions in Multiple Myeloma. The new England Journal of Medicine, Vol. 349, 26: 2483-2494
[33] VapnikV (1995) The Nature of Statistical Learning Theory. Springer-Verlag.