2011年04月27日

生物群集の多様性と統計数理

2010年の9/13と9/14に行われた統計数理研究所共同研究集会である「生物群集の多様性と統計数理」が研究レポートとして、冊子になりました。昨日代表者でもあるS谷さんが横浜の近くまでいらしたので、そのとき受け取りました。

一応、僕も進行研究紹介ということで、当日は発表させていただきました。そうそうたる方々に話を聞いてもらえたことは、僕にとってすごく良い財産になりました。涙目になりながらK野さんの講演内容をテープ起こし・編集したのが懐かしいです。イギリス渡航前だったので時間も取れない中、専門分野外の系統樹推定の論文を読み漁って・・・(涙)。でもお陰様で最先端の系統樹推定の「雰囲気」くらいはわかったつもりになれました。

昨日S谷さんと議論したことをメモ。
・ポアソン過程でパッチ数を決める(群れ数、親の数等)
・別のポアソン過程でパッチの中に含まれる個体数を決める(群れの中の頭数、子の数等)
そしてそれらをk関数を使ったApproximate Bayesian Computationの枠組みで(?)最適な探索航路を探し出す(???)

全く検討がついていませんが、論文の解読会をとりあえずやろうという話になりました。
まずは先行研究探し、ですが、どうやら最先端過ぎて(?)あまりそういう論文はないとのこと。僕に至ってはキーワードすら全く結び付かないので、まずは勉強しようと思います。これで5月の目標も決まりそうです。頑張ろう。
posted by しばきん at 10:48| 神奈川 ☀| Comment(0) | TrackBack(0) | 統計 | このブログの読者になる | 更新情報をチェックする

2011年04月25日

四月の目標中間報告

今日は四月に立てた目標である、
1. TOEFLテスト英単語3800のRank3までの単語の9割以上を暗記する

の中間報告をば。人に手伝ってもらって、Rank2までの単語を(一応)無作為に30語選んでもらって添削してもらいました。その結果正解が27問で、とりあえず割合としては9割を達成。間違った3語は、"swell", "demanding", "coward"でした。

なんで30語だけかというと、試験(?)にかかる時間的な制約があったからです。エクセルシートに書き出すのは途中で止めました。電車の中の移動時間や、献血の待ち時間で近くにいる人や物とイメージを結びつけて覚えたほうが効果的、ということが途中で分かったからです。移動時間に作業や読書をすることはあっても、暗記する、ってことをしていなかったのでこれは新鮮でした。

とりあえずこれでRank2までは覚えたことにしようと思います。
そうするとRank3がほとんど丸々残っていて、一日あたりに覚えなければならない単語は、あと一週間で964単語なので、一日あたり138単語くらいです。
でも個人的には毎日964単語見直し続けるほうが性にあってるので、一日に138づつ覚える、という目標を書いたときの方法は訂正します。毎日見直します。

実はRank2まで分かるようになった成果はすでに出ていて、National Geographicを読んでいて辞書を引く回数が減りました。Eruptionとか、すぐ分かって感動しました。この感動を次にまたイギリスに行くときに感じることが出来るよう頑張ります。
posted by しばきん at 00:45| 神奈川 ☀| Comment(0) | TrackBack(0) | 今月の目標 | このブログの読者になる | 更新情報をチェックする

2011年04月20日

理論統計の本とNational Geographic

数理統計学っていう本を買いました。その尊敬する方からのお薦めです。

パラパラと本を見てみて確かに今までは生物統計学みたいなものしかやってきてないなぁ、と思いました。難しい数式いっぱい。
でもこれを夏までに読んでその方に少しは楯突ける能力を習得します。
見てろよコンチクショウ。

それから、今月からNational Geographicの定期購読を始めました。英語に触れる機会を少しでも多くするためです。次にイギリスに行く時までに、向こうの人たちが驚くくらい成長してやる。見てろよコンチクショウ。
ラベル:統計学 数学 英語
posted by しばきん at 09:14| 神奈川 ☀| Comment(0) | TrackBack(0) | 研究生活 | このブログの読者になる | 更新情報をチェックする

2011年04月13日

二項分布の勉強

昨日は共同研究者の皆様の前でのイギリスでの成果報告でした。結果まではおそらく大丈夫です。考察がメチャクチャだったので、練り直しです。あと、曖昧な言い方はやめるよう努めます。ボスには4/22までに論文を提出することを公言してしまいました。言ったからにはやります。

それから、すごく尊敬する方に理論統計をちゃんとやったほうがいいと言われました。本をどれにするか選定している最中に、そういえばポアソンとか二項分布すら自分で導出したことないなぁと思ったので、確認してみます。分かってます、現実逃避です。

まず二項分布の導出をやってみます。…と言いつつ、カンニングペーパーを見ながら。すごく分かりやすく説明されています。
http://econom01.cc.sophia.ac.jp/sda/binomial.htm#32

二項分布というのは、確率pで成功するベルヌーイ試行をn回行なったときの成功の回数xの分布、です。ベルヌーイ試行というのは、成功か失敗かで区別される無作為試行のこと、です。この辺の定義もそらで言えない自分が情けない。

成功か失敗か、のどちらかが起こるわけですから、成功する確率をpとすると失敗する確率は(1-p)、です。足すと1になりますよね。そして、これまたその試行をn回繰り返せば、成功がx回起こったら失敗は(n-x)回起こるはず。合計すると、n回の試行です。ここで気をつけたいのは、成功と失敗が何番目に起こったか、は成功した回数の分布とは関係ないのです。例えば、今試行を3回繰り返して、成功が1回、失敗が2回ありました、と言われたとします。このとき、

成功→失敗→失敗
失敗→成功→失敗
失敗→失敗→成功

の3通りがその状況を満たす場合として考えられます。この場合、順番は関係ないのです。今興味あるのは、成功する回数の分布です。何番目に成功したか、というのは関係ないのです。だから、この場合、この3つは同列に扱って、そのような場合は3通りあるとして足し合わせます。
式にすると、

p*(1-p)*(1-p) +
(1-p)*p*(1-p) +
(1-p)*(1-p)*p
=3*{p*(1-p)^2}

です。ただ成功と失敗の順番を入れ替えるだけの作業ですが、いちいちこんな計算をしていたら面倒です。x回の成功と(n-x)回の失敗が起きる全ての通りを一気に計算することはできないでしょうか。上の例だと1回成功して2回失敗する全ての通りは3通り、といった具合です。

ここは組み合わせの考え方を使います。3つの試行のうち1つを成功にする試行のパタンは何通りあるでしょう、という具合です。3C1通りです。なら、n回の試行のうちx回成功する試行は?nCx通りです。一般化すると、

nCx*{p^n*(1-p)^(n-x)}

です。これが二項分布の式となります。うーん、こんな導出で説明がなってない、とか言われそうですが、式はすごく美しい。式を鑑賞してみろ、と言われて以来、出来るだけ鑑賞するようにしています。


ではRでもやってみます。

> > ###初期値の設定###
> ###成功確率は0.5###
> p <- 0.5
>
> ###試行回数###
> n <- 30
>
> ###成功する回数###
> x <- 0:n
>
> ###入れ物の用意###
> M <- numeric(length(x))
> for(i in 0 : n) {
+
+ ###0のときはnC0=1とする###
+ if(i==0){
+ M[i+1] <- 1*p^i*(1-p)^(n-i)
+ } else {
+
+ ###組み合わせの計算はガンマ関数を使った階乗の計算のほうが速い###
+ ###あんまりnが大きいと桁落ちしてしまう(ポアソンの導出無理?)###
+ M[i+1] <- gamma(n+1)/(gamma(n-i+1)*gamma(i+1))*p^i*(1-p)^(n-i)
+
+ ###これでも動くけどすごく遅い###
+ #M[i+1] <- ncol(combn(n, i))*p^i*(1-p)^(n-i)
+ }
+ }
> M
[1] 9.313226e-10 2.793968e-08 4.051253e-07 3.781170e-06 2.552290e-05
[6] 1.327191e-04 5.529961e-04 1.895986e-03 5.450961e-03 1.332457e-02
[11] 2.798160e-02 5.087564e-02 8.055309e-02 1.115351e-01 1.354354e-01
[16] 1.444644e-01 1.354354e-01 1.115351e-01 8.055309e-02 5.087564e-02
[21] 2.798160e-02 1.332457e-02 5.450961e-03 1.895986e-03 5.529961e-04
[26] 1.327191e-04 2.552290e-05 3.781170e-06 4.051253e-07 2.793968e-08
[31] 9.313226e-10
> sum(M)
[1] 1
>
> pdf("Binom.pdf")
> ###図示###
> plot(x, M, type="l")
> ###既存のパッケージを使って確認###
> points(x, dbinom(x=x, size=n, prob=p))
> dev.off()

> ###n <- 170, p <- 0.05にしてみた図###
> ###あんまり大きくすると桁落ちしてしまう。一応ポアソンに近似出来ている。###
> pdf("Binom_Poisson.pdf")
> plot(x, M, type="l", xlim=c(0, 25))
> points(x, dpois(x=x, lambda=n*p), col=2, type="l")
> legend(20, 0.13, c("Binom", "Pois"), col=c(1, 2), lty=1)
> dev.off()



出来た図
Binom.pdf
Binom_Poisson.pdf
ラベル:R 統計学
posted by しばきん at 22:18| 神奈川 | Comment(0) | TrackBack(0) | 統計 | このブログの読者になる | 更新情報をチェックする

2011年04月11日

マスコミは安全か否か、という二者択一ではなく健康リスクがこの程度存在する、ということを伝えるべき

以下のリンク先にある文章はうちのボスの公開書簡からの引用。3-4ページの短く分かりやすい文章なので、是非読んでほしい。
Q)
福井県立大学の岡敏弘教授の協力を得て、以下の文書を掲載しましたので、お知らせします。

伊藤公紀氏:放射線被曝の健康影響について

岡 敏弘氏:放射線リスクへの対処を間違えないために
(UQ

これにとある血液内科外科Toshiki Saitoさん のブログにある表を引用して考えてみる。

まず伊藤さんの文章によると、年間0.1msvの被曝で年間39分寿命が縮まるらしい。
それにSaitoさんのブログ中の表を合わせると、東京ーニューヨークを一往復した分に相当する。つまり東京からニューヨークに行くと約40分健康寿命(介護の必要なく元気に生きられる寿命)が縮まるということになる。

また、世界の年間の放射線被曝量の平均は年間2.4らしいがそうすると、生きているだけで年に15.6時間づつ、世界の健康寿命が減っているということになる。

それから僕の古巣の北大の岸教授(副査ではお世話になりました)がTVに映っていた。そして何故かYoutubeにもアップされていた。
msv

見ていただければ分かるように、アナウンサーは安全なんだろ?という結論にまとめようとしている。時間が限られているのは分かるが、岸さんが厳密な言い方をしているのを無理矢理望む結論にしようとしている印象を受ける。本人が映像中で言っているように岸さんはリスクの専門家ではないのだから、安全か否かを問うのは失礼というものであろう。岸さんに分かるのは、薄まっている、ということまでである。サンマを食ってよいかは当然、生物濃縮の話になるはずなのに、そこを曖昧にしてどうして安全だと言い切れるのか分からない。この映像からだけでは。ちなみにそのあたりは勝川さんのブログで計算がされている。

岡さんの文章にあるように、「放射線はどんなに微量でも健康影響の可能性があるという覚悟を決めること」が大事だと考える。さっき計算したように、生きている、ただそれだけで寿命はどんどん減っていくのだ。だから、「どのレベルの危険なら我慢できるかということに基づかなければならない」、という岡さんの言葉、これに尽きる。サンマを食っても大丈夫、とゴリ押しするのではなく、サンマを食ってもこのくらいの影響だから、それを大きいと考えるか小さいと考えるかはあなた次第です。という言い方が中立的で公平な報道なのではないか。

そして僕はサンマが大好きなので今年も美味しく頂きたいと思う。勝川さんのブログにあることと国が基準値以下の魚しか市場に出さないということが正しいとして、東京ーニューヨーク間往復と同じくらいの年間0.2msv程度なら我慢できるからである。
posted by しばきん at 10:24| 神奈川 ☀| Comment(0) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。