上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

[PR] 台湾ワーキングホリデー

--.--.-- -- l スポンサー広告 l top
今日は初の生物統計学(Biostatistics)のTutorialがありました。

普段は統計パッケージでひたすらプログラム書いて作業してますし、
表やグラフも、ほぼ決まったものしか作らないので、
ひな型に乗せて、値だけ入れ替える…といった作業しかしていないわけです。

で、統計学が何から始まるかと言うと、
「記述統計」なわけですよ。

何個データがあって、Mean(平均値)は…Median(中央値)は…、
Variance(分散)は…Standard deviation(標準偏差)は…みたいな。

それに加えて、分布をしっかり見なければいけないわけですね。
そのためにはヒストグラムを書く…と。

とりあえず、そのあたりから講義も始まり、
Tutorialも始まったわけです。

で、統計の基礎ということで今日はメモしておきます。

あっ、Scientific Calculatorの使い方もMasterしなければなりません…。
で、まず、表・グラフの基本ですが、
Titleをしっかりつけないと怒られます。

Table 1、Figure 1…のように、ちゃんと番号を振って、
わかりやすいTitleをつけましょう。

そして、X軸、Y軸が何なのかを、
これまたわかりやすく正確に、()で単位もつけて記載します。

とりあえず最初はそのくらいですかね。

次にヒストグラムの書き方。

それぞれのカテゴリは等間隔に。
例えば0-4歳、5-9歳、10-14歳、15-19歳と来て、
次が20-29歳とまとめられていたら、
それまでと同じく5歳間隔×2で描かなければなりません。
もう一つのポイントは、棒の面積です。
間隔を倍にしたときに、ただ幅を広げればいいのではなく、
当然、20-24歳と20-29歳の和の割合が表現されていたわけですから、
平均をとって、半分にします。
20歳分の間隔であれば、4分の1ということです。

そして累積頻度を描くときには、
棒グラフではなく、曲線で描きます。
0-4歳の割合は5歳のところにドットし、
5-9歳の割合は10歳のところに…という感じで、
足し算した割合を描いていくわけです。

その上で、Y軸の50%のところから横にたどっていけば、
曲線と交わったところが、Median(中央値)になるわけです。

ちなみに、MeanのほうがMedianよりよく用いられるのは、
MeanはすべてのObservation、つまり観察された値を用いて算出されるのに対し、
Medianは、中央の1つか2つの値のみで決まってしまうからです。
Range(最小値と最大値の幅)についても同様で、
2つの値だけで決まってしまって、あとの値は全く関係ないため、
全体の分布を表現するためには情報量が少ないわけです。

あと、MeanとObservation数がわかれば、
いくつかの集団をまとめるときに、
すべてのObservationを足し直さなくても、
平均値を求めることができます。

…と言ったことを習ってきました。

自分で勉強していただけではどうしても抜けてしまうところ、
そういうところをちゃんと勉強し直せるのは、
とてもいいチャンスだと思って、真面目に頑張ろうと思います。
スポンサーサイト

[PR] 台湾ワーキングホリデー

2010.03.16 Tue l 疫学・生物統計学 l コメント (0) トラックバック (0) l top

コメント

コメントの投稿












トラックバック

トラックバック URL
http://shoppingtrolley.blog112.fc2.com/tb.php/99-91c66004
この記事にトラックバックする(FC2ブログユーザー)
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。