Quod Erat Demonstrandum

2010/03/03

Box-and-whisker diagram

以下「成個電阻咁樣」的公仔,可以是 box-and-whisker diagram。


(Fig. 1)

中五的同學不會陌生。圖中五個「折位」,由左至右分別代表:下限(lower limit),下四分位(lower quartile),中位數(median),上四分位(upper quartile)及上限(upper limit)。

前天放學,馬同學問:「box-and-whisker diagram 可否反映眾數(mode)?」

起初答:「不能吧?」

但,馬同學舉習題書的一例:


(Fig. 2)

看到眾數嗎?

a 就是了。

當玩遊戲,我們可以有:Box-and-whisker diagram 唔一定「成個電阻咁樣」,可以係「一點」。

(當然,玩遊戲做 m.c. 是一回事,真正做統計或是另一回事。)

利用 box-and-whisker diagram 求其是但出題,比如:

參考 Fig. 2,若它表示某次數學測驗之分數(即最低分為 a 分,最高為 d 云云);如果 b < e < c,那麼超過 e 分的同學佔的百分比多少?

當然我們沒法具體得之,但肯定不多於 50%。

如用概率的語言,我們可以說:在班上隨意選出一人,其數學測驗分為 X,則

P(X > e) \le 50% 。

順帶亂說,比如知道某些統計參數(e.g. 平均數),可以怎麼進一步演繹呢?

例如已知「某次數學測驗之平均分是 35」,可推論:

「最多 50% 的同學在該次測驗取 70 分或以上。」

因為,如果超過 50% 的同學取 70 分或以上,平均分必然超過 70*50% = 35 分。

更一般的情況就是所謂馬可夫定理(Markov's Theorem),曰

X 為非負隨機變量,那麼對任何正數 x,恆有

P(X \ge x) \le \frac{E(X)}{x}

證明容易,修應數的同學可試試看。

那麼,承上例,設 X = 該次數學測驗分數,則

E(X) = 35,代入 x = 70,由馬可夫定理,知

P(X \ge 70) \le \frac{35}{70} = 50%

即「最多 50% 的同學在該次測驗取 70 分或以上。」

如果代入 x = 80,則

P(X \ge 80) \le \frac{35}{80} = 43.75%

即「最多 43.75% 的同學在該次測驗取 80 分或以上。」

如此類推。

4 則迴響 »

  1. box plots喺一個data analysis嘅前期都幾常用到, 好多時用嚟比較幾個random variables, 因為某程度可以睇到(1) location (median), (2) dispersion (interquartile-range), (3) skewness, (4) outliers. 如果見到有咩有趣 / 特別嘅情況先再做tests去confirm…

    不過而家統計軟件太方便, 噤一兩個掣都睇到實數, 已經唔記得咗markov’s thm喇…(其實有無學過都已經唔記得咗Orz)

    迴響 由 Fred — 2010/03/03 @ 5:35 下午 | 回覆

    • Thank you Fred! 就是了,box plots 的用途不是純粹用來做 m.c. 的。其實如何看出 outliers?是指整個分佈有「異樣」,還是個別 data?至於 Markov’s thm,中學是沒有的,但相信修統計定會接觸。由 Markov,推 Chebyshev’s thm 從而到 weak law of large numbers,諸如此類。

      迴響 由 johnmayhk — 2010/03/03 @ 7:44 下午 | 回覆

  2. outlier其實只是一些data points特別偏離(譬如特別大, 或特別小), 我們"懷疑"這些potential outliers和"正常data points的distribution不一樣

    具體上的outlier detection有比較common的: [lower quartile + k*interquartile range, upper quartile + k*interquartile range], k usually is 1.5 or 3

    如果某些data point不在上述interval內, 則為疑似outliers, 大部分統計軟件在畫box-plot時會自動做一些detection procedure, 再把potential outliers打交叉或用圈圈代表, e.g.
    http://commons.wikimedia.org/wiki/File:Michelsonmorley-boxplot.svg

    迴響 由 Fred — 2010/03/15 @ 10:12 上午 | 回覆

  3. 更正: 該interval是: [lower quartile – k*interquartile range, upper quartile + k*interquartile range], k usually is 1.5 or 3

    迴響 由 Fred — 2010/03/15 @ 10:13 上午 | 回覆


RSS feed for comments on this post. TrackBack URI

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 變更 )

Twitter picture

You are commenting using your Twitter account. Log Out / 變更 )

Facebook照片

You are commenting using your Facebook account. Log Out / 變更 )

Google+ photo

You are commenting using your Google+ account. Log Out / 變更 )

連結到 %s

在 WordPress.com 建立免費網站或網誌.

%d 位部落客按了讚: