工作每天都會看生產數據,測試數據量大且接近常態分佈,看看平均值 (u)與標準差(s)就可以大概了解整個數據的分佈狀況,99.7%的數據都會落在u±s內。
比較間單的方式就是全部的原始數據整在依據公式在從新計算一次,但如果統計一個季度或一整年數據量可能會超過10kk或更大,查了一下網路資料有查到合併變異數[1] Wikipedia: Pooled variance與[2] eMATHZONE: Combined Variance,但公式驗證起來都有點問題沒辦法原本的數據。
平均值與標準差的定義 The Definition of Mean and Standard Deviation
平均值Mean與標準差Standard Deviation的定義應該是高中數學就有教(但說實在我好像沒有什麼印象)。
現在有一個母體數拆成兩筆測試數據,有每一筆的數量(m, n),平均值(ux, uy)和標準差(sx, sy),但沒有原始數據,但我們可以從定義之到整體的平均值(u)與標準差(u)的公式得到以下計算式,平均值(u)沒有什麼問題,可以從原本的平均值ux, uy與數量m, n計算得到,但標準差裡面還有個別的原始數據x1, x2...xm與y1, y2...yn,所以還要再整理一下。
把變異數s展開,依序整理
繼續往後整理到𝑚×𝑢𝑥+𝑛×𝑢𝑦這個就是整個母體N的總和,也就是(𝑚+𝑛)×u,整理到這裡只剩下xi, yi平均數總和要跟已知的數據連結在一起。可以從Standard Deviation的定義導出平方數總和與平均數之間的關係式如下。
這樣如果我們知道有分別兩筆數據,平均數為4.25與14.25,標準差都是2.64,數量都為12,可以透過上面的計算得到平均數為9.25,變異數為5.65,最後我們可以想像合併後的數據大概長以下的樣子(這例子比較誇張啦)
最後整理一下就可以得到最後的結果,後來交叉查詢資料有看到[3] YouTube 高中數學免費線上學習網: B2---4--1----範例9----已知兩組資料的平均與標準差求合併後的平均與標準差有完整的推導,也可以參考一下。