Emily ＆ MacGyFu: 2月 2021

2021年2月27日星期六

兩組獨立統計數據變異數合併/Combined Variance /Pooled Variance

工作每天都會看生產數據，測試數據量大且接近常態分佈，看看平均值 (u)與標準差(s)就可以大概了解整個數據的分佈狀況，99.7%的數據都會落在u±s內。

隨著不斷的生產會有不同時間點的批次資料產生，數據會開始隨著製程偏移(process variation)數據會有偏移，例如有兩筆統計數據，可能是平均值不變一樣，標準差變大，或標準差不變但平均值偏移，或都不太一樣，那最後的平均值(u)與標準差(s)要怎麼得到。

比較間單的方式就是全部的原始數據整在依據公式在從新計算一次，但如果統計一個季度或一整年數據量可能會超過10kk或更大，查了一下網路資料有查到合併變異數[1] Wikipedia: Pooled variance與[2] eMATHZONE: Combined Variance，但公式驗證起來都有點問題沒辦法原本的數據。

平均值與標準差的定義 The Definition of Mean and Standard Deviation

平均值Mean與標準差Standard Deviation的定義應該是高中數學就有教(但說實在我好像沒有什麼印象)。

現在有一個母體數拆成兩筆測試數據，有每一筆的數量(m, n)，平均值(ux, uy)和標準差(sx, sy)，但沒有原始數據，但我們可以從定義之到整體的平均值(u)與標準差(u)的公式得到以下計算式，平均值(u)沒有什麼問題，可以從原本的平均值ux, uy與數量m, n計算得到，但標準差裡面還有個別的原始數據x1, x2...xm與y1, y2...yn，所以還要再整理一下。