樣本越多越好?韓國星巴克第一數據科學家教你讀懂大數據

書摘

在談論大數據時,大部分的人都會陷入了「數據樣本愈多愈好」的迷思,但其實,就像健康檢查一樣,我們沒必要將全身的血液抽出來做檢查,只要抽取數據樣本即可。

數據量多就是大數據嗎?

我大部分都在大企業或研究所裡工作,所以遇過很多這樣的人。

「樣本數要有1千人以上才可以」

「你以多少人為對象進行研究?有包含全部的人嗎?」

並不是樣本數多就是好數據,數量愈大,反而會導致族群特性消失。有很多時候,不管研究對象有數千萬人還是數十人,結果其實並沒有太大的差異。

「沒有針對全國民眾進行調查的話,結果值得信賴嗎?」

在一些公布統計數據或問卷調查結果的報導,經常可以看到這樣的回應。首先,要將全國民眾都納為調查對象這件事,根本就是無稽之談。如果能夠調查所有人的意見,那這世界就不存在通緝犯了。

以1千人為對象的標準,是誰訂定的?那1萬人呢?為什麼一定是10的倍數?這些不過都只是我們自己喜歡的數字罷了,只是我們自己想相信的數字而已。

解讀數據的常見誤解

在進行健康檢查的時候,我們大多都使用血液檢驗當作健康指標。難道我們要將所有的血液都抽出來做檢查嗎?並不是這樣的。難道我們會懷疑,從自己的手臂抽出來的血液,會與從腿部抽出來的不一樣嗎?

這就是所謂的「樣本分析」。我們沒有必要將全身的血都抽出來做檢查,同理可證,我們也不需要將所有人都當成樣本,才能確認數據真假與否。當然這其中,也有些數據無法表達全體意見,因此可能會有誤差,但除此之外,數據也可能會因為時間或其他因素,導致分析的結果不同。因此,我們不能只是單純的說出:「這個數據不是基於全體而是少數人,所以不可採信。」,這是一種誤解。

大數據之所以叫「大數據」,並不是因為數據量的多寡,一個單純的問題不會因為你問過很多人,所以它就變成了大數據。就算是問了很多人,這也不過是:一個以多數人為對象進行問卷調查後,所獲得的統計結果而已。這份調查結果必須與其他數據做連動、分析,一份達到理解消費者目的的數據,才可以讓大量搜集數據的意義,變得更加耀眼。