almost 5 years ago

這年頭,什麼事情都要扯上大數據(Big Data),但是大數據到底是什麼概念?又是如何影響我們的生活以及商業?

從幾何時, 大數據 這一詞就不斷地充斥在我們的周遭。
尤其是在網路興起之後,隨著資料傳輸能力、運算能力及儲存能力的長足進步,使得數據研究得以突飛猛進。
在我們邁入大數據的年代時,我們究竟會面臨到怎樣的衝擊?
在《大數據》(Big Data: A revolution taht will transform how we live, work, and think)這本書中,提到了些概念,對個人來說衝擊頗大,所以將一些隨筆、想法寫上來,文章雜亂無條理勿怪。

.什麼是大數據(Big Data)
大數據的定義其實就是「 完整的資料集合 」,也就是 樣本=母體
對大數據來說,重點不在於數據的精確度或是有沒有缺漏,而是數據的資料點是不是夠大(多)。
在大數據的世界裡,求的不是精確的數據來源,而是許多的觀測點,再讓大數據去彌補數據不精確、遺漏值甚至於是極端值的狀況。在數據夠多的情況下,以往我們所依賴的統計方法(statistics)將會變得無用武之地。

.為什麼說統計可能會變得過時?
除了大數據的特性「樣本=母體」之外,另一個很重要的因素是「統計本身就是應對資料量不夠多時所發展出來的學問」。
在大數據的世界裡,資料量龐大的狀況下,統計的前提:「資料量不夠多」就可能讓統計變成一門過時的學問。

.大數據的前提是?
大數據的前提是要將你要觀察的事物「 資料化 」(datafication)-把你的數據變得可以重組、重複運用。
這不單單只是以往我們認知的單項指標量化(將觀測到的事情以數字記錄下來),而是要許多指標同時紀錄下來,經過標準化,並且資料化後才能成為可以操作的數據。
所以大數據的三樣重點就是:量化、標準化、蒐集。

.大數據如何改變我們的生活?
19世紀,莫銳(Mathew Foutaine Maury)藉由大量的航海日誌作為其基礎,製作出了與傳統老船長口耳相傳所相違背的海圖,大大節省了許多航海的時間。
Google圖書掃描計畫也改變我們對書的看法。以往我們看書做研究時,總是需要畫線、標記之後才能夠針對我們想要的文字進行操作。而現在資料化的圖書將可以運用搜尋的方式找到特定段落,進而從事更精妙的文本分析,甚至於是某個詞彙何時首次出現在這個世界上,這種需要經過計算才能得到的資料。
更甚者,Netfilx也運用大數據計算出了一套公式,作為其電視劇的劇本方向而大受好評。

.大數據如何改變我們的的想法?
大數據帶給我們的想法將從科學研究根深蒂固的觀念-「因果」拉出來。
因為大數據給的,是各種變項彼此「 相關 」的程度,這也是與科學最根本的前提相反的事情。
我們運用實驗法,在自然的世界裡面尋找事情的因果關係;但在大數據的世界裡,我們知其然而不知其所以然。
因為我們只需要知道相關性,便能操作得到我們想要的結果。
所以Netfilx不需要探究為什麼這一套公式會讓觀眾買單,反正就直接套用就是了。
在大數據的世界裡,沒有因果(或者說是不需要在意因果),只需要在意相關。
我們只需要把相關找出來,然後讓它去運作就可以。
誰管你買東西的理由是啥,反正一切都是機率的問題。
人類的自我意識,在大數據面前就只是機率而已

以上是我對大數據的概念比較有感想的地方,文章未完,敬請期待(?)
更歡迎熟知大數據的朋友們能夠指正文內的錯誤觀念,帶給大家一個正確的大數據觀念。


本著作係採用創用 CC 姓名標示-非商業性-禁止改作 3.0 Unported 授權條款授權.

資料來源:《大數據》,CH1~5。
圖片來自:這裡

關於作者
Messi Lai http://about.me/messilai
一個學過心理、統計卻又跑去當普通兵,之後還唸戰略研究所的人。
曾被說過「看起來」很懂得生活,但其實腦袋常常放空。
最喜歡提出一些似是而非(?)的觀點,以誤人子弟、混淆視聽為樂。

← 【上班偷練功】九穹迴仙傳-第五章-咒 【半忙主義】真的假的。 →
 
comments powered by Disqus