大數據背後的祕密——資料科學

分享至

當你在滑手機、按讚梗圖、分享搞笑影片時,是否曾想過這些動態消息的文章順序是如何決定的?社群媒體公司要透過怎麼樣的行銷內容來吸引使用者?     網路影片爆紅的祕方是什麼?這些問題的關鍵答案,是數據科學。數據科學是一門結合機器學習、資料統計與科學研究方法,來理解、分析龐大數據的學問。在龐大的資訊海中,數據科學能夠幫助我們揭開隱含在其中的寶貴訊息,以回答上述的那些問題。

撰文|王紹芳 博士

來源:MotionElements

 

數據科學是什麼?

當你在滑手機、按讚梗圖、分享搞笑影片時,是否曾想過這些動態消息的文章順序是如何決定的?社群媒體公司要透過怎麼樣的行銷內容來吸引使用者?網路影片爆紅的祕方是什麼?這些問題的關鍵答案,是數據科學。數據科學是一門結合機器學習、資料統計與科學研究方法,來理解、分析龐大數據的學問。在龐大的資訊海中,數據科學能夠幫助我們揭開隱含在其中的寶貴訊息,以回答上述的那些問題。

數據科學的精髓在於應用進階分析方法,從大量的數據當中     萃取出有用的資訊,再將該資訊轉化為具體可行的策略。例如,分析社群媒體平臺上的用戶數據去瞭解用戶「按讚」的偏好。有的用戶可能傾向不管文章的主題為何,都「按讚」前面幾則看到的文章;有的用戶則不論先看到什麼文章,都傾向於「按讚」自己有興趣的文章。此外,進行分析時也要考量到用戶只能「按讚」他們看到的內容;沒有顯示在動態訊息中的內容或他們沒有看到的內容,都不可能「按讚」,所以我們無從得知用戶對這些內容的想法。當我們瞭解這樣的行為模式後,便可以利用這些資訊去強化動態消息的呈現方式,從而提高用戶對平臺的滿意度和使用率。

除了社群媒體,數據科學在我們的生活中無所不在,也影響著電子商務、醫學、金融、體育等領域。例如在醫學領域,研究人員可以藉由數據科學來分析病患的醫療掃描影像,從而預測病患未來罹患癌症的可能性。在體育方面,團隊可以利用運動員長期的表現和健康數據來預測運動員的未來健康狀況,制定長期訓練方案,確保所有運動員都可以在不受傷的狀況下通過賽程直至決賽。同樣,企業可以利用數據科學來預測市場趨勢,優化促銷策略,甚至防止因詐騙而造成的損失。例如,電子商場網站可以使用交易數據來識別假的賣家或買家,從而防止財務損失,提升用戶體驗。

數據科學通常開始於商業上或研究上解決問題的需求,針對問題系統性地從數據中找尋答案。假設我們想要提高Instagram (IG) 的使用率,而我們已經知道用戶使用「讚」按鈕的頻率與用戶的整體參與度之間呈正相關:經常按讚的用戶往往會更頻繁地造訪IG,並花更長的時間使用IG。由此可知,如果我們瞭解用戶「按讚」的行為模式,便可以幫助我們找到提升IG平臺並促進IG使用的策略。

那麼,究竟數據科學有哪些步驟呢?

 

1.收集數據

數據科學的任何發現都源於數據本身,因此,收集數據是數據科學過程中很關鍵的步驟。我們需要的數據不僅要與問題相關,而且品質要高,數量要大。

以前面提到的IG例子來講,如果我們想瞭解IG用戶「按讚」的偏好,與之相關的數據包括了用戶何時點擊「讚」按鈕、用戶「按讚」的內容類型、用戶在點擊「讚」按鈕前後在平臺上的活動,以及用戶的人口統計資訊(例如年齡、性別、教育程度等等)。在蒐集數據時,我們必須盡可能提高數據的品質以及數量。如果數據品質不佳,有許多缺失、偏頗或錯誤,可能導致分析結果不正確而做出錯誤的結論和發現。除了品質,數據量也很重要,這其實也就是基本的統計概念:大量數據可以確保我們的分析樣本(部分用戶)有足夠的代表性能夠代表母體(所有IG用戶)。

此外,如果我們的樣本大小有限或偏向於特定類別,分析結果就可能出現偏差。想像一下,如果我們蒐集的用戶數據僅來自美國,美國用戶的「按讚」行為可能與臺灣的用戶大不相同,將從美國用戶那裡得出的結論應用於臺灣用戶,便可能會產生無效的結果。為了使我們從部分用戶(樣本)數據中發現的知識能夠廣泛適用於所有用戶(母體),我們的抽樣數據就需要盡量反映母體數據應有的特徵。

 

2.處理數據

數據處理的步驟是將原始數據轉換為適合分析的型態。若使用錯誤的方法來處理數據,可能會扭曲、改變數據,進而曲解數據的意義,因此,我們需要使用正確且有效的數據處理方式來凸顯數據中隱藏訊息以利後續的數據分析,找出答案。例如,由於全球用戶處於不同的時區,系統收集到的按讚時間戳記可能無法直接提供有用的時間訊息(因為時間戳通常是記錄當下世界標準時間的數值)。我們可以考慮不直接使用系統所收集到的時間數據,而是依據用戶所在的時區,將時間戳記轉換為標籤(例如上午、下午、傍晚和夜晚)來標準化時間資訊。

此外,全球一些罕見事件可能會引起「按讚」數量突然大量增加(例如,泰勒絲 (Taylor Swift) 突然在IG上宣布發布新歌),這些事件並不代表平日典型的用戶行為,此時我們就必須仔細評估如何處理這個數據,思考是否要保存這些數據:這些不尋常的數據對後續分析會有什麼影響?保存這些數據是否能夠幫助回答我們最初的商業問題?

當然,各種數據中的錯誤也需要費心處理,例如有些用戶按讚後卻立刻取消按讚,我們要謹慎思考如何處理這些「意外」按讚的數據。在數據清理過程中,還應該辨別、改正數據收集過程中的錯誤,例如數據收集系統可能誤將「分享」記錄為「按讚」。

總之,我們必須通過數據處理來確保數據樣本的正確性:數據不僅要有我們需要的資訊,還要能夠正確反映所有用戶(母體)的行為特徵。

 

3.分析數據

數據分析通常始於「探索性數據分析」,也就是探索數據以瞭解數據品質、數量和特徵。這個過程使我們能夠理解數據的基本訊息,揭示重要的趨勢和規律性。探索性數據分析的結果便可以用來引導後續的步驟和更深入的分析,甚至有時候,這些結論就足以回答我們想要探討的問題。

再次使用IG為例,我們可能想要瞭解數據中有多少活躍的用戶,以及在特定時間內他們的平均按讚次數。如果需要進一步的探索分析,我們便可以根據用戶的居住國家、年齡和使用平臺的時間來瞭解活躍用戶數和平均按讚數的分布。

此外,我們或許還想要深入分析每個內容主題的「按讚」數量,或動態消息排序位置的「按讚」數量差異。在這個階段,我們會借助簡單統計分析來幫助我們瞭解數據中的訊息。例如,我們可以使用統計來瞭解,在文章主題與文章排序兩者之間,哪一個更容易影響使用者按讚的意願。

完成探索性數據分析後,下一步則是應用各種進階統計和機器學習方法來更深層次地瞭解數據,預測結果,並指引最好的實踐策略。使用前述的IG例子,根據探索性分析的結果,我們可能可以建立一個模型來預測每篇文章被用戶按讚的機率,該模型可以學習各種文章的特徵來瞭解用戶的按讚行為模式。文章特徵可能包括內容主題、文章在用戶動態消息中的順序、用戶的年齡和文章在動態消息出現的時間等。如果能成功建立一個模型來預測文章獲得「讚」的機率,我們就能夠用這個模型有效地判斷要在什麼時間於用戶動態消息的特定位置發布文章,才能獲得最高的按讚率。

 

4.數據視覺化和判讀

在執行上述的數據科學步驟之後,我們需要將結果整合起來,構建一個連貫的數據故事或「數據產品」。有了這個故事,我們才能有效地傳達數據分析中意外的發現,分享預測結果,並根據分析結果進行決策,增進我們對世界的認識。這種整合的數據故事也確保了從數據分析中所獲得的寶貴資訊能夠有效地傳達,並被應用於商業上或研究上的改善和決策。

在架構數據故事的過程中,我們常使用圖形或圖表來視覺化數據分析的結論。圖表和圖形等各種視覺化資訊能呈現出一些文字無法清楚傳達的訊息,用以輔佐文字的敘述,進而架構出一個更完整的故事,能夠有效回答最初的商業或研究問題。然而,資料視覺化的過程要保持透明,避免任何誤導性的作圖和操作,並確保圖表所傳達的訊息和文字的內容互相輔助並講述同一個故事。

例如,我們分析IG用戶的數據可能發現,雖然不同人口統計特徵的用戶(例如不同年齡層的用戶)的按讚行為有所不同,不過他們大致上都是於所在時區的晚上按讚;我們也可能發現,不管文章內容為何,大部分用戶均傾向按讚排序較前面的幾篇文章。此外,我們建構的模型還能預測每個用戶對每篇文章「按讚」的機率。結合所觀察到的趨勢和建模結果,我們便能夠瞭解如何拿捏最佳時間和平臺位置來推廣高按讚率的文章,因此對增加整體IG使用度會更有把握。

 

總 結

總結來說,數據科學可以說是各行各業制定決策的催化劑,幫助我們跳脫光憑直覺猜想,提供科學證據來輔佐決策過程。下次當你在滑手機的時候,可以想一想幕後數據科學的運作過程是如何決定、影響你使用社交平臺的經驗。不論是文章的排列順序,還是特定廣告的呈現以及流行內容的出現都不是偶然,而是根據數據科學精心設計的結果!

 


參考文獻

  1. Sarker IH. Data Science and Analytics: An Overview from Data-Driven Smart Computing, Decision-Making and Applications Perspective. SN Comput Sci. 2021;2(5):377. doi: 10.1007/s42979-021-00765-8. Epub 2021 Jul 12. PMID: 34278328; PMCID: PMC8274472.

 


✨延伸閱讀:若想閱讀英文版,請參見 "The secret behind Big Data-Data Science"

 


❤️編輯的話

非常開心能邀請到資料科學家王紹芳博士加入CASE報科學的行列!在美工作的王博士除了資料科學家的身分外,過去也曾投入在認知神經科學的研究長達9年。本次王博士將利用兩篇文章,介紹如今網路世代的顯學——「數據科學」究竟是什麼?如何研究?以及怎麼使用?特別的是,這兩篇文章均會同時上架中英文兩個版本,如果想要練習閱讀雙語文章,歡迎移步查看!絕對讓您收穫滿滿!

(Visited 812 times, 1 visits today)

分享至
views