深藏不漏的數據科學家
數據科學家是數據世界和商業世界溝通的翻譯員,他們不但對數據要有深度的理解,也需要對商業營運有一定的認知,才知道如何運用數據來發掘對研究和商業有影響力的資訊,協助商業決策和預測商業發展。他們也是數據偵探,擅長使用各種分析和統計技術發掘隱藏在數據中的知識,將這些寶貴的訊息轉化為可執行的藍圖和策略,解決現實生活中複雜的商業問題。
撰文|王紹芳 博士

基礎:數據收集分析
數據科學家最核心的身份是數據分析的專家。因此,成為數據科學家的基本技能,包括知道需要什麼關鍵數據來做分析、如何獲取這些數據,以及準備數據來深入解析問題,而深入分析部分則包含實際執行分析和建模,從龐大的數據中發掘正確且有用的知識。
假設你是餐飲外送平臺的數據科學家,你想要了解平臺的營收。面對從餐飲外送平臺程式收集到的各式各樣的數據,數據科學家需要辨別哪些是最直接影響營收的關鍵數據,例如用戶使用外送服務的趨勢、訂單量、平均訂單成本。在公司或機構的龐大資料庫中,數據科學家也要知道要從哪個資料庫和資料表獲取這些數據。提取數據後,數據科學家才能開始處理數據。例如,處理異常值、刪除不正確的數據、填補缺失值等等,將原始數據轉換為適合分析的型態。
如果公司或是研究機構沒有分析需要的關鍵數據,數據科學家需要與數據工程師和其他團隊合作,設計有效的數據收集方法,例如收集線上用戶特定的行為數據、進行用戶調查或利用政府或其他公開的數據資料庫來取得需要的資訊。這些跨團隊的合作可確保我們得到正確而且關鍵的數據來回答問題。
除了收集和準備數據之外,數據科學家還具有分析數據以解決商業問題的能力。這包括探索性分析、構建機器學習模型以及應用一系列統計方法和工具。數據科學家需要熟練地運用程式語言 (SQL、Python、R)、統計方法、機器學習技術、雲端運算系統、資料庫等工具 (AWS、Tableau、Snowflake)。他們知道如何善這些工具來從數據中發掘有用的資訊,確保準確、無偏差的結果。數據科學家還需了解實驗設計原理,協助設計線上產品測試實驗,以及設計資料收集的程序,執行實驗後分析結果,並做產品上市的預測。
透過這些綜合技能,數據科學家可以從數據中發掘商業趨勢、使用機器學習算法預測未來走向,並運用統計分析來理解變量之間的關係。最終,他們將這些知識轉化為可操作的商業策略,以數據引導商業決策。
運用商業敏銳度的加分效果
除了技術性的能力之外,數據科學家還擅長將商業問題轉化為可執行的數據分析。 這個關鍵的技能須結合數據科學家的技術專長和商業敏銳度:數據科學家需要傾聽商業需求,掌握商業問題的核心困境以及其影響。透過這個過程,他們能更全面性地了解這個商業領域和公司所面對的問題,並思考如何能用數據來最佳支持和解決這些挑戰。
例如,「為什麼營收下降?」是一個常見的商業問題。對於數據科學家來說,這個問題不夠具體也缺乏和數據的連結。為了解決這個問題,數據科學家會先探討這個問題背後的主要關鍵:數據科學家會提出一些假設,將業務問題與潛在解決方案聯繫起來。以餐點外送服務為例,根據數據科學家的經驗、與其他團隊的討論,以及對外送平台的了解,他們可能從客戶流失或訂單量減少這兩個方向開始思考,是否這些是近期營收下降的主要因素。
透過和不同團隊討論以及初步的分析,數據科學家可以更精確地找出實際原因,並將廣泛的業務問題轉化為具體的、數據驅動的策略。數據科學家可能會將「為什麼收入下降?」重新表述為一個更具針對性的問題:「在過去六個月裡,臺灣是否有特定年齡群體的餐點訂單量顯著下降?」
數據科學家發展出針對性的策略後,能夠深入研究特定的臺灣市場,例如,分析不同年齡群體的餐點訂單特徵。他們的分析可能會發現特定年齡群體的訂單減少。他們可以進一步分析這些用戶的平臺使用偏好,以及目前的行銷是否符合這些用戶的需求。分析結果可能針對該目標群體找出最有效的行銷策略,並預測如果公司採用建議的策略,訂單量的潛在增長。透過將一個廣泛的「為什麼」問題轉化為可執行的步驟,數據科學家解決了收入下降的問題,並為未來的潛在收入增長提供了有效的建議。
數據科學家在轉化業務問題時就像資料的偵探。他們主動傾聽以掌握產品部門提出的問題,並在過程中提問,以深入了解這個商業需求的各個面向,透過這些討論直接了解問題的核心,發掘改進的機會。
數據科學家不能單槍匹馬工作,也要常與其他團隊合作,優化一開始提出的問題,確保解決方案符合各部門的需求。一旦建立了明確的解決方案,數據分析就成為主要的工作。在這個階段,數據科學家的問題解決技能將發揮作用,發掘業務問題的根本原因。批判性思考使他們能夠評估潛在解決方案及其可行性。最後,他們衡量所選解決方案成功率,確保它能有效地解決業務挑戰。
數據敘事的力量:數據科學家的溝通技巧
有效的溝通技巧是數據科學家成功的基石。數據科學家利用技術能力和商業知識來提供數據分析服務,因此他們的工作不僅僅是產生數據分析結果,還需要將數據分析結果轉化為他人可使用的資訊。數據科學需將數據分析中發掘的資訊編織成清晰簡潔的論述,讓不同專業知識背景的人能了解並使用。這種能力須將複雜的分析轉化為商業故事,產生共鳴,並直接與現實世界的商業目標連結,確保公司能夠對分析結果採取明確的行動,為公司發展帶來更好的結果。
首先,數據科學家需確保不同知識背景的人對分析和數據有共同的理解,由此著手,架起數據分析世界與其他團隊之間的橋樑。 這個過程非常重要:除了確保大家對分析結果和商業問題有共同的目標,這個過程也會鼓勵其他團隊提供寶貴的回饋。高品質的合作交流能幫助數據科學家提供更好的分析服務,也會優化改善商業問題的策略。
為了有效地傳達數據故事,數據科學家依賴強大的數據視覺化技能。他們需要將複雜的數據轉化為清晰且視覺上容易消化的形式,例如圖表和圖形,以協助傳達他們的觀點。這些視覺化不僅增強了與不同技術背景的同事溝通,而且還可以揭示數據本身內隱藏的趨勢,有助於解釋可能難以用語言描述的複雜概念。但是數據視覺化不應誤導分析結果,數據科學家也不應該挑選數據以符合預定的敘述。
想像一位為餐飲外送服務平檯的數據科學家發現了配送速度與客戶滿意度之間具有統計顯著的關聯。這兩個因素通常會一起增加,但更快的配送時間可能是有限度地提高滿意度分數。為了更好闡述兩者間的關係,數據科學家可以利用散佈圖來解釋這個結果:滿意度分數為y軸,而配送時間為x軸。該圖會顯示,滿意度和配送速度一同增加到某個程度後便會停滯,也就是當配送速度到達某個程度後,滿意度便不再提升,這也暗示了其他因素會影響滿意度分數。
此外,假設數據科學家發現配送速度提高20%可能會讓滿意度分數提高5-15%。數據科學家不僅僅是報告這些數字的播報員,而是會從商業的解度以及用戶的觀點來解釋這個結果。例如,用戶使用餐點外送服務的主要原因之一是想節省自己的時間,而透過減短配送時間,外送服務節省了用戶寶貴的時間,而這也是滿意度這些數字背後所代表的意義。
數據科學家還可以使用數據表格來分解這些分析結果和相關風險。表格能清楚地總結不同的情況:例如滿意度增加15%與滿意度增加5%的可能性、需要的策略、可能的風險。此外,利用分析的結果,數據科學家能與其他團隊一起探索能夠提升滿意度的最佳策略,包括建議公司投資提高外送人員數量,或開發優化外送路線的程式。
總之,有效的溝通不僅是報告數字。數據科學家利用數據視覺化、商業情境,和用戶同理心來確保每個人都能運用分析結果並理解分結果所代表的影響和可以採取的決策。
數據科學專長:從數據整理到決策驅動
數據科學家結合技術專長和商業軟技能,使他們能夠在數據和商業營運之間架起溝通的橋樑。他們使用分析工具來解剖複雜的問題,清理和理解大量的數據。因為好奇心和對細節的敏銳度,在解決問題的過程中,他們確保使用正確的分析方法從數據中發掘可能的答案。但數據科學家不僅僅是處理數字,商業敏銳度使他們能夠將現實世界中的問題轉化為可執行的數據問題,並在商業情境下運用結果。最後,他們的溝通技巧使他們能夠將複雜的發現轉化為清晰的敘述,促進合作,並在不同層面上推動數據引導決策。
透過掌握這種獨特的技能組合,數據科學家是寶貴的資產,在複雜的數據分析和商業策略之間架起橋樑。
參考文獻
✨延伸閱讀:若想閱讀英文版,請參見 "What skills do data scientists need?"。想了解更多資料科學,請參見《大數據背後的祕密——資料科學》、《生活中離不開的資料科學》