在數據分析的黃金時代,開源社區也不能免俗。大家都熱衷于將一些華麗的數字放到演示幻燈片上,但如果你掌握了正確的分析方法,這些信息可以為你帶來更大的價值。
或許你認為作為一名 ??數據科學家??,我會告訴你數據分析和自動化能為你的社區決策提供信息。但實際上,情況恰恰相反。利用數據分析來構建你現有的開源社區知識,吸收其他的知識,并發現潛在的偏見和沒有思考過的觀點。你或許是實施社區活動的專家,而你那些同事則是代碼方面的專家。當你們每個人都在自己的知識背景下將信息可視化時,你們都可以從這些信息中受益。
讓我們來面對現實吧。每個人都有一千零一件事情要做,而且總感覺一天的時間永遠不夠用。如果需要幾個小時才能得到你的社區的答案,你就不可能有足夠的精力去解決這些事情。但是,花時間創建一個全面發展的可視化項目,可以幫助你時刻掌握你所關心的社區的不同方面,這就將你從精疲力盡中解放了出來。
隨著“數據驅動”思維的盛行,圍繞開源社區的信息寶庫可能是一種祝福,也可能是一種詛咒。下面我將分享一些方法,告訴你如何從數據干草堆中挑出有價值的信息。
你的預期是什么?
當考慮一個指標時,首先要明確你想提供的觀點。以下是幾個可能涉及的概念:
告知性和影響性的行動: 你的社區是否存在某個領域尚未被理解?你是否已邁出第一步?你是否試圖確定特定方向?你是否正在衡量現有倡議的效果?
暴露需要改進的領域和突出優勢: 有時你想宣傳你的社區,突出它的優勢,特別是在試圖證明商業影響或為項目宣傳時。然而,當涉及到向社區內部傳遞信息時,你通常需要從一堆指標中精準的找到你們的缺點,以此來幫助你們改進。雖然突出優點并非不可取,但需要在適當的時間和地點。不要把優勢指標作為社區內部的拉拉隊,告訴每個人都有多棒,而是要與外界分享,以獲得認可或推廣。
社區和商業影響: 數字和數據是許多企業的語言。但是這可能使得為你的社區進行宣傳并真正展示其價值變得異常困難。數據可以成為用他們的語言說話的一種方式,并展示他們想看到的東西,以使你數據背后的潛在含義能夠被有效轉達。另一個角度是對開源的整體影響。你的社區是如何影響他人和生態系統的?
這些觀點并非非此即彼,而是相互關聯的。適當的框架將有助于創造一個更深思熟慮的衡量標準。
數據科學和機器學習的工作流程
當人們談論通用的數據科學或機器學習工作時,通常會描述這樣的工作流程。我將重點關注第一步,即編寫問題和度量標準,并簡要提及第二步。從數據科學的角度來看,這個演示可以被視為這個步驟的一個案例研究。這一步有時會被忽視,但你的分析的實際價值始于此。你不能一天醒來就知道要看什么。從理解你想知道什么和你所擁有的數據開始,逐步實現更加深度的數據分析。
3個開源數據分析用例
以下是您在開源數據分析過程中可能遇到的三種不同場景。
場景 1:現有數據分析
假設你開始進行分析,并且已經知道你將要研究的內容對你或你的社區是有用的。那么你該如何提高分析的價值呢?這里的想法是建立在“傳統”的開源社區分析基礎之上。假設你的數據表明,在項目的整個生命周期內,你共有 120 個貢獻者。這是你可以放在幻燈片上的價值,但你不能從中做出決策。從僅有一個數字到獲得洞見,逐步采取措施。例如,你可以從相同的數據中將貢獻者分為活躍和流失的貢獻者(那些已經有一段時間沒有做出貢獻的貢獻者),以獲得更深入的了解。
場景 2:社區活動的影響測量
目標和影響
針對聚會、會議或其他任何社區外聯活動,你如何看待你的影響力和目標?這兩個步驟實際上互相影響。一旦你確定了活動的目標,就要確定可以用什么來檢測效果。這些信息有助于設定活動的目標。在活動開始時,很容易陷入模糊的計劃而非具體的計劃的陷阱中。
場景3:形成新的影響分析區
新的分析區
當你從頭開始進行數據分析時,就會出現這種情況。前面的例子是這個工作流程的不同部分。這個工作流程是一個不斷發展的循環;你可以隨時進行改進或擴展。基于這個概念,以下是你應該經歷的必要步驟。在本文的后面,將會有三個不同的例子,展示這種方法在現實世界中的應用。
第一步:分解關注區和視角
首先,想象一下魔法 8 球——你可以問任何問題,搖一搖,就能得到答案的玩具。考慮你的分析領域。如果你能立即得到任何答案,那會是什么?
接下來,考慮數據。從你的魔法 8 球問題中,哪些數據源可能與問題或關注領域有關?
在數據背景下,哪些問題可以回答,讓你更接近你提出的魔法 8 球問題?需要注意的是,如果你試圖將所有的數據匯集在一起,你必須考慮到所做出的假設。
第二步:將問題轉化為指標
以下是第一步中每個子問題的處理過程:
- 選擇所需的具體數據點。
- 確定可視化以實現目標分析。
- 假設這些信息的影響。
接下來,引入社區提供反饋并觸發迭代開發過程。這個協作部分可能就是真正的魔力所在。最好的想法通常是在將一個概念帶給某個人時產生的,會激發他們的靈感,這是你或他們無法想象的。
第三步:分析實踐
這一步是你開始處理你所創建的指標或可視化的影響。
首先要考慮的是,這個度量標準是否符合當前對社區的了解。
- 如果是:是否有假設得出的結果?
- 如果不是:你需要進一步調查,是否這是一個潛在的數據或計算問題,或者只是先前被誤解的社區的一部分。
一旦你確定你的分析足夠穩定,可以開始在信息上實施社區倡議。當你正在進行分析以確定下一步最佳步驟時,你應該確定衡量倡議成功的具體方法。
現在,觀察這些由你的指標提供信息的社區倡議。確定是否可以用你之前建立的成功衡量指標觀察到影響。如果沒有,可以考慮以下幾點:
- 你是否在衡量正確的事情?
- 倡議戰略是否需要調整?
分析區的例子:新貢獻者
魔法 8 球問題是什么?
- 如何分析哪些人為持續的貢獻者?
我有什么數據可以納入分析區和魔法 8 球問題?
- 倉庫存在哪些貢獻者的活動,包括時間戳?
現在你有了這些信息和一個魔法 8 球問題,把分析分成幾個子部分執行。這個想法與上述步驟 2 和 3 相關。
子問題 1: “人們是怎么進入這個項目的”
這個問題的目的是先看看新的貢獻者在做什么。
數據: GitHub 上的首次貢獻隨時間推移的數據(議題、PR、評論等)。
每季度首次貢獻圖表
可視化: 按季度劃分的首次貢獻條形圖。
潛在的意義: 在你與其他社區成員交談后,進一步檢查按季度細分的信息,以及貢獻者是否為重復貢獻者或僅僅是路過。你可以看到人們進來的時候在做什么,以及這是否能告訴你他們是否會留下來。
每季度路過貢獻圖標
從這些信息中了解到的可以采取的行動。
- 目前的文檔是否能夠幫助到最常見的新手?你能不能更好地幫助和支持新人朋友,這將有助于他們中更多的人留下來?
- 是否有一個貢獻領域在整體上并不常見,但重復貢獻者卻集中在這個區域?也許 PR 是重復貢獻者的一個常見區域,但大多數人卻不在這個區域工作。
行動項目:
- 給 “好的第一個問題” 貼上一致的標簽,并將這些問題鏈接到貢獻文檔中。
- 在這些問題上添加一個 PR 伙伴。
子問題 2: “我們的代碼庫真的依賴于路過的貢獻者嗎?”
數據: GitHub 的貢獻數據。
貢獻者類型隨時間變化的圖表
可視化: “貢獻總額:按路過和重復貢獻者的貢獻進行細分。”
根據這一信息可能采取的行動。
- 這個比例是否達到了項目的目標?很多工作都是由路過貢獻者完成的嗎?這是否是一種未被充分利用的資源,項目是否沒有盡到自己的責任來吸引他們?
分析:吸取教訓
數字和數據分析并不是“事實”,它們可以支持任何觀點。因此,在處理數據時,內部懷疑者應該非常積極,并進行反復迭代,以帶來真正的價值。你不希望你的分析只是一個 “yes man”,因此花點時間退一步,評估你所做的假設。
如果一個指標只是指出了調查的方向,那也是一個巨大的勝利。你不可能看清或想到所有的事情,兔子洞可以是一個好事,對話的起點可以把你帶到一個新的地方。
有時,你想測量的東西恰恰不在那里,但你也許能得到有價值的細節。不要假設你有所有的拼圖碎片來獲得你最初問題的準確答案。如果你開始強迫一個答案或解決方案,你會把自己帶入一條由假設引領的危險道路。為分析的方向或目標的改變留出空間,可以讓你獲得比最初的想法更好的洞察力。
數據只是是一種工具,并不是標準答案,它可以匯集原本無法獲得的見解和信息。將你想知道的東西分解成可管理的小塊,并在此基礎上進行分析,這是最重要的部分。
開源數據分析是一個很好的例子,說明你必須對所有的數據科學采取謹慎態度。
- 主題領域的細微差別是最重要的。
- 通過“問什么/答什么”的工作過程經常被忽視。
- 知道“問什么”可能是最難的部分,當你想出一些有洞察力和創新的東西時,這比你選擇的任何工具都要重要。
如果你是一個沒有數據科學經驗的社區成員,正在尋找開始的地方,我希望這些信息能告訴你,你在這個過程中是多么重要和寶貴。你帶來了社區的洞察力和觀點。如果你是一個數據科學家或實施指標或可視化的人,你必須傾聽你周圍的聲音,即使你也是一個活躍的社區成員。關于數據科學的更多信息列在本文的最后。
總結
把上面的例子作為建立你自己的開源項目的數據分析的框架。對你的結果有很多問題要問,知道這些問題和它們的答案可以把你的項目引向一個令人興奮和富有成效的方向。