產品指標體系的建立不是一蹴而就的，產品經理根據產品發(fā)展的不同階段，有所側重的進行數據需求的提出，一般的公司都會有產品需求文檔的模板，方便產品和數據上報開發(fā)、數據平臺等部門同事溝通，進行數據建設。創(chuàng)業(yè)型中小企業(yè)，產品數據的需求提出到上報或許就是1-2人的事情，但同樣建議做好數據文檔的建設，例如數據指標的定義，數據計算邏輯等。

圖3是BLUES在YY語音客戶端團隊建立的基礎產品數據需求實現流程。

圖3 YY事業(yè)部基礎產品數據需求實現流程圖（施行）

第5步：上報數據

這個步驟就是開發(fā)根據產品經理的數據需求，按照數據上報規(guī)范，完成上報開發(fā)，將數據上報到數據服務器。上報數據的關鍵是數據上報通道的建設，原來在騰訊工作時候，沒有體會到這個環(huán)節(jié)的艱辛，因為數據平臺部門已經做了完備的數據通道搭建，開發(fā)按照一定規(guī)則，使用統(tǒng)一的數據SDK進行數據上報就可以了。

后來在YY，屬于發(fā)展型公司，則是從上報通道開始進行建設，也讓我得到更多鍛煉提升的機會。其中很關鍵的一個環(huán)節(jié)，就是數據上報測試，曾經因為該環(huán)節(jié)的測試資源沒到位，造成不必要的麻煩。

很多創(chuàng)業(yè)公司沒有自己的數據平臺，可以利用第三方的數據平臺：網頁產品，可以使用百度統(tǒng)計（tongji.baidu.com）；移動端產品，可以使用友盟(www.umeng.com)、TalkingData(www.talkingdata.com)等平臺。

第6~8步：數據采集與接入、存儲、調度與運算

每一步都是一門學問，例如采集數據涉及接口創(chuàng)建，要考慮數據字段的拓展性，數據采集過程中的ETL數據清洗流程，客戶端數據上報的正確性校驗等；數據存儲與調度、運算，在大數據時代，更是很有挑戰(zhàn)性的技術活。

1.數據的采集與接入

ETL，是英文 Extract-Transform-Load 的縮寫，用來描述將數據從來源端經過抽取（extract）、轉換（transform）、加載（load）至目的端的過程。ETL一詞較常用在數據倉庫，但其對象并不限于數據倉庫。ETL是構建數據倉庫的重要一環(huán)，用戶從數據源抽取出所需的數據，經過數據清洗，最終按照預先定義好的數據倉庫模型，將數據加載到數據倉庫中去。

下圖是產品數據體系的一個常見流程圖，數據采集、存儲、運算，通常就在圖中的數據中心完成。

確認完數據上報之后，接下來幾個事情就比較偏技術化了。首先需要上報的數據通過什么樣的方式采集和存儲到我們的數據中心。

數據采集分為兩步，**步從業(yè)務系統(tǒng)上報到服務器，這部分主要是通過cgi或者后臺server，通過統(tǒng)一的logAPI調用之后，匯總在logServer中進行原始流水數據的存儲。當這部分數據量大了之后，需要考慮用分布式的文件存儲來做，外部常用的分布式文件存儲主要是HDFS。這里就不細展開。

圖5 原始數據上報存儲到文件的架構圖

數據存儲到文件之后，第二步就進入到ETL的環(huán)節(jié)，ETL就是指通過抽取（extract）、轉換（transform）、加載（load）把日志從文本中，基于分析的需求和數據緯度進行清洗，然后存儲在數據倉庫中。

以騰訊為例子：騰訊大數據平臺現在主要從離線和實時兩個方向支撐海量數據接入和處理，核心的系統(tǒng)包括TDW、TRC和TDbank。

圖6 騰訊數據平臺系統(tǒng)

在騰訊內部，數據的數據收集、分發(fā)、預處理和管理工作，都是通過一個TDBank的平臺來實現的。整個平臺主要解決在大數據量下面數據收集和處理的量大、實時、多樣的問題。通過數據接入層、處理層和存儲層這樣的三層架構來統(tǒng)一解決接入和存儲的問題。

（1）接入層

接入層可以支持各種格式的業(yè)務數據和數據源，包括不同的DB、文件格式、消息數據等。數據接入層會將收集到的各種數據統(tǒng)一成一種內部的數據協(xié)議，方便后續(xù)數據處理系統(tǒng)使用。

（2）處理層

接下來處理層用插件化的形式來支持多種形式的數據預處理過程。對于離線系統(tǒng)來說，一個重要的功能是將實時采集到的數據進行分類存儲，需要按照某些維度（比如某個key值+時間等維度）進行分類存儲；同時存儲文件的粒度（大小/時間）也是需要定制的，使離線系統(tǒng)能以指定的的粒度來進行離線計算。對于在線系統(tǒng)來說，常見的預處理過程如數據過濾、數據采樣和數據轉換等。

（3）數據存儲層

處理后的數據，使用HDFS作為離線文件的存儲載體。保證數據存儲整體上是可靠的，然后最終把這部分處理后的數據，入庫到騰訊內部的分布式數據倉庫TDW。

圖7 TDW架構圖

TDBank是從業(yè)務數據源端實時采集數據，進行預處理和分布式消息緩存后，按照消息訂閱的方式，分發(fā)給后端的離線和在線處理系統(tǒng)。

圖8 TDBank數據采集與接入系統(tǒng)

TDBank構建數據源和數據處理系統(tǒng)間的橋梁，將數據處理系統(tǒng)同數據源解耦，為離線計算TDW和在線計算TRC平臺提供數據支持。目前通過不斷的改進，將以前Linux+HDFS的模式，轉變?yōu)榧?分布式消息隊列的模式，將以前一天才能處理的消息量縮短到2秒鐘！

從實際應用來看，產品在考慮數據采集和接入的時候，主要要關心幾個緯度的問題

l 多個數據源的統(tǒng)一，一般實際的應用過程中，都存在不同的數據格式來源，這個時候，采集和接入這部分，需要把這些數據源進行統(tǒng)一的轉化。

l 采集的實時高效，由于大部分系統(tǒng)都是在線系統(tǒng)，對于數據采集的時效性要求會比較高。

l 臟數據處理，對于一些會影響整個分析統(tǒng)計的臟數據，需要在接入層的時候進行邏輯屏蔽，避免后面統(tǒng)計分析和應用的時候，由于這部分數據導致很多不可預知的問題。

2.數據的存儲與計算

完成數據上報和采集和接入之后，數據就進入存儲的環(huán)節(jié)，繼續(xù)以騰訊為例。

在騰訊內部，有個分布式的數據倉庫用來存儲數據，內部代號叫做TDW，它支持百PB級數據的離線存儲和計算，為業(yè)務提供海量、高效、穩(wěn)定的大數據平臺支撐和決策支持。基于開源軟件Hadoop和Hive進行構建，并且根據公司數據量大、計算復雜等特定情況進行了大量優(yōu)化和改造。

從對外公布的資料來看，TDW基于開源軟件hadoop和hive進行了大量優(yōu)化和改造，已成為騰訊**的離線數據處理平臺，集群各類機器總數5000臺，總存儲突破20PB，日均計算量超過500TB，覆蓋騰訊公司90%以上的業(yè)務產品，包含廣點通推薦，用戶畫像，數據挖掘和各類業(yè)務報表等，都是通過這個平臺來提供基礎能力。

圖9，騰訊TDW分布式數據倉庫

圖10 TDW業(yè)務示意圖

從實際應用來看，數據存儲這部分主要考慮幾個問題：

l 數據安全性，很多數據是不可恢復的，所以數據存儲的安全可靠永遠是最重要的。一定要投入最多的精力來關注。

l 數據計算和提取的效率，做為存儲源，后面會面臨很多數據查詢和提取分析的工作，這部分的效率需要確保。

l 數據一致性，存儲的數據主備要保證一致性。

第9步：獲取數據

就是產品經理，數據分析人員從數據系統(tǒng)獲得數據的過程，常見的方式是數據報表和數據提取。

報表的格式，一般會在數據需求階段明確，尤其是有積累的公司，通常會有報表模板，照著填入指標就好了。強大一些的數據平臺，則可以根據分析需要，自助的選擇字段（表頭）進行自助報表的配置和計算生成。

下面是做數據報表設計的幾個原則：

1.提供連續(xù)周期的查詢功能

（1）報表要提供查詢的起始時間，可以查看指定時間范圍內的數據。忌諱只有一個時間點，無法看數據的趨勢。

（2）對一段時間范圍內的數據能夠分段或匯總，能夠對不同階段進行比較。

2.查詢條件與維度相匹配

（1）有多少個維度，就提供多少個對應的查詢條件。盡量滿足每個維度都能分析。

（2）查詢條件要提供開、合，以及具體值的過濾功能。既能看總體，又能看明細，還要能看單一。

（3）查詢條件的順序，盡量與維度的順序對應，**按從大到小的層次。

3. 圖表與數據要一致

（1）圖表顯示的趨勢，要與相應的數據一致，避免數據有異議；

（2）有圖就必須有數據，但是，有數據可以沒有圖；

（3）圖表內的指標不要太多，并且指標間的差距不要太大。

4. 報表要單一

（1）一張報表，只做一份分析功能，多個功能盡量拆到不同的表報中；

（2）在報表中盡量不要有跳轉；

（3）報表只提供查詢功能。

看幾張常用報表，WEB產品的流量報表，來自百度，關注PV、UV、新訪客比率、跳出率、平均訪問時長等。

專門說一下跳出率，這個數據反應了用戶進入網站的著陸頁（不一定是首頁）價值，是否可以吸引用戶進行一次點擊，如果用戶達到著陸頁，沒有任何點擊，則跳出率增大。

圖11 百度統(tǒng)計的網頁數據報表

再看友盟數據平臺提供的產品留存率數據報表，通常關注的留存率有：1天后留存、7天后留存、30天后留存。

圖12 友盟的留存數據報表

數據提取，在做產品運營中，是很常見的需求，例如提取某一批銷量較好的商品及其相關字段，提取某一批指定條件的用戶等。同樣，功能比較完備的數據平臺，會有數據自助提取系統(tǒng)，不能滿足自助需求，則需要數據開發(fā)寫腳本進行數據提取。

圖12所示，騰訊內部的數據門戶，承擔了諸多產品的數據報表、數據提取、數據報告的功能。

圖13 騰訊數據門戶首頁

第10步：觀測和分析數據

這里主要是數據變化的監(jiān)控和統(tǒng)計分析，通常我們會對數據進行自動化的日報表輸出，并標識異動數據，數據的可視化輸出很重要。

常用的軟件是EXCEL和SPSS，可以說是進行數據分析的基本技能，以后再分享個人在實際工作中對這兩款軟件的使用方法和技巧。需要注意的是，在進行數據分析之前，先進行數據準確性的校驗，判斷這些數據是否是你想要的，例如從數據定義到上報邏輯，是否嚴格按照需求文檔進行，數據的上報通道是否會有數據丟包的可能，建議進行原始數據的提取抽樣分析判斷數據準確性。

數據解讀在這個環(huán)節(jié)至關重要，同一份數據，由于產品熟悉度和分析經驗的差異，解讀結果也大不一樣，因此產品分析人員，必須對產品和用戶相當了解。

絕對數值通常難以進行數據解讀，通常都是通過比較，才更能表達數據含義。

例如某產品上線后的**周，日均新增注冊10萬人，看起來數據不錯，但是如果這款產品是YY語音推出的新產品，并且通過YY彈窗消息進行用戶觸達，每天千萬次的用戶曝光，僅僅帶來10萬新增，則算不上是較好的產品數據。

圖13 通過比較更清晰表達數據含義

縱向比較，例如分析YY語音新注冊用戶的數據變化，那么可以和上周同期、上月同期、去年同期進行對比，是否有相似的數據變化規(guī)律。

橫向比較，同樣是YY語音新用戶注冊數據的變化，可以從漏斗模型進行分析，從用戶來源的不同渠道去看每個渠道的轉化率是否有變化，例如最上層漏斗，用戶觸達渠道有無哪個數據有較大變化，哪個渠道的某個環(huán)節(jié)有轉化率的數據變化。還可以進行不同業(yè)務的橫向比較，例如YY語音新增注冊數據、多玩網流量數據、YY游戲新增注冊用戶數據進行對比，查找數據變化原因。

縱橫結合對比，就是把多個數據變化的同一周期時間段曲線進行對比，例如YY新增注冊用戶、多玩網的流量數據、YY游戲新增注冊用戶的半年數據變化，三條曲線同時進行對比，找出某個數據異常的關鍵節(jié)點，再查找運營日志，看看有無運營活動的組織、有無外部事件的影響、有無特殊日子的影響因素。

第11步：產品評估與數據應用

這是數據運營閉環(huán)的終點，同時也是新的起點，數據報表絕不是擺設，也不是應付領導的提問，而是切實的為產品優(yōu)化和運營的開展服務，正如產品人員的績效，不僅僅是看產品項目是否按時完成，按時發(fā)布，更是要持續(xù)進行產品數據的觀測分析，評估產品健康度，同時將積累的數據應用到產品設計和運營環(huán)節(jié)。

例如亞馬遜的個性化推薦產品，例如QQ音樂的猜你喜歡，例如淘寶的時光機，例如今日頭條的推薦閱讀等等。數據產品應用，大致可以分為以下幾類：

（1）以效果廣告為代表的精準營銷

推薦周期短，實時性要求高；用戶短期興趣和即時行為影響力大；投放場景上下文和訪問人群特性。

產品案例：谷歌、Facebook、微信朋友圈。

（2）以視頻推薦為代表的內容推薦

長期興趣的累積影響力大；時段和熱點事件；多維度內容相關性很重要。

產品案例：Youtube

（3）以電商推薦為代表的購物推薦

長期+短期興趣+即時行為綜合；最貼近現實，季節(jié)與用戶生活信息很關鍵；追求下單與成交，支付相關。

產品案例：亞馬遜、淘寶、京東。

最后，一張圖小結數據運營11步：

圖14 數據運營11步

從制訂產品目標到最后基于目標進行產品評估與運營優(yōu)化，形成數據運營閉環(huán)。這個流程和規(guī)范，需要各個部門都能統(tǒng)一意識，每個產品終端都能按照規(guī)范流程將數據統(tǒng)一上報，建立公司級的統(tǒng)一數據中心，進行數據倉庫建設，才有可能將數據價值**化，讓數據成為生產力。

產品數據運營體系如何構建？可以從以下五大要素進行考慮：

（1）人：專職的數據運營同事

專職的專業(yè)的產品同事，負責建立產品數據體系的流程化、標準化，沉淀經驗，推動體系的持續(xù)優(yōu)化發(fā)展；專職的專業(yè)的開發(fā)同事，負責數據上報，報表開發(fā)，數據庫開發(fā)維護等工作，保證產品數據體系的開發(fā)實現；

（2）數據后臺：全面系統(tǒng)的數據倉庫

有一個專門的統(tǒng)一數據倉庫記錄自己產品的特殊個性數據，共性數據充分利用數據平臺部公用接口獲取，共享數據源，充分降低成本。

（3）數據前臺：固化數據體系展現平臺

需要專業(yè)的報表開發(fā)同事，體系化思考報表系統(tǒng)，靈活迭代執(zhí)行，而不是簡單的承接報表需求，造成報表泛濫。

（4）工作規(guī)范：需求實現流程化

就是前面描述的11步構建產品數據體系的流程和方法，其中的數據需求把握好兩點，一是固化需求開發(fā)流程化，二是臨時需求工具化。

（5）工作產出：數據應用

常規(guī)的數據工作就是各種數據分析，輸出日報、周報、月報；基于數據分析基礎上進行決策依據提供。進行數據產品開發(fā)，例如精準推薦、用戶生命周期管理等產品策劃。

上一篇觀點 | 云計算和IoT平臺之爭開啟“下半場”，邊緣計算竟成“主陣地”