數據正在呈幾何級數增長,來自社交媒體(微信、微博)以及傳感器設備的非結構化數據受到了越來越多的關注,. . .
數據正在呈幾何級數增長,來自社交媒體(微信、微博)以及傳感器設備的非結構化數據受到了越來越多的關注,而與傳統企業交易系統的結構化數據一起,它們將有可能帶來新一輪的產業變革。機器學習,自然語言處理,輿情分析等詞匯幾乎每天都會出現在媒體的報道當中,然而真正講它們大規模投入應用的企業卻少之又少。
如今,企業CIO們幾乎人人都在討論大數據,許多人認為大數據就是搭一個Hadoop集群,把所有的數據全部存進去,再通過各種各樣的API調用進行分析。然而答案并不是這么簡單,大數據與IT方方面面都有聯系,從基礎設施到中間層再到前端的應用。Hadoop不是萬能的,它只是大數據的一部分,想要真正駕馭大數據,我們需要考慮更多的事情。
我們的數據究竟有哪些問題?
事實上,我們要解決的大數據最基本的問題是存儲和報表。我們該如何存儲快速增長的數據,關鍵是在業務人員需要用到這些數據的時候,可以快速地訪問。即席查詢生成報表,對業務進行預測,充分利用大數據流中隱藏的價值。
你的數據都有哪些類型組成?關系型數據、非結構化數據還是音頻視頻?你如何存儲不同類型的數據,然后讓企業內部的人員可以訪問這些數據?答案其實在云端,云存儲技術基本上可以應對大數據的存儲需求,你可以存儲任何類型的數據然后輕松地進行擴展。高端的SAN存儲技術在大數據時代已經落伍,而且高昂的成本是企業所無法承受的。SAN存儲適合的是關鍵業務數據,每一條記錄對企業都是至關重要的。大數據正好相反,比如銷售訂單,這些數據是絕對不能丟失一條的,而一條微博或者日志文件怎沒有這么高的要求。包括華為、亞馬遜等云存儲服務可以使用廉價的設備為企業提供大數據存儲解決方案,實現可靠、可擴展并且性價比更高的存儲。
當然,電視的出現并未讓廣播電臺滅亡,在大數據時代也是如此。SAN依舊有它的價值,但并不是所有數據都要存在上面。我們需要云存儲是因為不同類型的數據都有著特殊的存儲需求。比如讀密集型的數據一般需要關系型數據庫;日志文件只使用HDFS存儲就可以;需要大量寫操作的數據則需要NoSQL數據庫;而存在大量讀寫操作的系統就需要強大的大數據架構來作為支撐。你的系統也許需要低延遲、高一致性、高度可靠或者需要控制存儲的成本,每一種需求都意味著不同的存儲解決方案。低延遲可能意味著要上SDD或內存設備,高一致性意味著要建立交易系統,高可靠意味著要使用數據庫復制功能。所以,大數據已經告別了“放之四海皆準”的關系型數據庫時代,Oracle+小型機+高端存儲(或者說IOE)的組合已經不能處理所有的數據難題。
那么企業到底需要什么?答案是以服務的方式提供的靈活可擴展的云存儲解決方案,能夠滿足上述不同的存儲需求。比如亞馬遜的RDS,DynamoDB,華為的對象云存儲等。當然,并不是所有的云存儲都可以滿足需求,企業需要更高的靈活性,同時出于延遲以及法規遵從等原因,這就要求能夠從不同的系統中將數據快速方便地進行遷移,從內部系統到公有云,或者從一個云提供商遷移到另一個云提供商。
商業智能與ETL的未來發展
除了存儲方案之外,我們還應該關注前端應用。傳統的ETL也將經歷變革。業務人員肯定不希望為了導入一點額外的數據就讓IT部門更改schema,這樣的工作量和成本太高了。理想的狀態是有一個簡單的工具,讓業務人員就能夠做即席查詢,比如Tableau就能夠解決這樣的問題。然而,隨著數據量的不斷增長,TB甚至PB級別的數據需要進行處理,那么軟件的成本就要考慮在內,這時候你該怎么辦?
ETL和BI工具的未來將運行在Web端,任何的業務人員都能夠用它來生成報表。動態的HTML5用戶界面可以通過拖拽就完成數據的查詢與報表生成,如果你還需要對業務用戶進行培訓才能夠使用這些工具,那么就真的OUT了。
新一代的BI工具能夠應對實時、圖形化、大對象以及非結構化數據的處理,同時能夠將這些數據存儲在云端。每種數據可以托管在不同的云服務上,但都可以通過一個API進行訪問。企業無需再關心什么樣的數據用什么樣的存儲,云服務提供商就可以搞定。
最后,有一點很重要。越來越多的企業開始意識到,數據分析已經成為了一種“戰略武器”。下一代的商業巨頭,也許就會從那些知道如何收集數據并把它們轉化有價值洞察力的企業中誕生。千里之行始于足下,在構建大數據分析模型或者投入機器學習,招聘數據科學家之前,企業需要先解決好如何存儲大數據,而答案就在云端。