一、大數據的生態(tài)系統(tǒng)
1、大數據的高效深度分析需要專用化的系統(tǒng)
在應用數據快速增長的背景下,為了降低成本獲得更好的能效,大數據系統(tǒng)需要逐漸擺脫傳統(tǒng)的通用技術體系,趨向專用化的架構和處理技術。這方面,國內百度、阿里巴巴和騰訊三大互聯網巨頭做出了嘗試并取得了很好的效果。眾所周知,百度的大數據典型應用是中文搜索,阿里巴巴的大數據典型應用是基于交易日志分析的數據服務,騰訊的大數據典型應用是圖片數據存儲和基于用戶行為的廣告實時推薦。百度2013年底成立專門的大數據部門,旨在深度挖掘大數據的價值。阿里巴巴已將不同業(yè)務部門的大數據技術整合在一起為數據產品提供統(tǒng)一的服務。騰訊的數據平臺部正在將全公司的數據納入統(tǒng)一管理平臺。阿里巴巴在技術上與開源社區(qū)結合得最為緊密;騰訊大數據目前正在向開源技術靠攏;百度在技術層面偏好自行研發(fā),包括軟硬件定制化方案也是最先投入實用。技術上,他們的共同之處是,不再依賴傳統(tǒng)的IOE,而基于開源系統(tǒng)(如Hadoop等)開發(fā)面向典型應用的大規(guī)模、高通量、低成本、強擴展的專用化系統(tǒng)。
2、大數據處理架構多樣化模式并存
當前,克隆了Google的GFS和MapReduce的ApacheHadoop自2008年以來逐漸被互聯網企業(yè)所廣泛接納,并成為大數據處理領域的事實標準。但2013年出現的Spark作為一匹黑馬終結了這一神話,大數據技術不再一家獨大。由于應用不同導致Hadoop一套軟件系統(tǒng)不可能滿足所有需求,在全面兼容Hadoop的基礎上,Spark通過更多的利用內存處理大幅提高系統(tǒng)性能。此外,Scribe、Flume、Kafka、Storm、Drill、Impala、TEZ/Stinger、Presto、Spark/Shark等的出現并不是取代Hadoop,而是擴大了大數據技術的生態(tài)環(huán)境,促使生態(tài)環(huán)境向良性化和完整化發(fā)展。今后在非易失存儲層面、網絡通信層面、易失存儲層面和計算框架層面還會出現更多、更好和更專用化的軟件系統(tǒng)。
3、實時計算逐步受到業(yè)界關注
Google于2010年推出了Dremel,引領業(yè)界向實時計算邁進。實時計算是針對MapReduce這種批量計算的性能問題提出的,可分為流式計算和交互式分析計算兩種模式。在大數據背景下,流式計算源于服務器日志的實時采集,如Facebook開源的Scribe是分布式日志收集系統(tǒng),ApacheFlume是類似的系統(tǒng)。ApacheKafka是高吞吐率的分布式消息系統(tǒng),特點是高通量和容錯。Storm是容錯的分布式實時計算系統(tǒng),可以可靠的處理流式數據并進行實時處理,單機性能可達到百萬記錄每秒。Storm可集成ApacheKafka作為其隊列系統(tǒng)。作為批量計算的補充,交互式分析計算的目標是將PB級數據的處理時間縮短到秒級。ApacheDrill是開源的Dremel實現,雖已有應用但尚不成熟。由Cloudera主導的Impala也參照Dremel實現,同時還參考了MPP的設計思想,目前已經接近實用階段。Hortonworks主導開發(fā)了TEZ/Stinger,TEZ是運行在YARN(Hadoop2.0的資源管理框架)上的DAG計算框架,而Stinger是下一代的Hive。2013年底,由Facebook開源的Presto分布式SQL查詢引擎可對250PB以上的數據進行交互式分析,比Hive的性能高出10倍。類似的Shark是Spark上的SQL執(zhí)行引擎,得益于Shark的列存儲和Spark的內存處理等特性,Shark號稱可以比Hive的性能提高100倍。
二、大數據產業(yè)的概念
大數據產業(yè)是指一切與大數據的產生與集聚、組織與管理、分析與發(fā)現、應用與服務相關的所有活動的集合。主要包括三個方面:(1)用以搭建大數據平臺、實現大數據組織與管理、分析與發(fā)現的相關IT基礎設施與軟件的銷售和租賃活動。(2)大數據平臺的運維與管理服務,系統(tǒng)集成、數據安全、云存儲等解決方案與相關咨詢服務。(3)與大數據應用相關的數據出售與租賃服務、分析與預測服務、決策支持服務、數據共享平臺、數據分析平臺等。大數據產業(yè)鏈按照數據價值實現流程包括數據生產與集聚層、數據組織與管理層、數據分析與發(fā)現層、數據應用與服務層。