search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

99%的人容易忽視的「非主流」大數據技術工具

大數據的生態系統如今已經非常龐大,湧現大量主流數據處理框架如Hadoop、Spark、Flink、Google的Tensorflow以及其他不計其數的Apache開源項目(最受歡迎的十個開源大數據技術)。

今天我們要推薦的五個「非主流」開源大數據技術項目,在某些特定的應用場合,往往能助您出奇制勝。

1. Luigi

Luigi是Spotify開發的數據管線批處理工具,熱度正不斷飆升。Luigi的定位不是取代底層數據處理工具如Hive或者Pig,而是在眾多任務間創建工作流。Luigi原生支持Hadoop,這對於很多用戶來說非常有吸引力。

此前創業公司Mortar就將Spotify開發的開源大數據工具Luigi搬上雲端,在亞馬遜雲上提供複雜的,涉及大量工具和資料庫的大數據流水線處理服務,不論是否使用Hadoop,用戶都可以用Luigi管理複雜的大數據工作流。

2. Lumify

Lumify是一個開源大數據分析和可視化平台,開發者Altamira認為當前的大數據分析工具並不完善,因此開發了Lumify來聚合、管理和洞察數據;

此外,Lumify還可以用來分析數據內部之間的關係,進行地理圖形數據分析,並實時組織和協調數據。Lumify的官網由比較完整的文檔和介紹視頻,還提供了一個在線應用示例。

3. Google 雲平台Hadoop互操作工具

這個技術項目來自Google Cloud Platform的官方Github賬號,是為實現Hadoop相關開源軟體、Google雲平台之間互操作的代碼庫和工具集

如果你打算在Google雲平台上運行基於HDFS數據的Map-Reduce任務,那麼這些工具值得投資。

4. Presto

Presto是一個分散式的大數據SQL查詢引擎,支持所有數據源格式,以及從GB到PB級別的數據規模。Presto主打的賣點是速度和可擴展性,如果你想提升SQL查詢速度又不願對數據源存儲系統進行投資或改動,或者需要對存儲在多個平台的數據源進行查詢,Presto都是值得考慮的選擇。

Presto的官網由比較詳細的資料,有一個Teradata的五分鐘視頻介紹(youtube),以及Facebook的Presto設置應用指南(youtube)。

5. Clusterize

來自Denis Lukov的這個項目是今天介紹的「非主流」中的非主流,與前面介紹的四個後端數據科學/工程工具不同,Clusterize是一個Javascript寫成的前端開發小項目,目的是提高大數據集的瀏覽效率,降低延遲,這算得上是一個大數據工具嗎?也許吧,至少對於很多開發者來說是如此。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦