隨著Hadoop的不斷發(fā)展,Hadoop生態(tài)體系越來越完善,現(xiàn)如今已經發(fā)展成一個龐大的生態(tài)體系,Hadoop生態(tài)體系包含了很多子系統(tǒng),下面介紹一些常見的子系統(tǒng),具體如下: 查看全文>>
大數據技術文章2021-03-11 |傳智教育 |Hadoop生態(tài)圈子系統(tǒng)
在Scala中,它和Java一樣也是擁有方法和函數。Scala的方法是類的一部分,而函數是一個對象可以賦值給一個變量。換句話來說,在類中定義的函數即是方法。 查看全文>>
大數據技術文章2021-03-08 |傳智教育 |Scala的方法和函數
對于迭代式計算和交互式數據挖掘,RDD可以將中間計算的數據結果保存在內存中,當Spark集群中的某一個節(jié)點由于宕機導致數據丟失,就可以通過Spark中的RDD進行容錯恢復已經丟失的數據。RDD提供了兩種故障恢復的方式,分別是血統(tǒng)(Lineage)方式和設置檢查點(checkpoint)方式。下面,我們就來介紹一下這兩種方式。 查看全文>>
大數據技術文章2021-03-05 |傳智教育 |RDD,操作,spark,RDD容錯機制
為什么選擇kafka采集數據?大數據采集層主要可以使用Flume, Kafka兩種技術。 查看全文>>
大數據技術文章2021-03-04 |傳智教育 |kafka,數據采集
本地和遠程模式安裝配置方式大致相同,本質上是將Hive默認的元數據存儲介質由自帶的Derby數據庫替換為MySQL數據庫,這樣無論在任何目錄下以任何方式啟動Hive,只要連接的是同一臺Hive服務,那么所有節(jié)點訪問的元數據信息是一致的,從而實現(xiàn)元數據的共享。下面就以本地模式為例,講解安裝過程。 查看全文>>
大數據技術文章2021-03-04 |傳智教育 |Hive安裝,Hive本地,安裝Hive遠程安裝
HBase數據庫最常見的操作就是讀寫數據,接下來,針對HBase讀寫數據的流程進行詳細介紹。 查看全文>>
大數據技術文章2021-03-04 |傳智教育 |HBase讀寫數據,HBase
與其他語言相比,Scala中的所有值都有一個類型,包括數值和函數。接下來,通過一張圖來描述Scala數據類型的層次結構,具體如圖1所示。 查看全文>>
大數據技術文章2021-03-04 |傳智教育 |Scala,數據類型,Scala基礎語法
Hadoop集群的安裝和配置完成之后。并不能直接啟動集群,因為在初次啟動HDFS集群時,必須對主節(jié)點進行格式化處理,具體指令如下。 查看全文>>
大數據技術文章2021-02-28 |傳智教育 |Hadoop格式化,文件Hadoop集群格式化