大數(shù)據(jù)的特征有哪些?一般認(rèn)為,大數(shù)據(jù)主要具有以下4個(gè)方面的典型特征,即大量(Volume)、多樣(Variety)、高速(Velocity)和價(jià)值(Value),即所謂的4V,接下來,通過一張圖來具休描述。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-02-01 |傳智教育 |大數(shù)據(jù)有哪些特征
大數(shù)據(jù)是什么意思?什么是大數(shù)據(jù)?如果從字面意思來看,大數(shù)據(jù)指的是巨量數(shù)據(jù)。大數(shù)據(jù)的計(jì)量單位已經(jīng)越過TB級(jí)別發(fā)展到PB、EB、ZB、YB甚至BB級(jí)別。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-02-01 |傳智教育 |大數(shù)據(jù)是什么意思,什么是大數(shù)據(jù)?
RDD的分區(qū)原則是分區(qū)的個(gè)數(shù)盡量等于集群中的CPU核心(Core)數(shù)目。對(duì)于不同的Spark部署模式而言,都可以通過設(shè)置spark.default.prallien這個(gè)參數(shù)值來配置默認(rèn)的分區(qū)數(shù)目。一般而言,各種模式下的默認(rèn)分區(qū)數(shù)目如下。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-29 |傳智教育 |RDD分區(qū)
分層抽樣法也叫類型抽樣法,它是先將總體樣本按照某種特征分為若干次級(jí)(層),然后再從每一一層內(nèi)進(jìn)行獨(dú)立取樣,組成一個(gè)樣本的統(tǒng)計(jì)學(xué)計(jì)算方法,接下來,通過Spark-Shell演示分層抽樣方法,具體代碼如下: 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-29 |傳智教育 |Spark MLlib分層抽樣,什么是分層抽樣
當(dāng)MySQL表中的數(shù)據(jù)發(fā)生了新增或修改變化,需要更新HDFS上對(duì)應(yīng)的數(shù)據(jù)時(shí),就可以使用Sqoop的增量導(dǎo)入功能。Sqoop目前支持兩種增量導(dǎo)入模式:append模式和lastmodified模式。其中,append模式主要針對(duì)INSERT新增數(shù)據(jù)的增量導(dǎo)入;lastmodified模式主要針對(duì)UPDATE修改數(shù)據(jù)的增量導(dǎo)入。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-26 |傳智教育 |Sqoop增量導(dǎo)入,MySQL導(dǎo)入數(shù)據(jù)
安裝配置Sqoop,前提是部署Sqoop工具的機(jī)器需要具備Java和Hadoop的運(yùn)行環(huán)境首先將下載好的安裝包上傳至hadoop01主節(jié)點(diǎn)的/export/software目錄中,并解壓至/export/servers路徑下,然后對(duì)解壓包進(jìn)行重命名,具體指令如下。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-26 |傳智教育 |Sqoop,Sqoop的安裝和配置
Reduce大致分為copy、sort、reduce三個(gè)階段,重點(diǎn)在前兩個(gè)階段。Copy階段,簡(jiǎn)單地拉取數(shù)據(jù)。Reduce進(jìn)程啟動(dòng)一些數(shù)據(jù)copy線程(Fetcher),通過HTTP方式請(qǐng)求maptask 獲取屬于自己的文件。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-26 |傳智教育 |ReduceTask的工作機(jī)制
完成Scala環(huán)境和IDEA工具的安裝。接下來,就通過打印“Hello World”的例子來演示如何使用IDEA工具開發(fā)Scala程序,具體步驟如下。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-25 |傳智教育 |開發(fā)Scala程序的步驟
北京校區(qū)