Hive的函數(shù)分為兩大類:內(nèi)置函數(shù)(Built-in Functions)、用戶定義函數(shù)UDF(User-Defined Functions)。Hive的函數(shù)分為兩大類:內(nèi)置函數(shù)(Built-in Functions)、用戶定義函數(shù)UDF(User-Defined Functions): 內(nèi)置函數(shù)可分為:數(shù)值類型函數(shù)、日期類型函數(shù)、字符串類型函數(shù)、集合函數(shù)、條件函數(shù)等... 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2023-01-03 |傳智教育 |內(nèi)置函數(shù)和用戶定義函數(shù)
數(shù)據(jù)倉(cāng)庫(kù)本身并不“生產(chǎn)”任何數(shù)據(jù),其數(shù)據(jù)來(lái)源于不同外部系統(tǒng); 同時(shí)數(shù)據(jù)倉(cāng)庫(kù)自身也不需要“消費(fèi)”任何的數(shù)據(jù),其結(jié)果開(kāi)放給各個(gè)外部應(yīng)用使用。Hadoop數(shù)據(jù)倉(cāng)庫(kù)的主要特征有面向主題性、集成性、非易失性和時(shí)變性,接下來(lái)對(duì)這四個(gè)特性做詳細(xì)介紹。 查看全文>>
Python+大數(shù)據(jù)學(xué)習(xí)常見(jiàn)問(wèn)題2023-01-03 |傳智教育 |Hadoop數(shù)倉(cāng)概述,Hadoop數(shù)據(jù)倉(cāng)庫(kù)特征
MySQL安裝完成后,會(huì)自動(dòng)配置為名稱叫做:mysqld的服務(wù),可以被systemctl所管理,我們?cè)谶M(jìn)行系統(tǒng)的配置時(shí),主要修改root密碼和允許root遠(yuǎn)程登錄。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2023-01-03 |傳智教育 |MySQL8.0版本在CentOS系統(tǒng)的配置教程
MapReduce的思想核心是“先分再合,分而治之”。所謂“分而治之”就是把一個(gè)復(fù)雜的問(wèn)題,按照一定的“分解”方法分為等價(jià)的規(guī)模較小的若干部分,然后逐個(gè)解決,分別找出各部分的結(jié)果,然后把各部分的結(jié)果組成整個(gè)問(wèn)題的最終結(jié)果。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2022-12-29 |傳智教育 |MapReduce思想
Hadoop需要Kerberos來(lái)進(jìn)行認(rèn)證,以啟動(dòng)服務(wù)來(lái)說(shuō),在后面配置 hadoop 的時(shí)候我們會(huì)給 對(duì)應(yīng)服務(wù)指定一個(gè)Kerberos的賬戶,比如 namenode 運(yùn)行在cdh0機(jī)器上,我們可能將 namenode 指定給了nn/cdh0.itcast.cn@ITCAST.CN 這個(gè)賬戶, 那么 想要啟動(dòng) namenode 就必須認(rèn)證 這個(gè)賬戶才可以。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2022-12-29 |傳智教育 |HDFS相關(guān)的Kerberos賬戶配置
聚焦網(wǎng)絡(luò)爬蟲(chóng)面向有特殊需求的人群,它會(huì)根據(jù)預(yù)先設(shè)定的主題順著某個(gè)垂直領(lǐng)域進(jìn)行抓取,而不是漫無(wú)目的地隨意抓取。與通用網(wǎng)絡(luò)爬蟲(chóng)相比,聚焦網(wǎng)絡(luò)爬蟲(chóng)會(huì)根據(jù)一定的網(wǎng)頁(yè)分析算法對(duì)網(wǎng)頁(yè)進(jìn)行篩選,保留與主題有關(guān)的網(wǎng)頁(yè)鏈接,舍棄與主題無(wú)關(guān)的網(wǎng)頁(yè)鏈接。其目的性更強(qiáng)。聚焦網(wǎng)絡(luò)爬蟲(chóng)的工作原理如圖1-2所示。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2022-12-21 |傳智教育 |python網(wǎng)絡(luò)爬蟲(chóng),聚焦爬蟲(chóng)和通用爬蟲(chóng)
在弄清楚大數(shù)據(jù)分析師要學(xué)什么之前,我們先來(lái)對(duì)大數(shù)據(jù)這個(gè)概念稍作下了解。大數(shù)據(jù)也叫作巨量數(shù)據(jù)或者說(shuō)海量數(shù)據(jù),基于大數(shù)據(jù)結(jié)構(gòu)復(fù)雜和類型復(fù)雜的特點(diǎn),技術(shù)人員從這類數(shù)據(jù)中去獲取有價(jià)值的信息的能力,我們稱為大數(shù)據(jù)技術(shù)。一般來(lái)講,大數(shù)據(jù)分析師主要要學(xué)習(xí)以下技術(shù)。 查看全文>>
Python+大數(shù)據(jù)學(xué)習(xí)常見(jiàn)問(wèn)題2022-12-21 |傳智教育 |大數(shù)據(jù)分析師要學(xué)什么
三級(jí)模式是指數(shù)據(jù)庫(kù)管理系統(tǒng)從三個(gè)層次來(lái)管理數(shù)據(jù),分別是外部層(ExternalLevel)、概念層(Conceptual Level)和內(nèi)部層(Internal Level)。這三個(gè)層次分別對(duì)應(yīng)三種不同類型的模式,分別是外模式(External Schema)、概念模式(Conceptual Schema)和內(nèi)模式(Internal Schema)。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2022-12-20 |傳智教育 |三級(jí)模式和二級(jí)映像
北京校區(qū)