Python內(nèi)置了許多標(biāo)準(zhǔn)模塊,例如sys、os、random和time模塊等,下面為大家介紹幾個常用的標(biāo)準(zhǔn)模塊。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-07-09 |傳智教育 |Python常見的標(biāo)準(zhǔn)模塊
Jupyter Notebook(交互式筆記本)是一個支持實(shí)時代碼、數(shù)學(xué)方程、可視化和Markdown的Web應(yīng)用程序,它支持40多種編程語言。對于數(shù)據(jù)分析來說,Jupyter Notebook最大的優(yōu)點(diǎn)是可以重現(xiàn)整個分析過程,并將說明文字、代碼、圖表、公式和結(jié)論都整合在一個文檔中,用戶可以通過電子郵件、Dropbox、GitHub和Jupyter Notebook Viewer將分析結(jié)構(gòu)分享給其他人。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-07-06 |傳智教育 |安裝和啟動交互式筆記本
課程采用由淺入深,層層遞進(jìn)的講解方式, 讓你輕松掌握企業(yè)級用戶畫像的使用, 使用SparkSQL+Hbase+Oozie構(gòu)建企業(yè)級用戶畫像?;赟parkMllib構(gòu)建數(shù)據(jù)挖掘模型。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-07-02 |傳智教育 |大數(shù)據(jù)項(xiàng)目用戶畫像實(shí)戰(zhàn)
Python列表是一個可變的序列,它沒有長度的限制,可以包含任意個元素。列表的長度和元素都是可變的,開發(fā)人員可以自由地對列表中的數(shù)據(jù)進(jìn)行各種操作,包括添加、刪除、修改元素。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-07-01 |傳智教育 |添加刪除修改列表元素,Python列表元素
Hive是建立在Hadoop文件系統(tǒng)上的數(shù)據(jù)倉庫,它提供了一系列工具,能夠?qū)Υ鎯υ贖DFS中的數(shù)據(jù)進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL),這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的工具。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-06-25 |傳智教育 |什么是Hive,Hive的特點(diǎn)
Tesseraet是一個命令行工具,安裝后只能通過tsseraet命令在Python的外部運(yùn)行,而不能通過import語句引人使用。為了解決上述問題,Python 提供了支持Tssraec-OCR引擎的Python版本的庫pytesseract。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-06-25 |傳智教育 |pytesseract識別驗(yàn)證碼教程
每個broker中的partition我們一般都會設(shè)置有replication(副本)的個數(shù),生產(chǎn)者寫入的時候首先根據(jù)分發(fā)策略(有partition按partition,有key按key,都沒有輪詢)寫入到leader中,follower(副本)再跟leader同步數(shù)據(jù),這樣有了備份,也可以保證消息數(shù)據(jù)的不丟失。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-06-25 |傳智教育 |Kafka數(shù)據(jù)存儲,broker
HDFS磁盤上元數(shù)據(jù)文件分為兩類,用于持久化存儲:fsimage 鏡像文件、Edits 編輯日志,fsimage和edits文件都是經(jīng)過序列化的,但同時有有著眾多差別,下面就來詳細(xì)看一下。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-06-25 |傳智教育 |fsimage和edit的區(qū)別
北京校區(qū)