一般情況下,在選擇是使用多進程還是多線程時,主要考慮的業(yè)務(wù)到底是IO密集型(多線程)還是計算密集型(多進程)。在爬蟲中,請求的并發(fā)業(yè)務(wù)屬于是網(wǎng)絡(luò)的IO類型業(yè)務(wù),因此網(wǎng)絡(luò)并發(fā)適宜使用多線程;但特殊需求下,比如使用phantomjs 或者chrome-headless來抓取的爬蟲,應(yīng)當(dāng)是多進程的,因為每一個phan/chro實例就是一個進程了,并發(fā)只能是多進程。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-05-21 |傳智教育 |寫爬蟲是用多進程好,多線程
一般爬蟲使用的數(shù)據(jù)庫,是根據(jù)項目來定的。如需求方指定了使用什么數(shù)據(jù)庫、如果沒指定,那么決定權(quán)就在爬蟲程序員手里,如果自選的話,mysql 和mongodb 用的都是比較多的。但不同的數(shù)據(jù)庫品種有各自的優(yōu)缺點,不同的場景任何一種數(shù)據(jù)庫都可以用來存儲,但是某種可能會更好。比如如果抓取的數(shù)據(jù)之間的耦合性很高,關(guān)系比較復(fù)雜的話,那么mysql可能會是更好的選擇。如果抓取的數(shù)據(jù)是分版塊的,并且它們之間沒有相似性或關(guān)聯(lián)性不強,那么可能mongodb 會更好。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-05-21 |傳智教育 |Python爬取數(shù)據(jù)用哪個數(shù)據(jù)庫存儲數(shù)據(jù)好
每個數(shù)據(jù)倉庫都包含一個或者多個事實數(shù)據(jù)表,事實表是對分析主題的度量,它包含了與各維度表相關(guān)聯(lián)的外鍵,并通過連接(Join)方式與維度表關(guān)聯(lián)。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-05-21 |傳智教育 |什么是事實表和維度表
Spark SQL比Hadoop Hive快,是有一定條件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎還比Spark SQL的引擎更快。其實,關(guān)鍵還是在于Spark 本身快。那么Spark為什么快呢? 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-05-20 |傳智教育 |Spark處理數(shù)據(jù),Hive,大數(shù)據(jù)面試題
1、使用HTTPS協(xié)議可認證用戶和服務(wù)器,確保數(shù)據(jù)發(fā)送到正確的客戶機和服務(wù)器;2、HTTPS協(xié)議是由SSL+HTTP 協(xié)議構(gòu)建的可進行加密傳輸、身份認證的網(wǎng)絡(luò)協(xié)議,要比http協(xié)議安全,可防止數(shù)據(jù)在傳輸過程中不被竊取、改變,確保數(shù)據(jù)的完整性。3、HTTPS 是現(xiàn)行架構(gòu)下最安全的解決方案,雖然不是絕對安全,但它大幅增加了中間人攻擊的成本 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-05-19 |傳智教育 |HTTPS優(yōu)點和缺點
若干子線程在系統(tǒng)資源競爭時,都在等待對方對某部分資源解除占用狀態(tài),結(jié)果是誰也不愿先解鎖,互相干等著,程序無法執(zhí)行下去,這就是死鎖。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-05-19 |傳智教育 |什么是死鎖
for循環(huán)的作用:python for循環(huán)可以遍歷任何序列的項目,如一個列表或者一個字符串。 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-05-19 |傳智教育 |Python中for循環(huán)的用法
我們主要是通過Shell命令來操作Zookeeper。首先,啟動Zookeeper服務(wù);其次,連接Zookeeper服務(wù)。具體命令如下: 查看全文>>
Python+大數(shù)據(jù)技術(shù)文章2021-05-19 |傳智教育 |通過Shell命令操作Zookeeper