python爬蟲速率的疑問,小白求解?
優化網絡:
1.我理解 爬蟲主要的問題在于網絡阻塞,所以使用多線程彌補HTTP異步等待。
那么使用了gevent
解決網絡問阻塞題,就不需要使用多線程嗎?
優化CPU:
2.python多線程運行時,使用的是單核心,還是多核心?在多核心機器上運行
如果是單核心,能否同時使用多<愛尬聊_讓生活聊出新高度>線程
與多進程
?
3.在4核心8線程的電腦上,開啟單個進程32線程python運行,這些線程是怎么分配的?
4.當網絡阻塞不是瓶頸,如何才能最大化使用單臺電腦CPU?應該使用多線程還是多進程增大爬取速率?
5.使用消息隊列分布式爬蟲,等待的消息過多會不會存在內存或CPU問題?
6.使用消息隊列是如何增大爬取速率的?