Python爬虫初学者常见问题及解决方案

tamoadmin 赛事报道 2024-04-27 36 0

在Python爬虫的初学者旅程中，可能会遇到各种问题。以下是根据搜索结果整理的一些常见问题及其解决方案。

问题1：IP被封或访问频率太高被拦截

解决方案：使用代理IP。

问题2：无***常显示中文

解决方案：在读取后加入.decode("utf8")，进行显示的转码之后便不会出现乱码问题了。

问题3：加密问题

解决方案：对于网页端来说通常加密的算法是写在js代码里的，所以首先你要对js语言有所了解。其次找到对应js加密代码，然后找出关键的函数。把js代码在node.js环境进行调试，最后在Python环境下利用execjs库去执行调试好的代码。另一种方式是模拟浏览器环境直接获取渲染后的数据，最常用的手段就是利用Selenium框架了。

问题4：获取不到网页的全部代码

解决方案：由于很多网页的数据传输是通过js命令传到网页的，因此使用request()方法不能获取通过js传递过来的信息代码。此时通过使用selenium库来模拟浏览器运行，就像真正的用户在操作一样，可通过此方法可获得该网页的源码。

问题5：点击下一页时网页不变

解决方案：通过使用selenium中nextpagebutton.click()方法来模拟跳转到下一页，从而对下一页的内容进行获取。

问题6：文本节点问题

解决方案：在BS4中，我们在HTML中看到的换行符以及空格都是NavigableString也就是文本节点。

问题7：如何快速找到提取数据

解决方案：这是一个对工具使用不熟悉而已。可以使用beautifulSoup中的find和find_all函数来进行数据提取。

问题8：NotImplementedError:Onlythefollowingpseudoclassesareimplemented:nthoftypeAnswer:nthchild改为nthoftype

解决方案：这种问题一般是出现在使用CSS选择器的时候，这个时候应该将:nthchild改为:nthoftype。

问题9：TypeError:POST

data