python 网络爬虫小记
这周公司一个 AI 智能客服项目,其中知识库中的资料需要通过网络爬虫获取到,我用 kimi 和 DeepSeeK 两个 AI 工具帮我写代码,ai 写代码就是快,代码很简洁,但是一运行就有各种问题,需要不断的调整。
爬取的资料是网页上的文章,有按分类,每个分类数量不一,多少300多篇,少的8篇,文章里面有文字和图片。
爬虫的过程中遇到几个问题,简单记录一下。
1、爬虫前先看网页的结构,刚开始用模拟浏览器点击进入下一页,发现用页面不是的链接 a 标签,用 Selenium 也无法触发,当然可能是我菜,后面改成在文章详情页点击下一篇实现自动滚动爬虫。
2、请求要做停顿,请求次数太频繁会触发限流。
3、使用 selenium 模拟浏览器操作,浏览器驱动版本和浏览器要一致。
打赏作者
您将是第一位评论人!