python 网络爬虫小记 | Nick的小天地

python 网络爬虫小记

by nick / On 2025年3月8日 / In python, 后端开发

这周公司一个 AI 智能客服项目，其中知识库中的资料需要通过网络爬虫获取到，我用 kimi 和 DeepSeeK 两个 AI 工具帮我写代码，ai 写代码就是快，代码很简洁，但是一运行就有各种问题，需要不断的调整。

爬取的资料是网页上的文章，有按分类，每个分类数量不一，多少300多篇，少的8篇，文章里面有文字和图片。

爬虫的过程中遇到几个问题，简单记录一下。

1、爬虫前先看网页的结构，刚开始用模拟浏览器点击进入下一页，发现用页面不是的链接 a 标签，用 Selenium 也无法触发，当然可能是我菜，后面改成在文章详情页点击下一篇实现自动滚动爬虫。

2、请求要做停顿，请求次数太频繁会触发限流。

3、使用 selenium 模拟浏览器操作，浏览器驱动版本和浏览器要一致。

打赏作者

您将是第一位评论人！

Top