八爪鱼采集官方网站与淘宝店铺数据,核心是智能识别 / 模板快速上手与自定义流程精准采集,淘宝因反爬需额外处理登录与验证。以下是完整操作步骤:
- 下载安装八爪鱼采集器(官网:https://www.bazhuayu.com/)
- 注册 / 登录账号,完成实名认证(部分功能需)
- 准备目标网站 URL、淘宝账号(采集淘宝必备)
- 打开八爪鱼,首页输入目标网址 → 点击【开始采集】
- 等待智能识别完成(自动识别列表、滚动、翻页)
- 切换识别结果,勾选需要的【翻页采集 / 滚动加载】
- 点击【生成采集设置】 → 检查流程
- 点击右上角【采集】 → 选择【本地采集】
- 采集完成 → 导出为 Excel/CSV/ 数据库
- 输入网址 → 关闭自动识别 → 手动添加【打开网页】
- 添加【循环】 → 选择【循环列表】,框选目标数据区域
- 添加【提取数据】 → Ctrl + 点击选择标题、价格、链接等字段
- 添加【循环翻页】 → 定位 “下一页” 按钮
- 配置滚动 / 等待 / 防封(UA、代理、延时)
- 保存 → 启动采集 → 导出数据
- 进入【模板市场】 → 搜索对应网站模板
- 预览字段与参数 → 点击【使用模板】
- 输入参数(关键词、URL、翻页次数)
- 启动本地 / 云采集 → 导出数据
- 输入淘宝搜索页
https://s.taobao.com/search → 开始采集
- 关闭自动识别 → 手动添加【打开网页】
- 添加【点击元素】定位登录入口 → 选择扫码登录(推荐,反爬更低)
- 手机淘宝扫码完成登录(30 秒内),处理滑块 / 短信验证
- 添加【输入文本】 → 定位搜索框 → 输入关键词
- 添加【点击元素】 → 定位 “搜索” 按钮
- 添加【循环】 → 选择【循环列表】 → 框选商品区域
- 添加【提取数据】 → Ctrl + 点击选择:
- 优化 XPath(如价格:
//div[@class="innerPriceWrapper--aAJhHXD4"])
- 添加【循环翻页】 → 定位 “下一页” 按钮
- 设置翻页次数 / 采集到最后一页
- 每页延时 2–5 秒
- 开启 UA 随机、代理 IP(付费)
- 避免高频请求,分批采集
- 保存任务 → 点击【采集】 → 选择【本地采集】
- 中途处理验证码 → 完成后导出 Excel/CSV
- 字段编辑:重命名、删除冗余、调整顺序、修改 XPath
- 采集模式:
- 本地采集:用本机资源,适合小批量
- 云采集:八爪鱼服务器,适合大批量 / 定时任务
- 导出格式:Excel、CSV、JSON、数据库、API 推送
- 淘宝反爬:必须登录、扫码优先、控制频率、处理验证码
- 合规提示:仅采集公开数据,遵守网站
robots.txt与用户协议
- 智能识别失败:关闭识别,改用自定义流程
- 淘宝登录失效:重新扫码,清理缓存,更换 IP
- 数据缺失:优化 XPath,增加等待时间,检查翻页逻辑