Selenium实现微博爬虫-白红宇

Selenium实现微博爬虫

阅读量：182 次

发布时间：2019-02-28

本文共 302 字，大约阅读时间需要 1 分钟。

抓取节点：将每条评论作为一个节点（包含用户信息、评论内容及发布时间等信息）。若一页有20条评论，则节点数量即为20。

节点获取：通过CSS选择器div.card > div.card-feed > div.content找到所有符合条件的节点。

节点处理：逐个遍历节点列表，判断每个节点是否包含“展开全文”链接。操作步骤如下：

检查节点中是否存在p > a[action-type='fl_unfold']元素

判断该链接的显示状态

如果满足条件，且链接文本以“展开全文c”开头：

点击该链接，获取指定位置的评论内容

否则，直接获取评论文本

同时，提取用户信息

注：该操作需确保唯一性，避免误选其他元素。

转载地址：http://tdfn.baihongyu.com/

你可能感兴趣的文章

thinkphp 常用SQL执行语句总结

Oracle：ORA-00911: 无效字符

Text-to-Image with Diffusion models的巅峰之作：深入解读 DALL·E 2

Tensorflow.python.framework.errors_impl.ResourceExhaustedError：无法分配内存[操作：AddV2]

TCP基本入门-简单认识一下什么是TCP

tableviewcell 中使用autolayout自适应高度

Symbolic Aggregate approXimation（SAX，符号聚合近似）介绍-ChatGPT4o作答

Orcale表被锁

svn访问报错500

sum(a.YYSR) over (partition by a.hy_dm) 不需要像group by那样需要分组函数。方便。

ORCHARD 是什么？

Struts2中使用Session的两种方法

STM32工作笔记0032---编写跑马灯实验---寄存器版本

order by rand()

SSM(Spring+SpringMvc+Mybatis)整合开发笔记

Orderer节点启动报错解决方案：Not bootstrapping because of 3 existing channels

org.apache.axis2.AxisFault: org.apache.axis2.databinding.ADBException: Unexpected subelement profile

sql查询中查询字段数据类型 int 与 String 出现问题

org.apache.commons.beanutils.BasicDynaBean cannot be cast to ...

org.apache.dubbo.common.serialize.SerializationException: com.alibaba.fastjson2.JSONException: not s