后代选择器是一种多个用空格分隔的选择器,别称包含选择器。
@ css3选择器怎么选择第3个?
li:nth-child(3n+0)
{
background:#ff0000;
}
@ webmagic详解?
WebMagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。设计原理
webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。
webmagic包含页面抽取功能,开发者可以使用css selector、xpath和正则表达式进行链接和内容的提取,支持多个选择器链式调用。
使用maven
webmagic使用maven管理依赖,在项目中添加对应的依赖即可使用webmagic:
WebMagic 使用slf4j-log4j12作为slf4j的实现.如果你自己定制了slf4j的实现,请在项目中去掉此依赖。
项目结构
webmagic主要包括两个包:
webmagic-corewebmagic核心部分,只包含爬虫基本模块和基本抽取器。webmagic-core的目标是成为网页爬虫的一个教科书般的实现。
webmagic-extensionwebmagic的扩展模块,提供一些更方便的编写爬虫的工具。包括注解格式定义爬虫、JSON、分布式等支持。
webmagic还包含两个可用的扩展包,因为这两个包都依赖了比较重量级的工具,所以从主要包中抽离出来,这些包需要下载源码后自己编译。
@ css选择器中可以匹配所有标签的是?
答案是星星选择标签。
因为星号选择器的定义是用于选择html中的所有标签,在一个页面中大家都会选择去掉html所有标签的默认样式,然后根据自己的需求添加样式,这个时候就需要使用*选择标签。
另外一个*选择标签也可以搭配到其他的标签进行使用,用来选择表示某个父元素下面的所有子元素标签。