时间: 2021-04-29 11:40 来源: 作者: 阅读: 次
动态链接是指网页中爬虫无法识别的链接。爬虫的链接提取器不能从网页中提取出所有的链接,因为有一些可能存储在特定格式(如JavaScript)中,而链接提取器无法对这种格式解码。这种链接的格式直接影响到爬虫爬取页面的数量。下面描述了一种类型的动态链接。
早期网络中的链接只有一种简单的格式。它们必须以“<a href="">开始,以</a>”结束。引用标记是可选的,可以插入空格符,但是一个爬虫只需要在网页中查找“<a href=”来判断链接的开始,这样就可以有效的从网页中提取所有的链接。使用网页编程语言JavaScript后,链接地址以各种各样的形式存放在网页中,因此,不能保证从网页中提取出所有的链接。举例来说,一个带JavaScript代码的网页可能有一个主链接,而实际URL地址嵌入到了JavaScript动态链接是链接分析数据有效性的一大威胁。如果一个或多个站点广泛地使用JavaScnipt,以防止被搜索引擎索引。那么,就不可能有效地分析这些数据集了。对于大型站点而言,通常只在某些网页上使用JavaScript技术,只要能提取起始网页中的链接,遍历时仍可以获得满意的网站覆盖率。
有效遍历的障碍不仅包括JavaScript还包括Java和Shockwave。网站设计者需要注意:如果希望自己的站点能够被商业搜索引擎的爬虫访问,就必须保证所设计的网页中有足够多的“标准”链接(即HTML链接)。