互联网爬虫技术的分类。互联网爬虫作为一种网页抓取技术,其主要分为通用互联网爬虫、聚焦互联网爬虫两类型型。其中通用互联网爬虫是借助捜索引擎,对网页中的数据信息进行搜索、采集与抓取的技术,通过将网络网页下载到当地,来保证互联网内容的抓取、存储与镜像备份。第一第一步是对网站URL低质进行抓取,分析DNS得到主机IP地址,并对相应的URL网页进行下载。第二步,对爬虫爬取的网页进行存储,借助搜索引擎抓取到原始页面,比较网页数据与用户浏览器HTML内容的相似性,来决定是不是对网站信息进行继续爬行。最后,对搜索引擎爬虫抓取的信息进行处置,主要通过应用程序或脚本的实行,展开HTML文件、索引文字内容的预处置,包含噪音、提取文字、中文分词、索引及链接、特殊文件等的处置。 而聚焦互联网爬虫的抓取与实行步骤,则比通用互联网爬虫愈加复杂,其作为面向特定主题需要的互联网爬虫程序,可以在实时网页抓取的同时,对其中的大量数据信息进行筛选、处置。
因此依托于聚焦互联网爬虫技术,对网页的数据内容进行抓取与剖析,可以迅速过滤掉与主题无关的URL地址。之后将有关性较高的URL地址放入URL队列,再进行队列中所需数据的进一步URL抓取、筛选,多次重复以上操作直至满足相应主题的爬取需要后,终止该程序的实行。