限定爬虫。藏文网页搜索用的爬虫, 是一种限定爬虫, 在爬虫的功能定位上只抓取藏文的网页, 本质是对网页文本所用语言的限定。藏文网页的限定爬虫, 表面上是限定语言, 具体操作层面需要通过限定IP、限定URL、限定charset来达成。 限定爬虫就是对爬虫所爬取的主机的范围做一些限制, 一般, 限定爬虫包括以下几个方面: (1) 限定域名的爬虫。譬如, 只抓取edu.cn结尾的域名; (2) 限定爬取层数的爬虫。譬如, 限定只抓取2层的数据; (3) 限定IP的抓取。譬如, 只抓取西藏自治区内的IP; (4) 限定语言的抓取。譬如, 只抓取中文汉字页面。
抓取藏文网页一方面要设计限定爬虫, 其次打造动态更新的藏文网站域名库、藏文网站主机IP库, 配合限定爬虫工作。现在已有部分藏文网站在页面中加入了标记, 如中国藏学网使用的是html xml:lang=za-cnlang=za-cn, 西藏IT网使用的是html class=ie ie7lang=bo-CN, 琼迈藏族文学网使用的是html lang=bo。可以参考网页代码中的标记来辨别判断藏文网站。藏文网站域名库和藏文网站主机IP库, 需要人工操作, 人为添加一些地址, 这方面参照目前网络广泛用的纯真IP数据库达成。