网络爬虫 By 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 中文名 网络爬虫 外文名 web crawler 别 称 网络蜘蛛、蠕虫 目 的 按要求获取万维网信息 作 用 抓取网站上的信息 算 法 网络拓扑、基于网页内容和基于用户访问行为三种算法 目录 1 产生背景 2 面临的问题 3 分类 4 抓取目标分类 5 网页搜索策略 ▪ 广度优先搜索 ▪ 最佳优先搜索 ▪ 深度优先搜索 6 网页分析算法 7 补充