频道直达
八强网 > 实务 > 网络工具 > 正文阅读
关键词

浅谈搜索引擎的技术难点

www.8tops.com 2007-5-26 9:01:27   发布:周凯
媒体:原创  作者:周凯
周凯发表于:博客中国(http://vip.bokee.com)


搜索引擎的难点包括如下几点:

1) 是否支持并发的爬取数据,如果要并发,要保证所有采集器能合作采集,不会出现重复采集的情况.

2) 采集的数据还要有一个排重的过程. 只需要采集一个网站更新的数据

3) 对于需要cookie数据的网页如何采集的问题,部分网站需要通过cookie数据登陆网站

4) 自动通过识别码的验证

5) 一些网站对于密集访问的请求会拒绝,技术上也要进行处理

6) 对于一些特殊网页的采集问题, 比如flash网页,一些游戏网页等,很多网站会让采集程序陷入其中,采集数万无效数据,
显然是浪费了采集程序的精力

7) 大数据量的存储也是个难点,据说Google的存储是自己开发的架构,没用任何的数据库,因为数据库的查询效率还是
有一定损失. 可以采用数据块的模式,然后通过散列表的模式连接.

以上主要列出的是后台采集器的相关技术难点,在前台检索、查询效率等方面仍有许多难点.

八强网,更多精彩在首页,
八强网首页
网友评论

发表

我也评两句
 
发文时请务必注意:
一、遵守国家相关法律规定,如 《北京地区互联网站电子公告服务倡议书》《全国人大常委会关于维护互联网安全的决定》 及中华人民共和国其他各项有关法律法规。一旦违犯法律法规,您将承担一切因您的行为而直接或间接导致的民事或刑事法律责任,本站工作人员有义务配合相关部门,提供必要的技术资料(如IP地址等)。
二、自觉遵守爱国、守法、自律、真实、文明的原则,严禁发表有人身攻击倾向、有造谣生事嫌疑的言论,严禁发表虚假广告、色情、网络传销性质的内容,本站管理人员有权删除违反规定的内容或取消违规网友的发文权限甚至删除其ID。
互联网产业作家
网站提交】【八强自荐
将八强网设为首页 将八强网添加到收藏夹 将八强网推荐给朋友 网络实名、通用网址:八强网
关于我们 - 联系合作 - 广告服务 - 友情链接 - 支持单位 - 免责声明
基于E-file技术构建 版权所有Copyright©2006 京ICP备06061834号