网络学堂

深圳龙华网络推广中搜索引擎如何提取网站内容

信息录入：深圳博盈网络技术录入时间：2011-02-05 浏览次数：3411 次

搜索引擎建立网页索引，处理的对象是文本文件。对于网络蜘蛛来说，抓取下来网页包括各种格式，包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后，需要把这些文件中的文本信息提取出来。网络营销培训指出：要准确提取这些文档信息，一方面对搜索引擎的搜索准确性有重要作用，另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。
对于doc、pdf等文档，这种由专业厂商提供的软件生成的文档，厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口，就可以轻松的提取文档中的文本信息和文件其它相关的信息。
HTML等文档不一样，HTML有一套自己的语法，通过不同的命令标识符来表示不同的字体、颜色、位置等版式，如：、等，提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事，因为这些标识符都有一定的规则，只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候，需要同步记录许多版式信息，例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等，这些信息有助于计算单词在网页中的重要程度。同时，对于HTML网页来说，除了标题和正文以外，会有许多广告链接以及公共的频道链接，这些链接和文本正文一点关系也没有，在提取网页内容的时候，也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道，因为导航条在网站内每个网页都有，若不过滤导航条链接，在搜索“产品介绍”的时候，则网站内每个网页都会搜索到，无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律，抽取一些共性，统一过滤；对于一些重要而结果特殊的网站，还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。
对于多媒体、图片等文件，一般是通过链接的锚文本(即，链接文本)和相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片”，其链接指向一张bmp格式的图片，那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”。这样，在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张图片。另外，许多多媒体文件中有文件属性，考虑这些属性也可以更好的了解文件的内容。
动态网页一直是网络蜘蛛面临的难题。所谓动态网页，是相对于静态网页而言，是由程序自动生成的页面，这样的好处是可以快速统一更改网页风格，也可以减少网页所占服务器的空间，但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多，动态网页的类型也越来越多，如：asp、jsp、php等。这些类型的网页对于网络蜘蛛来说，可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如VBScript和javascript)生成的网页，如果要完善的处理好这些网页，网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站，需要通过本网站的数据库搜索才能获得信息，这些给网络蜘蛛的抓取带来很大的困难。对于这类网站，如果网站设计者希望这些数据能被搜索引擎搜索，则需要提供一种可以遍历整个数据库内容的方法。
对于网页内容的提取，一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式，通过一个插件管理服务程序，遇到不同格式的网页采用不同的插件处理。这种方式的好处在于扩充性好，以后每发现一种新的类型，就可以把其处理方式做成一个插件补充到插件管理服务程序之中。

上一篇：博盈网络2020年国庆节放假通知
下一篇：龙华网络设计师教你怎样学会接近目标用户？

联系我们

0755-29008907 15989449358 龙先生

24小时热线：15989449358 龙先生

boryin@boryin.com sales@boryin.com

深圳市龙华新区龙华街道办山咀头综合办公大楼9楼915室 (龙华街道办、华润万家，佳华商场、友谊书城等旁)

尊敬的客户，如果您有任何疑问或者问题，请联系我们的客服在线或拨打我们的24小时热线或者有客户心声栏目留言,谢谢！

客户心声

博盈网络

关注微信博盈网络公众
号获最新网络营销资讯

深圳博盈网络为深圳宝安、龙华、观澜、大浪、民治、石岩、坂田、松岗、沙井、福永、西乡、平湖、龙岗、福田、南山、罗湖、香港、东莞长安、虎门等地区提供专业的企业网站建设、网页设计、大型网站建设、行业网站建设、外贸网站建设、改版网站、注册域名、推广网站等相关互联网服务，多年来在深圳龙华网站建设、观澜网站建设，坂田网站建设，石岩网站建站，宝安网站建设区域打下坚实的基础，博盈网络真诚希望能与您合作！

博盈网络致力于高品质品牌网站建设、网站策划、网站优化排名营销方案一体化服务：0755-29008907 15989449358

http://www.boryin.net/

网络学堂

深圳龙华网络推广中搜索引擎如何提取网站内容

联系我们

客户心声

博盈网络