中国第一批搜索引擎往事丨CERNET30周年

来源:中国教育和科研计算机网 时间:2024-10-14

  三大搜索引擎成功实现了他们的初衷——研究关键应用,积累搜索引擎技术,并在此基础上培养了大批互联网人才,他们走出实验室,成为了中国互联网发展的重要力量。

  1991年,蒂姆·伯纳斯·李发明的WWW席卷了全球,规模每年翻一番的互联网开始每三个月翻一番。

  但总的来说,全球互联网还是一片待开垦的土地:人们找不着北,不知道去哪里寻找自己想要的内容。虽然互联网将计算机连接了起来,却没有把人和互联网连起来。在没有搜索引擎的日子里,人们只能按图索骥,点开一个又一个网站,逐个寻找自己需要的信息。

  1994年,美国斯坦福大学的研究生杨志远(Jerry Yang)和大卫·费罗(David Filo)用人工分类目录的方式制作了一个网站指南,这是由许多网站的链接组成的列表,取名为Yahoo。Yahoo一经推出就吸引了一大批需求者。

  但这种“喂到嘴边”的目录分类列表没能真正满足用户的核心需求——让信息蹦到眼前。

  搜索,作为互联网最基本的信息服务,仍然没有出现最优解,也因此成为全球互联网研究人员倾注热情的课题。

  CERNET三大搜索引擎启航

  1995年,全球互联网的用户数量达到了1600万。随后的几年里,风险投资家们忙得不可开交。《华尔街日报》说,几乎每隔15秒就有一家以“.com”命名的新公司上市,互联网走向了商业化。

  在网络经济破茧而出的前夕,中国全功能接入了国际互联网。1994年4月20日,通过美国Sprint公司的64K专线,中关村地区教育与科研示范网络NCFC接入国际互联网。也在这一年,中国第一个覆盖全国的互联网主干网——中国教育和科研计算机网CERNET诞生了。

  从接入国际互联网那一刻开始,中国就用互联网连接并奋力追赶着世界。

  1996年,“九五”攻关启动,旨在集中力量攻克产业升级和社会持续发展亟需解决的关键技术和共性技术。信息技术是其中一个重点领域。CERNET领到的任务是“计算机信息网络及其应用关键技术研究”,即基于建成的CERNET示范工程,对计算机信息网络及其应用关键技术展开研究。

  也就是说,一是要研究互联网关键核心技术,二是要开展互联网关键应用,从而构建一个完整的国内互联网生态系统。项目提出了六大重要任务:网络管理与运行技术、网络及信息安全技术、网络互连和路由技术、网络设计和测试技术、网络信息发现技术、典型网络应用技术。而搜索引擎既属于网络信息发现技术,又属于非常关键的互联网应用。

  今天回过头看,“九五”攻关的项目立项得非常及时,极具战略眼光,富有远见地抓住了互联网发展的根本关键问题。

  搜索引擎研究课题采用的方式也非常有趣,并不是由一家单位来完成,而是选择了三所高校来实施——清华大学、北京大学和华南理工大学。由此,在三所高校的网络实验室里,开启了中国最早的搜索引擎技术研究。

  清华大学网络指南针

501

网络指南针搜索引擎主页

  清华大学网络指南针搜索引擎的研发由清华大学教授、CERNET网络中心副主任李星主持。

  网络指南针(Net Compass)的名字就是李星取的。早前,他从清华大学电子工程系本科毕业后赴美留学,1991年留学归来后,他很不适应没有网络的生活,于是四处呼吁建设中国的互联网。1994年,CERNET示范工程启动,李星就被吸收进入了项目,所以他总说自己是“票友下海”。

  1996年,李星带领他的学生们张俐、杨文峰、解冲锋、李粤、许静芳和崔伟东等开始了对搜索技术的探索。

  网络指南针主要研究中文搜索引擎的技术实现。比起英文的字词搜索,中文更难。因为英文的字与字之间有空格,能很自然地切分词汇,而中文不是。因此,团队面临的第一个关键问题就是:如何切分中文的关键词来进行搜索?字与字之间应该如何切词?如果基于一个一个字来切,计算量巨大;如果基于词来切,那么没有实质含义的词组要不要切?

  在充分考虑了中国文化背景和汉语的使用习惯后,网络指南针对切词的方式进行了调整。像《红楼梦》里的语句:“雨村领其意,作别至馆中,忙寻邸报看真确了。”“邸报看真”这样的词条,虽不是成语,也不是常用词,但能在指南针上搜出链接。

  除了提供网站列表之外,网络指南针还提供了一些关于链接的模糊信息,由一个词可以衍伸至另一个相关的词。

  这种做法一是给用户提供了更多选择,二是提升了用户搜索体验的趣味感。当用户注意到一个突出显示的文字或短语时,就会进行点击以了解更多信息,链接就将他们带到另一个页面。比如搜索“cisco”,就会自动出现“路由器”的链接,用户就能顺藤摸瓜浏览其他网页。

  1997年10月,网络指南针开始向用户提供中英文信息查询服务,它收录有20多万网页,收集了CERNET、ChinaNet、中国科技网和中国金桥网等信息资源。1998年7月《软件世界》杂志上刊登的一篇名为《中文搜索网站介绍与比较》的文章评论说:“网络指南针的特色在于查询方法的多种多样。其系统稳定性、查找速度均为中上之选。”

  从1999年12月到2000年8月,有10万多名用户对指南针进行了80多万次的查询,指南针成为教科网内知名的搜索引擎。

  “还是有遗憾的,”李星谈起网络指南针时表示,“第一个遗憾是依赖于集中式的技术,未能像谷歌那样发明Map-Reduce技术,从而走到分布式。第二个遗憾是缺乏相应的机制,将网络指南针商业化。”

  对于前者,网络指南针当时的体系结构是集中式,随着Web的发展,对于搜索引擎的可扩展性提出了挑战。在互联网发展初期信息量还没有那么大的时候,集中式的技术确实可以满足用户的需求,而当互联网飞速发展以后,这种模式就逐渐跟不上急速扩张的互联网资源了。对于后者而言,商业化涉及时代理念和环境,更是难。

  对于搜索引擎而言,1998年是具有划时代意义的一年。这年,斯坦福大学的博士生拉里·佩奇(Lawrence Edward Page)由科研文献被引用率与其价值成正比想到,网页链接也如此——不是所有链接都平等,一个链接被连接得越多,它就越重要。在此基础上,拉里·佩奇和谢尔盖·布林(Sergey Brin)发明了Page Rank(佩奇排名)算法。正是这个基于网页链接分析的算法,使得搜索技术具有了和以往完全不同的使用效果,Google一举成名。

  几年后,Google发明了面向大规模数据处理的并行计算模型和方法——Map-Reduce技术,并将其广泛应用于大规模的数据处理。技术上的不断开拓,伴以成熟的风险投资机制,Google飞速壮大。

  然而,对于改革开放才20多个年头、商业环境不够成熟、还在迷雾中摸索互联网技术的中国,一切都是Hard模式。和其他一些90年代的搜索引擎一样,在缺乏商业化机制的情况下,网络指南针没能走到最后。二十世纪末的最后几年,国内上网用户的规模还很小,搜索引擎商业化的前景并不被看好。虽然在今天,在线广告是互联网最主流的变现模式,但在90年代,在报刊上登一次广告的反馈率,比在网上登两个月广告的反馈率还要多一倍。

  网络指南针(Net Compass)的名字还引发了一段小插曲。2024年,在中国互联网协会举办的“中国互联网30年纪念”座谈上,搜狐的张朝阳回忆起1998年创立网站前夕,他灵光一闪,想出一个非常满意的名字——指南针。他回到清华计算机系,兴奋地和吴建平老师聊,吴建平说,清华的搜索引擎就叫指南针,还申请了域名。于是张朝阳把他的网站名改成了搜狐。“遗憾的是,后来我们的域名没有连续交费,现在已经不在了,要是留着也挺好的。”李星回忆道。

  北大天网搜索引擎

502

天网搜索引擎主页

  Google创立后的第二年,北京大学信息管理学院毕业的李彦宏结束了在美国的职业生涯,回国创业,剑指搜索引擎。他的首要任务是招兵买马,传说中“百度七剑客”中的两位——刘建国和雷鸣——就来自北大天网搜索引擎。

  天网搜索引擎取意“天网恢恢,疏而不漏”,用在信息搜索上十分贴切。

  1996年,北京大学网络实验室陈葆珏教授带着刘建国、周利民和雷鸣等人开始了对天网搜索的研发。刘建国是北大教师,其他人都是研究生。

  团队认为,搜索引擎是系统层面的新事物。它本质上是一种信息服务,核心问题有两个:如何返回用户想要的信息,如何让用户快速访问。也就是一要准,二要快。要从几千万甚至上亿个网页中找出信息并在1秒内返回,难如大海捞针,而团队成功实现了从零到一的突破,并取得了阶段性的成果。

  1997年10月29日,北大天网开始在CERNET上向用户提供服务。到了1998年9月,访问者已经超过了10万。1999年《中国信息导报》发布了一篇名为《中文搜索引擎发展的现状、问题及对策》的文章,对天网搜索引擎做出了如下评价:“北京大学‘天网’的关键词查询方式有简单查询和复杂查询,查询界面友好且功能性较强,相比而言,查准率较高,因而深受广大网上用户的青睐。”

  其实,刘建国很早就开始思考如何让搜索引擎在巨大的市场竞争中逆流而上。在1998年的一次采访中,他提到,就像以前的操作系统、字处理软件最后被许多国外软件占了上风一样,搜索引擎也面临同样的问题。技术的深入、资本的投入和商业化可能才是做大做强的必经之路。

  1999年对于天网搜索而言是很特别的一年。那一年,李彦宏回国创业。回来前夕,他按照天网上的Email地址给刘建国发了一封邮件,邀请刘建国一起在中国开发一款搜索引擎。几经思索后,刘建国辞掉了北大教师的职务,成为百度的第一名员工,负责技术研发。在刘建国的推荐下,北大天网的其他主力开发人员周利民、雷鸣也加入了百度。

  同年,陈葆珏教授退休,李晓明接任了北大天网研发负责人的职位。“在天网搜索引擎发展的第一阶段,陈葆珏老师给我们打了一个很好的底子。从2000年开始,我们成立了新课题组,进入了北大天网第二阶段的发展。新课题组的主要成员有王建勇、闫宏飞、彭波、谢欣和陈华等人。”李晓明说。

  彼时,互联网上的网页数量已达千万级,闫宏飞和彭波开发了一套技术,以实现系统的并行化。陈华从雷鸣手里接下了当时并不受重视的FTP搜索任务,他还真做了出来,2002年,北大天网FTP搜索成为国内最著名的FTP搜索。北大网络实验室还运用了Google的新技术提升了系统的能力,推出了天网Maze。

  之后,北大天网迎来了它的第三个发展阶段:留存中国互联网的记忆。互联网上信息纷繁庞杂,在缺乏维护的情况下,大多数网页只是“县花一现”,随着时间的流逝而湮灭。2002年,北大网络实验室开发建设了“中国Web信息博物馆”,到2015年,博物馆收藏了70多亿网页文本数据,容量超200TB。2016年,实验室将其捐赠给了中国计算机学会,向公众开放。

  这一项目的意义最近越来越得到凸显:2024年,一篇名为《中文互联网正在加速崩塌》的文章在网上流传,文章指出,中文互联网上的许多历史信息崩塌式消失,就像历史中断掉的链条一般。这篇文章让许多人开始关注北大的Web信息博物馆。这一项目的意义还不止于此——伴随着近两年生成式人工智能的发展,Web信息博物馆里收集的近20年的数据成为了各大科研机构训练大模型的宝贵语料,已经被30多家机构采用。当然,这是后话了。

  华南理工木棉搜索引擎

503

木棉搜索引擎主页

  每年秋天,木棉花盛开时,华南理工大学的校园中好似有无数欢快的火苗在跳跃,满树粉黛亦如云如霞,而木棉搜索引擎这一美好的名字就由此而来。

  1996年,木棉搜索引擎的研发在华南理工大学信息网络工程研究中心正式启动。网络实验室的负责人是华南理工大学教授张凌,他同时也是CERNET专家委员会的副主任。那年,他和实验室的董守斌教授一起带着学生们研发木棉检索。

  1998年12月,木棉正式向互联网用户提供服务,支持Web检索、FTP检索和信息采编。主要提供两类信息检索服务,一是面向学校、大型企业的企业级搜索引擎,如华南理工大学校内搜索、广州科技网检索系统等。二是面向教育网资源的全网专题检索,这一系统面向中国教育和科研计算机网CERNET,整合了全国各类教育资源,为教育网用户提供良好的信息检索平台。

  木棉检索团队在技术上做了很多探索。他们与清华大学联合承担国际联网安全研究项目——“信息自动查询与识别技术”,通过网络信息抓取并实现敏感词汇的过滤,这也是第一代带关键词过滤的爬虫系统。

  他们还与Sun公司合作,建立了大陆第一个大型FTP开源文件下载中心(SunSite),并重点攻关FTP检索,收集了百万条FTP文件信息,支持对文件名、文件目录和文件URL的模糊查询和文件属性的结构查询,对大批量数据有较快的响应时间,是当时国内信息量较大和服务功能较完善的FTP检索。

  进入二十一世纪后,互联网技术得以快速发展。木棉搜索引擎也经历了许多发展变化,其系统由集中式搜索改为分布式搜索,这是一个很大的调整。同时,尽可能选择搜索领域的开源系统——如早期出现的Lucene——进行二次开发。

  2002年,北京大学主办了第一届全国搜索引擎和网上信息挖掘学术(SEWM)研讨会。华南理工大学、清华大学紧随后,主办了第二届和第三届研讨会。该会议当时是搜索引擎领域的旗舰会议,其主要特色是举办中文搜索引擎竞赛测评。木棉搜索团队多次在该会组织的测评中名列前茅。会议后改名为全国信息检索学术会议(CCIR),举办至今年,刚好是第三十届。

  2005年,董守斌和一起参与项目的袁华开设了“网络信息检索”本科课程。课程起初是作为网络工程专业的特色课程,后发展为面向计算机学院的选修课,这也是国内首个讲述信息检索技术和搜索引擎原理的本科生课程。在多年研究与教学的基础上,两位老师撰写了本科教材《网络信息检索》,获评“十三五”高等教育本科国家级规划教材。

  2009年,在发改委下一代互联网项目的支持下,四所高校——华中科技大学、华南理工大学、北京大学、清华大学联合开发了IPv6分布式搜索引擎,建设了下一代互联网分布式搜索引擎平台,促进了我国IPv6下一代互联网应用的繁荣。

  互联网人才培养基地

  2000年之后,国内掀起了互联网商业化的浪潮,拥有商业资源的应用在资本的加持下一路前行,早期仅仅出于研究目的的搜索引擎逐渐退出了江湖。

  然而,不可否认的是,90年代末、00年代初,以网络指南针为代表的三大高校的积极探索,为商业搜索引擎的飞速发展扫清了障碍——不仅积累了中文处理的优势,更在此过程中培养了一大批技术人才,他们成为日后中国搜索引擎领域的骨干。

  在清华,团队的学生们后来在互联网领域大放异彩:张俐,后来任职IBM研究院;解冲锋,现为中国电信北京研究院IPv6首席专家;李粤,博士毕业,现任华南理工大学副教授,继续研究搜索引擎;许静芳,现为微信搜索应用部副总经理,微信搜一搜业务负责人,在此之前,她是搜狗的高级副总裁。

  在北大,天网搜索引擎在整个发展中培养了诸多人们熟知的互联网人才。搜狗的王小川用“黄埔军校”来比喻,很可能是因为这里是新兴互联网技术公司的孵化器,也可能是因为从这里走出了许多成功的互联网创业者。从天网搜索第一个发展阶段的刘建国、雷鸣等人,到第二、三阶段的陈华、谢欣等人,许多互联网创业人从这里走出。谢欣现为字节跳动副总裁,陈华是酷讯网、唱吧的创始人,姚丛磊是百炼智能的联合创始人,张志刚、陈静是脉讯在线的联合创始人,欧高炎创办了博雅数智,陈日闪则在美国创办了AutoBizLine,等等。“从这个实验室出来的学生,创业密度特别大。”一家媒体说。

  华南理工大学的团队也在数十年的研究与教学中培养了许多专业搜索技术人才,这些学生毕业之后活跃于腾讯、百度、搜狗、字节跳动、网易、中国电信、中国移动等公司的搜索相关部门,业已成为技术带头人及骨干成员。

  在这个意义上,三大搜索引擎已成功实现了他们的初衷——研究最关键的应用,积累搜索引擎技术,并在此基础上培养了大批互联网骨干人才,他们走出实验室,成为了后来中国互联网发展的重要力量。

  背景资料:“计算机信息网络及其应用关键技术研究”项目

  1996年,由教育部主持,清华大学等14所高等院校和科研单位承担的国家“九五”重点科技项目(攻关)计划——“计算机信息网络及其应用关键技术研究”经国家计委批复立项。1998年,该项目通过国家鉴定验收,这也是我国第一个互联网领域的国家重大科研项目通过验收。项目涉及网络互连、管理和安全方面的六大核心技术攻关。

  项目基于CERNET示范工程,围绕网络管理与运行技术、网络及信息安全技术、网络互连和路由技术、网络设计和测试技术、网络信息发现技术、典型网络应用技术六大互联网领域的关键技术和装备进行攻关,在网络管理系统、路由引擎、防火墙、搜索引擎等方面填补了国内空白。