今年是CERNET建设30年?;赝?,作为中国首个互联网主干网,CERNET不仅见证了中国互联网从无到有、从小到大的发展奇迹,也为高校师生群体提供了创新的舞台,缔造了中国互联网历史上众多的第一。
中国第一个电子杂志的诞生
1995年1月12日,中国第一个电子杂志——《神州学人》电子版(英文名CHISA,取自China Scholars Abroad)诞生。
△1995年《神州学人》电子版的主页
承载与发布这本电子杂志的平台是1994年开始建设的我国首个覆盖全国的互联网——中国教育和科研计算机网CERNET?!耙豢?,我们就和CERNET结下了不解之缘。”曾任《神州学人》副总编辑的许珑说。
海外学子的呼声
创办于1987年5月的《神州学人》是一本专门面向我国海外留学人员的杂志。
“改革开放后,许多中国留学生奔赴世界各地,但当时的通讯之难,成本之高,现在难以想象。这本杂志像是一个情感的纽带,连接着身处全球的中国留学生们,大家对它有着非常特别的感情?!毙礴缁匾?。
80年代末,互联网在国外大学首先兴起,大学师生是最早接触互联网的群体?!澳懿荒馨压诘男畔⒓笆狈⒉荚谕希俊闭馐堑笔焙芏嗔粞堑目释?。中央有关部门得知这样的期待,于是在1994年10月21日,相关领导建议由国家教育委员会负责办理此事。国家教委非常重视这项工作,4天之后,就向中央递交了报告,指出已开始建立中国教育和科研计算机网CERNET,通过CERNET,即可让国外的留学生看到国内的媒体信息。于是,1995年1月,在中央的指导和国家教委的推动下,《神州学人》电子版在CERNET上诞生了。
△1995年,时任国家教委主任朱开轩、副主任韦钰等视察《神州学人》电子版
CERNET支撑CHISA的诞生
《神州学人》电子版CHISA诞生的前夜,1994年初,在当时国家计划委员会、教育委员会的领导下,清华大学吴建平、李星等一批年轻的专家开始牵头建设中国第一个互联网主干网——中国教育和科研计算机网CERNET。
一个偶然的机会,听说国家教委正在筹办《神州学人》电子版CHISA,李星立刻想到,能不能把这本电子刊放到CERNET上?在回国之前,他在国外留学8年,对《神州学人》很有感情。正是这样一种情结,使得李星极力争取,要把《神州学人》电子版放在刚刚建成的CERNET上发布。
这和国家教委的想法不谋而合,可能也正是许珑提到的“缘分”。当时CERNET的发起领导之一,也就是主管CERNET工作的国家教委副主任韦钰,也分管留学生工作,而韦钰本人的留学经历和其“报效祖国,责无旁贷”的留学理念,使得她对留学生和《神州学人》也有格外的关注和厚爱。天时地利人和,就这样,《神州学人》电子版和CERNET相伴而生。
《神州学人》电子版开辟了中国出版刊物上网的先河。对于这样的新鲜事物,大家感到非常新奇,也非常包容与支持?!拔颐侨グ炖怼渡裰菅恕返缱影娉霭媸中保挛懦霭媸鹌诳舅担馐且桓鋈碌氖挛铮侵耙裁挥腥魏尉?。让我们先办,也是给我国以后的电子刊摸索出一些经验。” 回忆起29年前去新闻出版署的场景,许珑说。
区别于《神州学人》杂志主要发表原创文章的模式,电子刊摘选汇集了当时许多媒体的精华文章?!渡裰菅恕返缱影娴某霭?,主要分为两个部分:神州学人编辑部负责内容建设,CERNET负责电子刊的发布、网页的创建、运营和维护。
△2004年,CERNET网络中心李星、朱爽回顾CHISA的创办
名副其实的技术维护咨询
《神州学人》电子版最初的服务器是一台当时流行的Sun Sparc 20工作站,位于清华大学主楼CERNET的机房。
电子版的发布由CERNET网络中心朱爽和李星老师共同完成。在当年那十分简单,却十分醒目的《神州学人》电子版的版权页上,写着一行字:“技术维护咨询:朱爽,李星,chisa-tech@chisa.edu.cn ”。
“我们名副其实,哈哈。”朱爽回忆说。“为了赶国外读者阅读的时差,选定在每周周五发刊?!?/p>
虽然设备已经是当时的最好,但互联网是那么新,全球当时的网络硬件环境、发布技术和软件环境都刚刚起步:短短两万多字的文字内容,有时要花上几个小时才能发布完成。为了电子版的发布和网上传播万无一失,李星和朱爽进行了大量的准备。为保证1月12日顺利发刊,他们要在1月6日发布“试刊”。在试刊的过程中,解决了许多技术上的小挑战。
最初,电子刊只是简单的文件格式,编辑部制作成磁盘,由专人送到CERNET网络中心,后来通过FTP上传到网络中心,再后来,就直接以拨号上网的方式上传到服务器了。
在收到编辑部发来的期刊后,他们将当期的内容生成各种编码版本,包括GB、BIG5、HZ、T3、ISO2022-CN和Postscript等,这些今天我们看来非常简单的技术,在当时却是相当专业、超前的。经过编码后的版本被发布到FTP、GOPHER和WWW上,同时以UUCODE编码邮件,发送到海外留学人员的订阅邮箱中。
“无论是在外出差还是寒暑假,我们都想方设法地保证在周五按时发布上线。”朱爽说。
1995年1月15日,李星和朱爽到泰国参加第一届亚太地区网络信息中心会议。会后,在取道香港回北京时,正好是个周五——电子版第二期的发刊日。他们抵达香港后,顾不上忙其他事情,第一时间就去了香港中文大学网络中心,为的就是准时发布《神州学人》电子版。
“电子刊创刊仅仅几个月,随机浏览人数就达到了数万人,订阅人数有8000多个。”许珑说。一时间,《神州学人》电子版成为了中国互联网上的一道亮点,连版权页的技术维护咨询邮箱都收获了许多读者热情洋溢的来信?!坝胁簧俣琳哐视⑽幕肪诚略亩林形牡奈侍?,我们当即做了一个如何在网上阅读中文的指南。后来,为了方便读者查找信息,我们还做了详细目录分类检索。记得李星老师还常常现写一些小的软件来帮助发布,比如检查编码错误等等。”朱爽回忆。
在那段时间里,为了让电子刊发布得更好更快,他们研究出了很多小技巧,比如电子邮件讨论组技术(MAILING-LIST)。后来,《神州学人》电子版还有了详细的目录分类。当时李星教授带的一位研究生还针对电子版内容的特殊性,设计了最初的中英文搜索引擎,方便读者查找电子版上的有关资料。这在当时互联网刚刚兴起的全球,都是非常实用、有趣的探索。
开创了一个先河
1995年的夏天,时任国家教委主任朱开轩、副主任韦钰来到了位于CERNET网络中心的机房,视察电子刊工作的进展情况。韦钰表示:“《神州学人》电子版是与《神州学人》杂志比翼齐飞的一份电子杂志。”
“电子杂志发布后,收到了来自全世界的声音,每一期内容刊发后,都有几百个留学生给我们发Email互动。大家把身在异国他乡的所思所感都通过互联网与我们分享,非常让人感动?!毙礴缢怠?/p>
在没有其他来自祖国的中文刊物上网的年代,这份来自祖国的声音弥足珍贵。当时的读者纷纷表示:“读到神州学人电子版,犹如饮到了沙漠中的甘泉,听到了来自北京的声音?!薄霸诠馔ü渡裰菅恕返缱影嬷苯拥慊鞴谝藕妥约焊行巳さ睦改?,倍觉亲切温暖,心能与祖国一起跳动。”
《神州学人》电子版的问世,开创了国内中文媒体进入国际互联网的先河,具有划时代的历史意义,它的创办,立即引起了国内媒体的关注,中央电视台新闻联播、新华社、人民日报等媒体都迅速发布了消息。
随着《神州学人》电子版影响力的增大,国务院新闻办公室将其纳入了国家对外新闻宣传平台。国内高校编写的新闻学教科书也将《神州学人》电子版的诞生作为开创性的历史事件,编入了我国新闻发展史。
1995年,美国国会图书馆电脑网络中心OCLC(Online Computer Library Center)将《神州学人》电子版正式编目,成为被此类大型图书馆编目的第一个中国大陆的中文新闻媒体。
“有一次我看王小丫主持的《开心辞典》,其中一个问题是‘我国最早的电子期刊是哪一家’?台下一位来自媒体的答题者很快就说:《神州学人》!我当时非常的激动和自豪。”回顾往事,已经退休多年的许珑说。
扩展阅读:1990年代的网络刊物发行技术
三十年前网络刊物发行技术与当今并不一样。为了适应全世界各个地区读者环境的多样性,《神州学人》网络版发行了不同的形式,使用不同的中文编码方法。
一、应用协议
1.邮件列表(Mailing List)
邮件列表的起源可以追溯到1975年,是互联网上最早的社区形式之一,也是Internet上的一种重要工具,用于各种群体之间的信息交流和信息发布。
早期的邮件列表是一个小组成员通过电子邮件讨论某一个特定话题,一般称为讨论组,由于早期联网的计算机数量很少,讨论组的参与者也很少。讨论组很快就发展演变出另一种形式,即有管理者管制的讨论组,也就是通常所说的邮件列表,或者叫狭义的邮件列表。
由于互联网早期使用ASCII编码,只有7比特,电子邮件、域名系统(DNS)等主流应用只支持7比特的透明传输,因此,对于中文等多字节文字(每个字节的全部8比特均需传输)必须转换成7比特字符。从而《神州学人》邮件列表采用了UUCODE编码。
2.文件传输协议(FTP)
文件传输协议(File Transfer Protocol)是在计算机网络的客户端和服务器间传输文件的应用层协议。传送文件(file transfer)和访问文件(file access)之间的区别在于:前者由FTP提供,后者由NFS等应用系统提供。文件传输协议由RFC959规范。
FTP是8位的客户端-服务器协议,能操作任何类型的文件而不需要后续处理,就像MIME或Unicode一样,但FTP有极高的延时,意味着从开始请求到第一次接收数据间的时间非常长,并且必须不时地执行一些冗长的登录进程。
Chrome和Firefox等主流浏览器都计划弃用对FTP的支持, 2019年推出的Chrome 82已停止对FTP支持,2020年疫情原因导致远程办公需求增加,Chrome短暂地恢复了FTP,但于2021年10月推出的Chrome95完全移除了FTP相关代码。而Firefox原计划在版本77中停止支持FTP,最终在2021年7月发行的90版正式停止支持FTP协议。微软的Edge浏览器也在2020年起停止支持FTP,Internet Explorer 11仍保留FTP客户端,直到2022年6月15日终止支持。
3.地鼠(Gopher)
Gopher是一个互联网上使用的分布型的文件搜集获取网络协议。它是1991年由明尼苏达大学发明的。“Gopher”(地鼠)这个名字有三层含义:第一是“挖掘信息”;第二,使用菜单形式搜集来的信息与地鼠洞相类似;第三,明尼苏达大学有一支运动队名叫“黄金地鼠队”。
Gopher最初的设计目标与万维网类似:共享文档。今天的万维网几乎已经替代了Gopher。但Gopher协议还提供了一些万维网先天缺乏的功能,比如在Gopher中所有信息都以层级形式存储,这被认为是存储大量信息的最好方式之一。
万维网在1991年被发明,由于耗用带宽较少,Gopher网络当时仍然是非常流行和制作精良的。1993年2月,明尼苏达大学宣布他们将对Gopher的使用收取执照费,这就部分减少了Gopher服务器数量。一些人相信这是Gopher变成互联网历史的原因。很多人相信Gopher的衰微实际上是它那有限制的结构造成的,这种结构使得它没有自由形态的HTML网页灵活。使用Gopher时,每个文档都已有一个预定义的格式和类型,一个Gopher用户必须通过一个服务器定义的系统菜单导航进某一个特定的文档。很多人不喜欢Gopher系统中这种人为制造的菜单和文件的区分,而Web网络上使用的超文本协议和交互式应用程序显得更为开放灵活。
4.万维网(WWW)
万维网(World Wide Web)是一个通过互联网访问的、由许多互相链接的超文本组成的信息系统。英国科学家蒂姆·伯纳斯-李于1989年发明了万维网,1990年,他在瑞士CERN工作期间编写了第一个网页浏览器。网页浏览器于1991年1月向其他研究机构发行,并于同年8月向大众开放。
万维网是信息时代发展的核心,也是数十亿人在互联网上进行交互和浏览的主要工具。网页主要是文本文件格式化和超文本置标语言(HTML)。除了格式化文字之外,网页还可能包含图片、影片、声音和软件组件,这些组件会在用户的网页浏览器中呈现为多媒体内容的页面。万维网并不等同于互联网,万维网只是互联网所能提供的服务之一,是靠着互联网运行的一项服务。
1993年4月30日,欧洲核子研究组织宣布万维网对任何人免费开放,且不收取任何费用。两个月之后,Gopher协议宣布不再免费使用,造成大量用户从Gopher转向万维网。早期流行的网页浏览器是用于Unix和X Windows系统的ViolaWWW。
学者普遍认为,万维网的一个转折点始于1993年推出的Mosaic网页浏览器,这是由伊利诺伊大学厄巴纳-香槟分校(NCSA-UIUC)的国家超级计算机应用中心团队所开发的图形接口浏览器,由马克·安德里森领导。Mosaic的资金来自美国高速运算及通信计划(High-Performance Computing and Communications Initiative)和高速运算及通信法案(High Performance Computing and Communication Act of 1991),这也是美国参议员阿尔·戈尔所发起的几项运算发展计划之一。在Mosaic发布之前,网页中的图片和文字混合并不常见,万维网的受欢迎程度远低于互联网上使用的旧协议,例如Gopher和WAIS。Mosaic的图形使用接口让万维网成为迄今为止最受欢迎的互联网协议。
1994年10月,万维网联盟(W3C)在麻省理工学院计算机科学实验室成立,建立者是万维网的发明者蒂姆·伯纳斯-李。到了1994年底,全球网站数量仍然相对稀少,但是很多著名网站已经相当活跃,这些网站已经预示或者启发了当今最流行的服务。
二、中文编码
1.UUCODE (uuencoding)
uuencode这个名字衍生自"Unix-to-Unix encoding",原先是Unix系统下将二进制的资料借由uucp邮件系统传输的一个编码程式,是一种二进制到文字的编码。uudecode是与uuencode搭配的解码程式,uuencode/decode常见于电子邮件中的档案传送以及usenet新闻组和BBS的贴文等等。近来已被MIME大量取代。
2.GB
GB/T 2312,GB/T 2312—80 或 GB/T 2312—1980 是中华人民共和国国家标准简体中文字符集,全称《信息交换用汉字编码字符集·基本集》,通常简称GB(“国标”汉语拼音首字母),又称GB0,由中国国家标准总局于1980年发布,1981年5月1日实施。
在GB 2312内,每个汉字及符号的码位使用两个字节来表示。第一个字节称为“高位字节”,对应分区的编号(把区位码的“区码”加上特定值);第二个字节称为“低位字节”,对应区段内的个别码位(把区位码的“位码”加上特定值)。
3.BIG5
大五码(英语:Big5,又称五大项目码、五大码)是繁体中文社群最常用的电脑汉字字符集标准,共收录13060个汉字。
大五码是双字节字符集,以十六进制表示,使用双八码存储方法,以两字节安放一字。第一字节称为“高位字节”,第二字节称为“低位字节”。
4.Postscript
PostScript(PS)是一种页面描述语言和编程语言 ,由Adobe Systems公司于1984年推向市场。大概在这个时候,史蒂夫·乔布斯参观了Adobe公司的工作,并敦促他们改进PostScript作为驱动激光打印机的语言,将其添加到Canon打印机,诞生了LaserWriter。1985年3月,Apple LaserWriter是第一款带有PostScript的打印机,这也带来了1980年代中期的桌面印刷革命。它的技术优点和广泛应用使得PostScript成为打印应用领域影像输出的一个选择。直到1990年代,PostScript语言解释器,有时称作Raster image processor,曾经一度成为激光打印机的一个普通组成部分。随着使用电子方式发布文档最终版本成为事实上的标准,PostScript就在这个领域不断地被它的后续版本Portable Document Format(PDF)所超越。
5.HZ
HZ编码是1988年发明的编码系统。其目的是在7字节的限制下(如电子邮件)储存GB/T 2312的双字节字符。
其在ISO 2022编码字符的前后分别加上转义字符~{(7E 7B)和~}(7E 7D)后,使用正常的ASCII转码变成 ASCII 字符。部分机器也可以接受使用EUC-CN编码的转义字符。
HZ出现于RFC 1843《HZ - A Data Format for Exchanging Files of Arbitrarily Mixed Chinese and ASCII characters》,作者来自斯坦福大学。
6.T3
T3其目的是在7字节的限制下(如电子邮件)储存BIG5的双字节字符。
7.ISO2022-CN
为避开ASCII字符中的不可显示字符(十六进制为0×00至0×1F,十进制为0至31)及空格字符(十六进制为0×20,十进制为32),国标码(又称为交换码)参考ISO 2022规定表示非ASCII字符双字节编码范围为十六进制为 <21 21>-<7E 7E>,十进制为 (33, 33) 至 (126, 126)。因此,在进行码位转换时,须将“区码”和“位码”分别加上32(十六进制为0×20)作为国标码。
在这个编码模式内,软件需要使用低端控制字符(C0),高端控制字符(C1)和US-ASCII字符集(GL)标注字符属于单字节(ASCII)还是双字节,相对容易造成乱码(如丢失控制/转义字符)。
ISO2022-CN在RFC 1922《互联网消息的汉字编码》(Chinese Character Encoding for Internet Messages)中被定义。RFC1922是中国大陆的第一个RFC,其主要作者来自清华大学。
8.UNICODE
Unicode,全称为Unicode标准(The Unicode Standard),其官方机构Unicode联盟所用的中文名称为统一码,又译作万国码、统一字符码、统一字符编码,是信息技术领域的业界标准,其整理、编码了世界上大部分的文字系统,使得电脑能以通用的字符集来处理和显示文字,不但减轻在不同编码系统间切换和转换的困扰,更提供了一种跨平台的乱码问题解决方案。Unicode由非营利机构Unicode联盟(Unicode Consortium)负责维护,该机构致力于让Unicode标准取代既有的字符编码方案,因为既有方案编码空间有限,亦不适用于多语环境。
Unicode伴随着通用字符集ISO/IEC 10646的标准而发展,同时也以书本的形式对外发表。Unicode至今仍在不断增修,每个新版本都加入了更多新的字符。目前最新的版本为2022年9月公布的15.0.0,已经收录超过14万个字符(第十万个字符在2005年获得采纳)。Unicode标准不仅仅是为文字指定代码。除了涵盖视觉上的字形、编码方法、标准的字符编码资料外,联盟官方出版品还包含了关于各书写系统的细节及呈现方式,如规范化的准则、拆分、测序、绘制、双向文本显示、书写方向、字符特性(如大小写字母)等等。此外还提供参考资料和视觉图像,以帮助开发者和设计师正确应用标准。
Unicode备受认可,被ISO纳入国际标准,成为通用字符集,即 ISO/IEC 10646。Unicode兼容ISO/IEC 10646,能完整对应各个版本标准。Unicode广泛应用于电脑软件的国际化与本地化过程。很多新科技,如可扩展置标语言(Extensible Markup Language,简称:XML)、Java编程语言以及现代操作系统,都采用Unicode来编码。Unicode最普遍的编码格式是和ASCII兼容的UTF-8,以及和UCS-2兼容的UTF-16。
?。ㄒ陨献柿侠醋酝纾?/span>
来源:中国教育和科研计算机网CERNET