在谷歌(微博)慶祝其15周年誕辰之際,這家網(wǎng)絡(luò)巨頭已經(jīng)成為信息檢索的代名詞。
但是,如果你在谷歌搜索引擎中輸入喬納森·弗萊徹(Jonathon Fletcher)的名字,那么在馬上得出的搜索結(jié)果中不會(huì)找到什么線索指向他曾在萬維網(wǎng)發(fā)展的過程中所扮演的角色。當(dāng)然,也不會(huì)有任何信息能表明他作為現(xiàn)代搜索引擎之父的身份。
但在20年以前,正是弗萊徹在蘇格蘭斯特靈大學(xué)(University of Stirling)的一個(gè)電腦實(shí)驗(yàn)室中發(fā)明了全世界第一個(gè)能進(jìn)行網(wǎng)絡(luò)搜索的搜索引擎,也正是他發(fā)明的這種技術(shù)為谷歌、必應(yīng)(Bing)、雅虎和今天網(wǎng)絡(luò)上的所有大型搜索工具提供了支持。
解決網(wǎng)絡(luò)搜索問題
在1993年時(shí),網(wǎng)絡(luò)正處于剛剛開始發(fā)展的嬰兒期。在那時(shí),第一個(gè)擁有類似于今天我們使用的界面的流行瀏覽器Mosaic剛剛發(fā)布,網(wǎng)頁的總數(shù)量還只是以千為單位來進(jìn)行計(jì)算而已。
盡管當(dāng)時(shí)網(wǎng)絡(luò)已經(jīng)誕生,但如何在網(wǎng)絡(luò)上找到內(nèi)容的問題尚未得到解決。Mosaic擁有一個(gè)名為“What's New”的頁面,能在新網(wǎng)站被創(chuàng)立時(shí)檢索到這些網(wǎng)站。但問題在于,如果想要Mosaic的開發(fā)者能夠知道一個(gè)新網(wǎng)站的誕生,那么其創(chuàng)立者就必須寫信給美國伊利諾伊大學(xué)香檳分校(University of Illinois Urbana-Champaign)的國家超級(jí)計(jì)算應(yīng)用中心(NCSA),也就是Mosaic瀏覽器團(tuán)隊(duì)的基地。
在那時(shí),弗萊徹是斯特靈大學(xué)一名頗有前途的研究生,而且已經(jīng)被推薦到格拉斯哥大學(xué)(University of Glasgow)攻讀博士學(xué)位。但是,格拉斯哥大學(xué)的資金鏈在弗萊徹還沒能到這所大學(xué)以前就已斷裂,這讓他變得無所事事。
“在突然之間,我變得非常渴望找到一種收入來源。”弗萊徹回憶道。“因此我回到了原來的大學(xué),找到了一個(gè)為技術(shù)部門工作的崗位。”
正是在這個(gè)工作崗位上,弗萊徹第一次與萬維網(wǎng)和Mosaic的“What's New”頁面邂逅。
更好的方法
在為斯特靈大學(xué)建設(shè)一個(gè)網(wǎng)絡(luò)服務(wù)器的過程中,弗萊徹意識(shí)到,“What's New”頁面存在根本上的缺陷。由于網(wǎng)站是以人工方式被添加到這個(gè)網(wǎng)頁的列表中的緣故,沒有什么東西能被用來追蹤網(wǎng)站內(nèi)容的變化。其結(jié)果是,許多鏈接很快就會(huì)變得過期或是被錯(cuò)誤標(biāo)記。
“如果你想要看看有什么東西發(fā)生了變化,那么就不得不回過頭去查看。”弗萊徹在談及Mosaic的鏈接時(shí)說道。“抱著必須推出一種更好的方法的念頭,擁有計(jì)算機(jī)科學(xué)學(xué)位的我決定要編寫一些東西來改變這種情況。”
弗萊徹所說的“一些東西”就是全世界的第一個(gè)“網(wǎng)絡(luò)爬蟲”(web crawler)。弗萊徹把自己的這種發(fā)明稱作“JumpStation”,他建立起了一個(gè)頁面索引,能通過“網(wǎng)絡(luò)爬蟲”來對(duì)頁面進(jìn)行搜索,這基本上來說是一種自動(dòng)化的處理程序,能對(duì)被其發(fā)現(xiàn)的每個(gè)網(wǎng)站頁面進(jìn)行訪問和索引。這種自動(dòng)化處理的程序會(huì)一直繼續(xù)下去,直到“網(wǎng)絡(luò)爬蟲”再也找不到東西可以訪問時(shí)為止。
在十年以后,也就是1993年12月21日,JumpStation就再也找不到可以訪問的東西,結(jié)果是將2.5萬個(gè)頁面編入索引。而在今天,谷歌已經(jīng)編入索引的頁面數(shù)量已經(jīng)超過了1萬億個(gè)。
轉(zhuǎn)播到騰訊微博 
JumpStatio誕生幾個(gè)月以前的“What's New”頁面(騰訊科技配圖)
搜索的誕生
弗萊徹很快就為這個(gè)索引開發(fā)出了一種易于導(dǎo)航的搜索工具,將自己的網(wǎng)站嵌入了Mosaic的“What's New”頁面,這標(biāo)志著全世界第一個(gè)現(xiàn)代搜索引擎開始運(yùn)作。
“我會(huì)說,他是網(wǎng)絡(luò)搜索引擎之父。”墨爾本皇家理工大學(xué)(Royal Melbourne Instituteof Technology)的馬克·桑德森(Mark Sanderson)教授說道,他專門負(fù)責(zé)研究信息檢索的歷史。“(在弗萊徹發(fā)明第一個(gè)網(wǎng)絡(luò)搜索引擎之前的)很長一段時(shí)間里,很明顯一直都有計(jì)算機(jī)在從事搜索工作;在網(wǎng)絡(luò)誕生以前,當(dāng)然也已經(jīng)有搜索引擎存在。然而,是弗萊徹第一個(gè)創(chuàng)造了一種擁有現(xiàn)代搜索引擎所有組成部分的搜索引擎。”
但在今天,谷歌的兩名聯(lián)合創(chuàng)始人塞吉·布林(Sergey Brin)和拉里·佩奇(Larry Page)都已經(jīng)成為家喻戶曉的名人,而目前居住在中國香港的弗萊徹卻幾乎沒有因?yàn)樗麨榛ヂ?lián)網(wǎng)進(jìn)化作出的貢獻(xiàn)而為人所知。
之所以會(huì)出現(xiàn)這種情況,或許與他的項(xiàng)目最終被放棄有關(guān)。隨著JumpStation的成長,這個(gè)項(xiàng)目需要的投資越來越大,而這種投資卻是斯特靈大學(xué)所不愿提供的。“當(dāng)時(shí)JumpStation是在一個(gè)共享服務(wù)器上運(yùn)行的。”弗萊徹解釋道。“那時(shí)沒有很大的磁盤空間,而且當(dāng)時(shí)的磁盤很小,價(jià)格也很昂貴。”
空間控制
到1994年6月份,JumpStation已經(jīng)對(duì)27.5萬個(gè)頁面進(jìn)行了索引。空間方面的限制迫使弗萊徹僅對(duì)網(wǎng)頁的標(biāo)題進(jìn)行索引,而不是對(duì)網(wǎng)頁的全部內(nèi)容進(jìn)行索引;但即使是在作出了這種妥協(xié)以后,JumpStation也仍舊開始面臨著過載的困境。
弗萊徹也同樣已不堪重負(fù)。“那并非我的本職工作。”他說道。“那時(shí)我的工作職責(zé)是維持學(xué)生實(shí)驗(yàn)室的正常運(yùn)作,并從事一些系統(tǒng)管理和技術(shù)方面的雜活兒。”
在當(dāng)時(shí),弗萊徹得到了一個(gè)到東京工作的機(jī)會(huì)。對(duì)他來說,這個(gè)工作機(jī)會(huì)的吸引力大到令人難以抗拒,而斯特靈大學(xué)也幾乎沒有嘗試做些什么來挽留他或是挽留JumpStation。
“很明顯,在嘗試說服他們相信這個(gè)項(xiàng)目很有潛力的問題上,我做得很不成功。”弗萊徹說道。“在當(dāng)時(shí),我做了自己認(rèn)為是正確的事情(到日本去工作)。但在過去20年時(shí)間里,總有那么些時(shí)候我會(huì)回首這段往事。”
斯特靈大學(xué)計(jì)算機(jī)科學(xué)及數(shù)學(xué)系主任萊斯利·史密斯(Leslie Smith)教授還記得弗萊徹,他承認(rèn)JumpStation最終“被證明是領(lǐng)先于時(shí)代的”,并在接受BBC采訪時(shí)表示:“斯特靈大學(xué)的同仁們都為他能因自己取得的成就而為人所知感到高興。”
未來展望
盡管弗萊徹對(duì)不得不放棄JumpStation項(xiàng)目而感到失望,但他的這種先驅(qū)技術(shù)在后來卻成為了所有網(wǎng)絡(luò)搜索引擎的基礎(chǔ)。
“在1993年時(shí),網(wǎng)絡(luò)社區(qū)的規(guī)模非常小。”桑德森教授說道。“在當(dāng)時(shí),在網(wǎng)上做任何事情的人都會(huì)知道JumpStation。”他還補(bǔ)充道:“到1994年年中前后,網(wǎng)絡(luò)搜索引擎將變得非常重要這件事情已經(jīng)開始變得明顯。谷歌直到1998年才出現(xiàn),而弗萊徹在1993年就已經(jīng)做了這件事情。”
在幾個(gè)星期以前于愛爾蘭首都都柏林召開的SIGIR(國際計(jì)算機(jī)協(xié)會(huì)主辦的國際信息檢索大會(huì))上,弗萊徹由于他在網(wǎng)絡(luò)搜索引擎方面作出的成就而獲得了一些知名度。在當(dāng)時(shí),他曾跟來自于微軟、雅虎和谷歌的與會(huì)代表進(jìn)行過小組討論。但在弗萊徹的言談中,他所談?wù)摰牟⒎亲约阂酝某删停菍?duì)未來作出了展望。
“在我看來,網(wǎng)絡(luò)不會(huì)永遠(yuǎn)存在。”弗萊徹說道。“但是,找到信息的問題則將永遠(yuǎn)存在,因?yàn)閷?duì)內(nèi)容進(jìn)行搜索并找到信息的愿望是獨(dú)立于媒介以外的。”
對(duì)于追隨弗萊徹其后建立起網(wǎng)絡(luò)搜索引擎的人們來說,當(dāng)前的這種媒介已經(jīng)讓他們賺到了大筆的鈔票。但是,弗萊徹這位出生于英格蘭自治市斯卡伯勒(Scarborough)的先驅(qū)者并不對(duì)此感到遺憾。“我的父母以我為驕傲,我的妻子和孩子也是如此。對(duì)我來說,這才是無價(jià)之寶,所以我感到非常幸福。”
|