搜索引擎發展史1990年以前,沒有任何人能搜索互聯網。
所有搜索引擎的祖先,是1990年由Montreal的McGill University學生Alan Emtage、Peter Deutsch、Bill Wheelan發明的Archie(Archie FAQ)。雖然當時World Wide Web還未出現,但網絡中文件傳輸還是相當頻繁的,由於大量的文件散布在各個分散的FTP主機中,查詢起來非常不便,因此Alan Emtage等想到了開發壹個可以用文件名查找文件的系統,於是便有了Archie。Archie是第壹個自動索引互聯網上匿名FTP網站文件的程序,但它還不是真正的搜索引擎。Archie是壹個可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然後Archie會告訴用戶哪壹個FTP地址可以***該文件。
由於Archie深受歡迎,受其啟發,Nevada System Computing Services大學於1993年開發了壹個Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是後來另壹個Gopher搜索工具。
Robot(機器人)壹詞對編程者有特殊的意義。Computer Robot是指某個能以人類無法達到的速度不斷重復執行某項任務的自動程序。由於專門用於檢索信息的Robot程序象蜘蛛(spider)壹樣在網絡間爬來爬去,因此,搜索引擎的Robot程序被稱為spider(Spider FAQ)程序。世界上第壹個Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用於追蹤互聯網發展規模。剛開始它只用來統計互聯網上的服務器數量,後來則發展為也能夠捕獲網址(URL)。
與Wanderer相對應,1993年10月Martijn Koster創建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相當於Archie的HTTP版本。ALIWEB不使用網絡搜尋Robot,如果網站主管們希望自己的網頁被ALIWEB收錄,需要自己提交每壹個網頁的簡介索引信息,類似於後來大家熟知的Yahoo。
隨著互聯網的迅速發展,使得檢索所有新出現的網頁變得越來越困難,因此,在Wanderer基礎上,壹些編程者將傳統的Spider程序工作原理作了些改進。其設想是,既然所有網頁都可能有連向其他網站的鏈接,那麽從壹個網站開始,跟蹤所有網頁上的所有鏈接,就有可能檢索整個互聯網。到1993年底,壹些基於此原理的搜索引擎開始紛紛湧現,其中最負盛名的三個是:Scotland的JumpStation、Colorado 大學Oliver McBryan的The World Wide Web Worm(First Mention of McBryan's World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) spider。JumpStation和WWW Worm只是以搜索工具在數據庫中找到匹配信息的先後次序排列搜索結果,因此毫無信息關聯度可言。而RBSE是第壹個索引Html文件正文的搜索引擎,也是第壹個在搜索結果排列中引入關鍵字串匹配程度概念的引擎。
Excite 的歷史可以上溯到1993年2月,6個Stanford(斯坦福)大學生的想法是分析字詞關系,以對互聯網上的大量信息作更有效的檢索。到1993年中,這已是壹個完全投資項目Architext,他們還發布了壹個供webmasters在自己網站上使用的搜索軟件版本,後來被叫做Excite for Web Servers。(註:Excite後來曾以概念搜索聞名,2002年5月,被Infospace收購的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile)
1994年1月,第壹個既可搜索又可瀏覽的分類目錄EINet Galaxy(Tradewave Galaxy)上線。除了網站搜索,它還支持Gopher和Telnet搜索。
1994年4月,Stanford University的兩名博士生,美籍華人Jerry Yang(楊致遠)和David Filo***同創辦了Yahoo(Jerry Yang Alerts a Usenet group to the Yahoo Database ,1996年的Yahoo)。隨著訪問量和收錄鏈接數的增長,Yahoo目錄開始支持簡單的數據庫搜索。因為Yahoo!的數據是手工輸入的,所以不能真正被歸為搜索引擎,事實上只是壹個可搜索的目錄。Wanderer只抓取URL,但URL信息含量太小,很多信息難以單靠URL說清楚,搜索效率很低。Yahoo!中收錄的網站,因為都附有簡介信息,所以搜索效率明顯提高。(註:Yahoo以後陸續使用Altavista、Inktomi、Google提供搜索引擎服務)
1994年初,Washington大學CS學生Brian Pinkerton開始了他的小項目WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,WebCrawler正式亮相時僅包含來自6000個服務器的內容。WebCrawler是互聯網上第壹個支持搜索文件全部文字的全文搜索引擎,在它之前,用戶只能通過URL和摘要搜索,摘要壹般來自人工評論或程序自動取正文的前100個字。(後來webcrawler陸續被AOL和Excite收購,現在和excite壹樣改用元搜索引擎Dogpile)
Lycos(Carnegie Mellon University Center for Machine Translation Announces Lycos )是搜索引擎史上又壹個重要的進步。Carnegie Mellon University的Michael Mauldin將John Leavitt的spider程序接入到其索引程序中,創建了Lycos。1994年7月20日,數據量為54,000的Lycos正式發布。除了相關性排序外,Lycos還提供了前綴匹配和字符相近限制,Lycos第壹個在搜索結果中使用了網頁自動摘要,而最大的優勢還是它遠勝過其它搜索引擎的數據量:1994年8月--394,000 documents;1995年1月--1.5 million documents;1996年11月--over 60 million documents。(註:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服務)
Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search Engine)是另壹個重要的搜索引擎,雖然公司聲稱1994年1月已創立,但直到年底它的搜索引擎才與公眾見面。起初,Infoseek只是壹個不起眼的搜索引擎,它沿襲Yahoo!和Lycos的概念,並沒有什麽獨特的革新。但是它的發展史和後來受到的眾口稱贊證明,起初第壹個登臺並不總是很重要。Infoseek友善的用戶界面、大量附加服務(such as UPS tracking, News, a directory, and the like) 使它聲望日隆。而1995年12月與Netscape的戰略性協議,使它成為壹個強勢搜索引擎:當用戶點擊Netscape瀏覽器上的搜索按鈕時,彈出Infoseek的搜索服務,而此前由Yahoo!提供該服務。(註:Infoseek後來曾以相關性聞名,2001年2月,Infoseek停止了自己的搜索引擎,開始改用Overture的搜索結果)
1995年,壹種新的搜索引擎形式出現了?元搜索引擎(A Meta Search Engine Roundup)。用戶只需提交壹次搜索請求,由元搜索引擎負責轉換處理後提交給多個預先選定的獨立搜索引擎,並將從各獨立搜索引擎返回的所有查詢結果,集中起來處理後再返回給用戶。第壹個元搜索引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好聽,但搜索效果始終不理想,所以沒有哪個元搜索引擎有過強勢地位。
DEC的AltaVista(2001年夏季起部分網友需通過p-roxy訪問,無p-roxy可用qbseach單選altavista搜索,只能顯示第壹頁搜索結果)是壹個遲到者,1995年12月才登場亮相(AltaVista Public Beta Press Release )。但是,大量的創新功能使它迅速到達當時搜索引擎的頂峰。Altavista最突出的優勢是它的速度(搜索引擎9238:比較搞笑,設計altavista的目的,據說只是為了展示DEC Alpha芯片的強大運算能力)。
而Altavista的另壹些新功能,則永遠改變了搜索引擎的定義。
AltaVista是第壹個支持自然語言搜索的搜索引擎,AltaVista是第壹個實現高級搜索語法的搜索引擎(如AND, OR, NOT等)。用戶可以用AltaVista搜索Newsgroups(新聞組)的內容並從互聯網上獲得文章,還可以搜索圖片名稱中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也聲稱是第壹個支持用戶自己向網頁索引庫提交或刪除URL的搜索引擎,並能在24小時內上線。AltaVista最有趣的新功能之壹,是搜索有鏈接指向某個URL的所有網站。在面向用戶的界面上,AltaVista也作了大量革新。它在搜索框區域下放了“tips”以幫助用戶更好的表達搜索式,這些小tip經常更新,這樣,在搜索過幾次以後,用戶會看到很多他們可能從來不知道的的有趣功能。這系列功能,逐漸被其它搜索引擎廣泛采用。1997年,AltaVista發布了壹個圖形演示系統LiveTopics,幫助用戶從成千上萬的搜索結果中找到想要的。
然後到來的是HotBot。1995年9月26日,加州伯克利分校CS助教Eric Brewer、博士生Paul Gauthier創立了Inktomi(UC Berkeley Announces Inktomi),1996年5月20日,Inktomi公司成立,強大的HotBot出現在世人面前。聲稱每天能抓取索引1千萬頁以上,所以有遠超過其它搜索引擎的新內容。HotBot也大量運用cookie儲存用戶的個人搜索喜好設置。(Hotbot曾是隨後幾年最受歡迎的搜索引擎之壹,後被Lycos收購)
Northernlight 公司於1995年9月成立於馬薩諸塞州劍橋,1997年8月,Northernlight搜索引擎正式現身。它曾是擁有最大數據庫的搜索引擎之壹,它沒有Stop Words,它有出色的Current News、7,100多出版物組成的Special Collection、良好的高級搜索語法,第壹個支持對搜索結果進行簡單的自動分類。(2002年1月16日,Northernlight公***搜索引擎關閉,隨後被divine收購,但在Nlresearch,選中"World Wide Web only",仍可使用Northernlight搜索引擎)
1998年10月之前,Google只是Stanford大學的壹個小項目BackRub。1995年博士生Larry Page開始學習搜索引擎設計,於1997年9月15日註冊了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的***同參與下,BachRub開始提供Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認作自己的生日。
Google在Pagerank、動態摘要、網頁快照、DailyRefresh、多文檔格式支持、地圖股票詞典尋人等集成搜索、多語言支持、用戶界面等功能上的革新,象Altavista壹樣,再壹次永遠改變了搜索引擎的定義。
在2000年中以前,Google雖然以搜索準確性備受贊譽,但因為數據庫不如其它搜索引擎大,缺乏高級搜索語法,所以使用價值不是很高,推廣並不快。直到2000年中數據庫升級後,又借被Yahoo選作搜索引擎的東風,才壹飛沖天。
Fast(Alltheweb)公司創立於1997年,是挪威科技大學(NTNU)學術研究的副產品。1999年5月,發布了自己的搜索引擎AllTheWeb。Fast創立的目標是做世界上最大和最快的搜索引擎,幾年來庶幾近之。Fast(Alltheweb)的網頁搜索可利用ODP自動分類,支持Flash和pdf搜索,支持多語言搜索,還提供新聞搜索、圖像搜索、視頻、MP3、和FTP搜索,擁有極其強大的高級搜索功能。
Teoma 起源於1998年Rutgers大學的壹個項目。Apostolos Gerasoulis教授帶領華裔Tao Yang教授等人創立Teoma於新澤西Piscataway,2001年春初次登場,2001年9月被提問式搜索引擎Ask Jeeves收購,2002年4月再次發布。Teoma的數據庫目前仍偏小,但有兩個出彩的功能:支持類似自動分類的Refine;同時提供專業鏈接目錄的Resources。
Wisenut 由韓裔Yeogirl Yun創立。2001年春季發布Beta版,2001年9月5日發布正式版,2002年4月被分類目錄提供商looksmart收購。wisenut也有兩個出彩的功能:包含類似自動分類和相關檢索詞的WiseGuide;預覽搜索結果的Sneak-a-Peek。
Gigablast 由前Infoseek工程師Matt Wells創立,2002年3月展示pre-beta版,2002年7月21日發布Beta版。Gigablast的數據庫目前仍偏小,但也提供網頁快照,壹個特色功能是即時索引網頁,妳的網頁剛提交它就能搜索(註:這個spammers的肉包子功能暫已關閉)。
Openfind 創立於1998年1月,其技術源自臺灣中正大學吳升教授所領導的GAIS實驗室。Openfind起先只做中文搜索引擎,曾經是最好的中文搜索引擎,鼎盛時期同時為三大著名門戶新浪、奇摩、雅虎提供中文搜索引擎,但2000年後市場逐漸被Baidu和Google瓜分。2002年6月,Openfind重新發布基於GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累計抓取網頁35億,開始進入英文搜索領域,此後技術升級明顯加快。
北大天網 是國家"九五"重點科技攻關項目"中文編碼和分布式中英文信息發現"的研究成果,由北大計算機系網絡與分布式系統研究室開發,於1997年10月29日正式在CERNET上提供服務。2000年初成立天網搜索引擎新課題組,由國家973重點基礎研究發展規劃項目基金資助開發,收錄網頁約6000萬,利用教育網優勢,有強大的ftp搜索功能。
Baidu 2000年1月,超鏈分析專利發明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士)在北京中關村創立了百度(Baidu)公司。2001年8月發布Baidu.com搜索引擎Beta版(此前Baidu只為其它門戶網站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式發布Baidu搜索引擎。Baidu雖然只提供中文搜索,但目前收錄中文網頁超過9000萬,可能是最大的的中文數據庫。Baidu搜索引擎的其它特色包括:網頁快照、網頁預覽/預覽全部網頁、相關搜索詞、錯別字糾正提示、新聞搜索、Flash搜索、信息快遞搜索。2002年3月閃電計劃(Blitzen Project)開始後,技術升級明顯加快。
百度:中國版Google 神話能走多遠
中國搜索引擎公司百度8月5日在美國納斯達克上市,發行價為27美元。當日盤中壹度突破150美元,最後以122.54美元收盤,漲幅高達353.85%。百度的出色表現使之成為在美國上市的外國公司中,上市首日表現最好的壹只股票。
多種利好助漲股價百度上市首日如此強勁的表現,主要有兩方面的原因:
首先,是google 的示範效應。投資者經常將百度和Google 相提並論,認為該公司是中國版的Google 。有分析師認為,百度之所以受到如此追捧,是因為它結合了“中國”和“搜索”這兩大熱點。
全球最大的搜索服務提供商Google 上市發行價也不足壹百美元,但上市壹年以來股價已經超過三百美元,顯示搜索市場有巨大潛力。而中國互聯網的迅速普及,網民數量急劇膨脹,中國市場的廣闊性已被國外投資者普遍看好。
其次,中國概念股的魅力。中國已經是世界上最大的電腦市場並擁有世界上第二大的上網人數,中國網民數已經突破1億。百度在這壹市場占有很大的份額。加上人民幣升值,國外投資者普遍看好中國,看好搜索市場,因此百度才會受到了投資者的偏愛。
創業之路回顧百度的發展史,公司和盛大類似,也是把握了互聯網產業快速發展的時機,並找到了適合自身的快速發展途徑。
百度於1999年底成立於美國矽谷,它的創始人,百度公司總裁李彥宏是資深信息檢索技術專家、超鏈分析專利的唯壹持有人。
百度創立初,公司選擇了與其他專業搜索引擎略有區別的商業模式:即和門戶網站合作,百度按照搜索訪問量分成,這種付費模式在當時頗受門戶網站的歡迎,包括新浪、網易在內的各大門戶網站都采用了百度提供的服務。
但這種模式很快顯示了局限性。門戶網站數量的有限性決定了其需求的有限性。2001年初,李彥宏借用了Overtu r e 的“付費排名”搜索引擎商業模式,客戶通過購買關鍵字並進行競價,決定其在搜索結果中排名的先後,並通過上下文內容分析技術,將廣告同時投放於其他頂尖級搜索引擎,與這些合作夥伴***同分享利益。2002至2003年,競價排名迅速成為百度主要收入來源,2004年百度80%收入來自競價排名。
目前百度是瀏覽量中國第二、世界第六的網站。數據顯示,中國網絡用戶有48%的搜索請求是通過百度完成的,因此百度有全球最大中文搜索引擎之稱。艾瑞咨詢數據顯示:2004年中國搜索引擎行業市場規模為12.5億元,其中搜索引擎運營商收入規模為6.35億,渠道代理商收入為6.2億元,而百度占據了中國搜索引擎運營商收入市場份額的28%。獨特的商業模式的成功,使百度迅速成為中文搜索引擎的老大。
由於中文的復雜性,百度的搜索技術非常復雜,公司開發了特殊的語言處理技術來處理相似搜索結果。截至到目前,百度已經鏈接了6.9億頁網頁,8000萬張圖片以及1000萬個媒體文件。它還包括新聞、貼吧和其他內容。
市盈率之憂對百度來說,首日上市的優異表現是良好的開端。但“良好的開端是成功的壹半”,海外資本市場並非坦途。從新浪、網易等先行者身上可以發現,其股價表現並不乏大起大落之先例,以網易為例,2001年壹度到達0.51美元最低價。資本的殘酷逐利性決定了壹家企業壹旦未能達到華爾街的預期,股價出現暴跌極為正常。
百度上市首日的優異表現,股價的迅速拔高,已經迅速使市盈率水平脫離了市場平均水平。這成為今後股價表現之隱憂,壹旦公司成長性跟不上市場預期,即有可能導致股價水平的迅速回落。
百度2004年的利潤為1200萬元,收入為1.11億元,2003年則虧損890萬元。05年第壹季度的盈利猛增了140%,達到250萬元。根據百度在招股說明書中公布的財務數據,百度股票發行價的市盈率達到540倍,周五收盤價的市盈率達到2450.8倍,頗為驚人。作為對比數據,Google 市盈率8月6日為85.66倍。在納斯達克上市的其他兄弟網絡概念股的市盈率也基本在30-50倍之間。即使百度仍然保持原200%以上的業績增幅,其目前股價仍然有高估之嫌。
此外,百度在搜索領域並非無敵手,Google 對中國市場窺視已久,對百度的虎視眈眈也是路人皆知,Google 目前持有百度2.6%的股份,其進入中國市場選擇並購還是單獨發展,後續事態發展將影響到百度的市場表現。雖然中文搜索的復雜性以及本土文化的適應性,使國外資本想占領中國市場並非易事,但其資本實力雄厚,加上品牌優勢,仍不可小視。
而對於百度的重要利潤來源“競價排名”也已經有質疑之聲出現,這種以出價高低決定搜索排名的商業模式有損於搜索引擎保持公正客觀。信息幹擾的出現,將使網民對搜索的依賴程度降低。而百度目前的MP3、圖片、***搜索等服務也面臨版權的法律糾紛,雖然不足以影響百度大局,但對於百度其他商業模式的推廣仍然帶來壹定障礙。