百度解密:李彥宏背後的蜘蛛俠

來源:瑞文範文網 1.86W
李彥宏的細膩與心機表現在一本書上。

百度解密:李彥宏背後的蜘蛛俠

上市後的百度已有近700名員工,據說他們均可以免費得到老闆李彥宏在創立百度之前寫的一本200多頁的小冊子———《硅谷商戰》。當然,百度員工中真正讀完這本書的可能微乎其微。

這本被包裝成章回體小說的文本,說它是小說肯定有些牽強,因爲它沒有故事也沒有結構。但它確實可以作爲時下急欲成爲互聯網從業人員的一本上崗前閱讀的通俗手冊。

其實,這是李彥宏在美國讀書期間寫的一本“技術”筆記,其紀錄時間是1994年至1998年。當時的李彥宏輾轉美國幾大IT公司,埋頭打工與擡頭想事是在美國學計算機專業的中國留學生通常會走的謀生道路。在他們身邊,平均每5天就有一家硅谷公司股票上市,每24小時就造就62個百萬美元的富翁。

李彥宏這一批在1990年代初、中期降落到美國的中國學生,爲數不少的在幾年後回國創業———拷貝硅谷模式。

從書中內容可以看出,李彥宏在技術層面沒有特別的偏好,他關注的東西很寬泛:從瀏覽器大戰、搜索引擎、網上服務引發的電子媒體戰,再到SUN的JAVA與IBM、甲骨文、微軟的網絡計算機競爭……此時的李彥宏顯然還沒有找到方向,所以他看到什麼就紀錄什麼。

可能是命運註定。在Infoseek(全球第一批搜索引擎服務商)工作期間,李彥宏在澳大利亞參加一次學術研討會時,在會議室的板報上貼了一個小紙條,希望與有興趣研究搜索引擎的大腕過招。就是這張紙條,吸引來了Google的創始人謝爾蓋·布林與拉里·佩奇。當然,他們還是窮大學學生。

當時,李彥宏與這兩位後來的“搜索引擎巨匠”交流了什麼,尚不重要,因爲這個領域的風向標是雅虎、Infoseek、Excite和Lycos。

幾年之後,李彥宏回到中國創立的公司納斯達克上市,與Google一樣,獲得前所未有的追捧———上市第一天就躍入股價超百美元的行列。

李彥宏交了什麼運?他那張通常掛着漫不經心笑意的臉,很少有激憤或是誇張的表情。有員工私下稱李爲“唐僧”,並不是意味着他管理上的軟弱、和氣,而是因爲他對有些事情交代得過於瑣碎,也就是通俗的“嘮叨”。

可以說,李彥宏創立百度的前期準備是從他寫這本書開始的。李彥宏最爲“嘮叨”的環節就是兩個字:“技術”。


技術四足

如果有人當面說,百度的客戶體驗不如Google,得到的迴應會是什麼?

與李彥宏一起參與公司創立的百度CTO劉建國可能會以溫和的方式表達他的憤怒。

“上市之後,百度接下來最重要的任務之一就是不斷地優化搜索技術,給用戶提供更豐富的用戶體驗。”劉建國說。

通常意義上說,搜索技術包括四個環節,網頁抓取、超鏈分析、網頁檢索和搜索服務。這是搜索技術的“四足”,無論百度、Google,還是雅虎用的都是類似的技術。“百度之所以成功,是在相似技術下爲用戶呈現了更優的結果。”劉建國說。

一個顯而易見的例子是,Google需要對全球數以百億計的網頁進行更新。而網頁數量如果增加10倍,其抓取難度將增加上千倍。這樣,Google在中文網頁更新速度方面就遠不及百度。劉建國認爲:“在中文網頁的更新速度方面,百度因專注而超越對手。”

業內人士指出:由於Google的服務器遠在美國,不僅其響應速度較慢,而且其IP地址容易因爲各種原因被封殺,這也使得Google的用戶體驗不如百度的用戶體驗。

“超鏈(hyperlink)分析”更是百度的拿手活。所謂超鏈分析,即是對網頁之間的相關性進行評價。李彥宏早在道瓊斯工作時,就對超鏈分析技術進行了研究,並擁有其中幾項專利。

“超鏈分析涉及許多對中文的理解,包括對詞彙、語法的理解。如果對中文的理解出現偏差,那麼分析結果就會謬之千里。搜索結果不準確,就會傷害用戶的‘感情體驗’,最終導致網民流失。”劉建國這樣分析。

從2000年開始,百度就不斷積累自己的語料庫,包括與人民日報等權威中文機構合作,使用人民日報的語料庫。“豐富的語料庫來自於百度的積累,百度每天都要處理上千萬中文網頁,處理中文網頁的過程實際是對中文詞彙積累的過程。”

在網頁檢索方面,經驗積累至關重要。“百度有專門的團隊進行中文語料的分析,專門研究中文切詞。有經驗的技術人員憑經驗就能分析出什麼樣的鏈接是用戶最需用的鏈接。競爭對手要培養出這樣一個團隊,至少得兩年時間。因爲專注的百度花了四年。”劉建國一語道破天機。

搜索服務則更爲瑣碎。百度爲了滿足各種用戶不同的需求,專門設立了一個流程:根據市場部門的調查,產品管理部門提出需求,技術研發部門則拿出實現這種需求的技術方案,最後進行檢測,檢測如有問題再由技術部門進行優化。


作弊網站的電話

“爲什麼屏蔽了我的網站?”劉建國經常會接到這樣的電話質詢。這樣的電話來自一些個人網站,由於存在作弊痕跡,百度不再把這些網站納入搜索範圍。

“這樣的電話每天有多少個,不計其數。”劉建國有些無奈。而更多的電話則由劉建國的手下接到,有些人甚至直接找到李彥宏。

但李及其他技術人員的回答通常與劉建國的回答一致,“你先自查一下,看有沒有作弊,然後再來電話,好嗎?”

“因爲這些作弊網站試圖通過SEO(搜索引擎優化)技術欺騙搜索引擎,這損害了用戶體驗。”劉建國解釋。但劉沒有道出的另外一個原因是,這些作弊網站同時損害了百度的利益。

據劉介紹,作弊最通常的手段是堆砌鏈接(LINKFORM)。即某些個人網站,在某些企業具有商業利益的網頁上,對某些高流量的詞彙進行堆砌,以提高此網頁的相關性而排名靠前,當網民檢索時,就很容易檢索到這樣的網頁。這些個人網站會對這些企業說:你給我付錢,我會對貴公司的網頁進行優化,讓你網頁搜索結果排名靠前。

另外一種作弊方式是,作弊網站將前景色(內容)與背景的顏色做成一致,利用這種方法欺騙搜索引擎,因爲搜索引擎正是通過前景色與背景色的差異對網頁內容進行識別。在這樣的網頁上,通常是作弊網站想推廣的內容而不是網民想搜索的結果。

除了從企業哪兒收費之外,這些作弊網站還有一種賺錢方式———自己推廣彩鈴這樣的收費服務。

“百度反作弊技術同樣需要經驗積累,很多作弊網站除了用技術手段進行分析外,還需要通過人工手段進行識別。沒有這樣的團隊,沒有與作弊網站長期作鬥爭的經驗,面對龐大的作弊網站羣體則將束手無策。”劉建國說。

其所謂面對作弊網站束手無策的網站中不乏百度的競爭對手。在Google進入中國之初,已經有一批搜索引擎優化服務商(SEO)爲企業提供關鍵字廣告服務。這些廣告費全部被搜索引擎優化服務商截流,而作爲技術與服務提供者Google則在爲他人做嫁衣裳。

Google怒斥這些SEO爲“僞代理”,其進軍中國的第一件事是發展代理,加強渠道建設,第二件事則是清除僞代理。

“就像微軟與黑客的鬥爭,這是一場永遠都不會結束的戰爭。”劉建國表示,“百度的希望是儘量不讓這些作弊網站傷害用戶的利益,而百度的優勢是在與這些作弊網站長期鬥爭中形成的經驗。”(侯繼勇、劉涓涓)

來源:21世紀經濟報道

熱門標籤