&

近日，機器之心獨家對話百度副總裁王海峰博士，針對時下的 NLP 熱點、百度相關(guān)的技術(shù)情況及其個人經(jīng)歷展開討論。

同時，機器之心與百度聯(lián)合推出技術(shù)專欄，探討百度在自然語言處理領(lǐng)域的研究成果、實踐經(jīng)驗與心得。王海峰博士也表示，「理解語言、擁有智能、改變世界，希望我們的專欄能一起朝這個方向努力」。此篇專訪作為合作專欄的開篇，希望讀者能從中有所獲益。專欄后續(xù)內(nèi)容，請持續(xù)關(guān)注機器之心。

王海峰博士現(xiàn)任百度副總裁，負(fù)責(zé)百度搜索引擎、手機百度、百度信息流、百度新聞、百度手機瀏覽器、百度翻譯、自然語言處理、語音搜索、圖像搜索、互聯(lián)網(wǎng)數(shù)據(jù)挖掘、知識圖譜、小度機器人等業(yè)務(wù)。

學(xué)術(shù)方面，王海峰博士是 ACL（Association for Computational Linguistics）50 多年歷史上唯一出任過主席（President）的華人，也是迄今為止最年輕的 ACL 會士（Fellow）。同時，王海峰博士還在多個國際學(xué)術(shù)組織、國際會議、國際期刊兼任各類職務(wù)。

此前，我們曾專訪過百度自然語言處理部技術(shù)負(fù)責(zé)人吳華、高級總監(jiān)吳甜，就百度機器翻譯技術(shù)展開過詳細(xì)討論。想要進(jìn)一步了解百度機器翻譯，可移步《獨家對話百度 NLP：先解決語義理解，再談機器翻譯取代人類》（可點擊文末閱讀原文查看）。

因涉及方面較多、篇幅較長，根據(jù)專訪情況將內(nèi)容分為上、下兩篇�！渡掀寒a(chǎn)品與技術(shù)》，談百度翻譯系統(tǒng)、信息流、知識圖譜的特點與技術(shù)，以及對數(shù)據(jù)、知識、記憶等解決 NLP 問題關(guān)鍵點的看法；《下篇：過去與現(xiàn)在》，談王海峰博士自 1993 年來專注研究機器翻譯與自然語言處理的過程，以及發(fā)展百度自然語言處理相關(guān)技術(shù)過程中的經(jīng)歷與思考。

上篇：產(chǎn)品與技術(shù)

機器之心：首先請您介紹一下，目前所負(fù)責(zé)的研究和關(guān)注的重點有哪些？

王海峰：從整體上，我在百度負(fù)責(zé)搜索、信息流、手機百度，百度新聞、百度翻譯、手機瀏覽器、自然語言處理、知識圖譜等業(yè)務(wù)，既包括技術(shù)和產(chǎn)品，也包括運營等。我們的很多產(chǎn)品如搜索、信息流等，都是技術(shù)驅(qū)動的，既有工程上的架構(gòu)、策略，也有很多人工智能技術(shù)，如機器學(xué)習(xí)、數(shù)據(jù)挖掘、知識圖譜、自然語言處理和語音圖像技術(shù)等等。

自然語言處理一直是這些業(yè)務(wù)中非常重要的基礎(chǔ)技術(shù)。從做搜索引擎誕生的第一天開始，最基本的 query 分析，網(wǎng)頁內(nèi)容分析，文本匹配等，都需要自然語言處理。近些年來大家都很關(guān)注人工智能，隨著深度學(xué)習(xí)的應(yīng)用，語音圖像很多問題已解決得比較好，但自然語言處理仍然面臨很多難題，也是現(xiàn)在人工智能的重點和熱點。

十幾年來，自然語言處理工作在百度一直很重要，并已有很多積累。2010 年初我加入百度后，建立了獨立的自然語言處理部門。既致力于支持百度最核心的搜索和廣告等業(yè)務(wù)，也對自然語言處理技術(shù)進(jìn)行了完整布局。不管是偏基礎(chǔ)的分析理解、生成，還是各種應(yīng)用系統(tǒng)，像機器翻譯、問答系統(tǒng)、對話系統(tǒng)都在開展。

百度自然語言處理技術(shù)的開展，一方面依托百度強大的數(shù)據(jù)和計算能力，另一方面將自然語言處理技術(shù)實際應(yīng)用于產(chǎn)品也產(chǎn)生了更多數(shù)據(jù)。每天有非常多的用戶使用搜索，而背后又有萬億量級的網(wǎng)頁數(shù)據(jù)，絕大多數(shù)都用語言文字表示，蘊含了非常多可以挖掘的、有價值的信息和知識。這些既為自然語言處理的研究提供了非常好的基礎(chǔ)，同時提供了非常重要的應(yīng)用場景。

機器之心：您在 AAAI 上的演講中提到百度會在 query 中用到 BOW、CNN、RNN 等技術(shù)，這些不同的技術(shù)在語義理解上有什么樣的作用？怎么去應(yīng)用這些技術(shù)？

王海峰：Query 理解是一個研究了很多年的方向。Query 理解分很多層，比如最基礎(chǔ)的中文 query 理解，要做分詞、命名實體識別、短語結(jié)構(gòu)分析等等。在應(yīng)用深度學(xué)習(xí)之前百度就達(dá)到了很好的效果，在這過程中也積累了非常豐富的用戶數(shù)據(jù)。這些數(shù)據(jù)的積累又為后來應(yīng)用深度學(xué)習(xí)提供了基礎(chǔ)。

百度是世界上最早將深度學(xué)習(xí)技術(shù)應(yīng)用在搜索引擎中的公司。深度學(xué)習(xí)本身具有很強的表示能力及大數(shù)據(jù)學(xué)習(xí)能力，基于百度積累的海量數(shù)據(jù)以及強大的計算資源，我們設(shè)計研發(fā)的針對性的新模型，展現(xiàn)出非常好的學(xué)習(xí)效果。

學(xué)習(xí)出來的是什么？更多是語義層面的匹配。用戶在 query 中用的是一種表達(dá)方式，網(wǎng)頁中對應(yīng)的可能是另外一種。在用戶的使用過程中，他的點擊數(shù)據(jù)、行為數(shù)據(jù)隱藏著不同表達(dá)方式之間的關(guān)聯(lián)，機器學(xué)習(xí)、深度學(xué)習(xí)就能學(xué)到這種關(guān)聯(lián)。本質(zhì)上，還是更好地利用更多的數(shù)據(jù)學(xué)到了更多東西。BOW（Bag-of-Words，詞袋）就是對這些詞的語義表示做簡單的組合，我們用了更復(fù)雜的網(wǎng)絡(luò)如 CNN、RNN，CNN 能更好自動捕捉一些局部結(jié)構(gòu)信息，RNN及其變體在序列建模中更能體現(xiàn)句篇的長距離依賴特性，它們的表示能力、學(xué)習(xí)能力就會進(jìn)一步增強。

神經(jīng)網(wǎng)絡(luò)不是近幾年才出現(xiàn)的。20 多年前我讀博士的時候，博士論文也用了 RNN，但那時候的數(shù)據(jù)量要小很多，計算機的計算能力甚至跟現(xiàn)在的手機都沒法比。那時只能用很小的數(shù)據(jù)去跑模型，能跑出來、也有效果，但遠(yuǎn)遠(yuǎn)達(dá)不到今天的效果。深度學(xué)習(xí)很多基礎(chǔ)理論也并不是近幾年才產(chǎn)生的，但是近幾年爆發(fā)式的在應(yīng)用中取得了非常多的成果，大數(shù)據(jù)和強大的計算能力起到了至關(guān)重要的支撐作用。

機器之心：百度在前幾年就上線了機器翻譯系統(tǒng)，我們知道機器翻譯系統(tǒng)可能用到神經(jīng)網(wǎng)絡(luò)、基于規(guī)則方法、基于實例的方法，還有基于統(tǒng)計的。這些不同的方法，如何在一個翻譯系統(tǒng)中結(jié)合？

王海峰：我們在世界上最早把深度學(xué)習(xí)應(yīng)用到大規(guī)模線上翻譯系統(tǒng)，2015 年 5 月系統(tǒng)正式上線。但上線的同時，并沒有把原來的方法直接替換掉。我們發(fā)現(xiàn)多個模型融合使用的效果是最好的，因為深度學(xué)習(xí)有些問題解決的并不好，每一種方法都有它擅長的地方。

在應(yīng)用深度學(xué)習(xí)之前，基于統(tǒng)計的、規(guī)則的、實例的方法我們都用了。比如規(guī)則方法，擅長抽象語言知識并顯式地表示出來，比如語法知識、局部的規(guī)則等。

從一種語言到另一種語言并不是完全依靠規(guī)則的，如果有限的語法能覆蓋所有語言現(xiàn)象，翻譯這件事就會變得非常簡單�，F(xiàn)實中語言是非常復(fù)雜的，表示很靈活，很多時候并不是從語法演繹出來，而是約定俗成就這么說，這時候基于實例的方法就會效果更好、效率更高。就像我們學(xué)英語時，很多時候不需要去分析，一聽到中文，相應(yīng)的英文就會脫口而出。

統(tǒng)計機器翻譯方法和神經(jīng)網(wǎng)絡(luò)機器翻譯有一些相似的優(yōu)點，同樣可以從非常龐大的語料庫中學(xué)習(xí)。因為它基于參數(shù)和模型，魯棒性也更好。統(tǒng)計方法需要從詞，到短語，到句子一層一層去做對齊、抽取、重排序等等；而神經(jīng)網(wǎng)絡(luò)翻譯模型則可以是端到端的系統(tǒng)，用足夠的語料去訓(xùn)練，就可以得到不錯的結(jié)果。從這個角度看，機器翻譯入門的門檻變低了，但想做到特別好仍然非常難。

這幾種方法，我們現(xiàn)在更多是在結(jié)果級進(jìn)行融合。

機器之心：我們現(xiàn)在的知識圖譜包含 3 種：實體圖譜、意圖圖譜、關(guān)注點圖譜，我們?yōu)槭裁匆鲞@些不同的知識圖譜，它們的情況和應(yīng)用是怎么樣的？

王海峰：做不同的圖譜，其實是應(yīng)用驅(qū)動的�；趯嶓w的知識圖譜，就是通常意義上的知識圖譜�；竟�(jié)點是實體，實體的屬性、實體和實體之間的關(guān)系，一個基本的實體知識圖譜就是這樣。

為什么做關(guān)注點圖譜？因為我們現(xiàn)在在做信息流，用戶關(guān)注的不一定是實體。它可以是一個實體或者概念，比如關(guān)注人工智能、機器翻譯；但也可以是一個事件，比如 AAAI 會議在舊金山召開，這不是實體或概念，而是一個事件，在實體圖譜里是沒有表示這樣的事件的節(jié)點的。這時就需要關(guān)注點圖譜。

意圖圖譜我們在內(nèi)部也稱為需求圖譜，用戶對話的過程中提出了一個需求，下一個需求會是什么？比如「阿拉斯加」，用戶關(guān)注的是城市還是寵物？如果關(guān)注寵物那么接下來關(guān)注的是喂養(yǎng)、習(xí)性還是其它？這既不是一個實體，也不是一個事件關(guān)注點。所以每一種知識圖譜都是由不同的應(yīng)用驅(qū)動的。

機器之心：包括 UC、今日頭條等等大家都在做信息流，百度在技術(shù)上有哪些不同之處？

王海峰：信息流從基本原理上講，一端是對用戶的理解，一端是對內(nèi)容的理解，然后對它們進(jìn)行匹配。從這個最基本點看，大家都在做類似的事，但我們可以對內(nèi)容、對用戶理解得更好、更充分。這背后既有數(shù)據(jù)的優(yōu)勢，也有技術(shù)的優(yōu)勢。

數(shù)據(jù)方面，通過信息流中的用戶行為可以分析用戶的一些興趣點，但不限于此，比如用戶搜索的 query，明確表達(dá)了用戶的需求，而這些需求與用戶興趣愛好或者個體屬性等是相關(guān)的。再比如用戶關(guān)注了某個貼吧，這是一個非常強的信號，意味著他對這個東西很感興趣。

所以我們做信息流不是孤立的，而是基于百度整體的各種產(chǎn)品，綜合起來會對用戶有更好的理解。

另一方面是技術(shù)。百度在人工智能的方方面面都有著非常深厚的技術(shù)積累，我們會綜合利用各種技術(shù)。剛才談到不少深度學(xué)習(xí)技術(shù)模型在百度產(chǎn)品中已得到很多應(yīng)用，而在真正的產(chǎn)品應(yīng)用中，其它各種機器學(xué)習(xí)方法，比如 SVM 、CRF、GBDT 等也都會用。技術(shù)的選型，是基于對應(yīng)用需求的充分理解及對數(shù)據(jù)的深入分析進(jìn)行的。

對內(nèi)容理解這部分，則更多依賴自然語言理解。在搜索中，雖然也用到大量的自然語言處理技術(shù)，例如 query 的理解、改寫等，但搜索系統(tǒng)的基礎(chǔ)是關(guān)鍵詞與文本的匹配，使用的理解技術(shù)相對簡單。而對于信息流推薦系統(tǒng)，則需要先對一篇完整的文章有深度的分析理解，比如打上合適且豐富的標(biāo)簽，需要的分析理解程度會更深。

機器之心：目前我們的信息流里也有機器生成的文章，沒有語病、讀起來非常通順，但會缺少所謂的「意圖」。對于自動寫作的意圖和創(chuàng)造這件事，您是怎么看的？

王海峰：目前有相對做得比較好的一面，也有局限性。

寫稿子、甚至寫詩時，機器是在做什么？一方面是基于系統(tǒng)里的結(jié)構(gòu)化數(shù)據(jù)，把數(shù)據(jù)組織成語句或者文章。比如我們做籃球解說，首先是拿到比賽賽況的實時數(shù)據(jù)，基于這些數(shù)據(jù)模擬解說，學(xué)習(xí)解說員的常用語言，也做一些簡單的推理。再比如寫詩也是首先明確詩的主題，比如「桃花」還是「月亮」？然后去規(guī)劃詩的內(nèi)容。其背后是基于一個大規(guī)模詩集訓(xùn)練得到的生成模型，基于確定好的主題和規(guī)劃的內(nèi)容，最后生成的很多詩歌的確看上去讓人覺得很驚艷。

機器能做到上面這些，也并不意味著機器具備了真正的深層次的理解。比如桃花開了，每個人的感受不一樣，聯(lián)想的東西也不一樣。機器并沒有像人一樣真正去具備這些情感，更多的是模仿已有數(shù)據(jù)。

機器相對人來說有很多更擅長的能力，但也有一些遠(yuǎn)不如人的方面。例如，讓搜索匹配到合適的網(wǎng)頁，但深層的基于背景知識進(jìn)行深層次的理解及聯(lián)想則比較困難。還有，比較個大小長短的，對機器來說易如反掌，但要真正去推理則很困難。再比如，機器可以模仿人來寫詩，但讓機器真正有感而發(fā)去搞藝術(shù)創(chuàng)作則很難。總結(jié)一下，機器很善于匹配、比較、模仿，但要具備像人一樣的理解、推理、創(chuàng)造能力，則還有很長的路要走。

機器之心：對于這個問題，常識和記憶是解決的方法嗎？

王海峰：知識很重要，所以我們現(xiàn)在很重視建設(shè)知識圖譜。知識圖譜的建設(shè)已經(jīng)是非常浩大的工作，而如何利用這些知識進(jìn)行理解、推理，是更復(fù)雜的事。

簡單的推理相對容易，比如在搜索里詢問名人的年齡，這不是匹配可以得到的，因為答案和當(dāng)下的時間有關(guān)。靜態(tài)的知識是這個名人的生日，有了生日和當(dāng)前時間，做個減法就能得到年齡。這是一個簡單的推理過程。

再說記憶，首先是記什么，然后是怎么用。機器可以記住網(wǎng)頁，可以記用戶日志，也可以把經(jīng)過分析提取后結(jié)構(gòu)化的數(shù)據(jù)和知識記住。記住了這么多，接下來就是利用這些數(shù)據(jù)和知識，去分析、去推理、去解決實際問題。

機器之心：大家都在研究用無監(jiān)督學(xué)習(xí)或少量數(shù)據(jù)代替大量的標(biāo)注數(shù)據(jù)，來達(dá)到同樣的訓(xùn)練效果，在 NLP 領(lǐng)域我們有相關(guān)的研究或者進(jìn)程嗎？

王海峰：具體還是要看問題的目標(biāo)是什么。如果目標(biāo)是最終的結(jié)果，比如在機器翻譯中使用雙語語料達(dá)到源語言輸入、經(jīng)過翻譯之后目標(biāo)語言輸出的目的，就可以用端到端深度學(xué)習(xí)，訓(xùn)練一個模型找到結(jié)果。怎么標(biāo)注數(shù)據(jù)，甚至是不是真正有對詞、對短語的理解就不那么重要。如果目標(biāo)是做一個 Parser，得到一棵符合人的認(rèn)知、人對語法理解的句法樹，那就一定需要標(biāo)注數(shù)據(jù)，在此基礎(chǔ)上加入某些特定的無標(biāo)注數(shù)據(jù)也可以進(jìn)一步提升效果。

關(guān)于少還是多的問題，可以首先用較少的數(shù)據(jù)作為原始標(biāo)注數(shù)據(jù)訓(xùn)練一個模型，然后設(shè)法全自動或半自動的得到更多數(shù)據(jù)。

再舉一個更基本的例子，分詞。有些任務(wù)涉及到理解就需要分成符合語言學(xué)定義的詞，有些任務(wù)就不太關(guān)心片段是不是真正的詞。有時候做信息檢索是一些片段放在一起，分析 query、分析網(wǎng)頁時是同樣的片段，兩個片段只要能匹配上就可以了。這時候分詞的粒度是什么、分出的詞是不是符合語言學(xué)定義就不那么重要了。

機器之心：現(xiàn)在生成對抗網(wǎng)絡(luò)比較熱門，在計算機視覺領(lǐng)域得到很多應(yīng)用。那么生成對抗網(wǎng)絡(luò)可以在 NLP 中應(yīng)用嗎？

王海峰：現(xiàn)在在 NLP 領(lǐng)域是有人在研究，但是還沒有特別顯著的突破。

不止是生成對抗網(wǎng)絡(luò)，近年來深度學(xué)習(xí)在語音圖像等領(lǐng)域的應(yīng)用很成功，在 NLP 領(lǐng)域也出現(xiàn)大量研究成果，但是這些研究成果真正對應(yīng)用帶來質(zhì)的飛躍還不多。語言的復(fù)雜性在于，語言不僅僅是表面的字符串，語言的內(nèi)涵太豐富了，語言實際上是人對整個客觀及主觀世界的認(rèn)知、描述和表達(dá)。

機器之心：那 NLP 領(lǐng)域，接下來需要著重解決的是哪些問題？

王海峰：根本問題還是語言的分析理解，語言的生成，以及知識的掌握和運用。

真正要讓先進(jìn)的 NLP 技術(shù)實現(xiàn)大規(guī)模應(yīng)用，我認(rèn)為更重要的是更好地利用大數(shù)據(jù)，尤其是實際產(chǎn)品應(yīng)用中產(chǎn)生的數(shù)據(jù)。數(shù)據(jù)是動態(tài)增長的，用戶會不斷產(chǎn)生和反饋新數(shù)據(jù)。在這個動態(tài)過程中，技術(shù)會越來越完善。積累到一定程度我相信會帶來質(zhì)變。

下篇：過去與現(xiàn)在

機器之心：您 1993 年讀大四的時候，為什么選擇智能翻譯作為本科畢業(yè)設(shè)計題目？

王海峰：這其中有我個人興趣的因素，當(dāng)時我覺得能讓計算機來做翻譯很神奇，特別有興趣。另一方面也有機緣的因素，學(xué)校把我分配到了李生老師的課題組做畢業(yè)設(shè)計。

（注：李生，哈爾濱工業(yè)大學(xué)教授，自然語言處理領(lǐng)域?qū)＜�，ACL 終身成就獎得主）

機器之心：當(dāng)時所謂的「智能翻譯」是怎樣的狀況？

王海峰：那時統(tǒng)計機器翻譯方法剛剛出現(xiàn)，Peter Brown 那篇最經(jīng)典的文章就是在 1993 年發(fā)表的（注 1）。1993 年初我做畢業(yè)設(shè)計時，還不知道那篇文章，當(dāng)時最主流的還是基于規(guī)則的方法。我做畢業(yè)設(shè)計用的是基于規(guī)則的方法，這些規(guī)則都是人工寫的。因為我本科是計算機學(xué)科，比較擅長把它們用程序、代碼實現(xiàn)出來，當(dāng)時還有外語系同學(xué)和我一起工作，專門負(fù)責(zé)寫語言規(guī)則。

（注 1：Peter Brown et al. The Mathematics of Machine Translation: Parameter Estimation, In Computational Linguistics, 1993.）

機器之心：您碩士期間，僅用了一年就開發(fā)出了當(dāng)時 863 測評第一的機器翻譯系統(tǒng)，能和我們分享一下這段經(jīng)歷嗎？

王海峰：剛上碩士時，我用的還是基于規(guī)則的方法。當(dāng)時我寫了一個很復(fù)雜的規(guī)則系統(tǒng)，也有小伙伴一起寫語言規(guī)則、詞典。那時候和現(xiàn)在的互聯(lián)網(wǎng)方法相似，也是不斷快速的迭代。我們會不斷進(jìn)行大量測試，發(fā)現(xiàn)翻譯得不好的地方，就迅速分析解決。需要改代碼，我就馬上改代碼；需要調(diào)規(guī)則，外語系的小伙伴就立刻調(diào)規(guī)則。有時候午飯前發(fā)現(xiàn)了一個修改的地方，我就直接不去吃午飯。趁小伙伴們?nèi)ノ顼埖臅r間，我的代碼就改好了。等他們回來，就可以繼續(xù)寫規(guī)則了。

那時非常有干勁兒，幾乎每天都是實驗樓一開門我就進(jìn)實驗室了，一直到晚上熄燈。當(dāng)然，現(xiàn)在我也仍然每天很早就到辦公室（笑）。

機器之心：您當(dāng)年的同學(xué)們可能已經(jīng)轉(zhuǎn)到其他的方向，您為什么 20 多年來一直在堅持機器翻譯、NLP 的研究？

王海峰：可以說很幸運，這些年一直有需要我的專業(yè)能力的工作。但也和個人性格有關(guān)，我做事比較堅持，選擇了做一件事，就要負(fù)責(zé)到底，持之以恒不斷地做得更好。我已經(jīng)堅持了 20 多年，相信還會堅持下去，因為自然語言處理的路還很長。

機器之心：從您開始研究機器翻譯，到現(xiàn)在機器翻譯都有哪些比較重要的變化？

王海峰：之前說過的四種方法，基于規(guī)則的、實例的、統(tǒng)計的、神經(jīng)網(wǎng)絡(luò)的，每種方法我都經(jīng)歷過，每個方法都是一個很大的變化。

從根本上，我認(rèn)為還是我們所擁有的基礎(chǔ)在變。比如數(shù)據(jù)的基礎(chǔ)，我記得剛來百度的時候，那時候特別開心，因為原來我們用統(tǒng)計方法找一些語料非常困難，幾十萬句對語料就覺得很好了。然而在百度，通過互聯(lián)網(wǎng)挖掘到的語料要遠(yuǎn)遠(yuǎn)比這個數(shù)字大，所以百度翻譯效果迅速地就上去了。

不只是機器翻譯，人工智能這些年很多突破都跟數(shù)據(jù)有關(guān)，語音也是，相比早些年，語音數(shù)據(jù)獲取速度在變快，成本則在降低。

機器之心：2010 年時您為什么加入百度？

王海峰：這個因素就比較多了。

首先根本的來說是整體的發(fā)展趨勢。我畢業(yè)時是在外企，那時中國的 IT 公司還比較弱小，也不需要那么多特別深入的技術(shù)。隨著近些年的發(fā)展，像百度這樣的公司越來越強大，對 NLP 等技術(shù)的需求越來越強。到了 2010 年前后，更多的人都開始選擇中國自己的企業(yè)。

比較直接的契機是 2009 年 8 月，Robin 在百度世界大會上發(fā)布框計算。我對此很關(guān)注，在我看來如果要做框計算，背后需要大量的自然語言處理的技術(shù)。所以當(dāng)時就感覺到，百度要做框計算，那就該有我的用武之地了。

通過與百度人的接觸，發(fā)現(xiàn)除了業(yè)務(wù)本身以外，大家的價值觀、做事的方式等也特別匹配，所以聊過之后我很快就決定過來了。

機器之心：NLP 在百度是從您開始建設(shè)的，這個過程是怎樣的？

王海峰：確切地說，自然語言處理部這個部門是我建設(shè)的，而百度自然語言處理技術(shù)的研發(fā)則在我加入百度之前就有了，當(dāng)時大搜索有一個小組在做這個。我來了以后，從十幾個人開始，正式成立了自然語言處理部，致力于直接滿足搜索等業(yè)務(wù)需求的同時，也規(guī)劃了更完整的布局及長期發(fā)展路線圖。這個路線圖中，既包括技術(shù)發(fā)展路線，也包括團(tuán)隊成員的個人成長路線。團(tuán)隊和業(yè)務(wù)都增長得很快，第一年團(tuán)隊規(guī)模就翻了好幾倍，做的事情也多了很多。

機器之心：您現(xiàn)在主管包括搜索、手機百度、信息流等業(yè)務(wù)，在這些業(yè)務(wù)之間您如何平衡自己的精力？在學(xué)者和管理者之間又該怎樣平衡？

王海峰：團(tuán)隊不是只有我一個人，很多人都很優(yōu)秀，大家會各自有分工。這些業(yè)務(wù)在一起也有非常多的協(xié)同。

對于我來說，更重要的是把整體的目標(biāo)和方向定好，并組建最適合達(dá)成這些目標(biāo)的團(tuán)隊，然后就是帶領(lǐng)大家高效執(zhí)行及協(xié)同。因為我本人是技術(shù)背景，在全面帶業(yè)務(wù)的同時，我的確也會在技術(shù)角度投入較多，會看技術(shù)發(fā)展方向和趨勢，也會和大家一起去分析解決具體技術(shù)問題。

對于一個大型團(tuán)隊，大到你已經(jīng)不可能認(rèn)識每一個人，這時候更重要的是建立機制和形成文化。百度的大搜團(tuán)隊，有著原汁原味的簡單可依賴的工程師文化。

機器之心：您最近比較關(guān)注的技術(shù)點是哪些?

王海峰：更多是希望能把人工智能的能力在各種業(yè)務(wù)充分發(fā)揮出來，比如搜索、信息流、手機百度等等。

如果人工智能再向前走，真正做到像人一樣思考，除了對語言的理解還要有對知識的掌握和對人的理解。這些都要有一定的應(yīng)用場景支撐，搜索就是可以支撐這件事的最大平臺。到目前為止，搜索引擎擁有最多的數(shù)據(jù)和知識，它的背后是整個互聯(lián)網(wǎng)，人類的大量知識都蘊含其中。搜索引擎有條件更快地積累需要的數(shù)據(jù)。

機器之心：在此前的采訪中您提到過，「希望 NLP 的技術(shù)能更好地觸及每一個人」。那接下來 NLP 觸及每個人的方式，應(yīng)用也好、呈現(xiàn)方式也好，具體會是怎樣的？

王海峰：事實上 NLP 已經(jīng)在觸達(dá)幾乎每一個人，因為它用在各種產(chǎn)品里。

百度絕大多數(shù)產(chǎn)品背后都有 NLP，2013 年我們做平臺化時，NLP 的平臺化也是其中一部分。當(dāng)時 NLP 做了兩個平臺，一個是 NLPC（NLP Cloud），另一個是機器學(xué)習(xí)平臺 Malloc。這兩個平臺當(dāng)時的應(yīng)用量都排在前幾名，NLPC 平臺現(xiàn)在每天調(diào)用量已經(jīng)有上千億。現(xiàn)在不只是百度，很多公司都很重視 NLP，應(yīng)該說 NLP 已經(jīng)在觸達(dá)每一個人。

說到具體產(chǎn)品，獲取信息是人的基本需求之一，在沒有計算機的時代，甚至人類還沒有文字的時代，始終都需要信息。獲取信息最重要方式：一種是有明確需求，輸入 query 去找信息；另一種是用戶沒有主動表達(dá)需求，但系統(tǒng)能個性化地猜到用戶所需并推薦給用戶。這就分別對應(yīng)著搜索和信息流，一個是人找信息，一個是信息找人。這兩種都應(yīng)用了大量的自然語言處理技術(shù)。

人們每天通過搜索或信息流獲取知識的同時，機器也可以不斷沉淀數(shù)據(jù)和知識，不斷變得更強。

面向未來看，自然語言對話會成為未來最自然的人機交互方式，這將會改變每個人使用手機及其它設(shè)備的方式，會更加直接地觸達(dá)每個人。