衛(wèi)哲:選擇在哪些領域創(chuàng)業(yè),才不會被BAT吃掉?
圖片源自網絡
一、為什么說有「偽」人工智能存在?
第一,我們看一下人工智能的「人才儲備」。
人工智能人才不是一夜之間冒出來的。無論在學校還是工作中,他必須、確實從事過人工智能的工作。其實這樣的人才全世界不過幾百個。但全世界有幾萬家人工智能公司,怎么突然冒出這么多人才?
從人才角度來說,無論是創(chuàng)建還是參與公司,怎么可能具備真正人工智能的優(yōu)勢呢?所以我們覺得存在大量的人才泡沫。
第二,我們看到很多項目真的是穿了個「馬甲」又回來了。
我一直在跟創(chuàng)業(yè)者說,千萬不要給自己的項目穿馬甲,貼上很多流行的標簽,流行什么貼什么,流行人工智能很多項目貼著標簽來的。
貼標簽之前這些項目挺簡單的,早在阿里巴巴我們就看到過,什么叫機器學習,什么是算法。很多只是有一定算法的,或者還是基于機器學習的公司,今天搖身一變都給自己貼上了人工智能的標簽。
二、如何識別「真人工智能」?
我跟李教授說,我不是技術專家,我也不懂技術,請問有沒有比較簡單的方法來識別真的人工智能和偽人工智能?
高手就是高手,用了一個非常簡單的方法。我們先講一個歷史上的故事。
我們看到計算機和人類進行國際象棋的比賽,是在很多年前發(fā)生的,互有勝負。但是從教會計算機下國際象棋,到干掉世界冠軍,不低于10年的時間。
Google下面的「阿爾法狗」、這個人工智能的機器,從學會,到下贏一個圍棋的入門級的初段選手,到干掉世界冠軍,據報道只用了1年時間。
所以真正人工智能判定方法非常簡單,看他算法的進步速度。機器學習也會進步,那么人工智能的算法進步是幾何級的。
也就是說一個人工智能領域的項目,如果你隔3個月去看,它在算法上比如說人臉識別也好、語音識別也好,它的進步是代數級,而不是幾何級的——那么它更像互聯(lián)網時代早已有之的普通算法?;蛘呓袡C器學習而已,都是偽人工智能。
所以,如果我們不太了解過程的話,就從結果來看。人工智能一定是像這次下圍棋一樣,「進步神速」。
這是我們第一個結論。存在大量的偽人工智能,和如何去識別偽人工智能,不僅要識別偽人工智能的項目,還要可以判斷偽人工智能的團隊。
三、做人工智能最重要的,不是技術?
第二個結論,人工智能的技術,如果把它比喻一把刀的話,那么massive refreshing data(大量海量且實時更新的數據),就是那把刀的磨刀石。
也就意味著,人工智能技術重要但不是最重要。這把刀一開始有多鋒利,不是決定性的。一把鋒利的刀不一直不磨,而一把不太鋒利的刀一直在磨,那很快那把不鋒利的刀就會超過那把鋒利的刀。
Deepmind團隊中,就是阿爾法狗的團隊中,高級的華人工程師挺多的。見到他們,我問了個問題:你們怎么不立志搞一次中國象棋?
他說,David,這個不是說我們愿做不愿意做的問題。我們的圍棋項目,還不得不感謝感謝日本人。日本人過去幾百年幾乎所有的棋譜都在,而且保留圍棋的棋譜也特簡單。只要一張紙,黑的白的,上面標好號碼就行了:這是第1手,這是第200手。
所以,它其實一張圖就記錄了整個圍棋下的階段,所以復盤也特別容易。圍棋幾百年來的棋譜都存在,也就意味著圍棋的數據特別齊全。
咱中國象棋老祖宗留下了什么?叫殘局。它怎么走到殘局呢?不知道,沒有數據。
如果你把殘局喂給機器,它怎么學習?他要學習的是我如何走到殘局,以及如何從殘局走到終局。由于中國象棋的歷史數據缺失,造成這么生猛的阿爾法狗機器在中國象棋領域就go不下去了。
這就是意味著數據對人工智能有多重要。離開數據,談人工智能是沒有意義的。
四、下一位人工智能新獨角獸在哪?
在哪些領域,人工智能可以跑出來獨立的公司、獨立的平臺?
如果在美國你要用的數據,大部分或者全部由Google、Facebook、亞馬遜所掌握,那磨刀石在別人手上。今天你的技術再領先,也維持不了多久。
我們看到很多這樣的技術公司,唯一出路就是賣給美國Facebook、Google、亞馬遜。
同樣在中國,如果你要做人工智能,所能用到的數據,都是為BAT所掌握。那最終這個磨刀石也不在你手里,你也沒有太大機會。你就是一個技術還不錯的團隊。
最后的出路可能是把這個團隊,以并不太高的估值,賣給這些有數據的大互聯(lián)網公司。
那么在哪些領域,美國的Facebook、Google、亞馬遜也沒有數據,中國BAT也沒有數據呢?這種領域有沒有?答案是有。
比如說醫(yī)療數據,BAT也沒有;很多金融相關的數據目前還是銀行、保險公司的內部數據,互聯(lián)網公司也沒有;可能還有一些其他的領域。
那么就以這兩個領域來說,和人工智能結合,至少不管這把刀是不是很鋒利,找數據源或者找磨刀石的起步,你和大公司是平等的。那就有可能在醫(yī)療、金融等領域,你和人工智能的結合跑出大公司來。
我們就拿醫(yī)療說,美國FDA已經批準人工智能讀很多片子。我們覺得一個醫(yī)生一輩子讀10萬張X光片或者CT片子就很厲害了,但這個片子拍完以后,他完全基于自己的經驗和知識來判斷。他判斷得先有積累。
但這個事對機器來說,對人工智能來說太簡單了。就是圖像和打完標簽的圖像,同時要結合這個標簽打完的圖像和最終診斷的病例,做一個閉環(huán)的學習過程。
所以機器1個小時可以學10萬張片子;人類最有經驗的醫(yī)生,從業(yè)30年,一萬多天,一天看10張片子,一輩子10萬張片子。但機器可以1小時讀10萬張片子。
但同時,由于美國對隱私的很多保護,很多醫(yī)院的數據,在美國并不能輕易開放給這些人工智能公司。
我們看到一個趨勢,很多從事醫(yī)療行業(yè)的公司開始尋找中國的合作伙伴,因為中國人口同樣眾多,隱私的保護卻沒有那么嚴格,有機會讓醫(yī)療數據迅速地集中起來。
同樣的今天很多人臉識別的公司,估值很高。我無法評價他們技術多牛。但我突然發(fā)現不是從事這個領域的公司,只要有大量的數據,迅速可以追上或者趕超,有在A股上市的。
比如:??低暎@么多攝像頭,它采集到很多真實的人臉。由于這個數據的存在,我覺得他們人臉識別的技術不僅目前達到,未來一定在中國這方面最優(yōu)秀的公司,沒有之一。
數據,無論說到人臉還是醫(yī)療都非常重要。