RFID世界網(wǎng) > 新聞中心 > 物聯(lián)網(wǎng)新聞 > 正文

這五種人工智能技術(shù)可以識別圖片

作者：本站采編

來源：網(wǎng)易科技

日期：2015-11-24 13:56:31

摘要：很長一段時間以來，人工智能的研究都停留在文字層面，比如著名的圖靈測試(Turning Test)，證明了機器能夠像人類一樣智能地回答書面問題。

關(guān)鍵詞：Facebook谷歌人工智能微軟

　　很長一段時間以來，人工智能的研究都停留在文字層面，比如著名的圖靈測試(Turning Test)，證明了機器能夠像人類一樣智能地回答書面問題。

　　而如果讓機器變得更聰明，僅僅處理文字顯然是不夠的。事實上，人類心智非常善于視覺處理。從所見當中識別圖案、物體以及文本情景的能力讓我們很智能，這種能力也是人的本質(zhì)特征。

　　不過直到最近，計算機都對圖片束手無策。比如，除非人為添加一些標簽和注釋，否則機器就無法理解圖片，圖片也就是成了無用的文件。

　　但是，這種尷尬的情況正在發(fā)生變化。一大批能看懂圖片的人工智能技術(shù)已經(jīng)來到人間，下面不妨來看看機器之心的盤點：

　　谷歌 TensorFlow

　　5月份谷歌推出 Google Photos時，媒體關(guān)注的焦點是：人工智能和圖片搜索結(jié)合后所產(chǎn)生的強大功能。谷歌聲稱(并且用戶也很快確認)，搜尋特定某人，你會找到對方從現(xiàn)在到嬰兒時期的照片。搜索品種名，你就能找到相應(yīng)品種狗的照片。把名字和食品類別結(jié)合起來，比如輸入「最大披薩」，就能鎖定特定圖片。

這五種人工智能技術(shù)可以識別圖片

　　這款應(yīng)用發(fā)布之初，媒體無從得知谷歌究竟研發(fā)了多長時間。不過，一些搜索功能在Google+上出現(xiàn)一年多了。

　　兩周前，谷歌以TensorFlow平臺形式開源了它的人工智能主體部分。

　　盡管TensorFlow并不是第一個開源人工智能平臺，但是，它是與谷歌強大圖片搜索關(guān)系最為密切一個。

　　開源TensorFlow意味著，包括初創(chuàng)公司在內(nèi)的其他公司，能夠利用谷歌的這個開源平臺，快速將人工智能和圖片結(jié)合起來。盡管谷歌并未開放人工智能關(guān)鍵技術(shù)，包括在眾多服務(wù)器上運行的能力。谷歌也沒有開放讓其如此強大的用戶數(shù)據(jù)庫。但是，谷歌的此舉毫無疑問將刺激整個機器學(xué)習(xí)和人工智能創(chuàng)業(yè)生態(tài)的發(fā)展。

　　我們也期待著基于TensorFlow的各種震撼新應(yīng)用能于明年進入市場。

　　Facebook Photo Magic

　　Facebook近期開始在Messenger應(yīng)用上測試一項新功能——Facebook Photo Magic。這是一個可選應(yīng)用，它會掃描手機相冊照片并對它們進行面部識別處理。Photo Magic會識別照片中的人物(他們也是你的Facebook好友)，建議你和他們一起分享這些照片。

這五種人工智能技術(shù)可以識別圖片

　　毫無疑問，這項功能給Facebook帶來了雙重優(yōu)勢。首先，它鼓勵用戶更多在Messenger上分享。其次，它改善了識別。但是，僅僅這項便利功能是不夠的，用戶實際上可以贊成或拒絕在任意燈光條件、角度和其他參數(shù)條件下，F(xiàn)acebook使用人工智能對面部和名字進行匹配。Facebook人工智能掌握的照片越多，識別效果也越好。

　　令人吃驚的是，即使遮住了臉部，F(xiàn)acebook的「面部識別」一樣能能識別出你的臉部。這個系統(tǒng)也關(guān)注發(fā)型、姿勢、衣著和身材。(請注意，我們并不清楚Facebook是否已經(jīng)實現(xiàn)了這種先進系統(tǒng)，但很明顯的是，它從用戶照片中收集數(shù)據(jù)。)

　　Facebook 的Photo Magic拓展了圖片庫來源，它不僅收集Facebook(社交網(wǎng)站)，還收集Messenger(聊天應(yīng)用)的數(shù)據(jù)，擴充了數(shù)據(jù)量。Photo Magic還鼓勵贊成或否定匹配結(jié)果，提高數(shù)據(jù)質(zhì)量。

　　很明顯，F(xiàn)acebook最終目標是識別任意場景中的任何人，即使在看不清臉部的惡劣燈光條件下。毫無疑問，未來Facebook的人工智能會掃描和分析環(huán)境，發(fā)現(xiàn)可市場化的線索——比如，如果某人在照片里經(jīng)常打棒球，廣告商就可以利用這個信息鎖定棒球迷，盡管他在上傳照片的文字里并沒有表露出這種興趣。

　　毫無疑問，他們也打算通過觀察圖片中一起出現(xiàn)的人，進一步建立社交圖譜。

　　微軟牛津項目(Project Oxford)

　　微軟日前也更新它的牛津項目，這是一個工具包，讓開發(fā)者通過旗下的Azure云平臺，使用微軟的人工智能系統(tǒng)。

　　這個工具包支持人工智能各個方面的應(yīng)用，包括口語，視頻和其他媒體。但是，最震撼和最強大的功能莫過于牛津項目現(xiàn)在支持開發(fā)者通過牛津人臉應(yīng)用平臺接口項目( Project Oxford Face API)檢測圖片中的人物表情。

這五種人工智能技術(shù)可以識別圖片

　　譬如，用牛津項目處理一張包含5個人的照片，識別照片中的臉以及每個人的表情——快樂，憤怒或惡心。

　　這項功能在新的高度，像人類一樣「理解」圖片質(zhì)量。觀看他人照片時，人們關(guān)注的最重要特征就是個人或群體的情感狀況。

　　Pinterest Visual Search

　　Pinterest日前發(fā)布了全新的圖片搜索功能，它能幫助用戶發(fā)現(xiàn)更多的信息甚至幫助購買他們在固定照片里看到的產(chǎn)品。

這五種人工智能技術(shù)可以識別圖片

　　首先，在 Pinterest的圖片中選中任一物體(來回拖動一個盒狀標識)。然后，搜索工具會找到具有相似圖案和顏色的相似物，系統(tǒng)會將最匹配的結(jié)果鏈接到購買按鈕上，點擊這里就能購買該產(chǎn)品。

　　這個功能是以伯克利視覺和學(xué)習(xí)中心(Berkeley Vision and Learning Center)的深度學(xué)習(xí)人工智能為基礎(chǔ)的。

　　這種照片人工智能應(yīng)用可以說是萬維網(wǎng)照片的雛形，在這個萬維網(wǎng)中，每張圖片中的每個物體都與等同物或者相似物、相關(guān)物彼此關(guān)聯(lián)。

　　CloudSight

　　一家名為CamFind的圖片識別和視覺搜索公司，今年推出了一個「云視覺」(CloudSight)的公共應(yīng)用平臺接口。

這五種人工智能技術(shù)可以識別圖片

　　這個API支持開發(fā)者使用CamFind的人工智能分析圖片內(nèi)容。這樣的掃描大多數(shù)情況下具有高度特定性，比如，能識別汽車的制造和模型，或者狗的品種以及食品的具體類型。一旦分析出圖片中的物品，開發(fā)者就可以使用這些信息來獲取網(wǎng)絡(luò)上的文字信息。

　　Deepomatic

　　Deepomatic開發(fā)了一種服務(wù)型軟件智能搜索引擎，它能識別圖片中各種各樣的數(shù)據(jù)。Deepomatic熱衷時尚。它不僅匹配顏色，圖案和其他數(shù)據(jù)，還能識別圖片中的物品，并將它與一個全面的時尚產(chǎn)品數(shù)據(jù)庫進行匹配。

這五種人工智能技術(shù)可以識別圖片

　　Deepomatic網(wǎng)站聲稱，其技術(shù)模擬了人類大腦接收視覺信息的方式并用這種方式來理解各種概念。

　　遠大前景

　　每當想到這樣一個令人驚喜的新世界：能夠理解照片內(nèi)容的人工智能將無處不在，具有強大擴展?jié)摿η彝偈挚傻脮r，這些無限可能性就會令人嘆為觀止。

　　而且，這僅僅是一個開始。在絕大多數(shù)情況下，這項技術(shù)幾乎都能通過API，開源程序或服務(wù)化處理得以應(yīng)用實現(xiàn)，因此，我們已經(jīng)站在了未來世界的入口：圖像AI將和網(wǎng)絡(luò)搜索一樣普及，成為這個世界的一個基本特征。為了真正模擬人工智能，計算機必須有視覺，現(xiàn)在它們有了。