數據有多重要?高質量的數據直接決定了一家人工智能公司的競爭力。數據量越多,質量越高,其算法模型的效果自然就越好,產品體驗、商業落地也水到渠成。那么這些數據從何而來?可以通過微博知乎抓取,也可以通過大學或者研究機構獲取公開數據,然而這樣的數據量并不能夠滿足AI公司的需求,并且,這些數據也不能直接應用到AI技術中。由此,催生了AI數據服務行業,本文采訪的對象——龍貓數據CEO昝智,正是從事這一領域。
昝智曾先后擔任豌豆莢商業產品負責人、百度聯盟產品經理,離職后聯合原豌豆莢游戲頻道技術負責人姚毅創辦龍貓數據,并于今年11月7日完成金沙江創投領投的3370萬元A輪融資。龍貓數據的核心業務是為AI及大數據公司提供數據采集、標記等定制化的數據服務,涉及文本、語音、圖像、視頻四個領域。其數據服務業務主要依托眾包平臺——龍貓眾包來完成。據昝智介紹,龍貓眾包包括移動端和PC端兩種形式,其用戶量級已經達到百萬,在經過線上培訓和考試后,便有資格接受任務。
“客戶要什么就生產什么,相當于有很多人的數據工廠”,昝智表示,龍貓數據偏向于眾包模式,是一個集中在數據服務領域的數據生產商。其客戶主要分為兩類,一類是百度、騰訊等大客戶;另一類是AI創業公司。對于百度等公司來說,雖然在某些方面擁有龐大的數據量,但是這些非機構化的數據并不能夠應用到AI技術中,例如人臉識別和語音識別需要的都是結構化的數據。而對于初創公司來說,在A輪融資之前,不會有很強的數據購買需求,他們可以直接使用ImageNet或者國外大學的公開數據來訓練自己的模型,因此龍貓數據主要針對的是B輪到D輪之間的創業公司。
談及行業競爭,昝智坦言在數據服務領域的競爭并沒有同是AI上游的芯片領域那樣激烈。其原因有三,首先,大部分AI領域的創業者,更希望在算法與技術上取得突破,愿意從互聯網產品上出發去提供服務的人很少。并且,對于這樣勞動密集型的產業,投資人也更為謹慎,因此入局人較少。
第二,做數據服務,要同時保證質量和效率,其內部多種機制的建立并非一朝一夕就可以完成。昝智介紹,龍貓眾包平臺上的用戶,都是需要經過線上培訓和考試才有資格接受任務的,并且,用戶標記后的數據會經過百分之百的審核,審核后還會進行抽審。例如對于圖片標點,會有不同用戶對同一張圖片進行標注,并對有差異的位置進行交叉驗證。
在提效方面,龍貓數據選擇與客戶聯手解決。例如,人臉識別領域的用戶本身就會有一定的算法基礎,這時龍貓數據會引用部分客戶的能力對數據進行判斷和檢查,同時客戶還可以幫助龍貓進行初步檢測以及標記的預處理,這樣做既可以提高龍貓數據的效率,還可以降低客戶成本,是一種雙方都樂于接受的方式。
第三,數據獲取較難。通常的數據服務公司會通過渠道或者地推的方式購買數據,然而當數據樣本增加(超過10萬),時間成本就會變得相當大。另一種獲取數據的方法,就是龍貓數據所使用的“眾包”,然而這種方法會引出另外一個難點,既互聯網產品思維。
第四,互聯網產品思維。眾包平臺通常是以APP的方式連接用戶,然而單純的APP并不能構成轉化壁壘,這時就需要足夠的運營技巧,吸引用戶接受任務,以及邀請好友成為新用戶。昝智表示,創始人的工作背景會影響該公司的做事風格,龍貓數據的CEO和CTO都曾就職于流量入口公司,有良好的互聯網產品思維和粉絲運營技巧。
基于以上四點,數據服務領域里競爭并不是十分嚴峻,昝智表示,“各公司需要一起將產業鏈做起來,現在還不是要搶市場的時候。”