數據采集標注:人工智能產業落地的「至強」后盾:社群媒體廣告

時間:2023-11-24 04:02:12 作者:社群媒體廣告 熱度:社群媒體廣告
社群媒體廣告描述::數據采集標注:人工智能產業落地的「至強」后盾 來源 / ToB行業頭條(ID:wwwqifu) 作者 / 李曉松 · 編輯 / Jenny 這兩年,人工智能越來越火。 大到機場、火車站、商超、街道上的人臉識別設備;小到我們手機APP的各種算法,以及Siri、小度、小愛等語音助手,都與人工智能相關。 雖然人工智能應用的越來越普及,可我們還是會經常遇到APP推送不精準,語音助手像個“傻瓜”,人臉識別系統頻繁出烏龍等現象…… 烏龍鬧劇:董明珠“闖紅燈”。實際是公交巴士貼著董明珠頭像,剛好被攝像頭拍到,人工智能系統誤以為是董明珠闖了紅燈。 我們暢想的人工智能,是科幻電影中能夠“想我所想”的人工智能。可我們面對的人工智能,卻是頻繁出錯,甚至是難以落地的人工智能。 那么,面對這些問題,我們要如何解決?我們又要做哪些努力,才能讓人工智能更加精準呢? 01 制約人工智能發展的要素 總有朋友認為,人工智能不準是因為訓練人工智能的數據不準。其實,這個觀點說對也對,但也并非全對。 數據確實是制約人工智能發展的重要一環。可制約人工智能發展的要素并不只有數據,算法、算力也是極其重要的因素。 如果以一輛汽車來比喻,算法是汽車的設計理念,算力更像是汽車的發動機,而數據則是驅動騎車前行的燃料。 光有燃料,沒有好的發動機和設計,汽車自然跑不快。同樣,光有發動機,沒有燃料,汽車也無法不動。 按理說,三位一體的協同發展肯定是最好的。可當前人工智能公司的現狀卻是:很多公司已經具備了先進的算法和優質的硬件,產品不能落地還真是燃料的問題。 Testin有數總經理賈宇航在接受ToB行業頭條(ID:wwwqifu)采訪時表示: “人工智能時代到來以后,越來越多的產品、APP、硬件成為人工智能落地的載體。在人工智能落地的過程中,很多企業受制于數據難題,在產品迭代、升級的過程中遇到了較大阻力。” 而關于人工智能企業面對的數據難題,賈宇航重點提到了兩個: 很多人工智能企業沒有數據或可用的數據實在太少。這些企業在數據采集環節,就遇到了大問題。 很多人工智能公司好不容易采集到了大量數據,卻無法將數據標注精準,也找不到可靠的、擁有相關經驗的人來標注。總要面臨數據如何篩選、如何使用的難題。 那么,針對這些問題,人工智能企業又該怎么辦呢?是否有一種辦法,能夠幫助人工智能企業解決當前的數據難題呢? 02 數據要如何采集、如何用? 其實打從人工智能出現的那一天起,數據采集、標注等問題,就得到了諸多廠商的重視。 早在2005年,亞馬遜就建立了Mechanical Turk論壇,希望通過眾包模式,解決人工智能公司的數據處理需求。 但隨著人工智能的逐步發展,AI落地已經成為行業發展的一大重要階段,相應的數據服務也邁向了場景化以及精細化時代。 賈宇航介紹稱,Testin有數目前主攻自動駕駛、銀行、保險和安防領域,為其提供定制化的數據采集、標注服務,全方位支持文本、語音、圖像、視頻等各類型數據的處理。 “比如自動駕駛廠商需要采集司機的疲勞狀況,卻很難把設備安裝到大街上的車里面。因為這樣采集到的數據不僅不標準,還會涉及司乘人員的隱私問題。 但Testin有數卻可以根據客戶需求,在數據采集中心搭建模擬場景,利用專業的備采人群和軟硬件設備,采集豐富的樣本信息,滿足客戶的多種需求。” Testin有數定制化采集場景示意圖 作為AI數據服務行業的領航品牌,Testin有數擁有自建的數據基地體系,所有標注員統一管理,規范生產,能夠在保證數據準確率的同時,有效保證標注作業的信息流轉。 Testin有數還開發了自研標注平臺,支持標注類型定制化開發,讓標注類型功能更為全面,保證標準化業務可以高效運行。 Testin有數標注平臺示意圖 當前,國內很多數據標注公司,還是典型的勞動密集型企業。這些企業為了節省人力成本,還在使用培訓半天即可上崗的臨時工,做的也是數據標注行業最簡單的事情。 可Testin有數很早就看到了傳統模式的弊端,早已通過采集基地的建立、標注平臺的搭建和職前60天的優質培訓,擺脫了標注行業的低端同質化競爭,實現了技能密集型企業的轉型。 賈宇航始終認為:“勞動密集型的數據服務,過于依賴勞動力,企業天花板較為明顯。這類企業對數據平臺的建設不夠重視,從業人員培訓時間較短,數據標注的質量一般。 或許腰部公司會因為成本等原因,選擇這類公司的服務,可頭部公司一定會選擇優質的數據標注廠商。因為只有優質的數據才能催生優質的人工智能,這是行業發展的基本規律。” 03 高質、精準的數據 才是行業的未來 一個行業的成熟,一定離不開行業內成熟企業的推動。人工智能企業要想快速發展,必然離不開數據采集、標注行業的整體進步。 多年以前,我們經常會看到知名人工智能公司把數據采集、標注的服務外包給非洲公司,甚至有媒體在探訪非洲數據標注工廠后感嘆:“貧民為硅谷人工智能打工賺錢。” 其實,數據標注工廠建立在非洲等欠發達地區,就是為了獲取廉價勞動力。正因如此,數據服務也被外界認作是人工智能金字塔上最底層的工作。 可金字塔的最底層,雖然不像塔尖那樣耀眼,可底層卻是體積最大、也是支撐金字塔屹立不倒的堅實根基。 在人工智能企業草莽生長的階段,地基不牢的企業尚可借力發展。可當企業成長的越來越快,企業搭建的數字化尖塔越來越高,根基是否牢靠直接決定了企業的發展上限。 這也是為什么,從一開始Testin有數就對標注人員培訓、對標注中心搭建、對數據采集平臺開發極為上心的重要原因。 因為賈宇航始終相信,高質、精準的數據才是行業的未來。“當一般的數據公司還在爭奪地上的‘六便士’時,Testin有數已經奔往了天上的‘月亮’。” 目前,Testin有數已經在華東、華北、華南設有數據交付中心和數據采集、標注基地,并成功為數百家企業提供AI數據服務。 與之相證的是,國內相關調研報告的結論也一片向好,數據標注行業正在穩步上行。 據艾瑞咨詢最新報告顯示,2018年中國人工智能基礎數據服務市場規模為25.86億元,其中數據資源定制服務占比86.2%,行業年復合增長率為23.5%,預計2025年市場規模將突破110億元。 這一片蒸蒸日上的勢頭,不僅源于飛速發展的人工智能公司帶來了大量需求,同樣也離不開Testin有數這些默默耕耘的數據服務廠商,持續為人工智能行業提供著燃料。 確實,當前的人工智能還存在“不準”的現象,可我們卻能看到,幾年前,阿爾法狗在圍棋領域完爆人類。而就在過去幾個月內,此前發展了20多年都沒被大眾了解的RPA也突然火了。 為什么阿爾法狗能擊敗人類?為什么RPA突然爆火?這必然離不開人工智能算法的更新演進。可在技術成熟的背后,像Testin有數這樣提供數據采集、標注服務的廠商也是功不可沒。 正是數據采集與標注的成熟、精準,才能訓練出阿爾法狗的精準算法。正是數據行業的不斷積累,才讓OCR、NLP等人工智能技術在今年變得成熟,從而推火了沉寂已久的RPA。 誠然,人工智能的前路還無盡漫長,但從以Testin有數為首的數據采集、標注廠商的發展方向來看,我們已經看到了行業未來的藍圖。
站長聲明:以上關於【數據采集標注:人工智能產業落地的「至強」后盾-社群媒體廣告】的內容是由各互聯網用戶貢獻並自行上傳的,我們新聞網站並不擁有所有權的故也不會承擔相關法律責任。如您發現具有涉嫌版權及其它版權的內容,歡迎發送至:1@qq.com 進行相關的舉報,本站人員會在2~3個工作日內親自聯繫您,一經查實我們將立刻刪除相關的涉嫌侵權內容。