景德镇叵钢工艺品有限公司

第一經(jīng)濟(jì)網(wǎng)歡迎您!
當(dāng)前位置:首頁(yè)>金融動(dòng)態(tài) > 正文內(nèi)容

逐浪AIGC?|AI催生“數(shù)據(jù)標(biāo)注員”需求 數(shù)據(jù)質(zhì)量或釋放更多價(jià)值

南方財(cái)經(jīng)全媒體記者江月 上海報(bào)道人工智能產(chǎn)業(yè)發(fā)展催生了“新流水線工人”,時(shí)薪介于10元至30元之間,它時(shí)髦的新名字叫“數(shù)據(jù)標(biāo)注員”。

人工智能大模型給人們帶來(lái)強(qiáng)烈的智慧沖擊,令人驚嘆于它前沿的神經(jīng)網(wǎng)絡(luò)研究、精密的計(jì)算機(jī)設(shè)備和光鮮亮麗的精英人才結(jié)構(gòu)。然而,這種智慧背后還有極致枯燥的工作。


(資料圖片)

近期,南方財(cái)經(jīng)全媒體記者留意到,全國(guó)多地?cái)?shù)據(jù)標(biāo)注招聘市場(chǎng)火熱、相關(guān)創(chuàng)業(yè)模式也不斷涌現(xiàn)。提升數(shù)據(jù)質(zhì)量成為人工智能開(kāi)發(fā)商“彎道超車(chē)”的一記策略,但為相關(guān)勞動(dòng)者提升工作價(jià)值,也是長(zhǎng)遠(yuǎn)發(fā)展中不容忽視的問(wèn)題。

數(shù)據(jù)標(biāo)注市場(chǎng)需求大增

“10元-30元/小時(shí)(與項(xiàng)目難度呈正相關(guān),3D類>語(yǔ)音類>2D類>普通拉框轉(zhuǎn)寫(xiě)類、打碼類)?!?月13日,南方財(cái)經(jīng)全媒體記者在招聘App“Boss直聘”上看到一則招聘廣告中如是寫(xiě)道。在AI產(chǎn)業(yè)中,這類崗位令人聯(lián)想起電子廠的“流水線”工作。

2023年春天,市場(chǎng)的關(guān)注度被“大模型”吸走了一大半,但有一批公司正轉(zhuǎn)移到“數(shù)據(jù)端”另辟蹊徑,這是他們抓住這波AI浪潮的機(jī)遇。

算力、算法、數(shù)據(jù),是人工智能的“三駕馬車(chē)”。一位從事計(jì)算視覺(jué)的程序員告訴南方財(cái)經(jīng)全媒體記者:“對(duì)某些公司而言,算力、算法提優(yōu),遠(yuǎn)遠(yuǎn)沒(méi)有數(shù)據(jù)提優(yōu)的效益大?!?/p>

眼下,算力和算法的賽道上,頭部公司最為耀眼。無(wú)論是微軟、谷歌、OpenAI,還是華為、阿里、百度,對(duì)大模型斥下的資金成本令其他公司望塵莫及,購(gòu)買(mǎi)芯片動(dòng)輒上千萬(wàn)元,高薪聘請(qǐng)(或“挖角”)人才更不計(jì)代價(jià)。

不過(guò)變革席卷全行業(yè),“幕后英雄”也浮出水面。4月初在復(fù)旦大學(xué)舉行的一場(chǎng)研討會(huì)上,計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、MOSS系統(tǒng)負(fù)責(zé)人邱錫鵬提到,OpenAI的成功不止來(lái)自大家津津樂(lè)道的模型、微軟提供的昂貴算力,也得益于外包的專業(yè)數(shù)據(jù)清洗公司。

美國(guó)某高校數(shù)據(jù)分析碩士專業(yè)畢業(yè)生李夢(mèng)(化名)告訴南方財(cái)經(jīng)全媒體記者,她目前正在一家生物醫(yī)藥公司實(shí)習(xí),所做的工作正是優(yōu)化數(shù)據(jù)標(biāo)注程序。

“大模型依賴數(shù)據(jù)訓(xùn)練,但要先做好數(shù)據(jù)采集、清洗、標(biāo)注和質(zhì)檢?!崩顗?mèng)介紹。

數(shù)據(jù)標(biāo)注領(lǐng)域知名學(xué)術(shù)人物李飛飛,在2009年發(fā)布了ImageNet數(shù)據(jù)集的論文,激起一場(chǎng)算法競(jìng)賽。依托ImageNet海量得到標(biāo)注的圖片,算法公司展開(kāi)了圖像識(shí)別的競(jìng)賽,最低錯(cuò)誤率者獲勝。直到現(xiàn)在,很多人將ImageNet視為本輪人工智能浪潮的催化劑。

如今,數(shù)據(jù)標(biāo)注依然如此重要,且有更大需求量。人工智能在哪個(gè)行業(yè)施展拳腳,就需要哪個(gè)行業(yè)給模型大量“喂料”,這不局限于城市安防、物聯(lián)網(wǎng)、交通、生物制藥。

數(shù)據(jù)標(biāo)注的“顆粒度”也在提升。4月5日,Meta人工智能實(shí)驗(yàn)室發(fā)表了有關(guān)Segment Anything這一計(jì)算視覺(jué)模型和數(shù)據(jù)集的論文。論文中提到,需要人工標(biāo)記的圖片高達(dá)12萬(wàn)張,平均每張圖片有44個(gè)圖層,每個(gè)圖層的標(biāo)注時(shí)間需要14秒??傮w計(jì)算之下,人工標(biāo)注的時(shí)間需要20533個(gè)小時(shí)。如果聘用一個(gè)百人團(tuán)隊(duì)每天工作9個(gè)小時(shí),這需要23天。

枯燥無(wú)味的流水線工作

“如果數(shù)據(jù)量太大,一般公司會(huì)雇外包公司承擔(dān)?!崩顗?mèng)向記者指出。外包公司將數(shù)據(jù)標(biāo)注變成了算計(jì)件工分的一種工作。

按照前述Boss直聘App上的廣告,時(shí)薪價(jià)格依據(jù)工作內(nèi)容不等。時(shí)薪能達(dá)到30元檔的是指3D類工作,一般是對(duì)實(shí)際場(chǎng)景中的特定事物進(jìn)行標(biāo)注,例如對(duì)一條道路上的雷達(dá)車(chē)道線、雷達(dá)目標(biāo)拉框。接著是語(yǔ)音類,是指對(duì)音轉(zhuǎn)文、方言轉(zhuǎn)寫(xiě)、喚醒助手等進(jìn)行標(biāo)注。

2D類被認(rèn)為更簡(jiǎn)單,是指對(duì)平面圖像、文字段落進(jìn)行標(biāo)注,或者是OCR(文字識(shí)別)轉(zhuǎn)寫(xiě),例如對(duì)交通違規(guī)圖片里的人和車(chē)、紅綠燈、交通標(biāo)示進(jìn)行識(shí)別。

價(jià)格最低的打碼類,是指驗(yàn)證碼里的計(jì)算題、哪些圖片中含有火車(chē)這類工作。

“數(shù)據(jù)標(biāo)注十分枯燥無(wú)味,純體力活,每標(biāo)注200個(gè)就有一種想吐的感覺(jué)?!闭谡憬掣咝Wx研的小何對(duì)南方財(cái)經(jīng)全媒體記者表示。

以此謀生的數(shù)據(jù)標(biāo)注師,工作強(qiáng)度可能更為難忍,除了需要耐心在電腦前面坐上幾小時(shí)、耗盡眼力,可能還要面對(duì)原始數(shù)據(jù)里的限制級(jí)內(nèi)容,涉及性、暴力、仇恨言論等。

數(shù)據(jù)標(biāo)注產(chǎn)業(yè)正在持續(xù)爆發(fā)。早在2021年,人社部就發(fā)布了《人工智能訓(xùn)練師》國(guó)家職業(yè)技能標(biāo)準(zhǔn),覆蓋數(shù)據(jù)標(biāo)注員、人工智能算法測(cè)試員兩個(gè)工種,反映當(dāng)時(shí)相關(guān)產(chǎn)業(yè)已經(jīng)成勢(shì)。這份標(biāo)準(zhǔn)將人工智能訓(xùn)練師分為5個(gè)等級(jí),從初級(jí)工到高級(jí)技師。

數(shù)據(jù)標(biāo)注看似“無(wú)腦”,但卻因?qū)嶋H落地需要而需要嚴(yán)謹(jǐn)?shù)墓ぷ鲬B(tài)度。比方說(shuō),如果對(duì)自動(dòng)駕駛領(lǐng)域的標(biāo)注缺乏質(zhì)量把控,那么相關(guān)軟件就無(wú)法令汽車(chē)安全地行駛在道路上。

然而,圍繞著數(shù)據(jù)標(biāo)注員的低薪、長(zhǎng)期伏案、內(nèi)容重復(fù)和精神壓力,社會(huì)輿論也正圍繞著相關(guān)職業(yè)保護(hù)而發(fā)酵。如果無(wú)法改善數(shù)據(jù)標(biāo)注師的工作環(huán)境、提升價(jià)值,這種職業(yè)的長(zhǎng)久性仍令人存疑。

市場(chǎng)前景看漲

近期,南方財(cái)經(jīng)全媒體記者從數(shù)個(gè)招聘渠道了解到,從北京、上海、廣州到陜西榆林市清澗縣、“大數(shù)據(jù)之城”貴陽(yáng)市的惠水縣百鳥(niǎo)河數(shù)字小鎮(zhèn),數(shù)據(jù)標(biāo)注公司正在市場(chǎng)上急迫地發(fā)出招聘廣告。與此對(duì)應(yīng)的是,數(shù)據(jù)標(biāo)識(shí)公司本身也被視為利益潛力大增的投資標(biāo)的。

記者發(fā)現(xiàn),數(shù)據(jù)標(biāo)識(shí)行業(yè)“個(gè)體戶”正大量涌現(xiàn)。在百度貼吧上,大量項(xiàng)目正在召集所謂“團(tuán)隊(duì)”接標(biāo),從發(fā)帖內(nèi)容可以看出,只要有一個(gè)相對(duì)固定人數(shù)、固定工作時(shí)長(zhǎng)的團(tuán)隊(duì),就可以接下大公司分發(fā)下來(lái)的項(xiàng)目標(biāo)。有從業(yè)者介紹,刨去場(chǎng)地租賃、電腦和桌椅配置、每月水電費(fèi)、人工開(kāi)支,這種個(gè)體分包商賺取的是中間差價(jià)。

不過(guò),這個(gè)行業(yè)當(dāng)然也正向著規(guī)?;?、公司化的方向發(fā)展。行內(nèi)有兩種類型的公司,一種是大型互聯(lián)網(wǎng)公司的內(nèi)部部門(mén)、一種是外包公司。后者正成為資本市場(chǎng)上的“香餑餑”。

2021年登陸科創(chuàng)板的海天瑞聲,今年股價(jià)從1月初的60元水平一度暴漲至超過(guò)200元。該公司從事語(yǔ)音識(shí)別、語(yǔ)音合成、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等數(shù)據(jù)集技術(shù)開(kāi)發(fā)。2022年,該公司收入達(dá)到2.63億元,和2021年相比僅增長(zhǎng)27.3%,凈利潤(rùn)則微跌6.56%至2953萬(wàn)元。盡管如此,按照4月12日收盤(pán)價(jià)每股187元計(jì)算,該公司市值已經(jīng)達(dá)到80億元,動(dòng)態(tài)市盈率為326倍。

未上市的公司也獲得了更多的資本青睞。2022年12月,星塵數(shù)據(jù)完成A輪融資5000萬(wàn)元,相距上一次2018年6月獲得融資已經(jīng)時(shí)隔4年半。這也反映,資本市場(chǎng)可能正重新關(guān)注這個(gè)新興領(lǐng)域。

“由于‘廉價(jià)勞動(dòng)力’常常是數(shù)據(jù)標(biāo)注公司的招牌,致使其無(wú)法獲得足夠的重視。”星塵數(shù)據(jù)在其官方一篇新聞稿中這樣寫(xiě)道。該公司稱,正通過(guò)自動(dòng)化來(lái)提升標(biāo)注效率。

人工智能的飛輪滾動(dòng),數(shù)據(jù)還在海量增長(zhǎng)。數(shù)據(jù)公司Exploding Topics的數(shù)據(jù)顯示,2023年全球新增數(shù)據(jù)或?qū)⑦_(dá)到120ZB,2025年近一步達(dá)到181ZB。其中,美國(guó)、德國(guó)、英國(guó)、中國(guó)是排名前四的數(shù)據(jù)產(chǎn)生大國(guó)。

不過(guò),業(yè)內(nèi)正在爭(zhēng)議“以數(shù)據(jù)為中心的人工智能”是否將取代“以模型為中心的人工智能”。知名人工智能學(xué)者吳恩達(dá)(Andrew Ng)是前一論點(diǎn)的持有者,他曾多次強(qiáng)調(diào),有標(biāo)注的高質(zhì)量數(shù)據(jù)才能釋放人工智能的價(jià)值,如果業(yè)界將更多精力放在數(shù)據(jù)質(zhì)量上,人工智能的發(fā)展會(huì)更快。

基于原始數(shù)據(jù)增長(zhǎng)而產(chǎn)生的數(shù)據(jù)標(biāo)注,因此也仍繼續(xù)擴(kuò)大,并將市場(chǎng)需求而價(jià)值波動(dòng)。華經(jīng)產(chǎn)業(yè)研究院在近期的一份報(bào)告中預(yù)測(cè),到2029年中國(guó)數(shù)據(jù)標(biāo)注市場(chǎng)規(guī)模將達(dá)到204.3億元。這和2019年的43.3億元相比,增長(zhǎng)了大約3.7倍。

數(shù)據(jù)標(biāo)注行業(yè)能否在未來(lái)去除“人力工廠”的標(biāo)簽,又將如何用自動(dòng)化和技術(shù)手段提升數(shù)據(jù)策略、融入AI更高階的發(fā)展浪潮中?人們拭目以待。

關(guān)鍵詞:

標(biāo)簽閱讀


}
新田县| 青海省| 乃东县| 吴忠市| 香格里拉县| 图们市| 胶南市| 镇安县| 皮山县| 迁安市| 台中县| 昌宁县| 邵武市| 溧阳市| 志丹县| 托里县| 仙桃市| 大田县| 新干县| 太保市| 讷河市| 辉南县| 肥西县| 屯留县| 离岛区| 武宁县| 斗六市| 龙海市| 阳东县| 横峰县| 崇信县| 重庆市| 修水县| 沐川县| 新建县| 株洲县| 历史| 许昌县| 丰台区| 泸西县| 翁牛特旗|