在人工智能領域有一句箴言:有多少人工就有多少智能。據(jù)估計,在中國有約千萬名“人類專家”在給人工智能喂數(shù)據(jù)。
近期,隨著人工智能的大火,全國多地數(shù)據(jù)標注招聘市場火熱、相關創(chuàng)業(yè)模式也不斷涌現(xiàn),提升數(shù)據(jù)質量成為人工智能開發(fā)商“彎道超車”的最新策略。
(資料圖)
早在2021年,人社部就發(fā)布了《人工智能訓練師》國家職業(yè)技能標準,覆蓋數(shù)據(jù)標注員、人工智能算法測試員兩個工種,可見當時相關產業(yè)已經(jīng)成勢。這份標準將人工智能訓練師分為5個等級,從初級工到高級技師。
據(jù)了解,數(shù)據(jù)標注員每天的工作就是通過打標簽的方式,輔助人工智能學習,可以說數(shù)據(jù)標注師就是人工智能背后的“人工”。
位于濟南市明水國家經(jīng)濟開發(fā)區(qū)百度智能云(山東)人工智能基礎數(shù)據(jù)產業(yè)基地,是百度在全國布局的第二家、山東布局的第一家數(shù)據(jù)標注基地,目前已經(jīng)容納了1500名“人工智能訓練師”。
人工智能訓練師成就業(yè)新方向
中國工程院院士鄔賀銓曾對人工智能訓練師做過解釋,他表示:“比如AI訓練師會進行智能駕駛的訓練。智能駕駛中需要讓汽車自動識別馬路,但如果只是將視頻單純地傳給計算機,計算機無法識別,需要人工在視頻中將道路框出,再交由計算機,計算機多次接受此類信息后,才能逐漸學會在視頻和照片中識別出道路?!?/p>
自動駕駛是數(shù)據(jù)服務需求最大的行業(yè)之一,還需要大量的標注數(shù)據(jù)對模型進行訓練和調優(yōu)。同時,除了“聰明的車”,自動駕駛同樣需要“智慧的路”,通過車路協(xié)同的共同數(shù)據(jù)訓練,才能實現(xiàn)降本增效。因此,專業(yè)、高質量的數(shù)據(jù)才能夠保證自動駕駛的精準和安全。
實際上,現(xiàn)在人們生活中常見的小度智能屏、小愛同學、天貓精靈等智能產品背后,都有AI訓練師的身影。
就像從零搭建一座結構精密的建筑,每個AI的成長都會經(jīng)歷人工訓練的過程。導航語音的生成,智能音箱的應答,人臉支付,動作捕捉……在業(yè)界有一種說法,數(shù)據(jù)標注員是“人工智能的老師”,是他們日復一日地拉框,教會了人工智能理解人類世界。
現(xiàn)在,你去問ChatGpt,它也會“親口”承認,“在我的訓練過程中,開發(fā)者們還使用了一些人工標注的數(shù)據(jù)集,以幫助我識別語言中的關鍵概念和語法規(guī)則。這些數(shù)據(jù)集通常由人類專家進行標注,包括注釋句子結構、命名實體識別和情感分析等等。這些標注數(shù)據(jù)可以幫助我更好地理解自然語言,并使我更準確地執(zhí)行我的任務?!?/p>
人工智能的主流方向是深度學習
人工智能的三大基石是數(shù)據(jù)、算力與算法,數(shù)量越多質量越高的數(shù)據(jù),往往越能夠訓練出更“聰明”的模型。
人工智能的主流方向是深度學習。在過去,由人來告訴機器,貓身上都有哪些特征,機器根據(jù)這些特征判斷一個物體是不是貓;深度學習則是通過“喂養(yǎng)”大量不同貓的圖片,機器就能自行歸納出貓的特征。這就需要大量經(jīng)人工標注的圖片,有多少智能,就得付出多少人工。
數(shù)據(jù)標注領域有過一個神話——ImageNet項目。這個項目數(shù)據(jù)庫擁有超過1400萬張已被標注的圖片,其中識別出的物體種類超過20000種——包括120個不同品種的狗。
人工智能的發(fā)展離不開數(shù)據(jù)標注
“人工智能的發(fā)展離不開數(shù)據(jù)標注,沒有數(shù)據(jù)標注,就沒有人工智能。沒有數(shù)據(jù)標注,就沒有無人駕駛、刷臉支付、阿爾法狗、智能音箱?!焙幽仙糖鹉彻菊衅笍V告上這樣寫著。
濟南也有不少公司發(fā)布關于數(shù)據(jù)標注員的招聘需求,其中的招聘薪資為每月3-5千元或4-9千元不等。圖片來源:網(wǎng)絡
海報新聞記者在瀏覽某招聘平臺時,發(fā)現(xiàn)在濟南也有不少公司發(fā)布關于數(shù)據(jù)標注員的招聘需求,其中的招聘薪資為每月3-5千元或4-9千元不等。招聘要求的學歷多為大專以上學歷,專業(yè)不限。在AI產業(yè)中,這類崗位令人聯(lián)想起電子廠的“流水線”工作。
有個別公司還在招聘需求里寫了職業(yè)培養(yǎng)方向:數(shù)據(jù)標注師—數(shù)據(jù)質檢師—項目培訓師—項目主管—項目經(jīng)理。
記者發(fā)現(xiàn),除了較大規(guī)模的數(shù)據(jù)標注產業(yè)基地,數(shù)據(jù)標識行業(yè)“個體戶”正大量涌現(xiàn)。在百度貼吧上,大量項目正在召集所謂“團隊”接標,從發(fā)帖內容可以看出,只要有一個相對固定人數(shù)、固定工作時長的團隊,就可以接下大公司分發(fā)下來的項目標。
“如果數(shù)據(jù)量太大,一般公司會雇外包公司承擔?!庇袕臉I(yè)人員告訴記者。外包公司將數(shù)據(jù)標注變成了算計件工分的一種工作。有從業(yè)者介紹,刨去場地租賃、電腦和桌椅配置、每月水電費、人工開支,這種個體分包商賺取的是中間差價。
不過,這個行業(yè)當然也正向著規(guī)?;⒐净姆较虬l(fā)展。行內有兩種類型的公司,一種是大型互聯(lián)網(wǎng)公司的內部部門、一種是外包公司。后者正成為資本市場上的“香餑餑”。
數(shù)據(jù)標注時薪取決于工作內容
按照招聘平臺上的信息,人工智能訓練師是依據(jù)工作內容來定時薪價格。時薪能達到30元檔的是指3D類工作,一般是對實際場景中的特定事物進行標注,例如對一條道路上的雷達車道線、雷達目標拉框。接著是語音類,是指對音轉文、方言轉寫、喚醒助手等進行標注。
2D類被認為更簡單,是指對平面圖像、文字段落進行標注,或者是OCR(文字識別)轉寫,例如對交通違規(guī)圖片里的人和車、紅綠燈、交通標示進行識別。
價格最低的打碼類,是指驗證碼里的計算題、哪些圖片中含有火車這類工作。
據(jù)iResearch數(shù)據(jù),2019年我國數(shù)據(jù)標注市場規(guī)模為30.9億元,預計2025年市場規(guī)模突破100億元,年復合增長率達到14.6%。圖片來源:第一財經(jīng)
“數(shù)據(jù)標注十分枯燥無味,純體力活,每標注200個就有一種想吐的感覺?!闭谡憬掣咝Wx研的小何對記者表示。
以此謀生的數(shù)據(jù)標注師,工作強度可能更為難忍,除了需要耐心在電腦前面坐上幾小時、耗盡眼力,可能還要面對原始數(shù)據(jù)里的限制級內容,涉及性、暴力、仇恨言論等。
適合低學歷等人群就業(yè)
在2021年版的《人工智能訓練師國家職業(yè)技能標準》中,對該職業(yè)的能力特征描述是“具有一定的學習能力、表達能力、計算能力;空間感、色覺正?!保毡槭芙逃潭葘懙氖恰俺踔挟厴I(yè)”。言外之意,這是一份門檻不太高的職業(yè)。
數(shù)據(jù)標注產業(yè)促進了不少城鎮(zhèn)和農村就業(yè),在河南、河北、貴州等地,還出現(xiàn)了一些特色的“數(shù)據(jù)標注村”。
“95后”張文濤來自陜西省銅川市宜君縣,在做人工智能訓練師之前,他只去過一次縣城。14歲那年,他因為意外造成了腰椎粉碎性骨折,后來去縣城辦了殘疾證。
直到2021年4月,26歲的張文濤進入宜君縣數(shù)字就業(yè)中心,成了一名人工智能訓練師,這是張文濤第二次來到宜君縣城。
人工智能訓練師通過對大量文本、圖片、語音、視頻等數(shù)據(jù)進行歸類、整理、糾錯和批注等,讓機器人因為大量數(shù)據(jù)的訓練而變得越來越精準,相當于機器人的“教練”。
張文濤的工作是給高德地圖做數(shù)據(jù)標注,從此,每天上億人在用的這款地圖導航APP,背后有了張文濤的貢獻。因為腿腳不便很少出門,不能像普通人一樣去很多城市和景點,所以他把這項工作看成是自己在線上的“旅游”。
人工智能訓練師看上去是人工智能領域一個“入門”工種:技術門檻低,招工人群范圍廣泛。他們通過每天數(shù)千次的重復動作,和最前沿科技的人工智能產生聯(lián)系。也因此,外界給這個行業(yè)貼上了“AI富士康”的標簽。
然而,圍繞著人工智能訓練師的低薪、長期伏案、內容重復和精神壓力,社會輿論也正圍繞著相關職業(yè)保護而發(fā)酵。如果無法改善其工作環(huán)境、提升價值,這種職業(yè)的長久性仍令人存疑。
人工智能發(fā)展或取代數(shù)據(jù)標注師
為了訓練人工智能,數(shù)據(jù)標注行業(yè)帶來了技術紅利,但如果人工智能發(fā)展到一定程度,甚至有可能夠取代數(shù)據(jù)標注師的工作。
數(shù)據(jù)標注看似“無腦”,但卻因實際落地需要而需要嚴謹?shù)墓ぷ鲬B(tài)度。比方說,如果對自動駕駛領域的數(shù)據(jù)標注缺乏質量把控,那么相關軟件就無法令汽車安全地行駛在道路上。
隨著GPT-4和文心一言的陸續(xù)出場,人工智能正“升級換代”,數(shù)據(jù)標注行業(yè)也伴隨著新的變化。
目前的人工智能訓練,大家更多地聚焦在數(shù)據(jù)加工這件事,但如果再往前看,更多的是數(shù)據(jù)的優(yōu)化、還有一些相關的解決方案。數(shù)據(jù)標注是一個很好的行業(yè)入門工種,作為從業(yè)人員有機會更深度參與到產業(yè)鏈協(xié)作當中,例如后續(xù)當數(shù)據(jù)標注越來越機器化,人工和自動化之間要有機的協(xié)同,這也對員工提出了更高的要求。
但是也有不少學者對此表示樂觀,當數(shù)據(jù)標注越來越機器化,人工智能訓練師是一個轉換工種的機會,標注員們現(xiàn)在標注數(shù)據(jù),未來可能向數(shù)據(jù)治理、數(shù)據(jù)解決方案設計和項目管理等方向發(fā)展。
“得數(shù)據(jù)者,得人工智能”。未來,隨著AI應用場景逐漸多領域化,在行業(yè)內部,人工智能訓練從業(yè)者也必將隨著AI行業(yè)而一同進入細分市場追逐階段,將迎來的是機遇與挑戰(zhàn)并行。
(文章來源:大眾網(wǎng))
標簽: