一個數據產品的交易歷程(一線調查·擴內需 暢循環)
北數所所在的國際大數據交易產業園區外景。 |
在北京經濟技術開發區,一輛“主駕無人、副駕配備安全員”的無人駕駛車正在行駛中。 |
數據,作為一種新型生產要素,已快速融入生產、分配、流通、消費等各個環節。
黨的二十大報告提出,構建全國統一大市場,深化要素市場化改革,建設高標準市場體系。今年6月,習近平總書記在主持中央全面深化改革委員會第二十六次會議時強調:“促進數據高效流通使用、賦能實體經濟,統籌推進數據產權、流通交易、收益分配、安全治理,加快構建數據基礎制度體系。”
數據交易是構建數據要素市場的關鍵一環。今年2月至7月,通過北京國際大數據交易所(以下簡稱“北數所”),北京海天瑞聲科技股份有限公司和禾多科技(北京)有限公司完成了一筆人工智能算法訓練數據產品交易。一個數據產品從采集、處理到交易、應用的過程是怎樣的?如何探索建立合規高效的數據要素流通和交易制度?記者近日追蹤了這次數據產品交易的全程,一探究竟。
數據采集——
數據越真越全越精,越能提升人工智能“聰明”程度
打左轉向燈起步、遇到過路行人減速繞行……在北京市石景山區的首鋼園自動駕駛服務示范區內,一輛輛自動駕駛汽車可以精準識別路況,做到安全起步、行駛、落客。
“只要在手機應用程序上下單,車輛就自動開到眼前來;點擊小程序的‘開始行程’按鈕,車輛就啟動了。”北京市朝陽區居民王女士對自動駕駛技術既贊嘆不已,也十分好奇,“這左拐右拐、上坡下坡的,它是怎么判斷的呢?”
“自動駕駛的實現,是基于人工智能技術、先進傳感器、高精地圖等進行的技術‘大綜合’。人工智能技術就相當于自動駕駛系統的‘大腦’。”海天瑞聲是一家人工智能數據資源和服務提供商,公司副總經理李科告訴記者,為了使這個“大腦”更“聰明”,就需要運用各類數據來訓練人工智能算法,“人工智能算法做出判斷大致要經歷‘接收數據’‘總結規律’‘形成判斷’3個環節,數據樣本類型越全、精度越高、針對性越強,算法就會越聰明,自動駕駛系統的智能化水平就會越高。”
這次數據產品交易中,自動駕駛解決方案提供商禾多科技公司需要自己采集真實場景的原始數據,這些數據由海天瑞聲進行專業處理后,形成人工智能算法訓練數據,用于自動駕駛系統研發。
如何保證數據“原材料”的高質量?有效采集至關重要。
“數據采集要盡可能接近真實路況。”禾多科技副總裁戴震介紹,在近期的一次數據采集中,工程師駕車從北京市順義區出發,途經望京區域、機場高速和4個停車場,行駛路程100多公里,現場采集到了道路狀態、交通信號和標識、車輛和行人目標以及天氣環境等信息。
“多位專業工程師駕駛數據采集車,車上安裝了雷達、攝像頭和傳感器用以收集數據。采集到的數據經過合規處理,會被記錄在車載硬盤內,之后通過網絡閉環上傳至數據處理系統,為下一步的篩選、標注做好準備。”戴震說。
據介紹,海天瑞聲與禾多科技今年完成交易的數據產品,其中許多涉及停車場景。“為人工智能算法提供的訓練數據,針對性越強,越有助于提升其在特定方面的智能化水平。”戴震說,有時根據客戶的需求,為了提升場景的針對性,團隊還會專門設置一些具體的情境。
“例如,為了提升自動泊車系統對三輪車這類交通工具的感知能力,我們會故意在停車場內布置一些三輪車,然后安排工程師駕車前去采集數據,再將這些數據處理后用于人工智能算法迭代。”戴震說。
數據處理——
由專業團隊協作完成,創造規??捎^的就業崗位
采集原始數據只是第一步,接下來需要技術人員對數據進行處理,讓人工智能算法可以“讀懂”這些數據。
處理數據的辦法主要是進行數據標注。“雖然我們可以在原始視頻上看出哪里是車道線、哪里是停車位,但如果不加以標注,人工智能算法是無法讀懂這些數據的。”李科說,數據標注的基本原理是將原始視頻數據分為若干幀,由技術人員運用公司自研的智能化數據處理平臺及相關標注工具在每一幀上標注出相應內容,“例如,標出汽車的位置在哪里,某個交通標志是什么意思,等等。”
在海天瑞聲公司總部,計算機視覺業務部高級項目經理秦子雄向記者現場演示了數據標注的步驟:
“我們使用這個矩形框將這輛汽車框起來,算法后期就會讀‘明白’。”
如何精確定位這輛汽車?
“那就要使用接地線這個輔助工具,先確定幾個汽車輪廓上的關鍵點,再畫出數條接地線垂直于地面,這樣就可以確定汽車輪廓投影在地面上的具體位置。”
…………
幾番操作下來,經過各種線和框“勾勾畫畫”,一幀視頻圖像標注完成。
數據標注不是一項輕松的工作,需要專業的技術團隊協作完成。“為了順利完成這次與禾多科技的交易,我帶領100多人的數據標注服務團隊工作了近5個月,標注完成了十幾萬幀的原始視頻數據。”秦子雄說,在這個過程中,需要通過培訓幫助團隊人員熟練掌握規范,還要依靠公司平臺管理團隊、追蹤工作進度、交付最終成果,“數據標注是一個既有技術含量,也需要較多人力投入的工作,下一步公司將繼續加大數據處理平臺的研發力度,提升數據標注的智能化水平。”
從宏觀層面上看,人工智能產業的快速發展催生了對數據標注服務的龐大需求?!?022人工智能基礎數據服務產業發展白皮書》顯示,2022年,我國人工智能基礎數據服務市場規模將達47.8億元,預計2025年這一數字將突破120億元。目前,許多數據服務企業在中西部地區建立了數據標注基地,為當地創造出可觀的高質量就業崗位。
數據交易——
建立數據流通信任機制,實現數據“上市有審核、采買有資質”
海天瑞聲與禾多科技能順利完成這次數據產品交易,離不開北數所的撮合與服務。
“在去年3月底北數所成立之初,我們就受邀加入了其牽頭成立的北京國際數據交易聯盟,并在去年9月至10月上線了幾款數據產品。”李科說,數據交易所在國內還屬于新生事物,海天瑞聲作為首批“嘗鮮”的企業之一,在與北數所的交流合作中,也在不斷更新對數據交易模式的認知。
“過去,我們尋找客戶主要靠廣告推廣、參與展會等方式,得一個客戶一個客戶地談,屬于‘點對點’的模式。”李科說,近一年多來,隨著買家在北數所數據交易平臺上相繼出現,企業有條件從“點對點”過渡到“點對面”模式,依靠交易平臺提供的撮合服務來獲取客戶。
北數所相關負責人郎佩佩介紹,這兩家企業都是北數所的合作伙伴。了解到海天瑞聲在數據領域的綜合實力后,禾多科技決定與其開展合作。相關數據處理產品于今年2月至7月分兩期交付完成,合同在北數所進行了備案。
除了撮合供需雙方外,北數所還要對數據交易主體、數據來源、交易產品、數據用途等進行合規審核。郎佩佩說:“北數所要研判這些人工智能訓練數據的來源是否合規,數據產品交付后的用途是否正當等。”
目前,北數所構建了由數據提供方、購買方、中介服務方和交易場所組成的北京國際數據交易聯盟,合力打造數據要素市場體系。統計顯示,北京國際數據交易聯盟已吸納大型商業銀行、電信運營商、互聯網企業、跨國機構等150多家機構或企業。“只有實現確權、流通和交易后,數據資源才會轉變成可以量化的數字資產。”北京金控集團黨委書記、董事長、北數所董事長范文仲表示,數據交易所要做的不僅是撮合交易,更應該建立一套技術、規則、機制、流程健全的數據流通信任機制,實現“上市有審核、采買有資質”的數據交易良性生態。
數據應用——
訓練人工智能算法,賦能實體經濟、提升用戶體驗
在地下車庫,上海市長寧區居民沈先生體驗了一把愛車的“記憶泊車”功能。
“開啟‘記憶泊車’功能后,我駕車從地下車庫的入口出發,先完整地進行了一遍泊車入庫。這時車輛的自動駕駛系統已經‘記住’了泊車路線。待再次出發時,車輛便由系統自動操控,按照設定的路線從車庫入口駛入車位。”沈先生說。
“記憶泊車”“跨層泊車”等高階自動駕駛功能的實現,是人工智能算法通過訓練不斷“進化”的結果。“經過幾個月的迭代升級,我們的人工智能算法在泊車等場景上的智能化水平有了較大提高。”戴震說,目前企業研發的自動泊車系統已經在廣汽集團的量產車上得到應用,將為消費者帶來更好的出行體驗。
將采集到的原始數據進行篩選、標注,把處理完成的數據用于訓練人工智能算法,最終賦能實體經濟、提升用戶體驗。業內人士表示,數據流通的這一過程折射出近年來我國數字經濟的蓬勃發展態勢,也將促進各行業更好地應用數據要素。
“當前,我國數字經濟發展成效顯著,但適應數字經濟發展的規則制度體系仍有待健全。” 浙江大學國際聯合商學院數字經濟與金融創新研究中心聯席主任盤和林說,下一步,應加快出臺數據要素基礎制度及配套政策,推進公共數據、企業數據、個人數據分類分級確權授權使用,構建數據產權、流通交易、收益分配、安全治理制度規則,統籌推進全國數據要素市場化配置改革。
培育數據要素市場逐步取得了成效。“有了這次成功交易,我們和海天瑞聲將繼續深化合作,未來雙方有望達成更大量級的合作。”戴震說。
- 下一篇:支持實體經濟,金融加力提效(銳財經)
- 上一篇:我國成世界進口貿易增長最主要動力
- 油價跌勢“崩盤”!11月24日調整后92號汽油,11月25日麥價如何?
- 點燃數字引擎!2024滬港數字經濟協同高質量發展論壇在江橋舉行
- 順豐沖刺港股IPO,10月旺季營收勁增高達241億元
- 因提供誤導性信息,聯儲證券經紀人被罰!3家券商經紀業務5天共收5張罰單
- 世界鋼鐵協會:10月全球粗鋼產量為1.512億噸 同比提高0.4%
- 臨高開展創業成果展示交流會
- “持續是一種信仰”中國太保壽險2024年藍鯨協會年度峰會圓滿召開
- 業績增速連年下降,航空工業、中國電科的供應商今日申購 | 打新早知道
- 助力中小企業加快對接資本市場,“文化+科技”行業最新政策培訓會舉辦
- 人保健康:因傭金數據不真實等被罰22萬元,年內收多張罰單