昨天,2024世界智能產(chǎn)業(yè)博覽會(huì)召開(kāi)首日,市數(shù)據(jù)局在國(guó)家會(huì)展中心(天津)舉辦我市第一批行業(yè)高質(zhì)量數(shù)據(jù)集發(fā)布活動(dòng),37家單位的80個(gè)行業(yè)高質(zhì)量數(shù)據(jù)集公開(kāi)發(fā)布。市科技局、市工業(yè)和信息化局、市國(guó)資委等市有關(guān)部門以及各區(qū)數(shù)據(jù)主管部門、行業(yè)數(shù)據(jù)集建設(shè)單位、人工智能產(chǎn)業(yè)重點(diǎn)企業(yè)、高校和科研機(jī)構(gòu)等60多家單位參加。
高質(zhì)量數(shù)據(jù)集是人工智能模型訓(xùn)練、推理和驗(yàn)證的關(guān)鍵基礎(chǔ),是按照特定標(biāo)準(zhǔn),依次開(kāi)展數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)歸類和數(shù)據(jù)標(biāo)注等智能化處理,并具備更新和維護(hù)機(jī)制的數(shù)據(jù)集合。我市首批發(fā)布的數(shù)據(jù)集涵蓋工業(yè)制造、交通運(yùn)輸、科技創(chuàng)新、文化旅游、醫(yī)療健康、城市治理等12個(gè)重點(diǎn)領(lǐng)域,類型包含文本、圖片、音頻、視頻等多種模態(tài)。其中,中國(guó)手語(yǔ)多模態(tài)數(shù)據(jù)集、“海河·諦聽(tīng)”言語(yǔ)多模態(tài)數(shù)據(jù)集、基于隱私計(jì)算技術(shù)政務(wù)流通數(shù)據(jù)集、恒達(dá)文博文旅·科普基礎(chǔ)數(shù)據(jù)集等69個(gè)數(shù)據(jù)集為國(guó)內(nèi)首次公開(kāi)發(fā)布;14個(gè)數(shù)據(jù)集已應(yīng)用支撐“數(shù)智本草”中醫(yī)藥研發(fā)大模型、“海河·諦聽(tīng)”言語(yǔ)交互大模型、“海河·爾語(yǔ)”聾人手語(yǔ)理解大模型、蜜度文修大模型等津產(chǎn)自研大模型,充分展示了我市在重點(diǎn)領(lǐng)域行業(yè)數(shù)據(jù)集建設(shè)的特色和成果。
此次發(fā)布的數(shù)據(jù)集數(shù)據(jù)應(yīng)用價(jià)值高,智能汽車駕駛場(chǎng)景庫(kù)數(shù)據(jù)集旨在建成國(guó)內(nèi)分類最齊全、格式最標(biāo)準(zhǔn)、內(nèi)容最豐富的面向智能網(wǎng)聯(lián)汽車研發(fā)測(cè)試的場(chǎng)景數(shù)據(jù)庫(kù),已支持國(guó)際標(biāo)準(zhǔn)、國(guó)家標(biāo)準(zhǔn)制定。恒達(dá)文博文旅·科普基礎(chǔ)數(shù)據(jù)集規(guī)模超300TB,具有5種以上模態(tài)數(shù)據(jù),已支撐訓(xùn)練了基于ChatGLM等先進(jìn)架構(gòu)的大語(yǔ)言模型,并應(yīng)用于圖像識(shí)別、古文字識(shí)別、文物病害識(shí)別等專用模型。
市數(shù)據(jù)局相關(guān)負(fù)責(zé)人表示,下一步,天津市將依托產(chǎn)業(yè)、科技、人才等優(yōu)勢(shì),持續(xù)支持鼓勵(lì)行業(yè)企業(yè)、數(shù)商和社會(huì)資本,整合通用、政用、商用數(shù)據(jù)資源,加速提升數(shù)據(jù)供給能力,開(kāi)發(fā)更多細(xì)分領(lǐng)域行業(yè)數(shù)據(jù)集。同時(shí),開(kāi)展數(shù)據(jù)標(biāo)注基地建設(shè),推進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)生態(tài)構(gòu)建、能力提升和場(chǎng)景應(yīng)用,推動(dòng)打造國(guó)家級(jí)試點(diǎn)項(xiàng)目,加快行業(yè)高質(zhì)量數(shù)據(jù)集發(fā)展,催生新產(chǎn)業(yè)、新模式。(津云新聞編輯孫暢)