随着在国内热度持续上涨,大模型“群雄逐鹿”,呈现蓬勃发展态势。科技部新一代人工智能发展研究中心发布报告显示,上半年我国 10 亿参数规模以上的大模型已发布 79 个。众所周知,数据是大模型的燃料,算力是基础,但是,随着数据集规模的增大,高质量数据越来越稀缺,数据安全风险、数据合规问题也层出不穷,因此政府和企业都在积极寻找破解数据之困的方法。高质量、大规模、多样性的数据,是通用大模型和行业大模型训练提供有力的数据资源保障。
除了积极引导各类市场主体加强数据要素流动,在政府层面,数据还被列为新的生产要素,国家提出“加快培育数据要素市场”,各类利好政策频出,并通过建立国家数据局来协调推进数据基础制度建设,统筹数据资源整合共享和开发利用。在企业层面,各大公司陆续宣布对大模型展开探索,而以滴普科技为代表的湖仓一体数据智能基础软件服务商,则以湖仓一体技术为基础,通过对数据的治理、清洗、标注等服务,为大模型发展提供高质量的数据能力。
一般来说,模型建设需要数据采集、数据分析和调整、测试驱动数据迭代、重要指令添加这几大步骤,而训练大模型需要大规模、高质量、多模态的数据集,这些数据可以是文本、图像、语音、视频等多种形式,通常需要从各个领域和多个数据源收集数据。高质量训练数据越大,大模型的推理能力越强,而人工智能的基础是先要解决数据分析,才有可能成为高质量的模型,因此高质量数据成为大模型竞争的关键要素之一。湖仓一体作为一种新型的技术架构,为解决数据高质量问题提供了可能性。
作为“Data+AI”数据智能领域的领先实践者,滴普科技十分重视数据智能技术的创新价值,积极在AI大模型领域进行产品创新及企业服务领域大模型产业落地实践,构建了数据基础设施+数据治理的产品服务模式,为大模型产业提供数据底层基础设施建设。比如,在做好数据管理方面,滴普科技实时湖仓平台FastData采用存算分离架构,提供多种数据类型的统一存储能力,具备数据入湖、实时计算、即席分析、湖仓管理、统一元数据管理等核心功能,能够实现PB级多模数据存储与处理,并支持分布式多级数据湖,具备统一的多租户权限和安全管控机制,支持流批一体数据处理、数据分析、数据科学等多工作负载。特别是对于大模型存在的多个数据源集成带来的数据错误、重复内容,FastData可以覆盖数据资产化全流程进行质量监管和检验,通过数据治理体系建设,帮助企业沉淀标准的专业服务和数据资产分析场景库,保证数据口径的一致性,提升数据资产的完整性、准确性、一致性。
大模型已经成为大数据价值变现的重要方式之一,也给我国数字化转型带来了全新契机。当前我国大模型产业发展在数据方面是有优势的,在算力方面是有基础的,但更重要的是充分利用企业私域数据激发中文大模型的潜在价值,以滴普科技为代表的拥有领先行业的成熟数据清洗和标注团队的企业和平台,将积极推动中文高质量数据的汇聚与清洗,打好数据基础,发展多模态,才能发挥出理想效果。