大模型“画龙”,小数据“点睛” 企业加快智能化转型
小数据、优质数据应用有其前提,即需要在大的基础模型(预训练模型)之上,通过小数据进行模型的微调,使模型更加精准地服务具体应用场景。从这个角度来讲,小数据将在未来基础模型完成下游任务时,起到关键的作用。
王金桥
中国科学院自动化研究所研究员
如今大数据已经成为人工智能的“标配”。在训练人工智能模型的过程中,如果想让其变得更加聪明,大量的、多样性的数据必不可少。但近日,著名人工智能学者吴恩达在展望人工智能下一个10年的发展方向时,表达了不同的观点。他认为,小数据、优质数据的应用或是未来趋势。
中国科学院自动化研究所研究员王金桥表示,小数据、优质数据应用有其前提,即需要在大的基础模型(预训练模型)之上,通过小数据进行模型的微调,使模型更加精准地服务具体应用场景。从这个角度来讲,小数据将在未来基础模型完成下游任务时,起到关键的作用。
多数应用场景难以获取高质量大数据
算法(模型)、算力和数据可以说已经成为推动人工智能发展的三大要素,其中数据尤为重要。在众多互联消费场景中,我们常常被精准的人工智能推送“击中”。通过对消费者消费习惯、购物偏好的分析,平台系统可以对消费者的潜在需求作出判断并加以引导,而这一切的基础,是基于大量的、丰富的数据样本。利用大数据,平台构建出了适用于该领域的专用模型,实现精准推送。
这些体验或许是普通消费者对于大数据和人工智能最直接的印象之一。吴恩达在采访中也表示,在过去10年里,面向消费者的企业由于拥有大量用户群(有时甚至高达数十亿),因此获得了非常大的数据集使得人工智能可以开展深度学习,并给企业带来了不少经济效益。但他同时强调,这种法则并不适用于其他行业。其原因在于,并不是所有场景都能产生丰富的大数据样本。
实际上,“在生活中,百分之八九十场景的问题都属于小样本问题。”王金桥表示,很多应用场景中,由于训练样本难以获取,因此只有极少量数据,缺陷检测就是其中的典型案例。缺陷检测,即采用机器视觉技术等,对某种特定缺陷进行检测和识别。这种检测在航天航空、铁路交通、智能汽车等众多领域都有应用。由于在实际的生产生活中,存在瑕疵的产品总是少数,所以缺陷检测的训练样本数量很少。
而即使对于样本丰富的场景,也存在训练数据标注愈发困难的问题。王金桥介绍,目前人工智能所使用的训练数据,还是以人工标注为主,而在海量数据面前,人工标注往往需要行业经验,一般人难以对标注区域进行识别。此外,针对每个应用需求都需要人工智能专家设计算法模型,模型越多,开发成本也会持续增加。
吴恩达也表示,在消费互联网行业中,我们只需训练少数机器学习模型就能服务10亿用户。然而在制造业中,有1万家制造商就要搭建1万个定制模型。而且要做到这点往往需要大量的人工智能专家。
从目前的行业发展趋势来看,基础模型或许是解决上述问题的一个方向。
以基础模型为“基座”用小数据微调
“近些年,行业开始重视研发基础模型或者说是通用型模型来解决上述问题。”王金桥说,先用大量数据预训练一个模型。这些模型在预训练中,见多识广是首要任务。训练中,模型会见识到该领域各式各样的数据,增长见识,以应对今后出现的各种情况。之后再在下游任务中利用具体的场景数据进行微调。
如自然语言处理(NLP)领域的大模型,如果要利用它完成如对话、问答等下游任务,只需要使用这个下游任务中数量很小的数据,在这个大模型之上进行微调,就能达到不错的效果。一些研究成果也表明,只需要原来建立专属模型5%—10%的数据样本用于大模型的数据微调,就能得到和专属模型一样的精度。
“从大模型转向小模型,实现一个模型做多个任务,可以说是目前行业发展中的一个转变。”王金桥说,这样不仅降低了开发难度,还大大减少了开发成本。以前,每个算法都需要一个深度学习专家去设计和训练,现在只需要在大模型之下进行微调,模型的设计和架构也变得相对简单。中小型企业只需要在大模型上,自己上传数据就可以完成。
此外,利用这种方法,模型的误报率也会减少。基础模型见过丰富多彩的数据和场景,在处理具体任务的时候就具备了海量知识储备,有更充足的准备去应对具体的小场景应用。
不过吴恩达在访谈中也表示,预训练只是要解决难题的一小部分,更大的难题是提供一个工具让使用者能够选择正确的数据用于微调,并用一致的方式对数据进行标记。面对大数据集的应用时,开发者的通常反应都是如果数据有噪音也没关系,所有数据照单全收,算法会对其进行平均。但是,如果研究人员能够开发出用来标记出数据不一致地方的工具,为使用者提供一种非常有针对性的方法来提高数据质量,那这将是获得高性能系统的更有效的方法。
多模态或是大模型未来发展方向
基础模型作为生产众多小模型的“基座”,性能尤为重要。其认知能力越接近人类,在此之上产生的小模型性能也将越优异。
在探索外部环境的时候,人类具备视觉、听觉、触觉等多种认知手段,并通过语言对话等形式实现互动交流。其中视觉得到的信息约占70%,听觉、触觉等获得的信息约占30%。“同样,要使得大模型的性能更加优秀,更趋近人类的认知能力,就涉及到训练中的数据融合问题。”王金桥指出,我们熟知的语言生成模型GPT-3,能够生成流畅自然的文本,并完成问答、翻译、创作小说等一系列NLP任务,甚至可以进行简单的算术运算。但其和外界交互的主要方式还是进行文本交流,缺乏图像、视频等多模态融合。
每一种信息的来源或者形式,都可以称为一种模态。如人有触觉、听觉、视觉、嗅觉;信息的媒介有语音、视频、文字等。人的认知模型可以说是一个多模态的集合。
要让基础模型的预训练更接近人类的认知模型,也需要进行多模态融合。即让模型通过机器学习的方法实现处理和理解多源模态信息的能力,如图像、视频、音频、语义之间的多模态学习。多模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索。
“这一两年,大模型的数量呈现爆发式增长,且有从单一模态模型转向多模态模型的趋势。”王金桥说,具备了多模态能力的基础模型,在具体应用场景中健壮性更好,在异常和危险情况下系统的生存能力更强,今后多模态基础模型或将成为未来基础模型发展的一个重要方向。
(责编:王震、陈键)标签:
您可能也感兴趣:
为您推荐
新乡化纤股东中原股权减持1553.97万股 减持套现1.14亿元
合锻智能副总经理孙革因个人原因辞职 王磊接任
新中港董事会秘书王幼妃因退休原因辞职 密志春接任
排行
精彩推送
- 大模型“画龙”,小数据“点睛” 企业加快智能化转型
- 两部门明确延续实施制造业中小微企业延缓缴纳部分税费有关事项
- 文和友:卖IP还是一门好生意吗?
- 中央深改委会议:加大金融监管力度,坚决惩处金融领域腐败
- 3月1日起养老理财产品试点扩展为“十地十机构”
- 农业农村部:强化监管,防止非法转基因种子下地
- 交通运输部:2021年全国36个中心城市完成公共交通客运量近530亿人次
- 2021年交通运输固定资产投资约3.6万亿,同比增4%
- 人民银行开展50亿元央行票据互换操作 费率0.10%
- 国家发改委启动中央冻猪肉储备收储工作
- 如何扩大交通基础设施投资、推进重点项目?交通运输部今年打...
- 国家统计局:2021年GDP超110万亿元 比上年增长8.1%
- 两部门:进一步加强对保障性租赁住房建设运营的金融支持
- 中国气象局:坚持因苗施策 做好夏收粮油作物气象服务
- 国家统计局:2021年中国全年GDP破110万亿
- 个税年度汇算明日启动 一文读懂如何办理!
- 财政部:2022年1月份全国共销售彩票308.21亿元
- 2021年度中国科学十大进展发布
- 加大商业养老金融产品供给 养老理财产品试点扩围至“十地十机...
- “中国数谷”抢新机激活“数字生产力”
- 完善上市公司退市后监管:营造“能进能出”的良好生态
- 科技创新为青海经济发展注入强大动力
- “深海一号”大气田 累计产气超10亿立方米
- 三江源生态系统生产力后劲十足
- 努力增强2亿投资者的 投资安全感和获得感
- 长三角41城GDP: 8城超万亿,制造业增速亮眼
- 围“镍”正当时? QDII“借道”布局俄罗斯资产
- 华为丁耘:已签署3000多个5G行业应用合同
- 农业农村部:蔬菜市场供应充足 价格或呈现季节性回落
- 明确“规划图”“施工图”各地低碳发展迈出坚定步伐
- 长征八号遥二运载火箭飞行试验取得圆满成功
- 天启低轨物联网星座开启第二阶段组网建设
- 一箭二十二星成功发射!长征八号遥二火箭创我国一箭多星最高纪录
- 促进工业经济平稳增长政策如何精准发力?专家五方面解读
- 为培养碳中和人才贡献一份力量
- 2022年春运期间首都机场共运送旅客超206万人次
- 我国成功发射陆地探测一号01组B星
- 税收红利落地见效 乡村振兴“蹚出”新路子
- 人才工作须多“播种”少“抢收”
- 青海玉树:野血牦牛繁育助力乡村振兴
- “征信修复”不可信 谨防三种诈骗套路
- 完善上市公司退市后监管,交易所、全国股转公司等起草相关实...
- 坚决守住不发生规模性返贫底线
- 就业服务贵在精准精细(今日谈)
- 面向航天科技前沿 深空探测实验室揭牌成立
- 法国外贸银行首席经济学家:中国企业及家庭去杠杆显著,新能...
- 国家粮食和物资储备局:全国秋粮收购超3000亿斤
- 各地撬动科技创新“杠杆” 赢取未来发展新优势
- 广东金融局携手交易所助推粤企高质量发展
- 2021年家电行业国内累计销售额达到7543亿元
- 合肥两条地铁线路年内即将开通 这些沿线商业将迎来新利好
- 住建部:未来三年,新建装配式建筑占比达30%以上,什么是装配...
- 专题242 | 新消费“冷思考”:产品主义与价值壁垒
- 国铁集团:2022年春运客货运量实现双增长 冬奥列车开行1205列...
- 民航局对三个入境航班发出熔断指令
- 数读|我们梳理了31省份创业政策 帮你看看补助补贴哪家强?
- 河北两地深浅层地下水超采问题并存 水利部派专家开展技术指导
- 1月中国国际服务贸易进出口规模5014亿元,同比增37%
- 民航局:涉奥人员离境高峰期间共保障出港航班72架次
- 融创冰雪发布热雪奇迹体育品牌 滑雪训练中心正式成立
- 民航局:离境高峰期间民航部门共保障涉奥出港航班72架次、人...
- 理想ONE去年四季度交付量同比增长143.5%
- 国家气候中心:2月以来全国降水量破纪录
- 国家发改委:引导煤炭价格在合理区间运行
- 我国互联网普及率达73.0% 网民人均上网时长每周28.5小时
- 携手打造智慧港口新高地——北部湾港集团与广西移动签署战略...
- 银保监会:3月1日起养老理财产品试点范围扩至10城
- 全面推进实景三维中国建设 自然资源部明确这些要求
- 外汇管理局:1月中国外汇市场总计成交19.45万亿元人民币
- 近期为何如此湿冷?2月以来全国和南方地区平均降水量破纪录
- 10余个省级地区的融资趋于收缩
- 科技部:健全科研人员全职业生涯激励制度
- 海关总署对印度3家企业采取紧急预防性措施
- 杨畅:出境游进入修复萌芽期
- 科技部:创新不问出身,国企、民企一视同仁
- 科技部:加快新冠药物、疫苗研发力度
- 铁路部门积极应对雨雪天气 抓好电煤保供运输
- 碳减排支持工具与中国信用货币体系大重构
- 继续加量!央妈呵护流动性,5日净投放7600亿
- 六部门:十四件侵权盗版教材教辅、少儿图书典型案例公布
- 铁路部门开辟绿色通道 为春耕生产送去“及时雨”
- 财政部发布《2021年中国财政政策执行情况报告》:财政收入实...
- 发改委设定煤炭价格运行区间 超限就出手
- 未来十年新增100万!四川人口密码揭晓,哪些城市受益?
- 财政部:扩大财政支出规模,合理安排地方政府专项债券
- 工信部:2021年全国锂离子电池产量同比增长106%
- 发改委提出煤价合理区间 防止价格大起大落
- 我所理解的“东数西算”
- 张艺谋低调创业:刚刚完成巨额融资 重度参与了冬奥会
- 视频丨总投资超25万亿,东数西算背后的大机会!
- 中国3成进口玉米来自乌克兰,A股农业股应声大涨,影响有多大?
- 纾困餐饮业!商务部:抓紧研究出台相关支持政策的落实举措
- 商务部:从四方面帮助外贸企业增强抗风险能力
- 两部门:延续执行部分国家商品储备税收优惠政策
- 企业参与2022北京消费季将获资金支持
- 住建部:坚决有力处置个别房企项目逾期交付风险
- 精准加大“专精特新”梯度培育力度 平安普惠行业小微扶助计...
- 普华永道:去年国内并购交易量创新高 今年或将继续保持较高水平
- 国家重拳打击铁矿石价格异常上涨 专家:确保市场平稳有序运行
- 商务部:多措并举帮助外贸企业适应人民币汇率波动常态