上海一家蛋白质研发平台公司收集了马里亚纳海沟、盐湖等极端环境下生存的微生物,并用温度、压力、pH值等多维指标进行标记,形成了特别有价值的蛋白质数据集。并且借助AI的大规模建模能力,在短短几个月内改造了一种蛋白质,使其耐碱能力提高了四倍,帮助某国民长效生长激素公司的产品功效显着提高。在2026全球开发者先锋大会“语料库基础设施建设,智能生成时代”主题论坛上,上海市经济信息化委员会副主任潘岩指出,当前人工智能竞赛已从“拼字算法”转向“数据正字券”,语料库已成为人工智能产业发展的主要赢家。上海重点语料库并采用系统方法。形成了覆盖物理智能、科学智能以及各垂直应用领域的多层次语料供应能力。我们打造了语料库公共运营服务平台,打通语料库采集、清洗、标注、使用、测试全链条。为了方便开源、低门槛的语料供应,我们主动发放“语料券”。数据质量决定了模型的上限。上海可以开发模型,也可以用数据竞争。针对当前科学数据封闭、格式多样、大量未被“恢复”的“暗”数据等挑战,上海人工智能研究院利用Agents.AI从多个文档中提取和整理化学反应等高质量数据。目前,它涵盖了人工智能科学家可用的600万条材料数据和1000万条化学反应数据。达ta 的收集范式也在发生变化。一些创新的上海公司,如太实智行和蚂蚁金服,正在投入巨资收集和开发具身智能模型,或“第一人称数据”,与远程控制等传统收集方法不同,这些模型不需要机器人身体。相反,人类使用数据收集设备来收集实际工作环境中的数据。它轻量级、高质量且易于扩展。去年,上海市扩大了对中小企业、大学师生和创新的关注。上海语料库综合计划启动,面向企业家等。论坛宣布,该计划已正式更新为科学情报和OPC(一人公司)2.0版本。到2027年底,我们计划链接和服务500个创新主体,创建300个稀有数据集。模制的上海语料库综合方案已更新至2.0版本。 F论坛围绕科学情报发展需求,举行共建高质量科学数据签约仪式。签约代表来自上海市研发公共服务平台管理中心、上海市科学情报研究院、上海市创新研究院及相关科研机构和企业等,加快科学研究从“文献型”向“数据型、模型型、实验验证型”转变,迈向深度融合的新阶段。论坛还开始征集评选新年语料库名单,将于2026世界人工智能大会期间正式公布。原标题:《从移动模型到数据,上海几个月打造高耐碱蛋白,万能语料盈利计划升级2.0》 本文作者:解放日报 李晔
特别提示:以上内容(含我图片、视频(如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括照片和视频,如有)由仅提供信息存储服务的社交媒体平台网易号用户上传并发布。