马浩壤 要创建有效的深度学习模型,需要大量的数据对模型进行有效的训练。然后安装模型,对模型进行监视以防止出现漂移,并根据需要对其进行重新训练,如此反复直到达到标。 模型的训练需要使用非常多的计算资源,如果已经投资了大规模的计算资源,可以在本地完成所有这些工作。但是,你会发现这些计算资源在许多时间处于非使用状态,如果在云平台中进行上述活动,则可能更具成本效益。 大多数云提供商投入大量精力来构建机器学习平台,以支持整个机器学习生命周期。那么,每个端到端机器学习平台应提供哪些功能呢? 训练数据模型 准备好大量的训练数据之后,当然不希望迁移这些数据,因为这个过程通常需要花费非常多时间,意味着在这段时间内什么事也不能做。对于大型数据集,理想的情况是创建一个已经存在数据的模型,从而避免大量数据迁移。 支持ETL或ELT 导出,转换和加载(ETL)和导出,加载和转换(ELT)是数据库领域中的2种常见数据配置技术,机器学习和深度学习非常需要这些工具,尤其是变换部分。 支持在线模型训练 建立良好的机器学习和深度学习模型需要大规模数据,将这些数据全部下载到本地进行模型训练,是非常费时的过程。数据规模达到一定规模之后,会发现很难找到本地资源来存储这些数据,所以支持在线模型训练成为云平台必须要具有的功能。 支持scale-up and scale-out训练 利用云平台,帮助生成多个大型虚拟机或容器环境,加速在本地进行的训练活动,这将大大较少训练时间。 提供优化的AI服务 云平台为许多应用程序提供了强大且经过优化的AI服务或解决方案,包括语言翻译、语音到文本、文本到语音、预测和推荐。这些服务已经在企业可用的數据集中进行了培训和检查,这些也安装在具有足够计算资源的服务端点上,包括加速器,以确认在全球负载下的良好响应时间。 |