环境技术

综合新闻

大格局!第四范式要在一年内开源95%核心技术

来源:环境技术 【在线投稿】 栏目:综合新闻 时间:2021-06-24

Machine Heart Original

Machine Heart 编辑部

最先实施 AutoML 的公司现在已经呼吁开源。

自动机器学习 AutoML 技术可以自动化机器学习的复杂过程,例如特征提取、模型选择和参数调整。这种可以大大降低AI应用门槛的工具,是目前人工智能行业的一个热门方向。

在第四范式建立之初,就开始投入AutoML技术的研究,现在已经将自动化AI的能力扩展到AI应用的大部分方面。

在6月23日的年会上,第四范式AI操作系统AIOS升级到2.0版本。更有意思的是,这家公司还计划在一年内开源95%的核心技术。

“我们将最核心的数据和计算能力技术开源给技术社区。它们是开发人员最需要的。”第四范式联合创始人兼首席研究科学家陈玉强说。

第四范式技术副总裁郑昭等人在大会上宣布AIOS核心技术开源新闻发布会。

从零开始,搭建AI数据引擎

首先是机器学习数据库OpenMLDB。 AI时代,机器学习模型不断高频演进,这意味着数据供给的重要性不断提升。但即使在大型科技公司,我们仍然可以看到 SQL 数据处理 10 小时,在线故障排除 6 个月。

“机器学习技术实现了理性、即时、高效的推理和判断,但无论是事务型数据库、分析型数据库还是传统的数据仓库,在执行此类机器学习任务时,都无法保证正确的数据供应。”在发布会当天的技术分论坛上,第四范式高级架构师王泰泽表示,“由于不是为机器学习设计的,传统数据库无法完全覆盖从离线、在线到数据反馈的全过程.说效率较低。”

第四范式帮助120多个场景完成了数据的开发和修正,让他们的工程师总结出解决方案,提供正确的数据。

与目前流行的Hadoop、Oracle、MySQL等数据库相比,第四范式提出的OpenMLDB定位为为AI而生的机器学习数据库,这也是目前行业的空白。

< img src="http://p0.qhimgs4.com/t016a8a66f481f6d87c.jpg">OpenMLDB 解决了机器学习的三个核心数据问题:

第一,离线和在线不一致,OpenMLDB避免了跨数据库的信息交换通过统一的数据存储引擎,另一方面,通过统一的数据计算引擎,该系统使同一套计算逻辑可以离线和在线使用,确保总结规则和线索计算时的思维方式相同。

该系列cond 是时序正确性:在超过一半的场景中,传统数据库系统对历史经验不加区分地对待除了未知信息,数据科学家在数据开发过程中产生了时序泄漏,并使用了来自未来不应该的“遍历数据”在总结规则时使用。 OpenMLDB 通过使用自动时序拼接语法和时序泄漏检测模块来避免不正确的数据使用。

最后是闭环完整性。机器学习需要将商业推理判断是否正确的线索计算和反馈沉淀为经验和知识。这就要求数据库系统能够推断线索和判断反馈。正确关联的能力。 OpenMLDB通过自动拼接检测和线索反馈的自动关联,保证了唯一的拼接识别,避免了数据拼接错位的问题。

从传统的数据库系统切换到OpenMLDB后,保证了开发过程的数据正确性。除了性能优化之外,OpenMLDB 使用起来也非常方便。它支持标准的 JDBC、Restfull 和 SQL 接口。

“MLDB 是我们的核心竞争力。我们在机器学习数据库方面的技术非常先进,”陈玉强说。在一些AI决策任务中,使用OpenMLDB的开发效率最高可以提升8倍。与传统数据库进行在线实时特征计算相比,使用OpenMLDB可以提高3到10倍的性能。

为AI而生的操作系统

在平台端,第四范式推出了为AI-OpenAIOS而生的操作系统内核。

AI 的应用需要经过十几步的深度,不同的技术组件支撑不同的步.每个步骤的资源需求都大不相同。第四范式进一步抽象和沉淀了这些链接在计算、存储和通信三个方面的能力。

越来越多的AI异构芯片的出现,加速了AI异构计算芯片管理操作系统内核、将计算负载从操作系统内核分派到集群中不同机器上的分割需求不同的芯片。除了AI异构芯片,不同的异构存储介质和异构通信设备都需要操作系统内核进行统一管理。在异构设备管理的基础上,为保证任务的成功率和资源利用率,需要操作系统内核提供软硬件协调的整体调度策略。

为了实现有效的计算能力,第四范式的研究人员实现了对异构Kernel、计算协同处理、资源调度等能力的深度优化:

在计算能力,当数据量过大无法被通用计算芯片处理时,OpenAIOS的多级计算核心专门设计了硬件之间的协同处理策略来分担计算任务的工作量,并通过统一智能调度,拆分的任务由不同的专用计算芯片处理。