如何快速搭建一个高可用的数据处理流水线?

作者:
发布于: 2021-5-26
归档于:

标签:Serverless云函数

ASW 应用与服务编排工作流是腾讯云服务的编排工具,用户可以将多个云服务编排到业务场景相关的应用程序中,可以通过 ASW 工作流编排分布式任务,管理执行任务的顺序、错误处理、重试逻辑和状态,从而显著减轻团队的研发负担。

通过 ASW Map 并发能力编排调用云函数,完成批量数据的处理,并将结果写回存储,提供开箱即用、灵活便捷、高弹性高可用的数据处理系统模型。尤其适合证券交易数据统计,电商系统商品订单数据分析,微博热点分析等大数据分析场景。本文为您介绍如何使用 ASW 编排云函数,快速搭建一个高可用的数据处理流水线。

01. ASW 工作流优势

  • 弹性高并发:工作流并发调用云函数可以快速调动大量计算资源加速数据处理。
  • 自定义流程:ASW 工作流可以实现高度自定义的工作流流程,例如数据处理流程、数据分析算法、数据存储方式。
  • 降低成本:数据处理是 CPU 密集型,在 ASW 工作流及云函数的资源利用率高的情况下,实现了成本的降低。
  • 提升效率:降低学习和使用成本,极大程度上缩短了项目周期,加快开发部署。

02. 系统架构

使用 ASW 创建编排云函数,先完成业务鉴权等预处理操作,然后通过 Map 并发函数读取数据,进行数据处理,将处理后的数据存储到云端数据库。同时,批量处理的数据可以直接给发送到图表与模型分析中。

03. ASW 数据分析处理方案示例

在《ASW 工作流最佳实践(二):使用 ASW 并发调用函数》文章中,使用 ASW 的 Map 节点能力进行并发的数据求和计算。本期将为您演示如何通过 ASW 工作流处理「一个并发获取多个微博用户信息」的完整数据分析流程。

应用部署后,将为您创建以下资源:

  • 云函数

    • dataProcess-getuserinfo-xxx 用于获取用户信息。
    • dataProcess-processUserInfo-xxx 用于处理用户信息,并把处理后的信息写到 cfs 文件下。
    • dataProcess-writeUserInfo-xxx 用于将cfs文件上传到cos中
  • VPC 私有网络:用于创建 CFS 文件系统。
  • CFS 文件系统:用于将多次并发的函数处理数据写到同一个文件下。
  • COS 对象存储:用于存储最后的数据处理结果。
  • ASW 工作流:数据分析的工作流,其中每个节点将编排对应功能的云函数。
  • 运行角色:用于运行数据分析工作流。

1. 创建工作流

1.1 登录 应用与编排服务流控制台。在工作流页面,单击「新建」,进入创建工作流页面,单击「示例项目」,选择「数据分析处理」模板。

1.2 单击「下一步」,在「配置基本信息」页面,您将会看到示例项目需要创建的资源,单击「开始部署」,等待资源创建成功,完成示例项目的部署。

2. 运行工作流

2.1 在工作流列表,单击「名称」链接进入工作流,您可以在界面中看到工作流的基本信息,单击「执行」下的「开始执行」 。

2.2 在弹出的「开始执行」窗口中,会有默认的输入参数,直接单击「确定」,运行工作流。

2.3 执行完成后,可以在详情页查看执行结果。滑动至页面最下方,在「执行历史记录」下,您可以查看子节点的运行情况。

2.4 单击「资源」中的云函数链接,可以直接跳到云函数控制台,查看函数执行详情。

识别下方 👇 二维码,即可加入腾讯云 ASW 交流群。


传送门:

欢迎访问:Serverless 中文网,您可以在 最佳实践 里体验更多关于 Serverless 应用的开发!