百道数据招聘: 运维工程师、架构师、商务。请发简历至 contact@baiadoadata.com

趣虹

百道助力趣虹数据分析

客户背景

香港趣虹科技有限公司由三位怀揣梦想的年轻人于2014年创立,曾任职于IBM、腾讯、金立。趣虹移动以市场需求为导向,着力开发一流、人性化的应用。趣虹产品涉及移动应用的设计开发、应用再开发、安卓应用开发等。 2015年拥有超过15,000,000的应用用户,趣虹移动结合自身流量和足够的开发合作伙伴的优势转向印度移动广告网络。趣虹移动致力于服务全球广告主和开发商,实现用户获取和流量变现的最大化。以客户为中心,以员工为本的理念,帮助客户克服移动营销路上的一切困难和障碍,为员工的生活和工作提供一站式平台。

行业

社交行业

业务需求和挑战

随着趣虹科技业务的增长,趣虹科技拥有了大量的用户,但是同时也遇到了瓶颈:他们的用户数达到了一定的数量后就增长地特别缓慢,不知道可以通过什么方式去进行提升;他们还需要通过用户对功能的喜爱程度,对一些功能进行优化和升级,目前使用的还是最简单的调查问卷的方式,然后再人工去进行问卷的整理、分析;在准备推出一些新功能时,对于推出通知消息的展示风格,无法满足所有人群的喜爱,导致消息点击率比较低,希望消息可以根据用户进行个性化的推荐。

随着业务的不断增长,数据分析系统的管理也显得非常地费劲。在数据量增长的同时,自建大数据集群在拓展上会很麻烦,并且会耗费大量的人力投入去保证数据分析平台的稳定运行。

在数据存储上,没有一个统一的存储方式。现在都是从每个地方收集上来的零零散散的数据,再上传到数据分析平台上进行数据分析,整个流程会比较漫长,不利于数据的及时处理并分析。

解决方案

项目中,谷歌合作伙伴百道帮助趣虹IT团队对谷歌云科技上云业务成本投入规划和优化方案进行了详细分析,同时对各类问题和需求给出了非常好的解答和业务解决方案。在改造过程中,使用了一些Google Cloud的产品,助力趣虹设计数据分析的架构,改进旧有的架构,让客户在数据分析上偏向基础设施自动化管理、专注数据处理和保持系统的稳定运行。其专业、细致的服务支持令客户印象深刻。

架构设计图如下所示

Dataproc优化数据分析的处理效率

Dataproc是Google Cloud平台上的一项托管式大数据处理服务。它可以为用户提供快速、灵活和可扩展的Apache Hadoop和Apache Spark环境以及其他相关大数据开发工具和服务。Dataproc具有Google Cloud的强大基础设施和自动化管理功能,可以快速创建和管理具有数百甚至数千个节点的集群。

Dataproc还提供了灵活的扩展性选项,根据工作负载的需求增加或减少集群的规模,以便在处理大规模数据时实现高吞吐量和低延迟。Dataproc还具备自动化的集群管理功能,包括自动扩展、自动容错和自动监控等,使用户能够专注于数据处理任务而无需担心底层基础架构的管理和维护。

趣虹以往使用的是传统的自建Hadoop集群,虽然是在云上的云虚拟机上搭建的,但是在运维难度跟集群的拓展收缩上是非常耗费人力成本的。使用Dataproc可以降低在运维上的难度,由于是托管的服务,客户只需要管理好自己运行的工作负载,而无需担心底层的基础设施。并且Dataproc可以根据实时的工作负载情况,来调节集群的大小,保证资源的可用性。

BigQuery构建企业级数据仓库

BigQuery是谷歌云的一种强大而全面的云原生数据仓库和分析引擎。它是一种无服务器的数据分析解决方案,无需管理基础架构和配置,用户只需专注于数据和分析。同时,BigQuery具有弹性扩展能力,可以自动适应大规模数据集和并发查询,保证高性能和低延迟的查询结果。BigQuery利用分布式计算和列式存储技术,所以使它具备出色的查询性能,它可以处理数十亿行甚至数万亿行的数据,并在秒级甚至亚秒级内返回查询结果,加速了数据分析和决策过程。并且BigQuery可以很简单地跟其他Google Cloud服务和工具紧密集成,如Google Cloud Storage、Dataproc、Dataflow等,可以轻松地将数据导入到BigQuery中进行分析,并将查询结果导出到其他服务中进行进一步处理。

以往趣虹的用于分析的数据的存放是非常地杂乱的,数据分别存放在本地机房跟MySQL数据库等多种数据存储方式,导致在做数据分析的时候需要设计多条数据管道,导致整一套数据分析平台特别臃肿。在使用BigQuery之后,趣虹可以拥有一个统一的数据仓库,在数据处理的管道设计上会更加精简。并且借助BigQuery强大的查询性能,可以快速地对数据提前进行预处理,缩短数据清洗的周期。

有些分析数据不需要通过复杂的处理,经过BigQuery的处理之后就可以直接应用于数据报表中了。将BigQuery与Looker Studio进行结合,可以快速地进行报表的生成,提前拿到一些前置信息。

使用云的弹性伸缩能力搭建强大稳定的展示平台

借助谷歌云的弹性伸缩能力,可以为趣虹的数据展示平台提供了高度灵活的资源管理和可扩展性,使其能够适应不断变化的展示规模和流量需求。展示平台可以根据实际需要自动调整资源的规模和容量。这意味着在展示报表查看的高峰期,平台可以迅速扩展以确保稳定的性能和用户体验;而在低峰期,平台可以自动缩减资源以节省成本。这种灵活性不仅提供了高效的资源利用,还保证了数据展示平台的稳定性和可靠性。

谷歌云还提供了高级的安全性和可靠性保障。数据在云端进行备份和冗余存储,防止数据丢失和损坏。同时,谷歌云的安全措施和访问控制机制确保展示平台的内容和用户数据得到充分的保护。

使用产品

  • Compute Engine
  • Dataproc
  • Load Balancing
  • Cloud CDN
  • Google Cloud Storage
  • Firebase
  • BigQuery
  • Dataflow
  • Pub/Sub

客户收益

注:【以下统计数据均来自客户后台统计结果】

  • 通过额外添加Pub/Sub的数据打点方式,让部分数据能实时地到达数据仓库中,无需等待firebase的T+2机制,让数据收集时间缩短了60%。
  • 使用BigQuery之后,趣虹有了一个统一的数据仓库,在数据管理上更具规范化。
  • 通过 Google 的高质量专用网络,提升网络连线稳定度达20%。
  • 根据业务发展速度按需伸缩,在硬件采购、配置和维护方面实现零延迟,同时也节约了30%的人力成本。
  • 使用Dataproc,相较之前客户自己搭建的hadoop集群,让客户的维护时间减少了70%。在运营侧,也节约了大量的数据分析时间。让公司的战略和市场活动更快的执行。