2024-06-21 16:30:00 ~ 2024-06-22 16:30:00
网易自 2006 年开始使用大数据技术组件,如分布式数据库、分布式文件系统、分布式搜索引擎,支撑了网易互联网 2.0 时代的产品。自 2009 年开始基于 Hadoop 构建数据分析及运维相关工作。在 2014 年上线了大数据平台猛犸、网易有数等产品,加速了网易内部大数据的规模化应用。针对很多企业产生的开展数据分析的诉求,网易在 2017 年启动对外商业化产品推广,并在 2018 年将数据中台构建覆盖到网易严选、考拉、音乐、新闻等业务,形成了“全链路数据中台”解决方案,并对外发布。在 2020 年,网易提出“数据生产力”的理念,倡导“人人用数据、实时用数据”。在 2022 年发布了数据治理和数据开发一体化“数据治理 2.0”解决方案,2023 年发布了全新产品 ChatBI、指标中台。
登录后可查看文章图片
归因分析的配置需要用户提供关注的核心维度,只会对这些特定维度进行拆解。不同的归因模型对单维、多维、比值类型的指标采用不同的方法。文章分享了配置的重要性,并提到了分享嘉宾陈建峰的背景和经验。摘要:归因分析的配置包括关注核心维度、不同归因模型的方法。
登录后可查看文章图片
A story of operational failure in large scale Elastisearch installation including the root cause analysis and mitigations that followed.
营销组合建模是营销领域的经典问题,用于预测广告商家的总交易量,帮助决策者调整预算分配,传统MMM方法在复杂营销场景下效果仍有提升空间。本文基于因果推断定义CausalMMM问题,从数据中发现可解释的因果结构,并得出更好的GMV预测结果。
登录后可查看文章图片
序列化是指将数据从内存中的对象序列化为字节流,以便在网络中传输或持久化存储。序列化在Apache Flink中非常重要,因为它涉及到数据传输和状态管理等关键部分。
深入探讨pfinder的核心原理和架构设计,揭示它是如何实现应用全链路监控的。我们将从pfinder的基本概念和功能开始讲起,逐步深入到其具体实现机制。
登录后可查看文章图片
最近做了几个实时数据开发需求,难免在使用Flink的过程中遇到一些问题,如数据倾斜导致的反压、interval join、开窗导致的水位线失效等,这个过程加深了我对Flink原理与机制的理解,因此将这些经验分享出来,希望能帮到有需要的同学。
Kubernetes集群中的DNS服务经过改进,采用新架构提升了解析效率和可用性。改造后的方案隔离故障域,每个Pod首选本地的q-dnsmasq进行解析,当q-dnsmasq不可用时,由kube-svc(coredns)兜底。同时,新方案通过并发请求多个Coredns和localdns,提高解析效率。这样可以将可能的解析问题控制在单个Pod上,便于快速隔离或自动隔离。新方案还提升了缓存命中率,通过按节点分散的方式确保pod访问的首选dns一致性,提高缓存命中率。此外,新方案具备首次选nameserver,并通过并发请求多个nameserver提高可靠性。
关注公众号
接收推送