公司：slack的相关资料

Shipyard: How We Built Slack’s Next-Generation EC2 Platform

Slack自研Shipyard平台，将EC2实例视为不可变部署工件。通过分层镜像、指标驱动部署、自动回收机制，实现快速、安全、可预测的基础设施更新，解决了传统长生命周期实例的配置漂移与协调难题。

slack技术

Agentic Testing: Where Agents Fit in the E2E Testing Stack

传统端到端测试验证固定路径，而智能体测试验证目标能否达成。实验表明，Playwright MCP模式可靠性最高（0-12%失败率），但每次运行成本15-30美元。智能体测试适合探索性场景，不应替代确定性测试，而是作为测试金字塔顶层的补充。

slack技术

Slack AI: The Path to Multi-Cloud

Slack AI架构从AWS SageMaker起步，经历Bedrock迁移与按需模式，最终演进至多云策略。通过智能路由层实现模型优化、自动故障转移与动态负载均衡，消除了单点故障，提升了模型质量与响应速度，确保服务高可用与持续创新。

slack技术

From SSH to REST: A Security-Driven Modernization of Slack’s EMR Data Pipelines

通过REST架构替代SSH，Slack完成了700多个数据管道的现代化改造。YARN分布式Shell技术成为关键突破，支持任意命令行任务在容器化环境中运行。迁移过程采用分阶段策略，解决了虚拟内存检查、网络隔离等多区域挑战，最终实现零停机升级。新架构不仅消除了SSH安全风险，还提升了作业可靠性和可观测性，为后续Spark on Kubernetes等现代化部署铺平道路。

slack技术

Managing context in long-run agentic applications

在复杂的多代理系统中，保持代理间的协作和一致性是关键挑战。本文探讨了如何通过设计三种互补的上下文通道（Director的Journal、Critic的Review和Timeline）来管理长期运行的调查。Journal记录决策与观察，Review评估专家发现的可靠性，Timeline构建可信的事件序列，共同确保调查的连贯性和准确性。

slack技术

From Custom to Open: Scalable Network Probing and HTTP/3 Readiness with Prometheus

团队面临HTTP/3监控盲区，传统工具无法探测基于QUIC协议的新端点。实习生Sebastian主导开发了Prometheus黑盒探测器的QUIC扩展模块，采用quic-go库实现HTTP/3客户端支持，并将成果开源。该方案统一了HTTP各版本监控数据，提升告警可靠性，为行业HTTP/3迁移提供通用解决方案。未来计划扩展SNI路由验证和路径可视化功能。

slack技术

Streamlining Security Investigations with Agents

Slack安全工程团队利用AI代理优化安全事件调查流程。通过将复杂调查分解为多个模型调用，每个调用有明确的任务和结构化输出，提升控制精度。设计包括导演、专家和评论家三类代理，分别负责推进调查、生成发现和评估质量。系统采用知识金字塔策略，低成本模型处理基础数据，高成本模型整合关键发现。实时仪表板支持监控和调试，确保高效协作。AI代理在调查中展现自发发现能力，显著提升安全防御效率。

slack技术

Build better software to build software better

为解决构建耗时60分钟的问题，团队结合高性能构建工具Bazel和经典软件工程原则，优化构建流程。通过定义清晰的依赖图、缓存和并行化策略，团队将构建时间大幅缩短至10-30分钟。关键在于分离前端、后端和构建代码的耦合，设计可组合的构建单元，提升缓存命中率和并行效率。优化后的构建不仅更快，还增强了系统的整体可维护性和开发效率。

slack技术

Advancing Our Chef Infrastructure: Safety Without Disruption

Slack通过拆分生产环境为多个桶（如prod-1到prod-6），减少部署风险，确保新节点不会立即加载错误配置。引入Chef Summoner服务，基于信号触发Chef运行，替代固定时间表，提升安全性和效率。同时，保留定时任务作为后备方案，防止Summoner故障。未来将推出新的EC2生态Shipyard，支持服务级部署和自动回滚。

slack技术

Deploy Safety: Reducing customer impact from change

Slack在2023年启动部署安全计划，通过自动化检测和回滚机制，将客户影响时长降低90%。针对代码部署引发的事故，团队设定了10分钟内自动修复的目标，并优化了前后端部署流程。采用"广泛试错+聚焦高价值"策略，初期投资多个项目，最终验证自动化回滚效果显著。关键经验包括：容忍滞后指标、高频培训提升团队工具熟练度，以及保持核心指标一致性。未来将持续扩展自动化部署覆盖范围，并探索AI异常检测等新技术。

slack技术

Building Slack’s Anomaly Event Response

Slack推出的异常事件响应（AER）系统，通过实时监控和高级分析，自动识别并终止可疑用户会话，将安全检测与响应时间从数小时缩短至几分钟。AER支持多种威胁检测，如Tor节点访问、数据抓取等，并允许用户自定义配置。该系统采用多层次架构，结合检测引擎、决策框架和响应协调器，确保高效安全防护，助力企业实时应对潜在威胁。

slack技术

Optimizing Our E2E Pipeline

Slack团队发现前端构建在无代码改动时仍频繁执行，浪费大量时间和存储。通过智能判断代码变更（利用git diff）和复用预构建资源（借助S3和内部CDN），成功将构建频率降低60%，单次构建时间从5分钟压缩至2分钟，每月节省数TB存储和数百小时算力，同时意外提升了测试稳定性。这波操作证明：用现有工具深挖流程冗余，能带来显著效能提升！

slack技术

Automated Accessibility Testing at Slack

At Slack, customer love is our first priority and accessibility is a core tenet of customer trust. We have our own Slack Accessibility Standards that product teams follow to guarantee their features…

slack技术

Slack Audit Logs and Anomalies

What are Slack Audit Logs? Like many Software as a Service (SaaS) offerings, Slack provides audit logs to Enterprise Grid customers that record when entities take an action on the platform. For…

slack技术

Astra Dynamic Chunks: How We Saved by Redesigning a Key Part of Astra

Introduction Slack handles a lot of log data. In fact, we consume over 6 million log messages per second. That equates to over 10 GB of data per second! And it’s all stored using Astra, our in-house,…

slack技术

We’re All Just Looking for Connection

We’ve been working to bring components of Quip’s technology into Slack with the canvas feature, while also maintaining the stand-alone Quip product. Quip’s backend, which powers both Quip and canvas, is written in Python. This is the story of a tricky bug we encountered last July and the lessons we learned along the way about being careful with TCP state. We hope that showing you how we tackled our bug helps you avoid — or find — similar bugs in the future!

slack技术