分类: 数据工程

文章分类
分布式架构 5 后端架构 8 可观测性 1 数据工程 5 架构设计 3 DevOps 2 MLOps 1 架构与设计 1 全栈开发 2 Elixir与OTP 1 分布式系统 1
                            
                            构建从数据湖到 ScyllaDB 的事件驱动型实时特征管道架构
                        
                                我们面临的挑战是为机器学习模型提供实时特征，这些特征必须在事件发生后的几百毫秒内可供查询。数据源是我们存储在对象存储（如 GCS 或 S3）中的数据湖，每天有数十亿的原始用户行为事件涌入。批处理 ETL 每天更新一次特征，但对于实时推荐、反
                            
                                2023-10-27
                            
                                    数据工程
                                
                            Data Lake
                        
                            Kotlin
                        
                            Knative
                        
                            WAF
                        
                            ScyllaDB
                        
                            基于Elixir与ClickHouse构建CQRS模式的高吞吐量实时指标管道
                        
                                系统监控面板上的 P99 延迟曲线开始变得陡峭，告警信息不断涌入。最初用于支撑业务运营的单体 PostgreSQL 数据库，在每秒数千个用户行为事件的写入压力下，已经不堪重负。更糟糕的是，运营团队需要近乎实时的复杂分析查询，例如“过去5分钟
                            
                                2023-10-27
                            
                                    数据工程
                                
                            Elixir
                        
                            ClickHouse
                        
                            CQRS
                        
                            Jenkins
                        
                            构建跨平台影响力分析系统 从MapReduce预处理到Neo4j图谱构建及SwiftUI与Vue双端可视化
                        
                                我们面临的原始问题是TB级的用户行为日志。这些日志以半结构化文本形式存在，记录了用户间的关注、转发、点赞、评论等所有互动行为。业务需求是近实时地识别出网络中的“关键影响者”和“核心传播路径”，并为两种截然不同的用户画像提供可视化界面：一是数
                            
                                2023-10-27
                            
                                    数据工程
                                
                            Jupyter
                        
                            SwiftUI
                        
                            MapReduce
                        
                            Neo4j
                        
                            Vue.js
                        
                            构建交互式数据湖仓查询控制台 Material-UI与Jupyter Kernel集成实战
                        
                                团队里的数据分析师和业务人员对数据湖的访问需求越来越频繁，但他们面临的现实困境是，每次查询都需要在本地配置复杂的 Spark 或 Trino 客户端，或者在功能受限的 BI 工具和过于灵活但对非技术人员不友好的原生 Jupyter Note
                            
                                2023-10-27
                            
                                    数据工程
                                
                            Material-UI
                        
                            Jupyter
                        
                            Data Lake
                        
                            React
                        
                            WebSocket
                        
                            系统设计
                        
                            Kafka流处理结合TimescaleDB解决高基数实时特征存储的架构实践
                        
                                在构建为在线模型推理服务的特征存储时，一个核心的技术挑战是如何高效地计算并提供具有高基数（high-cardinality）实体的时间窗口特征。例如，我们需要为数百万用户计算“过去5分钟内的点击次数”或“过去1小时内的平均交易额”。这类特征
                            
                                2023-10-27
                            
                                    数据工程
                                
                            Feature Store
                        
                            TimescaleDB
                        
                            Kafka
                        
                            流式计算
                        
                            高基数