lequs
本站致力于IT相关技术的分享
构建从数据湖到 ScyllaDB 的事件驱动型实时特征管道架构 构建从数据湖到 ScyllaDB 的事件驱动型实时特征管道架构
我们面临的挑战是为机器学习模型提供实时特征,这些特征必须在事件发生后的几百毫秒内可供查询。数据源是我们存储在对象存储(如 GCS 或 S3)中的数据湖,每天有数十亿的原始用户行为事件涌入。批处理 ETL 每天更新一次特征,但对于实时推荐、反
2023-10-27
基于Elixir与ClickHouse构建CQRS模式的高吞吐量实时指标管道 基于Elixir与ClickHouse构建CQRS模式的高吞吐量实时指标管道
系统监控面板上的 P99 延迟曲线开始变得陡峭,告警信息不断涌入。最初用于支撑业务运营的单体 PostgreSQL 数据库,在每秒数千个用户行为事件的写入压力下,已经不堪重负。更糟糕的是,运营团队需要近乎实时的复杂分析查询,例如“过去5分钟
2023-10-27
构建跨平台影响力分析系统 从MapReduce预处理到Neo4j图谱构建及SwiftUI与Vue双端可视化 构建跨平台影响力分析系统 从MapReduce预处理到Neo4j图谱构建及SwiftUI与Vue双端可视化
我们面临的原始问题是TB级的用户行为日志。这些日志以半结构化文本形式存在,记录了用户间的关注、转发、点赞、评论等所有互动行为。业务需求是近实时地识别出网络中的“关键影响者”和“核心传播路径”,并为两种截然不同的用户画像提供可视化界面:一是数
2023-10-27
构建交互式数据湖仓查询控制台 Material-UI与Jupyter Kernel集成实战 构建交互式数据湖仓查询控制台 Material-UI与Jupyter Kernel集成实战
团队里的数据分析师和业务人员对数据湖的访问需求越来越频繁,但他们面临的现实困境是,每次查询都需要在本地配置复杂的 Spark 或 Trino 客户端,或者在功能受限的 BI 工具和过于灵活但对非技术人员不友好的原生 Jupyter Note
2023-10-27
Kafka流处理结合TimescaleDB解决高基数实时特征存储的架构实践 Kafka流处理结合TimescaleDB解决高基数实时特征存储的架构实践
在构建为在线模型推理服务的特征存储时,一个核心的技术挑战是如何高效地计算并提供具有高基数(high-cardinality)实体的时间窗口特征。例如,我们需要为数百万用户计算“过去5分钟内的点击次数”或“过去1小时内的平均交易额”。这类特征
2023-10-27