分类: 数据工程 | myqkly

myqkly

本站致力于IT相关技术的分享

文章分类

云原生 2 DevOps 2 分布式架構 1 架构与设计 1 架构设计 2 可观测性工程 1 Node.js 1 后端架构 5 可观测性 3 分布式架构 4 分布式系统 3 MLOps 1 数据工程 2 DevSecOps 1 云原生架构 1

构建基于Puppeteer、PyTorch与HBase的闭环数据采集与模型自优化系统

构建基于Puppeteer、PyTorch与HBase的闭环数据采集与模型自优化系统

我们面临的第一个问题不是模型，而是数据。具体来说，是为特定垂直领域的深度学习模型持续、自动化地获取高质量、动态渲染的网页数据。传统的爬虫库如 Scrapy 在面对重度依赖JavaScript的现代单页应用（SPA）时显得力不从心，而手动收集

2023-10-27 数据工程

HBase Puppeteer TensorFlow PyTorch Jupyter

构建统一数据血缘平台：整合 Trino 查询日志、ArangoDB 图模型与 Elasticsearch 索引

构建统一数据血缘平台：整合 Trino 查询日志、ArangoDB 图模型与 Elasticsearch 索引

在一个成熟的数据平台中，最令人恐惧的问题不是查询性能，也不是存储成本，而是“我无法确定修改这张表的这个字段会影响下游哪些报表和应用”。数据资产间的依赖关系模糊不清，形成一张看不见的、错综复杂的网，任何微小的改动都可能引发雪崩式的故障。这就是

2023-10-27 数据工程

UI 组件库 ArangoDB Elasticsearch Presto / Trino 数据湖与仓库