架构 | BagelQuant

BagelQuant Data 是一个数据源无关框架。Tushare 是第一个内置数据源，但核心模块不会导入 Tushare 专用代码。

分层概览

包结构按职责拆分：

打开数据湖会创建：

data/
    lake/
    staging/
    rejected/
    metadata/
        lake.db
    tmp/

data/lake 保存经过校验的标准 Parquet 文件。只有这里的数据会暴露给 lake.query 和 lake.finance。

data/staging 保存摄取过程中的临时源响应。暂存文件可以很小，因为它们不是分析存储格式。提交成功后，对应 run 的暂存片段会被删除。

data/rejected 保存不能安全进入标准数据湖的记录，例如缺少标准标识、日期无效或源响应结构异常。

data/metadata/lake.db 是 SQLite 运行状态。它保存已注册数据源、数据集、摄取 run、分区 manifest、拒收汇总、资产状态和分区锁。元数据存储启用 WAL 模式。

data/tmp 预留给未来的构建片段、压缩、校验和分区替换任务。

标准 Parquet 记录是行式结构。它们可以包含源响应中的多个字段，也可以包含标准化阶段新增的标准字段。

所有非引用数据集必须包含：

Point-in-time 财务数据还使用：

运行字段可能包括：

原始源字段应尽量保留。例如财务报表记录可以同时保留 ann_date、f_ann_date、end_date，并暴露标准 time 和 period。

标准存储和公开研究输出不是同一件事。

lake.query.raw(...) 返回行式标准记录，适合检查、调试和高级工作流。

lake.query.field(...) 每次返回一个研究字段，形式是长面板：

time | asset_id | requested_value_column

API 不会 pivot 成宽表。多字段请求返回多个独立长面板：

ohlcv = lake.query.fields(
    "daily",
    ["open", "high", "low", "close", "vol"],
    source="tushare",
)

字典中的每个 frame 都只有三列。

time 和 period 必须区分。

time 表示研究者可以获得该信息的时间。

period 表示该记录代表的经济或会计期间。

对日频市场数据来说，time 通常是交易日。对财务报表来说，time 通常是公告日或最终公告日，period 是报告期截止日。

财务 API 绝不能在早于标准 time 的观察日暴露财务记录。

分区由数据集规格选择。初始内置策略包括：

稳定 bucket 使用 Blake2b，而不是 Python 内置 hash()，因为 Python hash 会按进程随机化。

每次标准分区写入都会更新 SQLite manifest：

普通状态查询读取 manifest，避免扫描所有 Parquet 文件。

标准 Parquet 替换遵循：

这样可以避免未完成文件被查询 API 看到。