Python / pandas / Workflow Utility

Python 数据处理与对账脚本

把重复的 CSV、TXT、Excel 合并、匹配、透视和输出工作做成可复用脚本。

notebook 里的代码很朴素,但它暴露了真正的能力:遇到新业务先把数据结构看懂,快速写出能合并、匹配、透视、补齐和导出的工作脚本。这是从业务分析升级到系统构建的前置能力。

Script Patterns批量读取、编码处理、字段类型修正、merge、pivot、ExcelWriter
Business Objects订单号、渠道、产线、pf、手机号后 11 位、产品价格、分成渠道
Use Case包月流水、开发补充金额、牌照方分成、入口匹配、CSV 转 Excel
Public Boundary展示脱敏代码结构,不展示真实账号、手机号和订单数据

业务流

从业务现场到复核结论

01读取多文件
02统一编码
03修正字段类型
04提取匹配键
05左连接匹配
06透视汇总
07输出复核工作簿

证据模式

这证明了什么能力

包月流水脚本把官方 CSV 流水和开发 TXT 导出做订单号匹配,找出未在官方流水中的补充金额。

牌照方分成脚本把会员、体育会员、单片、体育单片按产线和渠道映射到分成渠道,并计算应收。

入口匹配脚本处理账号字段与开通号码匹配,暴露了字段类型治理的重要性。

CSV 转 Excel 工具把一次性 notebook 逻辑改造成可选择文件、可提示错误、可记录日志的小工具。

处理模型

问题、处理方式和系统价值

01

业务问题

真实运营数据经常来自不同系统,编码、字段类型、订单号和金额单位都不一致。

02

处理方式

先把 key 和口径统一,再用 pandas 做 merge、dropna、pivot_table 和 ExcelWriter 输出。

03

系统价值

这些脚本不是最终作品,但它们是后续数据治理、自动化工具和 B2B 系统的底层训练。

脱敏代码

sanitized notebook pattern

official = pd.concat(
    pd.read_csv(file, encoding="gb18030")
    for file in glob("official_flow_*.csv")
)
dev = pd.concat(
    pd.read_csv(file, sep="\t")
    for file in glob("*export.txt")
)

joined = pd.merge(dev, official, how="left", on="order_id")
unmatched = joined[joined["official_amount"].isna()]