小企业机器学习模型训练实践——从单机Pandas到Ray的迭代

在大公司里通常有专门的团队负责机器学习平台与基础设施(例如在阿里,数据预处理常在 ODPS 完成,训练跑在 PAI/XDL 上)。但在小公司里,特别是那些没有自建完善...

October 20, 2025 · 6 min · Monkeyzx

LTV Prediction Model In Installment Scenarios

1. Background In many businesses with recurring payments—e.g. installment plans, subscription services, financing, insurance renewals etc.—one key task is to estimate the lifetime value (LTV) of a customer. We call this pLTV (predicted lifetime value). For why we need to estimate LTV: With pLTV, we can acquire more valuable new users from advertise platforms (e.g. Google Ads, Meta Ads etc.) With pLTV, our financial team can estimate the company’s cash flow in the near future and make better decisions In our setting, because the cash flows accrue monthly (or at some periodic cadence), we may want to estimate the predicted LTV at the end of each month, and potentially project out over a long horizon (e....

September 24, 2025 · 7 min · Monkeyzx

DNN回归模型中的不确定性估计

背景 Jerry.ai是一家欧美主营车险的中介平台,对接几十家车险公司,每年的报价(quoting)请求数上亿。但由于报价系统(quoting...

August 22, 2025 · 5 min · Monkeyzx

Twitter推荐系统概览

Twitter去年开源推荐系统代码到现在一年多了,一直没时间去看一看,今天想起来瞄了会,本文简单记录下。 开源: 系统代码:https://gi...

October 11, 2024 · 7 min · Monkeyzx

控制模型创造力的艺术——LLM Decoding策略解析

什么是Decoding策略 在使用GPT类产品的时候,不妨问一下自己这些问题: 同一个 prompt,为什么模型有时说的不一样? Chatbot里面...

July 5, 2024 · 4 min · Monkeyzx

CVR建模技术梳理

在之前的工作中负责过一段时间转化率的建模,这里对转化率建模的技术作一个简单梳理。 我把CVR建模中会遇到的主要问题分成3类(如图): 多目标建模...

May 28, 2024 · 8 min · Monkeyzx

ML建模如何融入先验信息

背景 想要用ML模型拟合业务,但实际中经常会遇到类似下面的场景: 二手车价格预估:同一辆车,预估的价格与里程应该是严格负相关的; 保费预估:保额越...

May 5, 2024 · 4 min · Monkeyzx

重读经典——word2vec

为什么需要重读word2vec Word2vec原论文: Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. CoRR, abs/1301.3781,2013. Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean. Distributed representations of words and phrases and their compositionality. NIPS 2013. 其...

March 31, 2024 · 12 min · Monkeyzx

超长行为序列建模SDIM

SIM和ETA的问题 SIM通过类目从长序列中检索相关的items(hard-search)或者通过embedding inner product计算从长...

March 24, 2024 · 3 min · Monkeyzx

超长行为序列建模ETA

SIM的问题 前面介绍过阿里巴巴超长行为序列建模的方法SIM是two-stage,在预估的时候,SIM先通过target item从长行为序列中...

March 23, 2024 · 6 min · Monkeyzx