编辑导语：用户调研对于互联网产品设计过程十分重要，本篇文章作者从样本替换的方面讲述了做用户调研的方法，以及网络访问固定样本的定义和构建过程等，感兴趣的小伙伴一起来学习一下吧，希望对你有帮助。

一、现象

用户调研是统计学上的问题，可理解成是抽样调查的一个分支，是在随机原则的保证下根据样本的情况来预测总体。

但因互联网产品迭代周期短，速度快，不少PM在进行用户调研时，遵循操作易，成本低，结论精等原则，大多数选择的方式为网络问卷调查或数据库采集进行分析，是一个非随机的过程。

因此，应通过一定的举措减少非随机调研带来的干扰，使结论尽可能的准确，完善相应的调研体系。

网络调研的系列操作被执行时，经常会遇到以下三种情景。

对象A是目标调研个体，但根据现有的渠道，无法取得联系。
和对象A取得联系，并得到回复，但关键问题没有作答。
和对象A取得联系，关键问题有作答，但该作答不合理或前后矛盾。

把情景概括，即是用户调研中的无回答或数据缺失问题。

对此，产品人大多所选择的解决办法是，把无回答或数据缺失的样本直接剔除，不参与最终的预测。

这样所带来的问题有两个。一是，样本量降低，导致原本预测合理性已经不高的网络调查进一步降低说服力；二是调研的人力和时间成本已经产生，获取到的信息却不被使用，投入产出比低下。

此时，若能针对无回答或数据缺失的样本，在另一个群体中找到与其画像接近的个体，用该个体的回复进行替换预测，是一种值得学习的理论。

这种解决思路在抽样调查当中有专门的研究领域作为理论上的支撑——“基于样本匹配的样本选择在网络访问固定样本中的应用”。

二、网络访问固定样本

当目标调研群体A中的某些个体出现无回答或数据缺失现象时，从群体B中找到画像与其最为接近的单元，进行一一的配对，后用匹配对象的回答来替换原单元，实现更迭。

这样的过程即为样本替换，群体B则是网络访问固定样本。

1. 定义

互联网产品侧的网络访问固定样本应是这样的一群人：他们可以通过某种明确的渠道被触达，触达前群体中的每个个体具备可知的依赖标准，触达后愿意对特定问题进行反馈，是一个虚拟的群体。

1）渠道

指的是与群体进行沟通的方式，在互联网产品的网络调查中，可定义为官方联系。

如，官方邮件，官方小助手，客服电话，官方粉丝群等。

需要注意的是，官方联系强调对个体信息的获取，却不一定会被对象所感知。

如，对于直播产品，产品侧可随时通过后台了解某用户当天给某主播的送礼金额是多少，无须和其进行实际上的沟通，此时，数据库也归属于官方联系的一种。

2）标准

指的是个体所携带的信息，某指标变量，或自定义的计算规则。

互联网产品侧在进行用户调研时，用户通常和其账号绑定，对用户调研，即对某个账号的行为进行分析。而账号的行为又会根据产品的埋点体系，被进行对应指标的监控。

如，某社交产品，账号1在数据库中，其注册信息为男性；截至调研当天，粉丝数为10人，关注数为15人；经计算，过去一周，其浏览他人主页次数达50次。

此个体，在网络访问固定样本中所相近的，可能是账号2，注册信息为男性；截至调研当天，粉丝数为11人，关注数为17人；经计算，过去一周，其浏览他人主页次数达48次。

3）反馈

指的是对具体的用户调研活动进行参与，可以是主动地填写网络问卷，也可以是被动地从数据库提取分析。

样本替换的核心是根据标准进行的匹配过程。若匹配过后的个体仍不具备有效作答的特征，仅需再次进行配对即可，直至有效且最佳的替换出现。

2. 构建

网络访问固定样本是一个虚拟集合存在，每一匹配标准可知的个体均是其中的一员。

根据构建固定样本的时间节点，可将构建操作分为存量型和临时型。

1）存量型构建

用户调研操作执行前，固定样本已经存在且被规模化的维护。

外在表现形式通常为数据库当中的某张表格。
存量构建所采用的匹配标准，是变动频率相对不高的指标，一般是怎么去做用户调研？-用户画像篇所提及的静态划分依据，同时和某调研主题相关，具有通用性。
固定样本所依据的匹配准则信息需要定期更新。
用户调研的相关操作被项目组认可，执行频率高。

2）临时型构建

用户调研操作执行时，根据匹配标准从数据库中进行临时计算，匹配标准可知的个体均成为固定样本中的一员。

是一个有关用户账号的虚拟集合，每个账号所携带信息分布在不同的数据库表格中。
临时构建所采用的匹配标准，是变动频率相对较高的指标，一般是怎么去做用户调研？-用户画像篇所提及的动态行为，是针对某次具体调研而制定的计算规则。
固定样本所依据的匹配准则在某次具体调研时再确认，不涉及定期更新的问题。
用户调研不作为项目组的高频工作内容，无须先行构建存量型固定样本进行维护。

三、样本替换

样本替换方法论可简化为两步骤模型：

根据目标调研对象和网络访问固定样本的特征，确定需要选取的匹配标准。
根据匹配标准，衡量两单元间的近似程度，确定最相似的单元作为原无回答单元的替换，收集后续作答。

如，目标调研对象中，账号1无法通过现有的渠道进行联系，但它具备可知的匹配标准A=2。

此时，设网络访问固定样本中某个体的匹配标准A=X，计算两者作差绝对值IX-AI；取使IX-AI取值最小时的账号2作为账号1的替换，用于后续作答。

衡量近似的过程有两点值得深思：

如果匹配标准包含多个变量，怎么去进行作差绝对值的比较？
如果存在多个账号均可使作差绝对值取最小，哪个账号才是最终的替换选择？可以多个账号的回答一起使用吗？可以的话他们间有优先次序吗？

上述疑惑均能在研究领域——“基于样本匹配的样本选择在网络访问固定样本中的应用”，找到与匹配准则选取相关的研究文献进行解决。

四、引子

样本替换是我读研期间的主要研究方向，过程的操作涉及到很多的理论方法，用户调研系列的方法论分享原是没有样本替换篇的书写计划，在这里作为一个想法进行抛出。

当然，之后也会结合自己PM工作进行实操案例介绍。

更关键的是提醒自己，知识永远都是力量，理论联系实际，这是读书的魅力。

以上。

本文由 @场景阿侯-公众号同名原创发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于CC0协议。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

匹配标准样本用户调研网络账号