名片信息拓展系统

名片信息拓展系统

一.业务整体流程

名片信息拓展系统主要包括两大任务:一.从json格式的数据源提取所需要字段,入dm库供数据挖掘等使用。二.在基础信息上进行拓展,以获得更丰富的数据。

现用到的json字段有:姓名,手机,公司名,公司电话,职位
拓展字段:手机→城市,公司名→行业,公司电话→城市,职位+行业→职能

1.数据来源:
可能涉及到如下数据表

  • 名片基本信息,json格式
    oradt_cloud_test2.contact_card
    oradt_cloud_test2.contact_card_extend
  • 手机、座机区号
    dm_test.province_city_unique_code
  • 行业职能对照表
    oradt_cloud_test2.account_basic_category

2.整体处理流程
本系统的处理流程如下图:

图片备份位置:/home/samba/share/mengqian/handover/名片信息拓展/step.png

  • 对应到代码,整体的入口为jobsAssigner,主要用来通过命令行参数实现运行每日任务,还是只计算给定区间的数据任务,将时间区间传给makeResultTables。
  • makeResultTables则查询不同数据源,拼合计算所需的数据格式,处理完毕后再拼合入库所需的数据格式,并执行入等库操作。
  • 其中makeResultTables会调用jsonPreprocess,jsonPreprocess主要任务为接受从makeResultTables所传递的时间区间,取出该区间中json数据的结果,拼合为后续信息拓展流程所需的数据格式。

二.功能模块说明

主要功能模块的包结构如下图:

图片备份位置:/home/samba/share/mengqian/handover/名片信息拓展/pakages.png

信息拓展的各个模块,结构类似,输入数据格式为pandas.Dataframe,通过prepare()方法转换格式后,传递给transform()方法进行计算。

三.项目部署

  • 当前每日任务部署于: 101.251.193.28:/home/mqian/3366
    由crontab每天凌晨3点执行(3388的暂时弃用)

    1
    2
    3
    #每天凌晨3点整执行,名片数据解析
    #0 3 * * * /usr/local/bin/python /home/mqian/3388/jobsAssigner.py -d 2>> /home/mqian/3388/log3388
    0 3 * * * /usr/local/bin/python /home/mqian/3366/jobsAssigner.py -d 2>> /home/mqian/3366/log3366
  • git位置
    http://192.168.30.251:10086/git/mengqian/namecard_info_extra_basic.git

Frone Xie wechat
欢迎关注我的微信公众号!