嗷!但凡是个要自己来写的东西,除了学习的目的以外,那肯定就是有需求驱动。
需求:尽量节省不必要的人工时间浪费,高效出表!
设计规划:
① 已有文件类型:OA导出的工单Excel文件
②计划使用工具:Python(Pandas, openpyxl, Pyecharts)
③思路:通过汇总问题标题可能性对标题进行识别,提取对应平台到对应列,实现自动平台识别。手工填写问题工单解决类型,通过Excel计算函数批量输出对应平台及类型的问题数量,最后通过Pyecharts生成数据展示的html。
难点:
① 对于平台提取,不同的工单提交人对于一个平台会有多种叫法(比如淘宝,有:淘小店,淘系,天猫,手淘,淘特等称呼),对于这种情况,需有一套对应的清洗流程,先识别到工单提交人所写的平台,然后再通过识别到的数据进行比对修改,如有命中,则进行平台名的覆盖,从而达到只要标题有,就能准确识别的目的。
② 对于平台名字的部分重叠问题,有些平台是有部分名称重复的,在第一次识别工单提交人写平台内容时,有一些时候,标题写的是:天猫超市一盘货,但是由于有天猫这个称呼,从而导致识别为天猫,而不是天猫超市一盘货,对于这种情况,应该降低【天猫】这一个识别词的识别顺序,这样,【天猫超市一盘货】如有命中,则不会遍历到【天猫】。
③ 上述所说的都是逻辑上的难点,这个难点是程序总体是否要做成整体,还是拆分进行执行。(或者做个GUI?)讲道理GUI最后肯定是要做的,要不然谁没事想跑个东西还要开IDE呀。就目前情况还是先拆开做,说白了还是懒(main里写个#会累死我)
④ 数据生成了,通过pyecharts生成html的时候具体的业务场景都有啥?对汇总数据做一个数量的统计,对涉及平台做个统计,对解决类型做个输出,没了。
⑤ 后续还需要做系统对接数量的输出,这部分该如何做(标题实在是没法详细展示问题具体类别,亦或者说要清理的量或者是要筛选的字段实在是太不固定,要做其实也能做,等我学了系统对接再说hhhh)
