You are on page 1of 14

Week 5.

5 Discussion
Outline 01 项目进展
C A T A L O G

02 后续工作的思路

03 分工
进展及问题

对实验的整体流程有大概把握

考虑使用服务器来进行实验

实质成果几乎为 0
后续工作的思路

01 整体流程概览

02 第一步:数据分析

03 文本分类 论



04 异常检测

04 结果评估
整体流程 2) Text Categorize

NLP
Category Snapshot of
Models
1 App Store
LDA
Category
2
App BERT … OC-SVMs input
Description …… Category
M
Isolation Prediction
App Store Forests Model
Label
1
Privacy Label ……
output
Labels 2 Machine learning

models
Label Malware
N

1) Retrieve Data (Solved) 3) Malware Detection 4) Outcome evaluation


后续工作的思路

01 整体流程概览

02 第一步:数据分析

03 文本分类 论



04 异常检测

04 结果评估
配环境

遇到的问题:在服务器上操作是否会效率更高?
数据分析

统计方法:逐个读取文件夹下的文件,转化为 json 格式,按照字典查找的方式

问题:
有的特殊文件会引发异常,尝试用 try-except 解决
统计一次耗时 1.5 小时

列表 字符串 python 多线程 spark hadoop map-reduce 并行计算


数据分析 -- 两个维度

按类统计

每类多少个 app ,其中多少个有


label ,多少个没有 label
数据分析 -- 两个维度

按标签分析

定义一个类来统计

DATA_LINKED_TO_YOU DATA_NOT_LINKED_TO_YOU DATA_USED_TO_TRACK_YOU 使用情况


最底层

问题:第三个文档是否包含于前两个?
文本分类

所有语言翻译成英文
思路: pygtrans

去除停用词 +stemming
思路:正则表达式 nltk

机器学习分类
特殊类别:游戏、贴纸
思路: mallet bert 多试几个类
异常检测

label 向量的构造
没想好 拍平

机器学习
sklearn 调参(右图)
评估

整体效果 baseline
步骤必要性
扩展性 复杂度
分工

You might also like