Professional Documents
Culture Documents
5 Discussion
Outline 01 项目进展
C A T A L O G
02 后续工作的思路
03 分工
进展及问题
对实验的整体流程有大概把握
考虑使用服务器来进行实验
实质成果几乎为 0
后续工作的思路
01 整体流程概览
02 第一步:数据分析
03 文本分类 论
文
撰
写
04 异常检测
04 结果评估
整体流程 2) Text Categorize
NLP
Category Snapshot of
Models
1 App Store
LDA
Category
2
App BERT … OC-SVMs input
Description …… Category
M
Isolation Prediction
App Store Forests Model
Label
1
Privacy Label ……
output
Labels 2 Machine learning
…
models
Label Malware
N
01 整体流程概览
02 第一步:数据分析
03 文本分类 论
文
撰
写
04 异常检测
04 结果评估
配环境
遇到的问题:在服务器上操作是否会效率更高?
数据分析
问题:
有的特殊文件会引发异常,尝试用 try-except 解决
统计一次耗时 1.5 小时
按类统计
按标签分析
定义一个类来统计
问题:第三个文档是否包含于前两个?
文本分类
所有语言翻译成英文
思路: pygtrans
去除停用词 +stemming
思路:正则表达式 nltk
机器学习分类
特殊类别:游戏、贴纸
思路: mallet bert 多试几个类
异常检测
label 向量的构造
没想好 拍平
机器学习
sklearn 调参(右图)
评估
整体效果 baseline
步骤必要性
扩展性 复杂度
分工