调研
- 调研参考材料有综述论文(最方便的方法是在 Google Scholar 搜索“领域名称 + survey / review / tutorial / 综述”)、近一两年顶会论文的 Introduction、Related Work、引用和被引用以及知乎
- 调研工作不仅要在课题初始时展开,也要在课题进行过程中展开,要时刻关注各大顶会相关领域的成果
- 调研内容包括 Introduction、Datasets、Metrics 和 Related Work
- 调研的结果应用 PPT 进行记录,尤其是 Paper 的引用
- 主要工作的代码可以通过 Paper 中的链接、Github 以及作者的个人主页尝试查找
灵感
- 引入更多信息
- 进行更多交互
实验
- 模型跑通不等于模型是对的,要检查中间变量的维度和输出
- 做实验不要贪多,每次实验只验证一个想法。每次实验之后,必须保存代码、参数、模型、日志、实验结果(要带有模型参数、模块信息的标签)以及结果分析,要进行错误分析,要进行版本控制
- 要确保进行多次实验得到有说服力的准确率结果,追求代码的一致性和可复现性(https://2020.emnlp.org/call-for-papers)
- 调参方式:对于大数据集可以先对数据集进行分层采样之后进行调参尝试,对于小数据集可以网格搜索。
代码撰写
- Writing Code for NLP Research
- 好的编码风格:写模型的时候,要给变量、常量等赋以有意义的名称,要对张量的形状做一定注释,要通过注释描述不明显的逻辑。
论文撰写
- 不要等到全部做完才开始写论文,开题不久后就可以开始撰写,这是将 idea 公式化、明确化的好习惯
- 要对论文进行版本控制,可用 overleaf 工具
- 要围绕主要创新撰写,相关的工作和理论简写
- 摘要部分的撰写目标就是让读者能够用一句话来总结你的论文
- Motivation 要符合人的思考,多问自己 what 和 why
- 常见的书写错误包括:a/an,模型名称首字母大写,缩写,权值和向量加粗,Related Work 过去式
- 实验部分定性和定量去验证结论
- 代码公开(https://github.com/tdurieux/anonymous_github)
工作推广
- 代码、笔记公开
- 可提供demo