计算机科学学术研究方法

2018/09/22 Blog

调研

调研参考材料有综述论文（最方便的方法是在 Google Scholar 搜索“领域名称 + survey / review / tutorial / 综述”）、近一两年顶会论文的 Introduction、Related Work、引用和被引用以及知乎
调研工作不仅要在课题初始时展开，也要在课题进行过程中展开，要时刻关注各大顶会相关领域的成果
调研内容包括 Introduction、Datasets、Metrics 和 Related Work
调研的结果应用 PPT 进行记录，尤其是 Paper 的引用
主要工作的代码可以通过 Paper 中的链接、Github 以及作者的个人主页尝试查找

灵感

引入更多信息
进行更多交互

实验

模型跑通不等于模型是对的，要检查中间变量的维度和输出
做实验不要贪多，每次实验只验证一个想法。每次实验之后，必须保存代码、参数、模型、日志、实验结果（要带有模型参数、模块信息的标签）以及结果分析，要进行错误分析，要进行版本控制
要确保进行多次实验得到有说服力的准确率结果，追求代码的一致性和可复现性（https://2020.emnlp.org/call-for-papers）
调参方式：对于大数据集可以先对数据集进行分层采样之后进行调参尝试，对于小数据集可以网格搜索。

代码撰写

Writing Code for NLP Research
好的编码风格：写模型的时候，要给变量、常量等赋以有意义的名称，要对张量的形状做一定注释，要通过注释描述不明显的逻辑。

论文撰写

不要等到全部做完才开始写论文，开题不久后就可以开始撰写，这是将 idea 公式化、明确化的好习惯
要对论文进行版本控制，可用 overleaf 工具
要围绕主要创新撰写，相关的工作和理论简写
摘要部分的撰写目标就是让读者能够用一句话来总结你的论文
Motivation 要符合人的思考，多问自己 what 和 why
常见的书写错误包括：a/an，模型名称首字母大写，缩写，权值和向量加粗，Related Work 过去式
实验部分定性和定量去验证结论
代码公开（https://github.com/tdurieux/anonymous_github）

工作推广

代码、笔记公开
可提供demo

Search

Table of Contents