deepdfa linevul 데이터셋 만들기
준비물
1. linevul 데이터셋 (test / train / val)
2. MSR 데이터셋
3. linevul_splits
※ 원래는 데이터셋의 확장자가 csv인데 xlsx로 한 이유는, 수식은 8192자까지 한 셀에 저장되기 때문에, 줄변경 오류가 발생되기 때문!
1. MSR 데이터셋 자르기
2. MSR 데이터셋 split 만들기
3. linevul 데이터셋 생성
4. linevul 데이터셋 생성2
위 순서대로 실행하면 된다.
데이터셋 2천개
joern 하는데만 약 3시간 걸렸다
ABS 파일
데이터셋 분류
(추가)
(xlsx)
(csv)
py 파일