agencies

deepdfa linevul 데이터셋 만들기 본문

Ⅲ. 정보보안

deepdfa linevul 데이터셋 만들기

agencies 2024. 11. 2. 01:40

 

준비물

1. linevul 데이터셋 (test / train / val)

2. MSR 데이터셋

3. linevul_splits

 

 

※ 원래는 데이터셋의 확장자가 csv인데 xlsx로 한 이유는, 수식은 8192자까지 한 셀에 저장되기 때문에, 줄변경 오류가 발생되기 때문!

 

1. MSR 데이터셋 자르기 

2. MSR 데이터셋 split 만들기

3. linevul 데이터셋 생성

4. linevul 데이터셋 생성2 

 

위 순서대로 실행하면 된다.

linevul_데이터셋 생성.py
0.00MB
linevul_데이터셋 생성2.py
0.00MB
MSR 데이터셋 split 만들기.py
0.00MB
MSR 데이터셋 자르기.py
0.00MB

 

 


데이터셋 2천개

 

joern 하는데만 약 3시간 걸렸다

 

 

 

ABS 파일

content.zip
13.30MB

 

 

 

데이터셋 분류

linevul_데이터셋 생성2.py
0.00MB
MSR 데이터셋 split 만들기.py
0.00MB
MSR 데이터셋 자르기.py
0.00MB
linevul_데이터셋 생성.py
0.00MB

 

(추가)

xlsx to csv.py
0.00MB

 

 

(xlsx)

train.xlsx
1.63MB
val.xlsx
0.29MB
test.xlsx
0.26MB

 

 

 

(csv)

새 폴더.zip
2.80MB

 

 

 

 

 

MSR_data_cleaned.xlsx
2.81MB
MSR_data_cleaned.zip
2.46MB

 

 

 

 


 

py 파일

linevul_main.py
0.03MB
msr_train_combined.sh
0.00MB