KAIST, 정보보호 핵심원천 기술개발사업 4차년도 연구개발 스타트

즐겨찾기추가

2024.05.09 (목)

기상청 제공

해당된 기사를 공유합니다
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사

NEWS

KAIST, 정보보호 핵심원천 기술개발사업 4차년도 연구개발 스타트

KAIST, 4차년도 ‘기계학습 모델 보안 역기능 취약점 자동 탐지 및 방어기술 개발’ 연구 진행
지난해 3차년도 연구 과정에서 논문 발표 9건, 국내 특허 출원 2건 등 총 26건의 실적 달성
오는 2027년 12월 말까지 8차년 과제로 진행...“국내외 AI 시장에서 경쟁력 확보 노력할 것”

김진석 기자
등록 2023.01.13 09:55
조회수 237

[CIOCISO매거진 김진석 기자] 한국과학기술원(KAIST)은 국가 공공 정보보호 인프라 강화를 위해 정보보호 핵심원천 기술개발사업의 4차년도 연구개발에 나선다. 과학기술정보통신부의 과제로 진행되는 이번 연구는 ‘기계학습 모델 보안 역기능 취약점 자동 탐지 및 방어 기술 개발’(과제책임 손수엘 교수)로 2020년 4월부터 오는 2027년 12월 말까지 8년 간 진행된다.

특히, 지난해에는 △손수엘 교수, 황성주 교수, 황지영 교수와 KAIST 사이버보안연구센터 등이 작성한 총 9개의 논문과 함께 △4개의 국내 특허출원 △2개의 소프트웨어 등록 △기고서 및 기술문서 각 1개 발행 △기술이전 1건 △성과 홍보 8건 등 성과를 달성했다.

KAIST가 8개년 연구로 진행하는 이번 과제의 최종목표는 △보안 역기능 취약점 자동 탐지 및 방어 도구 연구 △보안 역기능을 최소화하는 훈련 및 방어 기술 연구 △설명가능한 AI (XAI) 기술을 통한 모델의 취약성 설명 및 보정 기술 연구 △워터마크로 보호된 기계학습 모델을 공격하는 새로운 기계학습 공격 기술 연구 등 4가지로 요약된다.

분야별 연구는 △시스템(System) 분야에서 ‘보안 역기능 취약점 자동 탐지 및 방어도구 연구’ △방어(Defense) 분야에서 ‘보안 역기능을 최소화하는 훈련 및 방어 기술 연구’ △XAI(eXplainable AI) 분야에서는 ‘설명가능한 AI(XAI) 기술을 통한 모델의 취약성 설명 및 보정 기술 연구’ △공격(Attack) 분야에서는 ‘워터마크로 보호된 기계학습 모델을 공격하는 새로운 기계학습 공격 기술 연구’ 등 4개 분야로 나눠 연구가 진행된다.

2022년의 경우 9개 논문, 4개 국내 특허출원. 2개 소프트웨어 등록 등 성과
KAIST는 지난해 3차년도 연구 과정에서 논문 발표 9건과 함께 국내 특허 출원, 기고서 및 기술문서 발행, 기술이전 및 소프트웨어 등록 등 총 26건의 실적을 냈다.

먼저 논문 발표는 손수엘 교수가 △HiddenCPG : Large-Scale Vulnerable Clone Detection Using Subgraph Isomorphism of Code Property Graphs(WWW 2022) △Learning to Generate Inversion-Resistant Model Explanations(NeurIPS 2022) △Evaluating the Robustness of Trigger Set-Based Watermarks Embedded in Neural Network Models(TDSC 2022) 등 3건을, 황성주 교수가 △Few-shot Transferable Robust Representation Learning via Bilevel Attacks(MLSafety 2022) △Targeted Adversarial Self-Supervised Learning(MLSafety 2022) 등 2건을, 황지영 교수가 △Semantic Grasping Via a Knowledge Graph of Robotic Manipulation : A Graph Representation Learning Approach(RA-L 2022) △개체 유형 정보를 활용한 지식 그래프 임베딩 등 2건을 발표했다. 카이스트 사이버보안연구센터(CSRC)에서는 ‘적대적 활성화도 기반 심층신경망 가지치기 보정 기법(KCC 2022)’을, Suman 교수는 ‘MC2: Rigorous and Efficient Directed Greybox Fuzzing (CCS 2022)’ 등 2건, 총 9건의 논문을 발표했다.

국내 특허 출원의 경우 손수엘 교수가 △‘적대적 예시에 대한 심층신경망 보정 방법 및 장치’를, 황성주 교수가 △‘표적화된 적대적 자기 지도 학습’ △‘이중 단계 적대적 공격을 활용한 적은 데이터로 전이 가능한 적대적 강화 학습’ 등 2건을, CSRC에서는 △‘XAI 기반 유해 사이트 분류 모델 분석을 통한 키워드 탐색 방법 및 이를 수행하는 시스템’ 등 총 4건을 출원했다.

기고서는 CSRC에서 ‘인공지능 공정성 연구 동향’이라는 주제로 <주간기술동향>(2072호)에 기고문을 작성했으며, 기술이전은 CSRC에서 APEX ESC로의 기술이전을 마무리했다.

성과 홍보 측면에서는 손수엘 교수가 △‘Two approaches for identifying web vulnerabilities: subgraph isomorphism and reinforcement learning’ △‘HiddenCPG: Large-Scale Vulnerable Clone Detection Using Subgraph Isomorphism of Code Property Graphs’ △‘Learning to Generate Inversion-Resistant Model Explanations’를, 황성주 교수가 △‘Targeted Adversarial Self-Supervised Learning’ △‘Few-shot Transferable Robust Representation Learning via Bilevel Attacks’를, CSRC에서는 △‘한국과학기술원(KAIST), 2022년 정보보호 핵심원천 기술 고도화 나선다’ △‘적대적 활성화도 기반 심층신경망 가지치기 보정 기법’을, Suman 교수는 △‘MC2: Rigorous and Efficient Directed Greybox Fuzzing(CCS 2022)’ 등을 소개해 주목받았다.

또한, CSRC는 ‘적대적 활성화도 기반 심층신경망 가지치기 보정 기법 모듈 아키텍처 설계서’라는 제목의 기술문서를 발표하기도 했다. 지난해는 소프트웨어 등록도 2건이 진행됐다. 먼저, 손수엘 교수는 ‘적대적 예제 공격에 대한 심층신경망 모델의 안전성 평가 도구’를, CRSC에서는 ‘적대적 활성화도 기반 심층신경망 가지치기 보정 도구’라는 제목으로 소프트웨어를 등록했다고 밝혔다.

한편, 이번 사업의 핵심 기술 성능지표로 △구현 도구에서 지원하는 모델의 프레임워크 종류 △검사 도구에서 지원하는 공격 유형 △검사 도구에서 지원하는 공격 개수 △구현된 Evasion 공격의 성공률 △구현된 Membership Inference 공격의 정확도 △구현된 Data Poisoning 공격에 필요한 최소 훈련 예시(Training instances) △워터마킹 알고리즘 △XAI를 이용해 공격의 취약정도 및 원인을 설명하는 알고리즘 △Adversarial 예제에 대해 Evasion 공격 완화를 적용한 대상 모델의 정확도(Precision) △Membership Inference 공격 완화를 적용한 대상 모델 대상 공격 정확도(Precision) △Data Poisoning 공격 완화 알고리즘 △벤치마크를 위한 훈련데이터 종류 △모든 p-norm attack에 대한 평균 accuracy △같은 Adversarial accuracy 수준에서 clean accuracy △XAI 기반 Evasion attack 취약점 보정을 적용한 대상 모델의 공격 위험도 감소량 △XAI 기반 Membership Inference attack 취약점 보정을 적용한 대상 모델의 공격 위험도 감소량 △XAI 기반 Data poisoning attack 취약점 보정을 적용한 대상 모델의 공격 위험도 감소량 등 17개로 구분해 각각 달성 목표를 세워 추진하고 있다.

시스템·방어·XAI·방어 등 4개 분야별 세부 연구 목표
첫 번째로 ‘시스템’ 분야의 내용은 ‘보안을 위한 기계학습 모델을 대상으로 기존에 알려진 여러 가지 공격을 종합적으로 수행해 자동으로 취약점을 탐지(Identification) 기술 연구’, ‘대상 모델에 대해 성공한 공격들의 취약점을 완화(Mitigation) 방안과 이를 위한 완화 방안을 구현한 API들을 자동으로 제안하는 기술 연구’, ‘대상 모델의 자동 보정(Repair)을 통해 취약점을 제거하는 기술의 구현 가능성 연구’ 등이다.

두 번째로 ‘방어’ 분야의 내용은 ‘기계학습 분야의 난제로 알려진 Whitebox Evasion 공격을 방어하기 위한 새로운 훈련과정 연구와 이를 이용한 방어 기술 연구’, ‘보안 역기능을 방어하기 위해 희생되는 대상 모델의 성능(Precision, Recall, Accuracy, AUC) 저하를 막기 위한 새로운 훈련기술 연구’, ‘합동 훈련과정(Federated Learning)에서의 적대적 공격자의 영향을 최소화하기 위한 훈련과정 연구’, ‘인증 가능한(Certified) 방어기술을 해당 기계학습 모델의 견고성에 대한 Assurance를 제공하는 방어 기술 연구’ 등이 진행된다.

세 번째로 ‘XAI(eXplainable AI)’ 분야에서는 ‘기계학습 모델에 성공한 공격들과 그에 의한 적대적 예제(Adversarial example)를 기반으로 모델의 취약성과 그 원인이 되는 특징점(Features)을 설명할 수 있는 기술 연구’, ‘설명 가능한 취약점을 대상으로 이를 자동 보정(Repair) 가능성에 대한 연구’가 이어진다.

마지막으로 ‘방어’ 분야에서는 ‘보안 역기능을 야기하는 새로운 공격 기술 연구’, ‘기계학습의 지적재산권(Intellectual Property)의 소유권을 보장하기 위한 워터마크를 우회하는 새로운 공격 기술 및 이에 대한 방어 기술 연구’ 등이 진행된다.

전체 연구 진행은 1단계(타당성 연구 단계)와 2단계(고도화 연구 단계)로 구분되며, 각각 4년의 연구기간이 주어진다. 1단계에서는 ①공격·완화 기술 ②방어 기술 ③설명 기술 ④검증 가능한 테스팅 기술 등으로, 2단계에서는 ①자동 탐지·방어 ②방어 최적화·확장 ③자동 보정 ④검증 가능한 방어 기술 등으로 진행된다.

1단계(타당성 연구 단계)의 마지막 해를 보내고 있는 올해 4차년도는 ‘Data Poisoning 공격 기술 개발’, ‘Data Poisoning 공격 완화 기술 개발’, ‘ML 워터마킹 우회 공격 기술 연구 및 구현’, ‘인간 인식 범위 Adversarial training 기법 연구’, ‘Data Poisoning 공격에 취약한 AI 모델 분석’, ‘XAI 기반 취약성 설명’, ‘심볼릭 인터벌 계산을 통한 효과적인 SMT solver 기반의 딥러닝 모델 검증방법 연구’, ‘구현 검증기술의 평가’ 등을 진행한다.

8년 간의 연구개발 과제에서 도출하기 위한 최종 결과물 16건
8년 간의 연구개발 과제에 도출하기 위한 최종결과물은 크게 △시스템(System) △공격(Attack) △XAI △Defense △통합시스템으로 구분된다. 먼저 ‘시스템(System)’ 분야에서는 △기계학습 모델 대상 15종 Evasion 공격(소프트웨어) △기계학습 모델 대상 2종 Membership Inference 공격(소프트웨어) △기계학습 모델 대상 Data poisoning 공격(소프트웨어) △기계학습 모델 대상 Evasion/Membership Inference/Data poisoning 완화 API(소프트웨어)를 개발할 예정이다.

‘공격(Attack)’ 분야에서는 △4종 기계학습 모델 워터마킹 알고리즘(소프트웨어) △기계학습 모델 워터마킹 우회 공격(소프트웨어) 기술을 개발 완료할 계획이다.

‘XAI’ 분야에서는 △XAI를 이용한 기계학습 모델의 취약점 설명 API(소프트웨어) △기계학습 모델의 취약성 수정(Repair) API(소프트웨어) △도구의 평가를 위한 훈련데이터 벤치마크(훈련데이터 데이터베이스)를 개발하게 된다.

이어 ‘방어(Defense)’ 분야에서는 △다양한 종류의 Adversarial 공격에 일반화되는 Adversarial 방어 학습 알고리즘(소프트웨어) △Adversarial 공격의 방어를 위한 학습에 필요한 효율적인 Adversarial noise의 크기를 자동으로 결정하는 기술(소프트웨어) △테스트 정확도를 저해하지 않는 Adversarial 방어 학습 기법(소프트웨어) △Federated 학습 상황에서 Adversarial robust 한 모델을 학습시킬 수 있는 기술(소프트웨어) △Adversarial 공격에 견고한 PDF Malware Classifier 알고리즘(소프트웨어) △Adversarial 공격에 대한 인증 가능한 방어 알고리즘 기술(소프트웨어) 등을 개발할 예정이다.

마지막으로 통합 시스템에서는 연구된 도구와 기술을 일반 사용자들이 손쉽게 이용할 수 있도록 웹 서비스를 제공하는 ‘기계학습 모델의 취약성 탐지·완화·보정을 위한 웹서비스’ 개발을 목표로 하고 있다.

KAIST에서는 이번 연구개발 과제를 마무리하는 2027년까지 특허출원 총 29건, 논문 총 32편의 기술이전 총 10건, 기술료 1억 6,000만원, 기술홍보 총 15건, SW 등록 총 15건, 보고서 원문 총 11편 등의 성과를 기대하고 있다.

이번 연구개발을 통해 국가기관 및 관공서에서 기계학습 모델을 기반으로 한 서비스 제공시 기계학습 모델의 취약점을 서비스 이전에 탐지하고 이를 개선하기 위한 방안을 제시하는 것은 물론, 기계학습 모델의 취약점을 사전에 탐지해주는 목적으로 AI 보안 컨설팅 회사에서 활용 가능할 것으로 보인다. 또한, 제안 도구를 패키지화해 SW 제품으로 상품화 및 기반기술을 라이센스화하여 기술 이전에 활용할 계획이다.

KAIST 관계자는 “이번 과제의 기대효과는 국제적인 핵심 공통 기반기술 확보를 통해 글로벌 연구 리더십 및 원천 기술을 확보하고, 인공지능 서비스의 보안 검증을 통한 국내외 인공지능 시장에서의 경쟁력을 확보하는 것”이라며 “연구를 통해 국내 인공지능 소프트웨어 기업의 리스트 해소와 신뢰성 강화에 기여하도록 노력하겠다”고 밝혔다.