여러분은 평소 얼마나 많은 인공지능 시스템을 사용하고 계신가요?
이번달 주제는 KAIST 이성주교수님이 알려주시는 온디바이스AI와 연합학습입니다.
이성주교수님의 강연 영상과 인터뷰 영상을 통해서 여러분이 알고 있는, 혹은 더 궁금해진 온디바이스 AI와 관련한 질문을 만들어
친구들과 공유 해주세요 :)
다른 친구들의 질문에도 관심과 해결방법을 생각해보면 좋을것 같아요!
● 이성주 교수님 강의영상
여러분은 평소 얼마나 많은 인공지능 시스템을 사용하고 계신가요?
이번달 주제는 KAIST 이성주교수님이 알려주시는 온디바이스AI와 연합학습입니다.
이성주교수님의 강연 영상과 인터뷰 영상을 통해서 여러분이 알고 있는, 혹은 더 궁금해진 온디바이스 AI와 관련한 질문을 만들어
친구들과 공유 해주세요 :)
다른 친구들의 질문에도 관심과 해결방법을 생각해보면 좋을것 같아요!
온디바이스 AI는 데이터를 서버로 보내지 않아 보안에 유리하다고 하지만, 기기 자체에 중요한 정보가 저장되기에, 애초에 그 기기가 도난당하거나 해킹되면 오히려 공격 대상이 뚜렷해지고, 보안 취약점이 될 수 있지 않나라는 생각이 들었다.
강연 중에 온디바이스 AI와 연합학습이 기존의 클라우드 기반 AI에 비해 개인정보 보호 측면에서 큰 강점을 갖고 있다는 말씀에 깊은 인상을 받았습니다. 실제로 사용자 데이터를 디바이스 내부에서 처리하고, 서버에는 원본 데이터를 보내지 않기 때문에 프라이버시 침해 위험을 크게 줄일 수 있다는 설명이 매우 설득력 있게 느껴졌습니다.
그런데 최근에 AI 보안 관련 자료를 찾아보던 중, ‘기울기 유출'이나 ‘모델 반추 공격’ 같은 기법을 통해, 학습 과정에서 전송되는 모델 업데이트나 파라미터만으로도 원본 데이터를 유추해낼 수 있다는 연구 사례를 보게 되었습니다. 즉, 연합학습처럼 원본 데이터를 직접 공유하지 않는 방식에서도, 학습에 참여한 디바이스의 민감한 정보가 유출될 수 있다는 우려가 존재한다는 것입니다.
온디바이스 AI는 서버 없이 디바이스 자체에서 데이터를 처리해 빠른 반응과 높은 프라이버시를 제공하는 기술로, 현재는 주로 스마트폰, 차량, 헬스케어 등에 활용되고 있습니다.
하지만 향후에는 우주, 군사, 재난대응 등 극한 환경에서도 통신이 불가능하거나 지연이 큰 상황에서 자체 판단과 추론이 가능한 AI가 필요해질 것입니다.
이런 환경에서 온디바이스 AI는 중요한 역할을 할 수 있지만,
고온·방사선·전력 제한 등 극한 조건에 견디는 하드웨어와 에너지 효율성, 신뢰성 있는 판단 알고리즘 같은 기술적 보완이 필수입니다.
따라서 이 질문은 단순한 기술 확장이 아닌, AI의 생존성과 자율성을 미래 산업과 연계점에서의 의문이 생겨서 질문한 것입니다.
온디바이스 AI와 연합학습 모두 기기 성능, 네트워크 연결성, 모델 크기, 에너지 소모 등에서 한계가 있습니다. 이를 극복하기 위한 경량화 모델, 효율적 통신 프로토콜, 하드웨어 최적화, 분산 학습 알고리즘 개선 등의 최신 동향을 알고 싶습니다.
온디바이스 AI는 기기 내부에서 데이터를 처리하기 때문에, 클라우드에 정보를 보내지 않고도 사용자에게 맞춤형 서비스를 제공합니다. 하지만 이 과정에서 사용자의 위치 정보, 생체 정보, 습관 등 개인적이고 민감한 정보가 지속적으로 수집되고 분석됩니다.
물론 데이터가 외부로 나가지 않는다는 점은 프라이버시를 보호하는 장점이 있지만, 기기 내부에 저장되는 정보조차 누군가에게 노출될 가능성도 있습니다. 또한 사용자가 이를 정확히 인식하지 못한 채 AI를 사용하는 경우도 많습니다.
따라서, 사용자의 동의 없이 민감한 정보를 계속 수집하고 분석하는 행위는 윤리적으로 정당한가?라는 의문이 듭니다.
이 강의를 들으면서 저는 온디바이스 ai를 통해 인공지능의 독립화에 대해 집중하게 되었습니다.
온디바이스 ai는 클라우드에게 영향받지 않기에 모델 학습에 사용되는 데이터 또한 그 기기로만 입력받을 수 있다면 하나의 독립적인 기기 그 자체로 ai가 만들어 질 수 있을 것 같았습니다.
저는 이 방법이 인간의 학습과 비슷하다고 생각했습니다. 인간 또한 독립적으로 오감에 의해 주변의 데이터를 통해 학습하면서 성장합니다.
이런 인간과 온디바이스 ai의 비슷한 점은, 크롤링으로 데이터로 인해 창작된 인공지능 생성물들이 저작권을 인정받지 못한다는 점을 보완할 수 있었을 것 같았습니다.
크롤링을 통한 무분별한 정보 수집이 아닌 인간처럼 주변 환경에 따라 기기만의 데이터셋을 만들고 그것을 기반으로 하면 ai마다의 독창성도 있을 것이고 센서로 인한 직접 데이터 수집이니 이런 방법으로 만들어진 ai 생성물은 저작권 인정을 받을 수 있을까요?
연합학습은 각 기기가 자신의 데이터를 기반으로 AI를 훈련한 뒤, 그 결과만을 서버에 보내 전체 모델을 개선하는 방식이라고 알고 있습니다. 이론적으로는 개인정보 보호와 분산처리라는 장점이 있지만, 현실에서는 모든 기기가 동일한 조건을 갖추고 있지 않습니다. 어떤 사람의 스마트폰은 최신형이고 데이터도 풍부한 반면, 어떤 기기는 오래되고 느릴 뿐 아니라 데이터도 적고 품질이 낮을 수도 있습니다. 특히 이렇게 수집된 데이터가 편향되어 있거나, 특정 기기에서 생성된 결과가 전체 모델에 과도한 영향을 미친다면 오히려 학습 성능이 떨어질 수도 있지 않을까요? 이런 기기 간 차이가 실제 연합학습 시스템에서 어떻게 보완되거나 조절되는지 궁금합니다.
온디바이스 AI와 연합학습이 개인정보를 외부로 보내지 않고도 AI 서비스를 제공할 수 있다는 점에서 주목받지만, 실제 보호 효과와 법적·윤리적 충분성에 대한 의문이 제기된다.
온디바이스는 AI가 클라우드에 접속하지 않고도 스마트폰이나 번역기 등의 기기에서 즉각적으로, 그리고 자체적으로 작동할 수 있다고 소개합니다. 그러나 이는 우리가 통상적으로 알고 있는, 인공 지능은 인터넷이 있어야만, 거대한 정보의 바다, 즉 클라우드가 있어야만 작동한다는 사실과 다릅니다. 어떻게 온디바이스 AI는 인터넷 없이도 기기에서 바로 말하고 듣고 번역까지 하는 모습을 보일까요? AI에 필요한 정보가 모두 그 기기 안에 물리적으로 있어야 하고, 연산이나 데이터까지 전부 있어야 하는데 어떻게 가능한 걸까요?
이미 관심이 있는 부분이여서 더욱 인상 깊게 들었습니다. 연합학습에 대해 공부하면서 다시한번 Non-IID 데이터 문제가 실제로 얼마나 심각한 문제인지 알게 되었습니다. 기본적인 FedAvg는 각 클라이언트에서 로컬 학습을 한 후 단순히 가중평균하는 방식인데, 클라이언트마다 데이터 분포가 다르면 각자 다른 방향으로 학습이 진행되어서 평균을 내도 제대로 된 글로벌 모델이 만들어지지 않는다는 점이 이론적으로 흥미로웠습니다. 특히 FedProx에서 제안한 proximal term 개념이 궁금합니다. 클라이언트 모델이 글로벌 모델에서 너무 멀어지지 않도록 제약을 거는 방식인데, 이것이 단순히 regularization 효과만 있는 것인지, 아니면 Non-IID 환경에서 수렴성 자체를 보장하는 더 근본적인 역할을 하는 것인지 의문입니다. 반면 FedNova는 다른 접근법을 취합니다. objective inconsistency 문제에 주목해서 각 클라이언트의 로컬 업데이트 횟수나 학습률 차이를 normalized averaging으로 보정하는 방식인데, 이것이 정말로 Non-IID 문제의 근본 원인을 해결하는 것인지 아니면 단순히 aggregation 과정의 bias를 줄이는 정도인지 궁금합니다.
최근에는 온디바이스 AI가 스마트폰이나 웨어러블 기기에서도 개인의 행동이나 습관에 따라 다르게 반응한다고 들었습니다. 예를 들어 같은 모델이라도 어떤 사람에게는 운동을 추천하고, 다른 사람에게는 휴식을 권할 수 있습니다. 그래서 똑같은 모델을 사용하더라도 기기 환경이나 사용자에 따라 판단이 달라질 수 있는지 궁금해졌습니다. 또한 AI가 환경에 따라 다르게 반응한다면, 그것은 단순한 계산 결과인지, 아니면 상황을 고려한 ‘판단’에 가까운 행동인지도 알고 싶었습니다.
온디바이스 AI와 연합학습은 개인 데이터를 기기 밖으로 내보내지 않아 프라이버시를 지킨다. 하지만 사용자가 자신의 데이터가 어떻게 쓰이는지 완전히 알지 못할 수 있다. 데이터가 동의 없이 사용되거나, 예상치 못한 방식으로 오용될 위험도 존재한다. 또 알고리즘이 편향된 데이터를 학습하면 공정성 문제가 발생할 수 있다. 이런 문제들을 막기 위해서는 투명한 정보 공개와 사용자의 명확한 동의가 필요하고, 기술 발전과 함께 윤리적 기준도 함께 강화되어야 할 것 같다.
온디바이스 AI와 연합학습이 중앙 서버로 데이터를 전송하지 않고 기기 내에서 처리함으로써 개인정보를 보호한다고 합니다. 또한, IoT 기기에서 실시간으로 데이터를 처리하며 개인화된 서비스를 제공하려면, 높은 연산 효율성과 개인정보 보호 모두 필요하다고 생각했습니다. 이를 위해 어떤 기술이나 새로운 접근 방식이 필요할지 궁금했습니다.
질문 배경 : 연합학습 기술은 중앙 서버로 데이터를 전송하지 않고 각 사용자의 기기에서 개별적으로 학습을 진행한 뒤 그 결과만을 모아 하나의 인공지능 모델을 만드는 방식으로 사생활 보호 측면에서 큰 장점을 지니고 있다고 점을 배울 수 있었습니다. 하지만 학교에서 AI의 윤리와 공정성에 대해 배우던 중 사람마다 사용하는 기기의 종류나 사용 환경, 데이터 특성이 모두 다르다는 점에서 과연 이러한 비균질한 데이터를 활용했을 때 학습 모델의 정확도와 공정성이 충분히 확보될 수 있는지에 대한 의문이 들었습니다.
본인이 생각한 질문의 배경(이유)