본문 바로가기

카테고리 없음

머신러닝 및 딥링크 그래프 분석의 강력한 조합

머신러닝 및 딥링크 그래프 분석의 강력한 조합

Amanda Morris

2019년 4월 14일

블로그, 비즈니스, 사기/자금세탁 방지, 머신 러닝

 

KDNuggets에 원문 포스팅.

 

소프트웨어가 패턴을 정확하게 식별하고 결과를 예측할 수 있도록 하는 인공 지능(AI)의 한 측면인 머신 러닝(ML)은 업계에서 뜨거운 주제가 되었습니다. 지난 몇 년 동안 데이터 분석, 스토리지 및 컴퓨팅 파워가 계속해서 발전함에 따라 머신 러닝은 이상 거래 방지, 개인화된 추천, 예측 분석 등과 같은 엔터프라이즈 애플리케이션에서 점점 더 중요한 역할을 하고 있습니다. 

그러나 머신 러닝 및 인공지능 앱에 그래프 데이터베이스 기능을 적용하는 것은 비교적 새로운 일입니다. 더 관련성 있고 정확한 정보를 제공하기 위해 데이터 내에서 관계를 찾아 개념을 처음 대중화한 Google의 지식 그래프가 2012년으로 거슬러 올라간다는 점에 비춰보면 놀라운 일입니다. 

또한, 그래프는 저장, 연결, 그리고 복잡한 데이터에서 추론을 하는 것에 잘 맞습니다.

머신 러닝에서 그래프가 중요한 역할을 하지 않는 주된 이유는 레거시 그래프 데이터베이스가 머신 러닝에 실제로 필요한 것, 즉 대규모 데이터 세트에 대한 딥링크 그래프 분석을 제공할 수 없기 때문입니다. 그래프가 머신 러닝에 어떻게 도움이 되며 빅데이터를 위한 딥링크 그래프 분석과 어떤 관련이 있는지 자세히 살펴보겠습니다.

 

 

 

비지도 네이티브 그래프 기반 머신 러닝 알고리즘

첫째, 그래프 분석은 독특한 비지도 머신 러닝 방법을 직접적으로 제공합니다. 커뮤니티 감지, PageRank, 레이블 전파, 매개 중심성, 근접 중심성, 이웃 유사성 등의 다양한 그래프 알고리즘은 광범위한 어플리케이션에서 의미 있는 그래프 지향 패턴을 식별합니다. 여기에는 이상 거래 패턴 식별, 사용자 그룹 찾기, 영향력 있는 사용자 또는 커뮤니티 계산, 운영 또는 공급망의 약점 또는 병목 현상 보고가 포함됩니다.

이러한 네이티브 그래프 알고리즘이 공유하는 일반적인 품질은 모두 딥링크 그래프 분석을 수행해야 한다는 것입니다. 즉, 데이터를 수집하고 그것을 분석하기 위해 그래프 내에서 여러 홉 또는 연결 단계를 탐색해야 합니다. 특히 커뮤니티 감지와 같은 전체 그래프 분석의 경우 이러한 탐색에는 강력한 그래프 연산 능력이 필요합니다. 네이티브 병렬 그래프 데이터베이스만이 이를 제공할 수 있습니다. 

 

 

지도 머신 러닝 알고리즘 훈련을 위한 그래프 기능

딥링크 그래프 분석이 머신 러닝에 도움이 되는 두 번째 방법은 지도(supervised) 머신 러닝에 사용할 수 있는 데이터 특징 집합을 강화하는 것입니다. 9억 명 이상의 가입자를 보유한 세계 최대의 모바일 서비스 제공업체인 차이나 모바일을 예로 생각해 보세요. 차이나 모바일의 네트워크에는 매주 20억 건 이상의 음성 통화가 있으며, 그들의 주요 과제는 가입자에 대한 세부 정보가 거의 또는 전혀 없는 선불 SIM 카드를 사용하는 전화 기반 사기범을 찾는 것이었습니다. 그래서 일반 가입자의 좋은 전화와 사기꾼의 나쁜 전화를 구별하기가 어려웠습니다. 통화 시간 또는 거부된 통화 비율과 같은 단순한 특징들만으로는 많은 오탐지가 발생했습니다.

차이나 모바일은 안정적인 그룹 및 그룹 내 연결들과 같은 그래프 기반 머신 러닝 특징을 활용하여 이상 거래 탐지를 위한 머신 러닝의 정확도를 개선했습니다. 좋은 전화기는 또한 정기적으로 다른 전화기 집합(예: 매주 또는 매달)에 전화를 걸며 이 전화기 그룹은 일정 기간 동안 상당히 안정적입니다("안정 그룹").

 

좋은 전화 행위를 나타내는 또 다른 특징은 전화가 몇 달 또는 몇 년 동안 네트워크에 있던 다른 사람에게 전화를 걸고 다시 전화를 받는 경우입니다. 우리는 또한 좋은 전화, 장기 전화 연락 및 네트워크 내의 다른 전화 사이에서 이 두 번호를 자주 호출하는 많은 수의 통화를 봅니다. 이것은 좋은 전화에 대한 많은 "그룹 내 연결"을 나타냅니다. 차이나 모바일은 각 전화기에 대해 118개의 그래프 기반 특징을 생성하여 이상 거래 탐지 프로세스를 혁신하여 수백억 개의 새로운 교육 데이터 레코드를 머신 러닝 솔루션에 제공했습니다.

 

 

 

 

설명 가능한 머신 러닝/인공지능 모델

머신 러닝 채택이 증가함에 따라 설명 가능한 모델은 많은 논의 주제가 되고 있습니다. 신경망과 신경망에서 파생된 딥러닝 네트워크와 같은 방법에 대한 일반적인 비판은 이들이 생성하는 예측 모델이 종종 인과 관계에 대한 통찰력을 제공하지 않는다는 것입니다. 그들은 왜 그 결과를 예측했는지에 대한 간단한 대답을 할 수 없습니다. 반면 설명 가능한 모델은 결정을 이끌어내는 주요 변수들을 강조하는 경향이 있습니다. 전통적인 예는 의사 결정 트리입니다. 당신의 암 발병 위험을 평가하기 위한 의사 결정 트리를 고려해보세요. 당신은 규칙적으로 담배를 피웁니까? 그렇다면 평균 이상의 위험이 있습니다. ‘아니오’인 경우 다음 질문을 하십시오. 의사 결정 트리는 특수 그래프라는 것을 기억해두세요. 

마찬가지로 그래프 알고리즘이나 그래프 특징이 AI 모델의 일부로 사용될 때 "고객 -(구매) -> 제품"과 같은 그래프 관계의 자연스러운 의미가 쉽게 해석됩니다.

설명 가능한 AI 모델에는 많은 이점이 있습니다. 예를 들어 소비자는 개인화된 추천을 기대하게 되었습니다. 추천에 일부 설명이나 증거가 포함되어 있는 경우, 사용자는 그에 따라 행동할 가능성이 더 큽니다. 그래프 분석은 이러한 개인화된 추천 뒤에 있는 증거를 계산하고 보여주며, 필요에 따라 그래프 시각화로 설명하는 데 적합합니다. 예를 들어, 그래프 분석은 이 제품 또는 서비스와 같이 2~3 단계 떨어져 있는 당신 친구들의 백분율, 당신과 비슷한 관심사를 가진 다른 사용자의 백분율, 또는 당신이 이전에 구매한 제품과 유사하다는 것을 보여줄 수 있습니다. 

 

 

그래프 기반 머신 러닝 및 분석은 소비자뿐만 아니라 기업 사용자에게도 유용합니다. 이상 거래 탐지를 예로 들 수 있습니다. 많은 기업에서 거래가 이상 거래일 가능성이 있는지 판단하기 위해 훈련된 조사원으로 구성된 대규모 팀을 고용합니다. 그래프는 여러 데이터 소스를 결합하여 점을 연결하는 데 탁월하며 조사관은 문제의 거래가 이전에 이상 거래로 표시된 거래와 어떻게 연결되었는지 시각적으로 대화식으로 볼 수 있습니다. 이것은, 예를 들어, 일부 머신 러닝 모델로부터 모호한 0.7 이상 거래 점수를 받는 것보다 더 도움이 됩니다.

또 다른 예: 실시간 전화 사기 방지. 매일 수억 건의 전화가 걸려오지만 이 중 악의적인 사기는 극히 일부에 불과합니다. 그래프 기술은 발신자, 전화번호 및 수신자 간의 관계를 신속하게 탐색할 수 있고, 머신 러닝과 결합하여 어느 것이 가짜인지 감지하는 훈련된 모델을 개발할 수 있습니다.

더욱이 규제 기관이나 다른 감사 당사자가 관여할 때 설명 가능한 머신 러닝이 요구 사항이 됩니다. 은행은 자금 세탁 가능성을 감지할 수 있는 고품질 방법을 갖추어야 합니다. 점점 더 많은 은행들에서 머신 러닝을 활용하여 탐지 정확도를 높이고 있지만, 동시에 감사자에게 시스템이 효과적인 방법과 이유를 보여줄 수 있어야 합니다. 그래프 기반 특징을 사용하는 머신 러닝 모델은 필요한 투명성을 제공합니다.

 

 

 

 

네이티브 병렬 그래프 데이터베이스

머신 러닝은 항상 컴퓨팅 관련 요구 사항이 많았으며 그래프 기반 머신 러닝도 예외는 아닙니다. 연결된 데이터의 모든 홉 또는 수준에 따라 검색의 데이터 크기가 기하급수적으로 확장되어 데이터를 탐색하기 위해 대규모 병렬 연산이 필요합니다. 이것은 너무 많은 별도의 조회가 필요한 키-값 데이터베이스 또는 너무 많은 느린 조인으로 어려움을 겪는 RDBMS에 대해 계산적으로 너무 비쌉니다. 표준 그래프 데이터베이스 조차도 큰 그래프에 대한 딥링크 분석을 처리하지 못할 수 있습니다. 대규모 병렬 및 분산 처리를 특징으로 하는 네이티브 그래프 데이터베이스가 필요합니다.

개인화된 추천 및 이상 거래 탐지 뒤에 있는 이유를 계산하고 설명하기 위해 그래프 데이터베이스는 그래프의 연결을 탐색할 수 있을 뿐만 아니라 필터링 및 집계와 같은 연산과 증거를 기억하기 위한 복잡한 데이터 구조를 지원할 수 있는 강력한 쿼리 언어가 필요합니다.

딥링크 그래프 분석은 그래프 패턴의 비지도 학습, 지도 학습을 위한 기능 강화, 설명 가능한 모델 및 결과 제공을 통해 머신 러닝의 다음 발전에 힘을 실어주고 있습니다. 인공지능과 머신 러닝을 결합하면 향후 몇 년 동안 기업에 좋은 서비스를 제공할 수 있는 강력한 조합입니다.

 

 

source : https://www.tigergraph.com/blogs/business/machine-learning-and-deep-link-graph-analytics-a-powerful-combination/