[김정민 변호사의 IT와 법] 아마존, 구글· 페이스북보다 더 탁월한 AI기업인 이유
상태바
[김정민 변호사의 IT와 법] 아마존, 구글· 페이스북보다 더 탁월한 AI기업인 이유
  • 김정민 변호사
  • 승인 2020.09.20 14:54
  • 댓글 0
이 기사를 공유합니다

AI 혁신과 미래의 사업기회 ②
아마존 알리바바 쿠팡 등 서비스 초기에 손해 감수하고 고객 유인한 전략은 AI 혁신에서 '기본'
아마존, 소비자가 실제 구매한 정보 보유...검색→구매까지 수직적 통합 정보 가진 유일한 플랫폼
김정민 변호사
김정민 변호사

[김정민 변호사] ①에 이어 계속

자연어 처리 알고리즘에 대하여

자연어 처리(Natural Language Processing, NLP)의 목표는 사람이 사용하는 언어를 컴퓨터가 이해하고 처리할 수 있도록 하여 예약, 물건구매, 질문답변, AS, 번역, 요약, 자료분석 등을 자동으로 수행케 하는 것이다. 최근에는 인간의 언어에서 논리뿐만 아니라 감성을 이해할 수 있도록 발전하고 있는데, AI를 딱딱한 기계가 아닌 인간과 가까운 친구로 느끼게 해 줄 날이 머지않은 것 같다.
 
자연어 처리를 위한 기초는 토큰화, 구문분석, 어간 추출, 품사 표시, 언어 감지, 의미적 관계 식별 등이다. 문장을 더 짧은 기본 요소로 분해하고, 각 요소 간의 관계를 이해하며, 요소들이 어떻게 상호작용하여 의미를 이루는지를 이해하는 것이 자연어 처리의 핵심이다.
 
자연어 처리 알고리즘을 이해하기 위해서는 먼저 ‘언어 모델(Language Model, LM)’을 이해해야 한다. 인간이 사용하는 자연어 분석을 위해 모델링하는 것으로, 인간의 언어가 단어의 순차적 연결이라는 것에 착안하여 이 순차적 연결에 확률을 부여하는 것을 말한다.

이를 통해 확률이 가장 높은 자연스러운 단어의 연결을 찾는 모델인데, 이전 단어들이 주어졌을 때 다음으로 나올 단어의 확률을 계산하고 예측하는 것, 주어진 양쪽의 단어들로부터 가운데 빈칸에 나올 단어를 예측하는 것이 있다. ‘언어 모델링’은 빈칸에 들어갈 단어를 예측하고 이를 통해 보다 적절하고 자연스러운 문장을 만들 수 있다. 구글 등 검색엔진에서 한 단어만 입력했는데 이후 단어를 추천해 주는 것(네이버의 ‘연관검색어’)이 언어 모델링을 사용한 것이다.

과거에는 통계에 기반한 언어 모델이 주를 이루었지만, 최근에는 인공 신경망을 이용한 방법이 더 나은 성능을 보여주고 있다. 대표적으로 GPT나 BERT가 인공 신경망 언어 모델을 사용한 것인데, 딥러닝의 기초를 이해한 경영자나 기획자들은 기계가 기계학습을 하듯 차근차근 인공신경망 언어 모델을 학습해볼 필요가 있다.

구글이 개발한 '듀플렉스'를 설명하고 있는 연구자. 사진= 연합뉴스
구글이 개발한 '듀플렉스'를 설명하고 있는 연구자. 사진= 연합뉴스

구글은 2018년 AI 비서가 헤어샵, 식당 예약 등을 하는 '듀플렉스(Duplex)’를 선보였다. 미국에서는 60% 이상의 업체가 아직 온라인 예약 대신 전화예약만을 받고 있어 AI가 예약을 대신해주는 서비스의 수요가 강하다. 듀플렉스는 사람의 목소리를 입혀, 사람이 전화를 건 것으로 착각할 수 있다는 것과 통화 내용이 예상치 못한 방향으로 전개되더라도 상대방 얘기의 뉘앙스와 문맥을 이해해서 문제없이 예약을 끝낼 수 있다는 점에서 눈길을 끌고 있다. 매장에 걸려오는 전화를 AI가 대신 응답하여 처리하는 '콜조이(Calljoy)' 서비스도 있다. 듀플렉스(Duplex)의 반대 측 역할을 한다.
 
미래에는 자연어 처리를 넘어 자연어 이해(Natural Language Understanding, NLU)가 중요해질 것이다. NLU는 인지 및 AI 응용 분야에서 잠재력을 인정받기 시작했는데. 언어 구조를 파악해 논리적으로 이해하는 것을 넘어 인간의 의도를 추론하고, 모호한 문맥을 이해하며, 실제 인간이 사용하는 문장을 스스로 생성하기도 한다. NLU 알고리즘은 복잡 다양한 의미론적 해석 문제를 해결해야 하는데, 인간 언어의 미묘한 뉘앙스 차이와 맥락, 추론을 이해하고 진짜 의미를 파악해야 한다.

NLU로의 진화는 고객과 기업 모두에게 혁신으로 다가갈 것이다. 정서와 분위기, 뉘앙스까지 이해할 수 있는 알고리즘이 의료, 법조, 교육계 등 다양한 분야에서 엄청난 파급효과를 가져올 것이다.

얼마 전 말과 글의 온도의 소중함을 다룬 이기주 작가의 ‘언어의 온도’라는 책을 읽고 감명을 받았는데, 이제는 ‘언어의 온도’와 소중함을 더 잘 아는 AI가 나와 인간과 함께 호흡할 수도 있겠다는 생각을 하게 된다.

추천 알고리즘(Recommendation Algorithm)에 대해

이커머스(e-commerce) 영역에서 발전한 추천 알고리즘에는 협업 필터링(Collaborative Filtering, CF)과 컨텐츠 기반 필터링(Contents Based Filtering, CBF)이 있다. 협업 필터링(CF)은 과거 구매 이력 데이터를 기반으로 유사한 다른 아이템을 추천하는 방식이고,  컨텐츠 기반 필터링(CBF)은  컨텐츠에 대한 분석 데이터를 기초로 사용자에게 추천하는 방식이다.

컨텐츠기반 필터링(CBF)과 협업 필터링(CF) 알고리즘 비교 설명. 출처= Software carpentry
컨텐츠기반 필터링(CBF)과 협업 필터링(CF) 알고리즘 비교 설명. 출처= Software carpentry

CF에도 사용자 기반 추천(user-based recommendation)과 아이템 기반 추천(item-based recommendation)이 있다. 전자는 고객A와 고객B가 유사하다면 고객A가 선택한 아이템을 고객B에게 추천하는 것이고, 후자는 나의 이전 구매 아이템을 분석해 유사도가 높은 아이템을 추천하는 것이다. 전자의 예로 페이스북의 '친구 추천'이 있고, 후자의 예로 넷플릭스, 왓차의 '영화 추천'이 있다. 아이템간의 유사도는 함께 아이템을 구매하는 빈도를 분석하여 측정한다.

CBF는 컨텐츠를 정교하게 분류하는 것이 무엇보다 중요한데, 넷플릭스는 50명의 태거(Tager)가 넷플릭스에 신규 로드되는 컨텐츠를 분석하여 태그를 달고 있다. 넷플릭스는 이 태그를 기초로 컨텐츠를 5만가지 이상으로 분류한다.

최근에는  하이브리드 추천 시스템, 머신러닝 추천 시스템이 등장했다. 넷플릭스는 다른 고객이 높게 평가했던(CBF) 영화와 비슷한 특성을 띄는 영화를 추천하고, 비슷한 사용자(CF)들의 검색 습관과 시청을 비교함으로써 추천을 하는 hybrid 시스템을 사용하고 있다. 머신러닝 추천시스템은 머신 러닝의 결과를 기초로, 사용자 검색어 분류, 유사도 측정, 컨텐츠를 분석하여 자동으로 태깅을 하는 것 등이다. 유사도가 높은 고객들에게 동일한 아이템을 추천하여 구매로 연결되는 결과를 학습하여 추천 시스템을 보완하기도 한다.

추천의 정확도가 앞으로 이커머스, 컨텐츠 기업의 성패를 좌우할 것이다. 추천 알고리즘 경쟁력은 이용자 정보량 즉 데이터량이 중요하다. 초기 고객 확보와 데이터 경쟁력이 추천 알고리즘 능력 격차가 되고 이것이 심화되어 기업의 성패로 이어질 것이다.

AI가 필요로 하는 데이터

AI는 데이터를 학습해 성장하기에 데이터의 질에 따라 AI의 성능(정확도, 속도)이 좌우된다. 데이터의 종류와 질이 AI 알고리즘의 선택에 영향을 미치고, 알고리즘에 따라 데이터를 정제, 가공해야 하는 경우도 많다.

소위 말하는 질 좋은 데이터는 알고리즘에 적합한 데이터다. 문제해결에 필요한 알고리즘을 전제로, 알고리즘이 요구하는 데이터의 양, 생성빈도(신선도), 다양성(편향성)을 갖추고 속성정의(Labeling)가 된 데이터가 필요하다. 처리능력이 받쳐준다면 데이터의 양은 많을수록 좋은데, 최소한 충분한 학습이 가능한 정도는 필요하다. 또한 AI는 Fresh Data를 좋아하는데, 항상 업데이트가 되는 최신의 데이터를 말한다. 적어도 시기가 맞지 않거나 오래된 데이터는 아니어야 한다.

나아가 데이터는 편향되지 않고 다양한 속성을 갖추고 있어야 결과도 편항되지 않는다. 실시간 데이터의 경우 순간적인 데이터의 왜곡이 있을 수 있으므로 이를 탐지하고 관리할 수 있는 시스템을 갖추는 것도 중요하다. 양질의 데이터가 지속적으로 생성되고 있다는 것은 기업과 기업 서비스 이용자에게 결과에 관한 신뢰를 주는 효과가 있다.

많은 경우 기업의 AI혁신을 가로 막는 것은 데이터이다. AI 프로젝트가 기대에 못미치는 결과를 낼 수밖에 없는 이유도 데이터 부족 또는 데이터 가공의 어려움 때문이다. AI 알고리즘을 트레이닝할 때 활용할 수 있도록 적절히 분류된 데이터는 보석과도 같지만, 분류되어 있지 않고 편향성이 강한 데이터는 쓰레기나 다름없다. 사람이 시간을 투자해 데이터를 일일이 분류해야 하는데, 이로 인한 시간과 비용을 감내할 기업은 많지 않다.

AI 혁신을 추구하는 경영자나 기업가는 처음에는 공공데이터, 공개된 데이터에 눈을 돌린다. 그리고는 데이터 가공의 어려움에 직면한 후 결국 스스로 생성하는 맞춤형 데이터가 가장 좋은 데이터라는 사실을 깨닿게 된다. AI 혁신의 성패는 데이터에 있고, 데이터는 고객 수에 비례한다. 다만, 생성되는 데이터의 질을 높이려는 노력은 계속되어야 하는데, 많은 고객 정보를 실시간으로 다양성 있고, 목적에 맞게 라벨링해 생산하여야 한다.

AI 플랫폼과 고객 선점

앞서 본 바와 같이, AI 혁신에서 가장 중요한 것은 시장 개척과 고객 선점이다. AI 서비스는 사용자가 많아지면 많은 데이터를 축적해 이를 학습할 수 있고, 이로 인해 고객별 맞춤형 서비스는 정교해지고 정확해진다. 이렇게 AI의 기능이 향상되면 소문을 타고 더 많은 고객을 끌어들일 수 있다. 더 많은 데이터가 확보되면 더 많은 학습을 통해 서비스 질이 더욱 더 향상된다.
 
AI 혁신은 데이터를 바탕으로 일어나므로 고객 선점의 효과는 어느 산업 분야보다 크다. 아마존과 알리바바, 한국의 쿠팡이 서비스 초기에 손해를 감수하고 고객을 유인하는 전략은 AI 혁신에서는 기본에 해당한다. 

이렇게 고객을 선점한 AI 기업은 더 강력한 플랫폼 기업이 되기 위해 타 기업과 격차를 벌려야 한다. 이를 위해 ‘개방 전략’과 ‘차별화 전략’을 동시에 진행한다. 

아마존은 AWS 파트너 기업이 알렉사(아마존이 만든 AI 비서)를 자신의 제품에 응용할 수 있도록 지원해왔다. 일종의 '개방 전략'이다. 이를 통해 파트너사가 늘어났음은 물론 파트너사의 고객을 통한 데이터를 확보해 데이터 양을 크게 늘릴 수 있었다. 화웨이, 도시바는 알렉사를 탑재한 제품을 출시하였고, LG전자는 스마트폰에 구글어시스턴트를 탑재하였다.

한편 아마존은 '“제품이 아니라 경험을 판다”는 철학을 기반으로 고객 맞춤의 경험을 통해 다양한 '차별화 전략'을 수행해왔다. 아마존은 구글이나 페이스북보다 소비자 구매에 대한 직접적이고 정확한 정보를 가지고 있어 이를 적극적으로 활용하고 있는 것이다. 

구글이 소비자가 무엇을 찾는지(검색)에 대한 정보를, 페이스북이 소비자가 무엇을 좋아하는지(성향)에 대한 정보를 가지고 있는 반면, 아마존은 소비자가 실제로 무엇을 구매하는지에 대한 방대한 정보를 가지고 있다는 것이 차별점이다. 정확한 구매 데이터를 가진 아마존은 소비자 정보의 수직적 통합(검색에서부터 구매까지 이어지는)이 가능한 유일한 플랫폼이라는 평가다.

AI의 혁신은 고객을 선점하고 고객 정보의 수직적 통합이 가능한 플랫폼 기업이 가장 잘 할 수 있고, 그 격차는 점점 벌어질 것이다.

구글이나 페이스북에 제한된 소비자 정보에 바탕한 AI를 운영하고 있는데 반해 아마존은 소비자들이 실제로 검색하고 구매한 수직통합적 데이터에 기초한 AI 플랫폼을 갖고 있어 가장 강력하다는 평가를 받고 있다. 사진= 연합뉴스
구글이나 페이스북에 제한된 소비자 정보에 바탕한 AI를 운영하고 있는데 반해 아마존은 소비자들이 실제로 검색하고 구매한 수직통합적 데이터에 기초한 AI 플랫폼을 갖고 있어 가장 강력하다는 평가를 받고 있다. 사진= 연합뉴스

AI 혁신의 가치(기능적 가치와 가치의 확장)

모든 혁신은 우리에게 전에 없던 가치를 전달하는 것을 목표로 한다. 또한 소비자가 그 혁신에 가치를 부여하기도 한다.

AI 혁신이 고객에게 전하는 가치는 크게 ‘기능적 가치’와 ‘경험적 가치’다. 기능적 가치는 고객에게 전에 없었던 기능을 제공하거나 다른 것과 차별화된 월등한 기능을 제공하는 것을 의미한다. 경험적 가치는 소비자가 차별적 기능을 경험하면서 느끼는 만족감과 즐거움을 말한다. 첨단기술을 사용한다는 ‘기술적 가치’도 생각할 수 있는데, 기업 스스로에게 만족감을 줄 뿐, 고객은 그 가치를 직접 느끼지 못하므로 ‘기술적 가치’는 고객이 느끼는 ‘기능적 가치’에 내재되어 있다고 볼 수 있다.

AI 혁신이 주목받는 이유는 뛰어난 기능적 가치 때문이다. 인간이 하기 싫은 일을 대체하고 나아가 실제로 사람인 것처럼 인간과 소통한다. AI는 인간이 필요로 하는 것을 시키지 않아도 알아서 해준다. AI 혁신을 ‘기능적 가치’ 측면에서 바라보면, 더 이상 개발될 기술이 있을까 의문이 들기도 한다. 하지만 AI가 주는 기능은 무궁무진하여 앞으로도 큰 발전이 있을 것이다.

그런데 정작 소비자에게 중요한 것은 새로운 기능이 주는 가치보다 새로운 경험이 주는 가치일 때가 많다. 소비자는 제품의 기능을 접해보는 경험을 통해서 그 가치를 제각각 다르게 느낄 수도 있는 반면, 기능적 가치가 동일한 제품이라도 각 소비자의 성향, 이전 경험, 처해진 상황에 따라 다른 경험을 주기 때문이다.

머지않은 미래에는 자연어이해(NLU)의 발달로 AI는 인간 언어의 미묘함과 뉘앙스까지 이해하고, 이런 복잡 미묘한 언어로 인간과 대화할 것이다. 목소리 또한 인간의 목소리와 구별이 불가능할 것이다. AI는 인간과 함께 창조적 생산을 할 것이고, 일상의 모든 일에서부터 고도의 창조적 활동까지 AI와 함께하는 경험이 AI 혁신이 주는 최고의 경험적 가치가 될 것이다. ③에서 계속

● 김정민 변호사는 서울대에서 컴퓨터공학, 법학(부전공)을 공부했다. 4회 변호사시험에 합격했으며 IT기업 준법팀장을 거쳐 법무법인 로베이스 파트너변호사로 있다. 대한변호사협회 IT블록체인특위 대외협력기획 부위원장, 서울지방변호사회 기획위원회 위원, 한국블록체인법학회 정회원이다.


   



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.