본문 바로가기

데이터 Story/데이터 상념(想念)

[번역글] 텍스트 분석: 차세대 빅데이터

개인적으론 너무 마케팅에만 치우친 것 같아 텍스트 분석이 그다지 매력적이지는 않은데요.

시대의 흐름이고 DQ와도 연관돼 있어 관심을 가질 필요가 있는 거 같습니다.

더욱이 모델러는 데이터를 다루는 사람이니 연관 분야입니다.


주로 텍스트 분석의 중요성에 대해서 언급한 기사입니다.

특별한 내용은 없지만 참고하세요.


텍스트 분석은 도구를 이해하는 게 중요할 거 같다는 생각이 드네요.

DQ 솔루션과 겹치는 부분도 있을 거 같고요.


출처: http://insidebigdata.com/2015/06/05/text-analytics-the-next-generation-of-big-data/


--

다니엘 구티에레스. 2015. 6. 15

 

특집 기사에서 Lexalytics 제프 캐틀린은 텍스트 분석의 사례와 빅데이터의 관심 증가에 대한 중요성을 제시한다. 제프는 사내 클라우드 기반 기술을 사용하는 일련의 비즈니스에 감정 의도 분석을 제공하는 회사인 Lexalytics CEO. 제프 캐틀린은 검색, 분류 텍스트 분석 제품 서비스 분야에서 15 이상의 경력을 쌓았다. 그는 Thomson Financial Sovereign Hill Software 같은 다양한 회사에서 기술, 경영 고위 경영직을 역임했다. Lexalytics 설립하기 전에 제프는 LightSpeed Software 구조화되지 않은 데이터 그룹의 총책임자로 일했으며, 여기서 Knowledge Appliance iFocus 제품의 판매, 마케팅 개발 작업을 담당했다. 제프는 1987 Amherst에서 전기 공학 학위를 취득했다.

 

빅데이터

 

센서, 트윗, 이메일, 클릭 스트림, CRM 정보, 공급망 도구 등의 데이터가 모든 비즈니스에서 넘쳐 흐르고 있으며, 폭주로부터 실용적인 정보를 가장 쉽게 처리할 있는 비즈니스가 가장 많은 수익을 창출하는 비즈니스가 것이다. 데이터 홍수는 대기업의 문제만은 아니다. 중소기업 또한 많은 채널을 사용하여 고객과 상호 작용하며, 사이트와 데이터베이스 그리고 분석할 많은 양의 다른 데이터를 가지고 있다. 따라서 "빅데이터” 주변이 매우 부산하다. 그러나 말이 실제로 의미하는 바는 무엇이며, 여러분의 비즈니스에 어떻게 적용되는가?

 

“빅데이터"라는 용어는 모호하다. 단지 “데이터”가 되는 것으로부터 넘어서는 것은 언제인가? 명백한 사실은 아무도 확신할 없다는 것이다. 어떤 사람들은 “기계 학습과 같은 도구를 사용해야 때” 또는 “일반적인 데이터베이스 소프트웨어 도구가 포착하고 저장하고 관리하고 분석할 있는 능력을 넘어서는 크기의 데이터 집합”과 같은 정의를 가지고 있다. 빅데이터를 비즈니스에 긍정적인 영향을 미치는 의사 결정에 필요한 데이터로 정의하는 것이 유용할 있다. 문자 그대로 데이터의 양이 얼마나 많은가의 관점이 아니라 돈을 있는 잠재적인 면에서 "거대함" 대해 생각해 보라.

 

비정형 데이터

 

그것이 계산될 있다면, 그것은 분석될 있다. 분석이 가능하다면 해석될 있다. 그러나 고객 서비스 트랜잭션의 음성 녹음으로 어떤 종류의 계산이나 해석이 가능한가? 트윗이나 산문은 어떻게 해석 되는가? 고객 제품 리뷰에서 수집할 있는 정보 유형은 무엇인가? 리뷰가 동영상일 어떻게 되는가?

비구조적 데이터는 빅데이터의 커다란 부분이다. 여러분은 클릭률(CTR) 광고 캠페인에서의 전환과 같은 순전히 구조화된 데이터로부터 많은 정보를 얻을 있다. 그러나 그것은 실제로 당신에게 무엇을 말하고 있는지에 대한 견해를 주지 않을 것이다. 대화란 무엇인가? 대화를 탐구하고 그것이 여러분의 비즈니스에 대해 긍정적인지 여부를 판단하기 위해서는 데이터의 구조화되지 않은 측면에 흥미를 가져야 한다.

구조화되지 않은 데이터와 구조화된 데이터의 차이점은 간단하다. 컴퓨터는 구조화된 데이터를 조작하는 매우 능숙하며, 데이터를 시각화하고 예측할 있는 전체 도구 모음이 늘어났다. 구조화된 데이터는 기본적으로 페이지를 방문한 횟수, 사이트에 머문 시간, 방문한 장소, 구입한 제품 핵심적인 숫자다. 구조화되지 않은 데이터는 텍스트(설문 조사 또는 트윗으로부터), 비디오 또는 고객 서비스 트랜잭션의 음성 녹음과 같은 것이다.

회사와 고객 파트너 간의 대화를 분석하는 가지 방법은 꿋꿋하게 육체 노동을 적용하는 것이다. 이메일, 트윗 리뷰 모든 서면 통신을 읽을 있고 비디오를 있고 오디오 녹음을 들을 있다. 그런 다음 대화의 정서적 인상과 해석을 조직의 기존 데이터 원천을 보완하는 비즈니스 인텔리전스 도구로 공급할 있는 구조화된 데이터로 수동 변환할 있다.

많은 기업들이 다른 유형보다 접근 방법을 공식적으로 채택한다. 어떤 사람들은 페이스북 페이지의 좋아하는 , 댓글 또는 트윗 스트림을 보고 상황이 진행되고 있는지에 대한 "느낌을 갖기” 위해 노력한다. 다른 사람들은 구조화되지 않은 데이터는 무시한다. 그들은 모을 있는 데이터나 통찰력의 가치를 이해하지 못하거나 그들의 비즈니스에 사용하기에 너무 힘들다고 생각한다.

 

비정형 텍스트를 위한 빅데이터 - 텍스트 분석

 

구조화된 데이터가 크다면 구조화되지 않은 데이터는 거대하다. 일반적으로 받아들여지는 격언은 구조화된 데이터는 조직에 제공되는 정보의 20%만을 나타낸다. 이는 모든 데이터의 80% 구조화되지 않은 형식임을 의미한다. 기업이 데이터의 20% 분석하여 가치를 얻는다면, 비구조적 데이터 분석에 활용되길 기다리는 엄청난 잠재력이 있다.

잠재력을 여는 것은 다음 빅데이터 과제를 나타낸다. 그리고 비구조화된 데이터의 텍스트 부분에 대한 솔루션은 텍스트 분석이다. 텍스트 마이닝(Text mining) 또는 자연어처리(Natural language processing)라고도 하는 텍스트 분석은 구조화되지 않은 텍스트를 구조화된 데이터로 바꾸는 과학이다. 그것은 대학 연구로부터 모든 비즈니스에서 사용할 있는 실제 제품으로 이전했다.

텍스트 분석은 대화에서 핵심 정보를 추출하는 중점을 둔다. 언어, 문맥 일상 대화에서 언어가 사용되는 방식을 이해함으로써 텍스트 분석은 대화와 관계된 "사람", "장소", "시간", “대상”, “이야기”와 “어떻게” 사람들이 느끼고, “왜” 대화가 생겼는지를 알아낸다. 대화를 분류하고 토론 주제를 확인한다.

다른 중요한 정보는 사람들이 어떻게 느끼고 대화가 진행되는지를 나타내는 대화의 어조다. 감정을 밝히기가 특히 어려우며, 사람이 바로 기계로 교체되지 않는 가장 이유다.

 

텍스트 분석의 비즈니스 가치

 

"누가", "무엇을", "언제", "어디서", "" 알아내고, 대화의 감정이 구조화되지 않은 데이터를 구조화된 데이터로 변환돼서 비즈니스가 모든 대화를 들을 있게 한다. 구조화된 대화 데이터는 기업의 기존 대형 데이터 비즈니스 인텔리전스 비즈니스 분석 패키지에 통합될 있다.

완벽한 텍스트 분석 시스템은 소셜 미디어 모니터링 솔루션으로서 또는 고객의 소리나 고객 경험 관리 솔루션으로서 판매된다. 많은 판매회사들은 소셜 미디어와 고객의 소리를 하나의 패키지에 포함시켜서 기업이 고객과의 대화와 현장에서 회사의 언급을 듣고 응답할 있게 하도록 한다.

전형적인 사례는 브랜드 관리다. 브랜드는 종종 올림픽, 메이저 리그 스포츠, 지역 마라톤 또는 자선 행사와 같은 행사를 후원한다. 브랜드 스폰서 이벤트가 제대로 관리되지 않는 경우 이벤트의 부정적인 영향이 브랜드에 부여될 있다. 회사가 행사 주변의 대화를 듣지 않는다면 부정적 감정에 대해 결코 알지 못할 수도 있으며, 판매가 감소한 원인을 이해하지 못할 수도 있다.

접대 레스토랑 산업은 텍스트 분석을 사용하여 대화를 듣는 많은 도움이 된다. 호텔, 리조트 레스토랑에 대한 고객 피드백의 대부분은 고객과 회사간 대화 외에서 발생한다. 리뷰는 수많은 웹사이트에 올라오고, 회사는 수동으로 찾아서 대화를 해석하도록 있다. 자동화된 텍스트 분석 도구를 통해 호텔은 새로운 식탁보 또는 연못 개선에 돈을 지출해야 하는지 여부를 쉽고 빠르게 평가할 있다.

텍스트 분석은 고객이 좋아하는 것과 싫어하는 , 그리고 동기에 대한 이해를 높이는 사용할 있다. 고객의 욕구에 부합하는 고객보상 프로그램 인센티브를 변경하면 고객 충성도를 높이고 매출을 높일 있다.

다른 많은 예가 있으며, 텍스트 분석을 사용하여 대화를 듣는 것은 본질적으로 무한하다. 그리고 대화를 듣는 데는 중요한 가치가 있다. 대화는 즉각적이다. 사람들은 브랜드 또는 회사와 상호 작용하는 순간, 경험을 쌓은 순간에 대화하고 있다. 그들은 대화를 통해 자신이 신뢰하고 자신의 삶의 일부로 갖고 싶은 브랜드를 파악하려고 한다. 판매는 지연적인 지표지만 토론은 선도적인 지표다.

 

텍스트 분석 시대의 도래 - 차세대 빅데이터

 

비즈니스, 경쟁사, 고객 공급업체와의 대화에 귀를 기울이고 듣는 것은 도전처럼 보일 있다. 그러나 듣지 않는다면, 상황이 바뀔 놀랄 것이다. 놀라움이 좋을 때도 있지만, 종종 그렇지 않다. 부정적인 대화가 발생하면 비즈니스에 미치는 영향이 극단적이 있다.

다행히도 텍스트 분석은 성숙해 있으며, 크고 작은 비즈니스는 대화를 듣는 것으로부터 이익을 얻을 있다. 최근에 페이스북은 이벤트, 브랜드, 주제, 활동에 대해 관객이 말하고 있는 것을 밝히기 위해 텍스트 분석을 사용하는 Topic Data 유용성을 발표했다. 마케팅 담당자는 정보를 사용하여 제품 로드맵을 작성하고 해당 활동에 대해 나은 결정을 내린다.

일부 마케팅 담당자는 소셜 미디어 모니터링이나 고객 경험 관리 시스템과 같은 비정형 데이터를 수집, 분석 시각화하기 위해 규격품 서비스를 사용할 것이다. 시장에 서비스를 제공하는 회사는 수백 곳이며, 매일 많은 기업이 생긴다. 다른 분석가들은 특정 비즈니스 인텔리전스 도구에 대한 선호도가 높다. 도구 상당수는 텍스트 분석 기술과 어울리므로 분석가가 구조화된 데이터와 비구조화된 데이터를 일관된 이야기로 혼합할 있다. 서로 다른 가격대의 다양한 틈새 시장을 대상으로 하는 도구를 광범위하게 사용할 있기 때문에 원하는 작은 규모로 비즈니스를 시작할 있다.

주요 기업들은 텍스트 분석의 중요성을 보여주는 명확한 움직임을 보이고 있다. 예를 들어, IBM Watson 플랫폼을 매우 열심히 추진했으며, 최근 Watson 분석 측면을 강화하기 위해 AlchemyAPI 인수했다. 다른 예로, Microsoft eDiscovery 주력하는 텍스트 분석 회사인 Equivio 인수했다.

이러한 외에도 텍스트 분석 기술은 영어, 프랑스어, 스페인어, 독일어, 북경어 일본어를 비롯한 다른 많은 인기있는 언어를 다루는 여러 공급 업체에서 상용화 되었다. 만약 어떤 언어를 생각할 있다면, 아마도 그것을 지원하는 누군가가 있을 것이다.

텍스트 분석을 사용하면 비즈니스에서 고객 파트너의 말을 듣고 사람들이 실제로 말하는 데이터의 80%에서 잠재력을 확보하고, 지연된 판매 데이터를 기다리지 않고 선도적인 지표로서 대화를 활용할 있다. 지금 일어나고 있는 다양한 상호 작용에 귀머거리가 되기 보다는 세계에서 일어나는 일을 계획할 있는 것이 좋다.

어떻게 있는가? 작게 시작하라. 데이터를 알아보라. 대답하고 싶은 질문에 대해 명확한 생각을 가지고 있어야 한다. 가지 기성 서비스를 시도해서 처리할 있는 데이터를 얻고 비즈니스 인텔리전스 플랫폼으로 가져와라. 자신을 탐험하고 놀라게 기회를 제공하라. 텍스트 분석은 언어가 어렵고, 세계의 브랜드와 제품 그리고 회사에 여전히 실질적인 비즈니스 가치를 제공하기 때문에 불완전한 과학이다.


--


[원문]


Text Analytics: The Next Generation of Big Data

 

June 5, 2015 by Daniel Gutierrez

 

In this special guest feature, Jeff Catlin of Lexalytics lays out the case for text analytics and its importance to the rising interest in big data. Jeff is CEO of Lexalytics, a company providing sentiment and intent analysis to an array of businesses using on-premise and cloud-based technology. Jeff Catlin has over 15 years of experience in the fields of search, classification and text analytics products and services. He has held technical, managerial and senior management positions within a variety of companies including Thomson Financial and Sovereign Hill Software. Prior to the formation of Lexalytics, Jeff acted as the General Manager for the unstructured data group of LightSpeed Software where he was responsible for sales, marketing and development efforts for the Knowledge Appliance and iFocus products. Jeff graduated from UMass Amherst with a degree in Electrical Engineering in 1987.

 

Big Data

 

Sensors, tweets, emails, web clickstreams, CRM information, supply chain tools – data is flooding into every business, and the businesses that have the most facile processes for divining actionable information from the deluge are going to be the businesses that make the most money.  This data deluge is not just a problem for large enterprises.  Small businesses also interact with their customers using many channels and have websites, databases and often large amounts of other data to analyze.  Hence all the buzz around “big data.”  But what does that phrase actually mean, and how does it apply to your business?

 

The term “big data” is ambiguous – when does it actually cross the line from just being “data”?  The plain truth is that nobody is really sure.  Some people have definitions like “when you have to use tools like machine learning” or “datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze.”    It can be more useful to define Big Data as the data necessary to make decisions that have a positive impact on a business.  Think about the “bigness” not in terms of literally how much data there is, but in its potential to help make more money.

 

Unstructured Data

 

If it can be counted, it can be analyzed.  If it can be analyzed, it can be interpreted.  But what type of count or interpretation can be made from a voice recording of a customer service transaction?  How are tweets or prose to be interpreted?  What type of information can be gleaned from customer product reviews?  What happens when those reviews are videos?

Unstructured data is a large part of big data.   You can get a lot of information from purely structured data, things like the Click Through Rate (CTR) and conversions from an advertising campaign.   But that’s not going to give you a view into what is actually being said.  What is the conversation?  In order to delve into the dialog, and whether it is a positive one for your business, you have to get into the unstructured side of things.

The difference between unstructured data and structured data is simple.  Computers are very, very good at manipulating structured data, and a whole suite of tools has grown up around visualizing and making predictions from this data.  Structured data is basically numbers at its core – how many times a page was visited, how long someone was on your site, where they came in from, what products they bought.   Unstructured data are things like text (say, from a survey or from tweets), or video, or a voice recording of a customer service transaction.

One approach to analyzing the conversation between a company and its customers and partners is to apply brute force manual labor.  You can read all written communication – emails, tweets, and reviews; watch the videos; listen to the audio recordings.  Then you can manually convert emotional impressions and interpretations of the conversation into structured data that can be fed into business intelligence tools as a complement to the organization’s traditional data sources.

Many businesses take this approach, some more formally than others.  Some just take a look at their Facebook page likes and comments, or their tweet stream, trying to “get a vibe” for whether or not things are going well.  Others ignore unstructured data –they don’t understand the value of the data or the insights that can be gleaned or they believe that it is too hard for their business to use.

 

Big Data for Unstructured Text – Text Analytics

 

If structured data is big, then unstructured data is huge.  The generally accepted maxim is that structured data represents only 20% of the information available to an organization.  That means that 80% of all the data is in unstructured form.  If businesses are gaining value from analyzing only 20% of their data, then there is a massive potential waiting to be leveraged in the analysis of unstructured data.

Unlocking this potential represents the next Big Data challenge.  And for the text portion of unstructured data, the solution is text analytics.  Also known as text mining or natural language processing, text analytics is the science of turning unstructured text into structured data.  It has moved from university research into real-world products that can be used by any business.

Text analytics is focused on extracting key pieces of information from conversations.  By understanding the language, the context, and how language is used in everyday conversations, text analytics uncovers the “who,” “where,” and “when” of the conversation, the “what” or the “buzz” of the conversation, “how” people are feeling and “why” the conversation is happening. Conversations are categorized and topics of discussion are identified.

Another key piece of information is the tone of the conversation – how people are feeling and why this conversation is happening.  Uncovering this sentiment is especially difficult, and is the largest reason why man is not going to be replaced by machine any time soon.

 

The Business Value of Text Analytics

 

Identifying the “who,” “what,” “when,” “where,” “why,” and the sentiment of the conversation converts unstructured data into structured data, and enables businesses to listen to all of the conversations.  The structured data of the conversations can then be incorporated into businesses’ existing big data business intelligence and business analytics packages.

Complete text analytics systems are marketed as social media monitoring solutions, or as voice of customer or customer experience management solutions.  Many vendors incorporate both social media and voice of customer into one package, enabling companies to listen and respond to conversations with the customer, and to mentions of the company in the wild.

A classic use case is brand management.  Brands often sponsor events – the Olympics, major league sports, local marathons, or charity events.  If a brand-sponsored event is poorly managed, negativity from the event can attach to the brand.  Unless the company is listening to the conversations around the event, it may never know about the negative sentiment, and may not understand what caused a drop in sales.

The hospitality and restaurant industries also benefit greatly from using text analytics to listen to the conversation.  Much of the customer feedback for hotels, resorts, and restaurants takes place outside of the customer-company conversation.  Reviews can be placed on a plethora of websites, forcing companies to manually seek out and interpret the conversation.  With automated text analytics tools, a hotel can quickly and easily assesss whether they should be spending money on new linens or pool improvements.

Text analytics can be used to develop a better understanding of the likes, dislikes and motivations of the customer.  Changing loyalty program incentives to match customers’ desires can improve customer loyalty and increase sales.

There are many other examples, and the uses of text analytics to listen to the conversation are essentially limitless.  And there is significant value in listening to the conversation.  The conversation is immediate – people are talking in the moment they have an experience, in the moment they interact with the brand or the company.  They are having conversations to try and figure out which brands they trust and want to have as part of their lives.  While sales are a lagging indicator, discussions are a leading indicator.

 

The Coming of Age of Text Analytics – The Next Generation of Big Data

 

It can seem like a challenge to keep an ear to the ground, listening to conversations about your business, competitors, customers and suppliers.  But if you’re not listening, you’ll be surprised when the winds change.  While sometimes the surprise is good, often it is not.  And when negative conversations take place, the impact to the business can be drastic.

Fortunately, text analytics has come of age, and businesses both large and small can benefit from listening to the conversations taking place.  Just recently, Facebook announced the availability of Topic Data which uses text analytics to reveal what audiences are saying on Facebook about events, brands, subjects and activities.  Marketers use this information to build product roadmaps and make better decisions about their activities.

Some marketers will use off-the-shelf services to collect, analyze and visualize the unstructured data, like with social media monitoring or customer experience management systems.   There are hundreds of companies serving this market, and more launching every day.   Other analysts have an affinity for a particular business intelligence tool, many of which play nicely with text analytics, allowing the analyst to blend the structured and the unstructured data into a coherent story.  Because of the broad availability of tools serving different niche markets at different price points, a business can start as small as they want and build from there.

Major companies have made clear moves showing the importance of text analytics.   For example, IBM has been pushing their Watson platform really hard, and recently acquired AlchemyAPI to augment the analytics side of Watson.   In another example, Microsoft purchased Equivio, a text analytics company focusing on eDiscovery.

In addition to those examples, Text analytics technology has been commercialized by a number of vendors, and not only covers English, but also many other popular languages including French, Spanish, German, Mandarin, and Japanese.   If you can think of a language, there is probably someone out there that supports it.

Using text analytics enables a business to listen to customers and partners, unlocking the potential from 80% of the data that is what people are actually saying, levering conversations as leading indicators, rather than waiting for lagging sales data.  Its way better to be able to plan for what’s happening in the world rather than being deaf to the rich variety of interactions that are occurring right now.

How can you do it?  Start small.  Get to know the data.   Have a clear idea of the questions that you want to answer.   Try a few off-the-shelf services, or get some data you can process and import into your business intelligence platform.  Explore and give yourself a chance to be surprised.   Text analytics is an imperfect science because language is hard, and it is still providing very real business value to brands, products, and companies around the world.