Чтение этой статьи займет у вас около 16-ти минут: за это время в мире произойдет
20,64 миллионов транзакций по кредитным картам и
98,901,000 поисковых запросов Google.
Это примеры того, какими масштабами живет сфера сырых данных. Мы можем охарактеризовать
сырые данные как необработанные и неупорядоченные данные, генерируемые из различных источников. Они могут быть в любом формате и количестве. В них много информационного «шума» и дубликатов. Зачастую сырые данные представляют собой большие объемы информации — в этом случае их сбор и обработка обозначается термином
Big Data («большие данные»).
Как только данные структурируются и выводятся в удобные форматы, они становятся
обработанными и содержат ценные инсайты. Они могут использоваться бизнесом для принятия обоснованных решений, обнаружения закономерностей, корректировке стратегии и определения тенденций.
Приведем конкретные примеры сырых и обработанных данных из практики. Для отдела продаж сырыми данными будет массив информации о входящих заявках и совершенных продажах за месяц. Обработанные данные — это те же данные, но представленные в визуальной форме и сгруппированные по категориям. Например, заявки будут отсортированы по демографии и факту покупки. В этом случае, руководитель отдела продаж может оценить качество лидогенерации в компании.
Еще один пример сырых данных — это лог веб-сайта с информацией о всех запросах к серверу и их результатах. Обработанная информация — это графики и таблицы с портретом аудитории, разбитым по географии и демографии. Именно такую информацию видят маркетологи и специалисты по контекстной рекламе, использующие Google Analytics и Яндекс.Метрику.
Если для вывода инсайтов используется лишь репрезентативная выборка, а не весь массив сырых данных, то данные называются
сэмплированными. Google Analytics и Яндекс.Метрика применяют данную технику для снижения нагрузки на сервера. Профессионалы в аналитике учитывают, что в некоторых случаях сэмплированные данные могут содержать искажения и приводить к ошибочным инсайтам.