Поиск
На сайте: 763804 статей, 327745 фото.

Веб-аналитика

Веб-аналитика - это изучение закономерностей работы сайта с целью повышения ее эффективности. Существуют две категории веб-аналитики: внешняя аналитика и внутренняя, или анализ сайта.

Внешняя аналитика связана с системой измерений и анализа в вебе в целом, вне зависимости от того, управляете ли вы или владеете сайтом. В нее входит оценка потенциальной аудитории веб-сайта (возможность), доля рекламного воздействия (видимости), и вызываемый интерес (комментарии) - то есть все, что характерно для Интернета в целом.

Внутренняя веб-аналитика оценивает путь посетителя на вашем сайте. Она включает стимулы и конверсию; например, какие целевые страницы (landing page) побуждают людей делать покупки.

Внутренний веб-анализ оценивает эффективность вашего сайта с коммерческой точки зрения. Эти данные обычно сравниваются с ключевыми показателями эффективности (KPI)работы сайта, и используются для повышения отклика целевой аудитории на работу сайта или маркетинговую кампанию.

Исторически, веб-аналитика относилась только к оценке посетителей сайта. Однако в последние годы эта граница несколько размылась, главным образом благодаря тому, что разработчики поставляют программное обеспечение, охватывающее обе категории.

Последующая часть этой статьи посвящена внутреннему веб-анализу работы сайта.

Содержание

Технологии внутреннего веб-анализа

Множество разных разработчиков предоставляет специальные программы и услуги веб-аналитики. Существует два основных технологических метода для сбора данных. Первый метод, анализ лога, основан на чтении лог-файла, в который веб-сервер записывает информацию обо всех своих действиях. Второй метод, «page tagging», или сбор информации о посетителях сайта, использует JavaScript на каждой странице для передаче независимому серверу данных о страницах, открытых веб-браузером. Оба метода собирают данные, которые могут быть использованы для создания отчета по веб-траффику.

Дополнительно могут использоваться другие источники данных. Например, процент ответов на электронные письма (e-mail), результаты кампании по адресной рассылке, данные по продажам и сводкам информации, информация об активности пользователей, такая как теплокарта переходов, или другие необходимые показатели.

Анализ лога веб-сервера

Веб-сервер всегда записывает информацию о своих действиях в файл лога. Довольно быстро стало очевидно, что эти логи могут быть прочитаны специальной программой для получения данных о популярности веб-сайта. Так появилось программное обеспечение для анализа логов.

В начале 1990-х статистика веб-сайтов преимущественно состояла из подсчета запросов клиентов (или хитов) осуществленных на веб-сервере. Первоначально это был приемлемый метод, поскольку каждый веб-сайт состоял из одного файла HTML. Однако с появлением возможности вставлять в HTML рисунки, и усложнения структуры веб-сайтов, такой подсчет стал менее эффектным. Первый по-настоящему коммерческий анализатор лога «Log Analyzer» был выпущен компанией IPRO в 1994 году.

Две единицы измерения были введены в середине девяностых годов для более точного измерения активности пользователей на веб-серверах. Речь идет о просмотрах и посещениях (или сессиях). Просмотр был определен как обращение веб-сервера к странице (а не к графике), в то время как под термином посещение подразумевалась последовательность запросов уникального клиента, истекающая после определенного периода неактивности (обычно 30 минут). Счетчики просмотров и посещений широко используются и сейчас, но в наши дни они считаются слишком примитивными показателями.

Широкое распространение пауков поисковых систем (web crowler) и роботов в конце 1990-х, совокупно с прокси-серверами и динамическими IP-адресами у крупных компаний и Интернет-провайдеров, создало проблему различения уникальных посетителей-людей на сайте и роботов. Программы, анализирующие лог-файлы, отслеживают визиты пользователей с помощью файлов cookies, позволяющих игнорировать запросы известных поисковых роботов.

Широкое использование кеша также стало проблемой для анализа лога. Если посетитель возвращается на страницу, при повторном запросе страница загружается из кеша браузера, поэтому веб-сервер не получает запроса. Это означает, что путь посетителя на сайте теряется. Кеширование можно запретить с помощью соответствующей конфигурации веб-сервера, но это может снизить эффективность сайта для посетителя.

Сбор информации о посетителях («Page tagging»)

Сомнительная - в свете частого кеширования - точность данных, полученных с помощью анализа логов, и желание получить возможность проводить веб-аналитику с помщью третьей стороны, привели к появлению второго метода сбора данных, «page tagging» или сборе информации о посетителях.

В середине 1990-х были широко распространены счетчики посещений - встроенные в веб-страницу рисунки, которые показывали число обращений к этому рисунку, что позволяло оценивать число посещений этой страницы. В конце 1990-х эта идея развилась до появления небольшого невидимого рисунка вместо видимого, который использовал передающийся вместе с рисунком JavaScript. Это позволяло получить некоторую информацию о странице и о посетителе. Затем информация удаленно обрабатывалась аналитической компанией, формировалась всесторонняя статистика. В числе оказываемых услуг аналитические компании могут управлять назначением посетителю файлов cookie, которые идентифицируют его как уникального во время как первого, так и последующих визитов.

С ростом популярности решений на базе Ajax, ставших альтернативой невидимым рисункам, появилась возможность обратной связи сервера и загружаемой страницы. Так, когда страница загружается браузером, код Ajax обращается к серверу и передает информацию о клиенте, которая затем может быть использования аналитической компанией. Иногда, однако, это может пресекаться ограничениями браузера на серверах, которые контактировали с объектами XmlHttpRequest.

Анализ лога в сравнении с «page tagging»

Как ПО для анализа логов, так и решения на базе «page tagging» легко доступны компаниям, желающих осуществить веб-анализ. В некоторых случаях оба метода предлагаются одной и той же компанией.

Преимущества анализа лога

Главные преимущества анализа лога по сравнению с «page tagging» следующие:

  1. Сервер в любом случае создает файлы логов, поэтому исходная информация уже доступна. Чтобы собирать данные посредством «page tagging», требуются изменения на сайте.
  2. Сервер тщательно записывает информацию о любом выполненном действии. «Page tagging» полагается на взаимодействие с браузером пользователя, которое в определенной мере может и не произойти (например, при отключенном JavaScript).
  3. Данные хранятся на собственном сервере компании, в стандартном формате, выбранном владельцем. Это дает компании возможность со временем легко сменить программу, использовать несколько разных программ и анализировать старые данные с помощью нового ПО. При использовании «Page tagging» потребитель сталкивается с барьером смены поставщика.
  4. Файл лога содержит информацию о визитах поисковых роботов. Несмотря на то, что их нельзя включить в показатели активности посетителей-людей, эта информация полезна для поисковой оптимизации.

Преимущества решений на основе «page tagging»

Главные преимущества «page tagging» по сравнению с анализом лога следующие:

  1. Каждый раз при загрузке страницы автоматически загружается JavaScript. Таким образом, кеширование вызывает значительно меньшее беспокойство.
  2. В JavaScript гораздо проще включить дополнительную информацию, которая будет накапливаться на удаленном сервере. Например, данные о размерах экранов у посетителей, или ценовой категории приобретаемых товаров, могут собираться именно так. При использовании анализа лога эта информация не записывается веб-сервером и может быть получена только путем модификации URL.
  3. В решения на основе «Page tagging» можно включать отчет о событиях, которые не содержат обращения к веб-серверу, например, просмотр роликов Flash, частичное заполнение форм, события мыши onClick, onMouseOver, onFocus, onBlur и так далее.
  4. Сервисы «page tagging» управляют процессом, назначая посетителям cookies; при использовании анализа лога потребуется переконфигурация сервера.
  5. «Page tagging» приемлем для компаний, не имеющих доступа к собственному серверу.

Экономический фактор

Анализ файла лога почти всегда производится собственными силами компании. «Page tagging» также может быть осуществлен собственными силами, но гораздо чаще его осуществляет третья сторона. Экономическое различие между этими двумя моделями может также учитываться компанией при выборе одной из них.

  1. Анализ лога обычно подразумевает одноразовую покупку ПО; однако некоторые разработчики позволяют анализировать просмотры не более чем за год, требуя дополнительной оплаты за возможность обрабатывать дополнительные данные. Кроме коммерческого ПО, существуют также несколько open-source программ анализа лог-файлов, доступных бесплатно.
  2. Для анализа лога вам потребуется сохранять архивы ваших данных, которые обычно быстро увеличиваются. Хотя стоимость оборудования для хранения минимальна, накладные расходы на оплату услуг отдела IT могут быть значительны. Например, если вы исчерпаете место на диске, ваша база данных начнет перезаписываться, и часто это уже неисправимо.
  3. Для анализа лога вам придется устанавливать ПО, со всеми обновлениями и патчами безопасности.
  4. Поставщики комплексов «page tagging » используют помесячную оплату, размер которой зависит от числа просмотров страниц за месяц. Однако некоторые разработчики сейчас предлагают бесплатные решения «page tagging». Среди них Google Analytics (2005), Microsoft Analytics (бета версия 2008) и Yahoo IndexTools (2008).

Применение какого из решений обойдется дешевле, зависит от количества технических экспертиз компании, выбранного разработчика, активности на сайтах, полноты и типа необходимой информации, и числа отдельных сайтов, нуждающихся в статистической обработке.

Независимо от выбранного поставщика и метода сбора информации надо учитывать стоимость анализа и интерпретации данных о посетителях сайта. Это стоимость переработки исходных данных в информацию, которую можно применить на практике. Сделать это могут консультанты третьей стороны, приглашенный эксперт по веб-аналитике или же специально обученный сотрудник компании.

Затем следует провести анализ затрат и прибыли. Например, какое повышение прибыли или сокращение расходов может быть получено с помощью анализа данных о посещаемости сайта?

Комплексные методы

Некоторые компании сейчас разрабатывают ПО, которое анализирует данные как взятые из логов сервера, так и полученные с помощью технологий «page tagging». Используя комплексные методы, они стремятся добиться более точной статистики, чем может получить каждый из методов в отдельности. Первое комплексное решение было предложено в 1998 году Руфусом Эвисоном, который затем создал компанию, предлагающую комплексные методы анализа со все увеличивающей точностью.

Прочие методы

Иногда используются и другие методы сбора данных. Пакет анализатора трафика анализирует данные, полученные путем перехвата внешнего сетевого трафика, идущего через сервер. Анализатор трафика не требует изменений на сайте или на сервере. Также есть возможность встраивать пакет веб-аналитики в ПО сервера.[4] Оба эти метода претендуют на предоставление более точных данных в реальном времени.

Основные понятия

Не существует повсеместно согласованных определений в области веб-аналитики, поэтому основные организации отрасли с некоторого времени пытаются согласовать определения, которые могут быть полезными и решающими. Среди основных организаций, имеющих влияние в этой отрасли, - Jicwebs(Комитет индустрии веб-стандартов)/ABCe (Аудиторское бюро по распространению электроники Великобритании и Европы), The WAA (Ассоциация веб-аналитиков США), и - в меньшей степени - IAB (Бюро интерактивной рекламы). Это не мешает приведенному ниже списку являться полезным справочником, лишь слегка страдающего неоднозначностью определений. Как WAA, так и ABCe предоставляют более полные списки терминов тем, кто использует для анализа статистики их систему показателей.

  1. Хит - запрос файла с веб-сервера. Используется только в анализе логов. Число хитов, полученных веб-сайтом, часто приводится как доказательство его популярности, но эта цифра зачастую очень неточна и чересчур переоценивает популярность сайта. Каждая веб-страница обычно состоит из множества (часто десятков) различных файлов, каждый из которых засчитывается за хит при загрузке страницы. Таким образом, число хитов - это случайное число, которое скорее оценивает сложность отдельных страниц сайта, чем реальную его популярность. Общее число посетителей или просмотров страницы дает более реалистичную и точную оценку популярности.
  2. Просмотр страницы - запрос файла, тип которого определен как страница в анализе лога. Запуск скрипта в технологии «page tagging». В анализе лога один просмотр страницы может создавать множество хитов, поскольку для просмотра страницы все ресурсы страницы (рисунки, файлы .js и .css) запрашиваются веб-сервером.
  3. Визит / Сессия - серия запросов одного и того клиента, идентифицированного как уникального, за определенный промежуток времени. Предположительно визит содержит множество хитов (в анализе лога) и просмотров страницы.
  4. Первый визит / Первая сессия - заход пользователя, который ранее не посещал эту страницу.
  5. Посетитель / Уникальный посетитель / Уникальный пользователь - клиент, идентифицированный как уникальный, который создает запросы на веб-сервер (анализ лога) или просматривает страницы («page tagging») в определенный период времени (день, неделю, месяц). Уникальность посетителя определяется единожды в течение рассматриваемого периода. Посетитель может совершать повторные визиты. Число уникальных посетителей на данный момент - единственный обязательный показатель в аудите ABCE
  6. Повторный посетитель - посетитель, который совершил как минимум один визит ранее. Период между последним и текущим визитом называется новизной посетителя и измеряется в днях.
  7. Новый посетитель - посетитель, который ранее не посещал эту страницу. Это определение несколько неоднозначно (смотри раздел об общих затруднениях, приведенный ниже), и иногда заменяется на анализ первых посещений.
  8. Показ - показом называется появление рекламы на экране пользователя. Каждый раз, когда вы видите баннер - это показ.
  9. Единичные посещения - число посещений, во время которых пользователь просмотрел всего одну страницу. Само по себе ценным показателем не является, но используется для вычисления различных форм махинаций с кликами, а также для расчета показателя отказов, и в некоторых случаях - для идентификации посещений роботов.
  10. Показатель отказов - процент посещений, при котором посетитель заходит на сайт и уходит с него на одной и той же странице, не посещая других страниц сайта.
  11. Процент выхода - процент пользователей, которые выходят с сайта.
  12. Время просмотра - время, потраченное на просмотр одной страницы (блога, баннера и т.д.)
  13. Продолжительность сессии - среднее время, которое посетители проводят на сайте во время каждого посещения. Этот показатель сложно рассчитать в связи тем, что аналитическое ПО не может оценить длительность просмотра последней страницы. Кроме того, если повторный визит происходит через небольшой промежуток времени, он может расцениваться как продолжение первой сессии.
  14. Продолжительность просмотра страницы - Среднее время, проведенное посетителями на каждой странице сайта. Так же, как и продолжительность сессии, этот показатель сложно рассчитать в связи тем, что аналитическое ПО не может оценить длительность просмотра последней страницы.
  15. Глубина сессии / Число просмотров за сессию - глубина сессии это среднее число просмотров страницы, которое посетитель совершает до конца сессии. Рассчитывается путем деления общего числа просмотров на общее число сессий.
  16. Частота сессий уникального посетителя - показатель частоты посещения сайта отдельными пользователями. Рассчитывается путем деления общего числа сессий (или посещений) на общее число уникальных пользователей. Иногда используется для оценки лояльности посетителей.

Общие затруднения в веб-аналитике

Проблема отеля

«Проблема отеля» - первая сложность, с которой сталкивается пользователь сервиса веб-аналитики. Впервые этот термин был применен Руфусом Эвисоном, заявившим об этой проблеме на одном из саммитов Emetrics, после чего термин получил широкое распространение в качестве простого описания проблемы, равно как и ее решения.

Проблема в том, что число уникальных посетителей каждого дня месяца не совпадает с общим числом уникальных посетителей месяца. Для неопытного пользователя это становится проблемой независимо от того, каким ПО для веб-аналитики он пользуется. Фактически, это проблема определения показателя. Чтобы точнее обрисовать ситуацию, представим себе отель. В отеле есть две комнаты (комната А и комната Б).

День 1 День 2 День 3 Всего
Комната А, Алексей Комната А, Алексей Комната А, Ирина Комната А, 2 уникальных посетителя
Комната Б, Александр Комната Б, Ирина Комната Б, Александр Комната Б, 2 уникальных посетителя
Всего, 2 Всего, 2 Всего, 2 Всего, ?

Как показано в таблице, отель посещают два уникальных клиента ежедневно в течение трех дней. Таким образом, общее число посетителей за три дня составляет шесть человек.

За тот же период каждую комнату посещают два уникальных клиента. Общая сумма уникальных клиентов в двух комнатах - четыре человека.

На самом же деле за данный период времени отель посетили всего три человека. Проблема в том, что посетитель, занимающий комнату две ночи, будет посчитан дважды, если считать его за одного посетителя в день, но всего единожды - если вы подсчитываете общее число посетителей за весь период. Любое ПО для веб-аналитики корректно подсчитает общее число за любой период времени, таким образом, проблема у пользователя возникает при попытке сравнить суммы.

Число новых посетителей +повторных посетителей неравно общему числу посетителей

Еще одна распространенная сложность в веб-аналитике - это то, что сумма новых посетителей и повторных посетителей не совпадает с общим числом посетителей. Это становится понятней, если рассматривать число посетителей за небольшой период времени, но создает массу противоречий, которые аналитическое ПО не может разрешить из-за непонимания системы показателей. Виной всему - определение нового посетителя. На самом деле, если вы оцениваете работу сайта в постоянной перспективе, такой вещи как новый посетитель не существует. Если посетитель совершает свой первый визит в определенный день, а затем возвращается в тот же день, он одновременно является и новым, и повторным посетителем этого дня. Итак, кого же из них мы должны рассматривать как индивидуального посетителя? Правильный ответ - обоих, поэтому определение показателя неверно.

Новый посетитель - это не индивидуальный посетитель; это факт метрической системы веба. По этой причине легче концептуализировать этот же аспект с точки зрения первого посещения (первой сессии). Это решает конфликт и устраняет затруднения. Никто не ожидает, что число первый посещений будет приплюсовано к числу повторных посещений для подсчета общего числа посетителей. Этот показатель будет совпадать с числом новых посетителей, но таким образом легче понять, почему он не суммируется.

На повестке дня остается вопрос о первом визите, совершенном нашим индивидуальным посетителем. Число первых посещений и число повторных посещений будут суммироваться при подсчете общего подсчета посещений дня.


Методы веб-аналитики

Проблемы с файлами «cookies»

Исторически разработчики аналитических решений на основе «page-tagging» использовали сторонние cookie, которые запускались с домена разработчика, а не с домена просматриваемого сайта. Сторонние cookie могут контролировать посетителей, которые переходят по множеству несвязанных доменов в пределах сайта компании, поскольку эти cookie всегда управляются сервером разработчиков.

Однако сторонние cookie в принципе позволяют отслеживать путь индивидуального пользователя по сайтам разных копаний, что позволяет разработчикам аналитического ПО сопоставлять активность пользователя на сайтах, где он оставляет личные данные, с активностью на тех сайтах, где он считает себя анонимным посетителем. Хотя компании, предоставляющие услуги веб-аналитики, отрицают подобные действия со своей стороны, другие компании, например, поставщики баннерной рекламы (беннер), так поступают. Сомнения по поводу конфиденциальности cookies таким образом привели к тому, что заметная часть юзеров стала блокировать или удалять сторонние cookie. В 2005 году некоторые отчеты показывали, что до 28% пользователей Интернет блокируют сторонне cookie, а 22% удаляют их как минимум раз в месяц. Источник: Study: Consumers Delete Cookies at Surprising Rate.

Большинство разработчиков решений на основе « page tagging» сейчас все больше стремятся предоставить как минимум опцию использования первичных cookie (те, которые запускаются с субдомена клиента).

Еще одна проблема - удаление файлов «cookie». Когда веб-аналитика основывается на файлах «cookies», определяющих уникальных посетителей, статистика зависит от способности cookie сохранять персональные данные уникального посетителя. Когда пользователь удаляет cookie, обычно удаляются и первичные - клиентские - и сторонние cookie. Если это делается в промежутках между визитами на сайт, при следующем посещении сайта пользователь будет идентифицирован как новый. Без постоянных и уникальных данных пользователя конверсия, анализ истории перемещений и другие показатели, зависящие от активности уникального посетителя в определенный период времени, не могут быть точными.

Применение Cookies оправдано тем, что адреса IP не всегда уникальны для каждого пользователя и могут принадлежать большой группе или прокси-серверу. Другие способы идентифицировать уникальность гораздо сложнее технически, и могут ограничивать возможность отслеживать аудиторию посетителей либо же могут рассматриваться как подозрительные. Cookie по прежнему остаются наилучшим вариантом, поскольку оптимально отвечают всеобщим требованиям без использования технологий, которые могут считаться шпионским ПО - spyware.

Уникальные рекламные страницы против реферралов в наблюдении за кампанией

Метод отслеживания активности пользователей, создаваемой с помощью рекламы на внешних сайтах, с помощью реферралов (что доступно в большинстве программных пакетов веб-аналитики), обладает значительно меньшей точностью, чем метод, основанный на уникальности рекламных страниц.