文章关键字 ‘网站分析’

网站分析简介

2011年01月4日,星期二

网站分析(Web Analytics) 是种网站访客行为的研究。于商务应用背景来说,网站分析特别指的是来自某网站搜集来的资料之使用,以决定网站布局是否符合商业目标;例如,哪个登陆页面(landing page)比较容易刺激顾客购买欲。这些搜集来的资料几乎总是包括网站流量报告,也可能包括电子邮件回应率、直接邮件活动资料、销售与客户资料、使用者效能资料如点击热点地图、或者其他自订需求资讯。这些资料通常与关键绩效指标比较以得效能资讯,并且可用来改善网站或者行销活动里观众的反映情况。 

目前有两种主要收集网站分析资料的技术手段。第一种方法,即所谓日志档分析──意即读入服务器纪录其所有交易的日志档进行处理。第二种方法,加网页标签──利用插入Javascript于每一页来告知第三方的服务器某页被网页浏览器所读取。网站服务器日志档分析,市面上各家网页服务器自发展初随时都会纪录其所有的交易于一个日志档里头。 网站分析这种特性不久就被网管意识到可以透过软件读取它,以提供网页流行度的相关资料;从而造成网站日志分析软件的兴起。   

90年代早期,网站统计资料仅是简单的客户端对网站服务器请求 (或者访问) 的记数值。一开始这是挺合理的方法,因为每个网站通常只有单一个 HTML 档案。然而,随着图形进入 HTML 标准,以及网站扩增至多重 HTML 档案,这种记数变得没什么帮助。最早真正的商用日志分析器于1994年由 IPRO 发行。   

90年代中期,两种计量单位被引入以更准确的估计人类于网站服务器上的活动总数。它们是网页点阅数(Page Views) 以及访问量 (Visits,或者节区(Session))。一次的网页点阅数定义为客户端对服务器提出某单一网页读取请求,恰好为对某一图形请求的相反;而一次的访问量则定义为来自于某一唯一已识别的客户端对服务器一连串请求直到闲置一段时间──通常为30分钟──为止。网页点阅数与访问量仍旧在报告上十分常见,不过现今它们被当作是过于简单的量度。   

90年代末期,随着网络蜘蛛与机器人问世,伴随着大型企业以及互联网服务提供商使用代理服务器与动态指定IP地址,鉴别某网站单一访客变得更困难。对此,日志分析器以指定Cookie作为追踪访问量的对策,并忽略已知的蜘蛛机器人的读取请求。   

网页快取的广泛使用也造成日志分析上的问题。如果某人再度造访某页,第二次的读取请求通常由网页浏览器快取达成,因此网站服务器端不会接受到此请求。这意味着该访问者浏览过该站的“足迹”丢失。快取与否可于设定网站服务器时克服,不过这可能导致降低该网站的效能。

加网页标签  

由于对日志档案分析于快取存在下准确性的关注,以及渴望能实现把网站分析当作是种外包的服务,导致第二种资料收集方法:加网页标签,或称网虫(Web bug) 的出现。   

90年代中期,网页计数器已经普及──这些计数器以包含在网页中的图像出现,显示多少次该图像被读取过。而图像内容就是显示大约该页被拜访次数的数目。90年代晚期,这种做法延伸至包括一个微小不可见图像,而非可见的。并且,透过 JavaScript,图像请求的某些关于网页和访客的讯息被传递到第三方服务器方。这些资料随后被网站分析公司处理并产生详细的统计资料。   

网站分析服务也代管指定cookie到使用者的过程。这种方式可以鉴别各个唯一访客初次以及随后的拜访。   

随着Ajax为主解决方案普及,一种利用不可见图像的替代方案实现了从读取页面“回电”服务器的机制。在这个情况下,当某网页被网页浏览器读取,该页某部分Ajax 代码将致电回服务器并递送有关用户端的资讯,随后被送到网站分析公司做汇整。这在某些方面还是有漏洞,因为某些浏览器限定哪种XmlHttpRequest物件可与服务器联系。   

网站日志分析与加网页标签的比较网站日志分析与加网页标签两者都已经很成熟可供有意公司进行网站分析。在许多情况下,同一家网站分析公司甚至同时提供这两种方法。那问题便回到公司该选用哪种方法。

两种方法各有优缺:网站日志分析优点  

网站日志分析较加网页标签为优的主要有下列几点:   

网页服务器一般已经产生日志档案,故原始资料已经存在。而透过加网页标签方式搜集资料网站得做些改变。 网页服务器依靠每次网页需求与回应的处理发生。加网页标签依靠访客网页浏览器帮助。而占某些比例的浏览器可能达不到 (浏览器禁用 JavaScript 便是一例)。 搜集来的资料位于公司自己的服务器,而且它是标准格式,而不是某种私有格式。这使得该公司日后要换它种分析程式,或者与其他程式整合,以分析过去历史资料变得容易。加网页标签方案可能遭服务商封锁。 日志档亦包括来自搜寻引擎蜘蛛的访问资讯。虽然无法被归为客户行为的一部分,这些资料对搜寻引擎最佳化来说很重要。 日志档亦包括请求失败的资讯;加网页标签只有纪录该网页成功被读取时的事件。

加网页标签优点  

加网页标签较网站日志分析为优的主要有下列几点:   

每当网页加载时 JavaScript 会自动执行。因此对快取顾虑较少。 加入额外资讯到 JavsScript 比较容易。这些稍后可以被远端服务器搜集。举例来说,访客的屏幕大小,或者购买的商品单价。而网站日志分析,网站服务器无法正常的搜集到的资讯只可透过改变网址来搜集到。 加网页标签可回报对网站服务器不发生请求的事件,例如与Flash影片片段间的互动。 加网页标签服务管理了指定cookie给访客的过程;至于日志分析,服务器得特别设定才能达成。 加网页标签能帮助没有自己网站服务器的某些中小公司。

转:不懂商业就别谈数据

2010年08月14日,星期六

前一段日子见到一位数据发烧友,我们两个有一个一致的观点:电子商务发展速度越来越快,这个行业的趋势变化也越来越快。对于电子商务公司老板来说,想要自己永远跟着趋势走,学会数据驱动是必然的了。

庆幸的是,今年搞电子商务的人对数据分析开始重视起来了,就连夫妻店起来的淘宝卖家也开始招数据分析师,更别谈一些再大些的电子商务公司。

但是,这让我心存隐忧:现在不是缺数据,而是数据太多。据统计,在今天的互联网上,每60秒会产生10万个微薄信息、400万次search、facebook上50万次contact。我相信,今天稍大一些的电子商务公司,都会采集一些行为数据(比如点击量),但是这些行为数据与商业数据(比如交易量)有什么关系?今天绝多数公司,甚至包括凡客这样的著名电子商务公司,都不知道怎样利用这成千上万的零散数据。

需要数据逻辑,更需要商业敏感

先讲一个有趣的故事。有一天,linkin发现忽然发现雷曼兄弟的来访者多起来了,但是并没有深究原因,第二天雷曼兄弟就宣布倒闭了。原因是什么?雷曼兄弟的人到linkin来找工作了。谷歌宣布退出中国的前一个月,我在linkin发现了一些平时很少见的谷歌的产品经理在线,这也是相同的道理。

试想,如果linkin针对某家上市公司分析某些数据,是不是有商业价值呢?我相信,现在51job绝对不知道要采集这些数据,只盯着注册用户数量这样的简单数据。国内许多互联网公司,拿着鱼翅当萝卜。

说这个故事,只是为了告诉大家,互联网中的数据,需要用商业的眼光去分析,才有价值。

今天电子商务公司的数据分析师,有些像老板的军师,必须有从枯燥的数据中看到解开市场的密码的本事。

比如,当一个具有商业意识的数据分析师发现,网站上的婴儿车的销量增加了,那么他基本可以预测奶粉的销量也会跟着上去。

再比如,和传统卖场一样,网站上的产品起到的作用并不一样,有的产品是为了赚钱,有的产品是为了促销的,有的产品是为了引流量,不同的产品在网站上摆放位置当然是不一样的。

一个商业敏感的数据分析师,是懂得用什么数据驱动公司目标实现的。

比如,乐酷天与淘宝竞争,重点看的不是交易量,而是流量,每天有多少新的seller进来,卖了多少东西。因为此阶段的饿竞争最核心的就是人气,而非实质交易量。如果新来的seller进来卖不出东西,只是老的seller的交易量在增长,即使最后交易量每天都增长,还是有问题。

再比如,一家刚踏入市场的B2C和已经占领大部分市场的B2C,他们的公司目标是不一样的,前者是看流量赚人气,流量对后者的意义没有那么大,成熟的公司重点是看交易,转化率及回头率的。。

而当下的数据分析师多是学统计学出身的,一对数据放在那里,大家都擅长怎么算回归、怎么画函数。但是这批数学的人才缺乏商业意识,不知道这些数据对业务意味着什么,看不见一堆数据中谁和谁有关系,也就不知道该用什么的逻辑分析,也就无法充当老板的眼睛了。

前几天遇到一个老板,他说手下每天给他看几十个零散数据。我问,是不是数据越多越麻烦。他说我一下子就点出他的痛处了,因为请来的数据分析专家只把数据交到他面前,但是却没有把行为数据和商业数据的关系告诉他。

你说,一个公司CEO,每天看到几十个数据,什么PV、PU、UV等等等,他们有精力来解读吗?对于他们来说,只需要知道有问题吗?问题是什么?有新的发现吗?需要做什么?这就行了。

我把这个理解成为数据的世界里的“仪表盘”,比如说网站流量进来弹出率怎样就可以在仪表盘里呈现。你开车,如果水温过高,仪表盘亮灯提示。同样,在电子商务的交易中,也可以用一些数据组成“仪表盘”。

所以说,数据分析师不是单纯做数学题。

行为数据和商业数据,互相推动

一个好的仪表盘,出现好的情况和坏的情况,仪表盘都会有提示。而构成“仪表盘”,正是行为数据和商业数据之间的逻辑关系。

我自己发明了一种称谓:前端行为数据和后端商业数据。前段数据指访问量、浏览量、点击流及站内搜索等反应用户行为的数据,而后端数据更侧重商业数据,比如交易量、ROI, LTV(Life time Value)。

目前有些人关心行为数据,也有些人关心商业数据,但是没有几家网站是把行为数据和商业数据连起来看的。大家只单纯看某一端数据。国内小有名气的网站CEO,每天也只看一个结果数据:网站今天的成交量是多少,卖了多少件产品。

但是看数据看得走火入魔的人会明白,每个数据,就像散布在黑夜里的星星,它们之间彼此布满了关系网,只要轻轻按一下其中一个数据,就会驱动另外一个数据的变化。

大家都比较关心网站用户群,就以此举例子。

某一天,某网站发现自己的前端的注册量增加了不少,访问量也上去了,交易量却没有上去,不死不活。

原因是什么?这是许多网站的通病,每天有许多脑子在想这个问题。现在这个阶段,处在互联网前段的人只知道点击量等数据,很少问后端的商业数据,如谁一直在重复购买?谁影响了5%~15%核心用户群进来买东西?谁在给网站做正/负面传播?

而操作网站后端交易环节的人只知道卖东西,又很少问到前端数据,如一个客户进来网站平均停留时间了15分钟还是30分钟,这对将来重复购买的关系大吗?一个客户进了网站社区和没进社区,对产生交易量有关系吗?

找不到核心用户群的原因,很大原因是没有把行为数据与商业数据对接来看。

于是,前后端数据割裂,没有人知道其中的关系。作为网站的决策者,不知道网站的核心用户群的行为特徵,也不知道怎样刺激核心用户的增加,更不知道从一个用户进来网站之后到走出去,哪些环节是需要疏通。

当然这只是一个管中窥豹而已。一个平台运营商,反应用户行为的前端数据与后端的商业数据千千万万,卖家和买家也是千千万万,其中前端哪个数据对整个网站后端的交易量产生最大影响,只要针对这个前端数据猛下药,必然会刺激后端数据的增加;反过来,后端哪个交易数据比较高,摸清楚是从哪个渠道来的,主要贡献用户是谁,网站的产品设计就要倾斜于他们,对他们好一点,如此才会渠道前端的“转化率”等关键数据的提升。

如果一个网站的核心用户群每月以10%的速度在增长,不火也是怪事。

遗憾的是,今天许多电子商务公司,每天都在做“碰巧”游戏:今天推荐A家产品,明天撤下A家的产品,今天做低价促销,明天又做线下活动。这些决策的改变,没有仪表盘的指示或良好的监控,都是蒙着眼睛在碰巧。