一年又一年:当当图书2015年那些有意义的数据!

@DC学院《Python爬虫:入门+进阶》

图片 1

报名了DC学员的爬虫课程,断断续续学了两个星期,才看完第一章。虽然技术还很菜,但一些基本的东西能够爬取了,也想趁这次作业,来尝试一下这段时间学习的知识。

2015年已经走过有一段时间了,岁末年初嘛,各式各样的总结和展望就是这段时期内最为常见的内容,作为国内图书圈内的大佬——当当,自然不会放过这个自我营销的机会。1月8日,当当在图书战略会上公布了2015年多项数据,并透露了2016年发展战略。俗话说,外行看热闹,内行看门道,既然是书圈里的人,老蒋今天也来凑个热闹,和大伙聊聊当当发布的数据中一些背后有趣的话题。

这次作业选择爬取的网站是当当网,一方面是因为传说比较简单,另一方面也有比较多的图书数据,特别是五星图书,包含了各个领域最受欢迎的图书信息,对于寻找有价值的图书、分析好书的一些情况具有一定的价值。

聊到图书,首当其冲的自然就是图书的销售量啦!根据当当发布的数据来看,2015年当当自营图书销售额过百亿码洋,其中有22家出版社在当当的销售码洋超过亿元人民币。或许,大家对当当这份成绩单没有什么特别的具体概念。老蒋查了查2014年国内图书销售的情况,根据开卷实体书店渠道图书零售指数,目前全国图书零售市场总体码洋超过500亿元。这一对比,大家也就一目了然了,当当图书销售已经占到国内图书销售市场的五分之一。

废话不多说,先上准备爬取的页面链接:
http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-all-0-0-1-1

这样一来,大家就搞明白了,不管是出版商,还是书商,想要在在国内图书市场上分一杯羹,跟当当的合作是非常有必要的,当然也是很实惠的。22家出版社在当当的销售码洋超过亿元人民币,这就是最好的证明。当当之所以特意把这些数据公布出来,当然是希望能跟更多的出版机构和书商有更多的深入合作的机会。这也是当当高明的地方,开放的合作心态,有利于当当进一步做强、做大图书这一块。

具体的页面如下图:

第二条有意义的数据,就是当当销量超过1万册的图书达到3103种。也许,这些数据的公布,正好说明国内图书市场的萎靡不振吧!相对于每年几十万的新书出版量来说,当当也只能交出这份成绩单,如此看来,国内出版大而不强,不仅仅是媒体说说而已,事实也确实如此。这组数据的背后,说明每年有多少图书的销售,让出版商或书商的出版投资都是血本无归的,统统成了废纸一堆。

当当网五星图书页面

图书出版界一直以来都有“重品种、轻营销”的经营传统,这可能是由于传统实体书店销售的展销模式所造成的恶果之一。各家出版商和书商,为了能让自己在实体书店的采购竞争中,占得先机,品种多,品种全,势必成为公司之间竞争的标准配备。新书被分发到各实体书店,都会享有图书展销的机会,正因为此,出版商和书商,也就不太注重图书营销方面的细节,这就是国内图书品种过剩的根本原因之一。


我想爬取的数据是各分类(小说、中小学教辅、文学、成功/励志……)下面的五星图书信息(书名、评论数、作者、出版社、出版时间、五星评分次数、价格、电子书价格等等)。

这些年图书市场萎靡不振,表面上的原因,或许可能是图书电商的崛起和实体书店的崩溃,根本原因在老蒋看来,是因为图书网上销售的模式跟传统实体书店的展销模式发生了根本的变化。就拿当当来说,当当每年能重点推荐多少本新书,当当重点展示的栏目和广告位都是固定而且是有限的,以周为单位,当当数百万的图书中,能有多少享受过重点推荐的待遇。问题就这样出来,很多新书,当当数据库里有卖的,没有被重点推荐,出版商或书商也没有营销跟进,消费者都不知道有这些图书信息的,那么,图书的销售从何而来?

为了抓各分类下的图书信息,首先看看点击各分类的时候,链接是否发生变化。经过测试,在不同的分类,链接都是不一样的,事实证明不是JS加载。

这就是图书网上销售跟实体书店销售的根本区别,图书营销是图书网上销售的基础,没有这个基础空谈图书销售,其实意义不大。既然是营销,就意味着成本,现阶段有多少出版机构和书商,在这方面有过足够的预算和营销规划。或许,有机会大家可以跟在当当书卖得好的出版社的朋友聊一聊,关于图书营销是怎么回事?

于是,第一步就是要获取不同分类的页面链接,先以“小说”类目作为样例来测试一下,复制xpath信息并获取链接。

第三条有意义的数据,自然就离不开数字阅读这一块。在线阅读市场的爆发性增长,是不争的事实。当当纸质书卖得好,对于诱人的在线阅读市场,当当一定不会错过的。2015年当当数字阅读揽获2000万用户。2015年当当数字书总量达30万种,下载1亿册,活跃用户平均每天登录8次。当当读书APP日常阅读时长达1小时。

复制"小说"类目的xpath信息

按道理来说,这份数字阅读的数据对于当当来说应该是不错了!但是对于在线阅读市场而言,也许就掀不起什么波澜来了!跟在这个领域的几大文商巨头相比较,差距可能不是一点点。两者差距的产生,在老蒋看来,问题出在内容上。当当的数字阅读基本上来自于已出版图书的数字化,即便有部分新书,也很难跟其他文商平台的网络鲜文所能比拟;还有就一点容易被忽视的,就是数字阅读的价格因素,电子书和网络小说的由于定价模式不同,因此,消费者的接受程度也存在着很大的差异。


得到的xpath如下:

出版机构数字化,这个话题已经喊了有几年了!对于电子书这一块,根据公开的信息可以看得出大伙的日子并不好过,到如今,也没有形成一套成熟的商业模式,以至于出版机构、渠道商、作者,对此都有动力不足的问题存在。图书的数字化转型,依然任重而道远。

//*[@id="sortRanking"]/div[2]/a

以上就是老蒋觉得当当2015年年度报告中一些有意义的数据,以及老蒋的一些个人的观点和看法,希望能对大家有些意义吧!2015年又一年就这么过去了,对于图书行业来说,并没有什么大多的变化,在老蒋的印象中,倒是当当要开是实体书店这事,可作为是2015年中国书业为数不多的亮点之一。2016年来了,当当的实体书店值得期待!


按照固定的套路,尝试获取类目标题和页面链接:

老蒋今天以当当为题,并不是为当当做软文广告,今天的书圈,当当已经大到,说图书就不能不提当当的地步。图书电商和实体书店,这两个冤家,终于在2015年年末走到了一起,不知道当当实体书店这一部对于现有的实体书店是福是祸?!这一点也许只能是用时间来检验了。

from lxml import etree
import requests

url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-all-0-0-1-1'
data = requests.get(url).text
s = etree.HTML(data)

title = s.xpath('//*[@id="sortRanking"]/div[2]/a/text()')
href = s.xpath('//*[@id="sortRanking"]/div[2]/a/@href')

print(title)
print(href)

一年又一年,新的一年里,希望大家都有新的收获和希望吧!

顺利地得到了类目的名称和链接:

(作者蒋卫民简介:中国互联网书业专家,“图书试用网”主编及“图书试用网•读书人联盟”倡议发起人。微信公众号:laojiangshuqua)

尝试获取各第一个类目的名称和链接


到这里基本可以知道,当当网的反爬确实不严格,我甚至还没有设置Headers的信息,竟然也可以爬取到想要的数据。但最后在完整的代码中,还是把headers加上了,保险起见吧。

既然这样,其他的链接也可以通过这样的方式来获取,于是比较了一下多个类目的xpath,很容易发现规律。获取所有的类目链接如下:

from lxml import etree
import requests

url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-all-0-0-1-1'
data = requests.get(url).text
s = etree.HTML(data)
items = s.xpath('//*[@id="sortRanking"]/div')

for item in items:
    book_url=item.xpath('./a/@href')
    item_name=item.xpath('./a/text()')

    if len(book_url)>0:  #避免抓回来的链接是空的情况
        href=book_url[0]
        item_title=item_name[0]
        print(item_title)
        print(href)

本文由上海快三发布于小说,转载请注明出处:一年又一年:当当图书2015年那些有意义的数据!

TAG标签:
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。