数据新闻需要技术力量、数据中心

2016-07-28 中国发展网

QQ截图20160728150511

在第十一期“网络传播沙龙”上进行的现场调查显示,在我们所来的媒体当中,仅有一家开设了数据新闻这样的栏目形式,少量媒体想尝试开设数据新闻的栏目形式。现场嘉宾提到数据来源是一个问题。

王叁寿:

其实数据源无非来自五个部分,第一部分是政府,第二部分是互联网公司,第三部分是金融机构,第四部分是行业公司,比如像西门子手里有工业数据,宝钢里面有钢铁数据,第五个就是其他。我说这五个数据源,有什么样的区分?李克强总理在今年的贵阳数博会上讲过这么一句话,目前市场上可用的有价值的数据80%都是在政府手里。所以现在九次方大数据公司,主要的数据来源分成X轴、Y轴和Z轴,X轴就是通常跟一些地区政府合作,现在我们已经和46个地方政府合作成立大数据公司,来负责地方政府数据的运营权。比如像黑龙江、新疆、青海、广东、福建、甘肃、云南等等很多省和市,还有苏州,他们地方政府都和我们公司合资成立了大数据的运营公司,政府的数据公司主权永远都是政府的。像新疆公司的名字就叫新疆大数据公司,青海合资的公司就叫青海大数据公司,负责统筹整个青海地区的数据。你想分析氰化钠也好,你想分析某一家公司也好,分析某一个人也好,基本上可以做到一秒钟呈现出来,这是一个数据源。

第二个是互联网公司,互联网目前主要强调的还是舆情数据,其实舆情数据有两个指标,你们在做媒体的时候也会碰到。第一个指标就是爬取的速度,每一天这个互联网都会产生大量的信息,对于这个数据的爬取的速度非常关键。第二个指标叫盲区,比如围绕这一个人,比如互联网上有一万条跟他相关的数据,但是你的爬取和数据挖掘只能挖出七千条,恰巧有一条说这个老板会跑路,但是你没有挖掘出来,就会对你的信息造成不对称的问题。

第三个是金融机构的数据。它不会贡献给你的,没有听说过任何一个机构手里有金融机构的数据。

第四个是行业机构的数据。目前有很多行业内的门户网站,像钢铁行业网、汽车行业网。

最后一点就是其他,就属于个人数据,这部分数据目前是国家严令禁止采集的,主要是保护个人隐私。数据源主要来源于这五个部分。九次方目前的数据源,包括我们和“中央厨房”合作的数据源,主要是政府数据,大概是这样。

孟威:

第一个就是在做数据新闻的过程中,我们除了数据源、数据质量上的困境,还有其他什么样的困境。我想,也有几个方面。一个是资金和技术方面的问题。为什么这样说呢?因为数据新闻现在的生成,在国际和国内都是一个方兴未艾、红光涌起的局面。在这样的一个势头里面,像皮姆博纳斯里(音)有一句话,他说“数据新闻就是未来”,这是非常具有雄心壮志的一句话。但是数据新闻毕竟要有一种资金力量的支撑,也要有一种技术质量的支撑。2013年的时候像“VOA”旗下的一个“Pach”(音)网站,做数据新闻,最后难以为继了,很多的数据新闻人员就被解散了。我想,资金这方面也是一个很大的考量。

这些年我们调查媒体融合的实践过程中,很多人认为,刚才叶总讲的他们的“中央厨房”,包括新华的一些数据,包括光明的云媒,但是很多地方媒体认为,中央媒体的这种形式是不可复制的,为什么?就是资金和技术上支撑的问题。技术上,我们现在找到的一个途径,就是这种外包的形式,外包的形式有很多媒体融合的媒体,他们想聚集一些技术的力量,形成一个数据的中心,有技术的力量、有专业的力量,来一块共同生产这样一种新闻,但是他们没有力量去外包或者没有力量留住他现有的技术人才。所以,对数据新闻来说,这也是很重要的一点。