∧

美国国会图书馆收录1700亿条Twitter推文

2012年1月6日消息,ξ据国外媒体ㄨ报道,20Ξ10年美国国会图书馆з曾与Twitter达成一项合作协议,后者向前者提供所有公开的推文。日前,美国〤国ζ会图书馆宣布已经Ⅷ完成对γ现有1700亿条推文的收录。

在你阅读这篇新闻的几分钟之间,๑Twitter上又增加了30▣▤▥0万条新推文。¤此时,美国国会图书馆正忙着♡收录这些疯狂增加中的信息,包括2006年TwitⅩter上线以①来发╥布的所有内╠╡容。Twitter平ξ均每天产۩生4亿条Е推文★,这意味着〗国会图书馆已经收录的推Ⅵ文数量达到1700亿条之巨。

国会图书馆称,TwitteΩr推文是一种重要的新型馆藏资料。有学者指出,这些资料十分重要,可以向研究者和后来人提■供历史∫快照。然而,这⊕些堆积如山的信息要以什么样的方式向大众开放∏??国会图书馆也还没有考虑清楚。

国会图书馆副馆长罗伯特迪萨德(Robert Dizard)表示:“人们希望能查看带有完整索引的数据库,但是为庞┈┉大的数据۩๑制作索引是一件很困难的事。档案存取的技术必须要跟▅▆上引发信息爆炸的技术。Twitter的功能是生产和发┐布信息,而ㄨ我们要收集这些信息√,并∪提供存取便利。这两种方式完全不一样。”

总部位于科罗拉多州的Gnip公司负责归档推文,▍每条归档的推文函括50项不同的诠释数据——推文作者、作者粉丝、被转发次数等等,但是并不包含图片和视频内容。出于安全考∽虑,推文档案一共有两份。

目前,国会图书馆还没有着手分类或过虑这★多达13︼︽︾3TǐB的Twitter内容。

迪萨德说:“☼数据很原始很粗糙。常常有人把Twitter比喻成一个消防栓▀,它会源源不断地向外涌出信息流。我们所收录的数据就|︴()〔〕像是一个巨大的湖泊,Ш而且消防栓不断往里面注水。我们需要新技术去研究和利用这个信息之湖。”

从成本上考虑,向研究者开╳放这些数据是不可能的,国会图书馆已经在数据收集上面花费了一大笔资金。雪上加霜的是,φ近年来政府开始推行财政紧缩政策,导致国会图К书馆经费紧张。由于缺乏┍升级计算机基础设施的资金★,最简单的查询请求也无法满足。目前,国会图书馆已经收到世界各地研究人员的约400个查询请求。