大数据免费查询(大数据信息挖掘)
你是否需要大量的数据来检验你的APP性能?最简单的方法是从网上免费数据存储库下载数据样本。但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果。以下是70多家可以获得免费大数据存储库的网站。 Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。 Common crawl 建立并维护一个所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它。 Common crawl :建立并维护一个开放的网络,向所有人开放。 EDRM File Formats Data Set:由381个文件夹200种文件格式组成。 Apache Mahout TLP项目创建一个可扩展的机器学习算法。Mahout有许多免费的和付费的语料库语料。 EDRM Enron Email Data Set v2由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:XML和PST。 ClueWeb09用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页,包含10种语言。资料库被若干TREC会议的追踪检测使用。 DMOZ –最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz是互联网搜索引擎的一个主要来源。 theinfo.org –这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门大数据查询,一起开发和共享工具,并开始整合他们独有的项目。 Project Gutenberg 提供超过36000免费电子书的下载,可以下载到个人电脑、Kindle, Android, iOS or 或其他便携式设备。 Million song data set:与tracks 和艺术家有关的数据 AWS (Amazon Web Services) Public Data Sets:提供了可以无缝融入AWS(亚马逊网络服务)云应用的公共数据集的集中存储库。 BigML big list of public data sources. Bioassay data:研究文章“生物测定数据的虚拟筛选”,由Amanda Schierz编写,有21个生物测定数据集(活性/非生理活性成分),可以下载。 Bitly 1.usa.gov data:匿名点击政府链接 Canada Open Data:有许多政府和地理空间的数据集的试点项目 Canada Open Data:许多政府和地理空间数据集的试点项目。 Causality Workbench:数据存储库 Corral Big Data repository:在德克萨斯高级计算中心,提供以数据为中心的技术。 Data Source Handbook:公开数据指南 Datacatalogs.org:来自美国、欧盟、加拿大、CKAN以及其他的公开政府数据 Data.gov.uk:英国的公共可用数据(London datastore也是) (编辑:武汉站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |