数据收集整理

大数据(英语:Big data),又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。

海量数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,海量数据的出现促成广泛主题的新颖研究。这也导致各种海量数据统计方法的发展。海量数据并没有统计学抽样方法;它只是观察和追踪发生的事情。因此,海量数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,海量数据分析在现代研究中越来越突出。

Seaborn 库

2022年03月17日

Seaborn 库专门为统计可视化而创建的库,事实上,seaborn 可以和 pandas 数据框完美地协作,框中的列是特征而行是观测的样例。这种数据框的风格称为整洁的数据,而且他是机器学习应用中最常见的形式。下面是鸢尾数据集所生成的可视化数据图表:具体代码如下:import seaborn as sns sns.pairplot(df,hue='class')

在 PyCharm 中使用 Jupyter 记事本

2022年03月15日

最近在学习 Python 机器学习相关内容,一直是使用 PyCharm 从事开发工作,开始配置 Python 机器学习开发环境的时候,首先想到的是 PyCharm 能否胜任,毕竟 PyCharm 用的比较熟练。经过摸索,PyCharm 中安装 Jupyter 记事本具体步骤如下:1、首先在 PyCharm 新建一个 Jupyter Notebook 的文件,截图如下:2、初次使用时,需要安装 Ju...

SecRepo.com-与安全性相关的数据样本

2020年12月28日

这个网站收集了很多的数据样本,用于网络安全研究:寻找与安全相关的各种类型的样本可能会非常麻烦。这是我尝试保留一些已找到,创建或指向的与安全相关的数据的精选列表。网址:SecRepo.com - Samples of Security Related Data同时这里有很全的访问日志列表,可以下载之后使用:https://www.secrepo.com/self.logs/

2020版中国开放数据(Open Data)及政府数据开放平台汇总

2020年08月18日

天津市天津市信息资源统一开放平台https://data.tj.gov.cn/21 个主题、39 个部门、384 个数据集、116 个数据接口福建省福建省公共信息资源统一开放平台https://data.fujian.gov.cn/odweb/697346300条数据;698个数据资源;37个部门;1318个API;3个应用厦门市大数据开放平台http://data.xm.gov.cn/88967...