Haley_Hu's Blog

Teaching is Learning,一起交流!


  • 首页

  • 简介

  • 标签

  • 分类

  • 归档

  • 搜索

Numpy

发表于 2018-07-09 | 更新于: 2018-11-21 | 分类于 数据处理
字数统计: 5,189字 | 阅读时长 ≈ 26 分钟

介绍

Drew Conway认为数据科学包括:

黑客技术:

  • 如编程能力
  • 向量化操作和算法思想

数学和统计知识

  • 如常见的分布、最小二乘法

实质性的专业知识


数据科学设计到的操作 by David Donoho

  1. 数据探索与准备
  • 数据操作、清洗等
  1. 数据展现形式与转化
  • 不同格式的数据操作,表格型、图像、文本等
  1. 关于数据的计算
  • 通过编程(python或R)计算分析数据
  1. 数据建模
  • 预测、聚类等机器学习模型
  1. 数据可视化与展示
  • 绘图、交互式、动画等
  1. 数据科学和涉及到的学科知识

何为数据分析

  • 用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论对数据加以详细研究和概括总结的过程。
阅读全文 »

机器学习数学基础(一)

发表于 2018-07-09 | 更新于: 2018-11-21 | 分类于 机器学习 , 数学基础
字数统计: 1,539字 | 阅读时长 ≈ 6 分钟

写在前面:

函数

  • 函数与数据的泛化
  • 推理与归纳

线性代数

  • 向量与矩阵
  • 特征值与特征空间
  • 高维空间向量
  • 特征向量
阅读全文 »

Python(十)

发表于 2018-07-09 | 更新于: 2018-11-21 | 分类于 Python基础
字数统计: 507字 | 阅读时长 ≈ 2 分钟

微信用户数据分析

微信接口itchat

  • 第三方开源的微信个人接口
  • 安装方法:pip install itchat

用户数据分析指标

  • 不同性别好友人数和占比
阅读全文 »

Python(九)

发表于 2018-07-09 | 更新于: 2018-11-21 | 分类于 Python基础 , 数据结构与算法
字数统计: 1,200字 | 阅读时长 ≈ 6 分钟

冒泡排序

原理:

  • 循环遍历列表,每次循环找出本次循环最大的元素排在后边
  • 需要使用嵌套循环实现,外层循环控制总循环次数,内存循环负责每轮的循环比较

阅读全文 »

Python(八)

发表于 2018-07-08 | 更新于: 2018-11-21 | 分类于 Python基础
字数统计: 2,293字 | 阅读时长 ≈ 12 分钟

re模块的使用

链接:正则表达式

match(正则表达式,待匹配字符串(起始位置))

  • 用于正则匹配检查,如果待匹配字符串能够匹配正则表达式,则match方法返回匹配对象,否则返回None
  • 采用从左往右逐项比较匹配

实例1:

1
2
3
4
5
6
##例如:新的邮箱手机号验证格式是否正确,用正则表达式对于格式验证

import re
rs = re.match('chinahadoop','chinahadoop.cn')
print(rs)
print(rs.span())

结果:

1
2
<_sre.SRE_Match object; span=(0, 11), match='chinahadoop'>
(0, 11) #匹配目标的位置
阅读全文 »

Python(七)

发表于 2018-07-08 | 更新于: 2018-11-21 | 分类于 Python基础
字数统计: 2,357字 | 阅读时长 ≈ 10 分钟

类属性(可以理解为类中共享的全局变量)

实例属性

  • 所属于具体的实例对象,不同实例对象之间的实例属性互不影响

类属性

  • 所属于类对象,多个实例对象之间共享同一个类属性
  • 获取类属性方法:类名.类属性
  • 通过实例对象不能够修改类属性
阅读全文 »

Python(六)

发表于 2018-07-08 | 更新于: 2018-11-21 | 分类于 Python基础
字数统计: 2,216字 | 阅读时长 ≈ 10 分钟

类的构造方法

链接:类

  • 调用时间:在对象被实例化时被程序自动调用
  • 作用:用于对象创建时初始化
  • 书写格式:init前后分别是两个下划线
  • 程序不显示定义init方法,则程序默认调用一个无参init方法
  • 对象创建过程

阅读全文 »

Python(五)

发表于 2018-07-08 | 更新于: 2018-11-21 | 分类于 Python基础
字数统计: 3,248字 | 阅读时长 ≈ 15 分钟

日期和时间

链接:日期与时间的教程

time模块

  • time()函数获取当前时间戳
  • localtime([seconds])格式化时间戳为本地时间,返回时间元组

链接:time模块

tm_isdst:是否为夏令默认为-1

阅读全文 »

Python(四)

发表于 2018-07-08 | 更新于: 2018-07-08 | 分类于 Python基础
字数统计: 2,575字 | 阅读时长 ≈ 12 分钟

函数

  1. 函数相关的链接:函数

定义:函数是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段。
函数能提高应用的模块性,和代码的重复利用率。你已经知道Python提供了许多内建函数,比如print()。但你也可以自己创建函数,这被叫做用户自定义函数。
可以理解为对实现某一功能的封装。

阅读全文 »

Python(三)

发表于 2018-07-08 | 更新于: 2018-07-08 | 分类于 Python基础
字数统计: 3,020字 | 阅读时长 ≈ 14 分钟

元组(tuple)

元组的相关链接:tuple

  • 顺序存储相同/不同类型的元素
  • 元组定义,使用将元素括起来,元素之间用“,”,隔开

实例1:

1
db_info = ("192.168.10.1",3306,"root","root123")
  • 特性:不可变,不支持添加、修改、删除元素操作

实例2:

1
2
3
4
#这里会报错,元素是不能修改的
db_info[0] = 5

del db_info[1]#不支持删除
阅读全文 »
1…678
HuXuzhe

HuXuzhe

机器学习、深度学习挖坑中~

72 日志
9 分类
40 标签
RSS
GitHub G-Mail Youdao 知乎 简书
友情链接
  • xrblog

© 2019 HuXuzhe | 全站字数统计: 99.2k 字
主题 - NexT.Muse   |  本站总访问量次   |  您是第位访客
扫微信加好友,注明博客
0%