复试

复试英语
复试项目

AI

  1. 请简要解释分类和回归的区别。
    分类输出离散的类别,回归输出连续的值

  2. 您能列举一些常用的分类算法吗?请简要说明它们的工作原理。
    逻辑回归、决策树、随机森林、SVM、KNN、朴素贝叶斯、梯度提升决策树 (Gradient Boosted Decision Trees, GBDT)、CNN等

  3. 同样地,您能列举一些常用的回归算法吗?请简要说明它们的工作原理。
    线性回归、岭回归、SVM、KNN、SGD、贝叶斯、高斯过程

  4. 既可以用于分类又可以回归的算法?
    决策树、随机森林、SVM、KNN、梯度提升决策树 (Gradient Boosted Decision Trees, GBDT)、CNN等

  5. 在分类问题中,如何评估模型的性能?您能解释准确率、召回率、F1分数等指标吗?

  6. 在回归问题中,如何评估模型的性能?您能解释均方误差、均方根误差、决定系数等指标吗?

  7. 过拟合和欠拟合是什么?如何避免这两种情况?

  8. 在分类或回归任务中,如何处理不平衡数据集?
    处理不平衡数据集是机器学习中的一个常见问题,特别是在分类任务中。不平衡数据集指的是数据集中不同类别的样本数量差异很大。这可能会导致模型对多数类别过拟合,而忽略少数类别。以下是一些常用的方法来处理不平衡数据集:

1. 重新采样技术:

  • 过采样少数类: 通过复制少数类样本或通过生成类似样本的方法(如SMOTE - 合成少数过采样技术)来增加少数类样本的数量。
  • 欠采样多数类: 减少多数类样本的数量,以使多数类和少数类的样本数量大致相同。这可能导致信息丢失,应谨慎使用。

2. 修改损失函数:

  • 为不同类别的样本引入不同的权重,使得模型在训练过程中更加关注少数类。这可以通过修改损失函数来实现,使得少数类样本的错误分类的代价更高。

3. 使用集成方法:

  • 使用如随机森林、梯度提升树(GBT)等集成学习方法可以部分缓解不平衡数据带来的问题,因为它们通过构建多个模型并结合它们的预测结果来提高性能。

4. 选择合适的评估指标:

  • 在不平衡数据集上,准确度不再是一个好的性能指标。应该使用混淆矩阵、精确度、召回率、F1分数、ROC-AUC曲线等更复杂的指标来评估模型性能。

5. 人工合成数据生成:

  • 使用算法如SMOTE(合成少数过采样技术)或ADASYN(自适应合成采样方法)等来合成新的少数类样本,以解决不平衡问题。

6. 使用专门针对不平衡数据设计的算法:

  • 一些算法如代价敏感学习(Cost-sensitive Learning)和异常检测算法在设计时考虑了不平衡数据的特点,可以直接应用于这类问题。

7. 数据层面的策略:

  • 收集更多数据,尤其是少数类的数据,有助于减少数据不平衡的问题,虽然这在实际中并不总是可行的。

选择哪种方法取决于具体问题、数据集的特性以及可用资源。在实践中,经常需要尝试多种方法,并结合问题的具体情况来确定最有效的策略。

  1. 请解释特征选择和特征工程的重要性。
  2. 在机器学习中,如何处理缺失数据和异常值?

人工智能与大数据的区别和联系
AI:通过各种算法和技术实现机器模拟人类智能
大数据:从大量的数据中提取有价值的信息,它包括数据采集、存储、管理和分析的技术,可以用传统机器学习算法进行处理。大量数据也可以被应用于模型的训练,实现AI

反向传播的过程
反向传播是神经网络中最小化损失函数的一种技术,通过计算损失函数的梯度来更新网络参数,从而逐步逼近损失函数的最小值。
损失函数对网络中的每一项使用链式法则进行梯度计算,然后使用参数原值减去学习率乘以梯度,更新参数值。更新的参数值更接近使损失函数最小的值

CNN中池化的作用
筛选出卷积得到的特征图中最有用的特征,一般使用最大池化或平均值池化,最大池化就是选择一定区域内的最大值作为该区域的代表,平均池化就是求一定区域内的平均值作为该区域的代表。池化后可以减小特征图的尺寸,降低特征维度,防止过拟合。
增大网络中深层神经元的感受野,让深层神经元也能捕捉到更大范围的特征。提高特征不变性,比如最大池化提取了最主要的特征,在一定的缩放、平移下也能被检测到

常用的损失函数以及对应的任务
分类:交叉熵、Hinge Loss
回归:MSE(L2 Loss)、MAE(L1 Loss)、RMSE、Huber Loss

有监督学习和无监督学习的区别
主要区别就是训练数据是否有标签。有监督使用带标签的数据,用标签监督模型对数据进行学习。每个训练样本都是一个输入/输出对,模型的目标是学习输入到输出的映射。例如分类、回归等
无监督学习是模型自主在无标签的数据集上进行学习,自主学习到一些数据的内部特征。常见的任务比如聚类、降维

常用的图像增强技术有什么
对图像进行几何变换,如旋转、翻转、平移、缩放、仿射变换;进行颜色变换,如饱和度、亮度、对比度;注入噪声,如高斯噪声、椒盐噪声;进行模糊处理,如高斯模糊、中值滤波;随即擦除、尺度变换

灰度图像是什么?有什么用?
每个像素仅表示亮度信息,不包含颜色信息。在灰度图像中,像素值通常范围从0到255,其中0代表黑色,255代表白色,而介于两者之间的值表示不同的灰度级别。
作用:减少计算复杂性;有些任务不需要彩色图像,如边缘检测、图像分割、纹理分析

数据结构

数据结构:按照某种逻辑关系组织在一起的数据,按一定储存方式储存在计算机存储器中,并在这些数据上定义了一组运算的集合
数据结构包括:
逻辑结构(集合、线性结构、树结构、图结构)
物理结构、存储结构(顺序存储、链式存储)
对数的操作和运算

算法:解题方法。从计算机角度看:若干条指令组成的有穷序列
算法特性:
输入、输出、有穷性、可行性、确定性

好的算法还应具备:
健壮性/鲁棒性、高效性、可读性

线性表

栈:后进先出
队列:先进先出

栈顶指针 top 初始化为 -1,为 -1 时为空,为 stacksize-1 时为满
栈的操作:入栈、出栈、取栈顶元素、判栈空、置空栈
应用:符号匹配,递归问题

用栈递归:
当递归函数被调用时,每次将当前函数的状态(包括局部变量和返回地址)压入栈。直到进入最底层的递归,执行最底层的代码逻辑,然后之前压入栈的状态会依次弹出,并按照返回地址继续执行每个函数的剩余代码,直到最初的函数调用返回。

循环队列初始化 front=rear,front 永远指向队列元素的前一个元素(空值)
判满:(rear+1)%size==front
判空:front=rear(初始化条件,初始就是空的)
队长:(rear-front+size)%size
应用:计算机内存管理(先来先服务)、广度优先搜索

稀疏矩阵压缩方法:三元组表(把每个非零元素用三组数据表示,分别是 行号、列号、值)、十字链表

串的模式匹配(找到子串的位置)
BP:朴素匹配,一位位对照全体字符串,直到完全匹配
KMP:先求 next 数组,保存了遇到哪个字母,将子串下标回溯到哪里。不需要回溯主串下标

树的度:一棵树中度最大结点的度
树中的结点数等于所有结点度数之和+1

顺序存储:左孩子 2i 右孩子 2i+1
二叉链表:指向左右孩子
三叉链表:增加一个指向双亲的指针

前序 根左右
中序 左根右
后序 左右根
层序 使用队列

哈夫曼树:最优带权二叉树
构造:
如通信中使用哈夫曼编码,首先计算每个元素的权值,可以是该字符出现的频率。出现的频率越小,就把他放在树的最下面,编码长度长一些,而常用到的字符放在上面,编码长度短。
每次在表中选择权值最小的两个元素作为兄弟节点,并将其权值加和,放回数组中。重复这个步骤,直到所有节点被选完。

DFS:沿着一个节点一直走到不能走为止,再出栈找到可以继续走的地方,重复上述。一般是递归实现
BFS:访问一个节点的所有未被访问的相邻节点,然后再从相邻节点中拿出一个重复上述。用队列实现:结点入队,结点的旁边结点入队,依次出队,每出一个都把该结点的旁边结点入队

最小生成树
普利姆:从源点开始,每次选择到未在树上的点的最短边,将边和点都加入最小生成树,直到所有点被选
克鲁斯卡尔:对边按权值排序,从小到大依次将边加入图中,每次检查是否有回路,无回路则加入,有则舍弃

最短路径
Dijkstra 算法(带权图、无权图)O(n²)
求一个顶点到另外所有顶点的路径。从顶点开始,每次选择到顶点距离最短的点,然后记录当前每个点到顶点的距离,作为下一轮运算的起始点。
初始化两个数组,一个保存源点到顶点i的距离,一个保存源点到顶点i的路径,不断迭代更新,最后距离数组中为源点到各个点的最短距离

Floyd 算法(带权图、无权图)
求任意两点之间的最短路径。初始化为图的邻接矩阵,每次检查两个顶点之间是否可以通过中转结点来获得更短的路径,在矩阵里更新路径长度。最后得到一个包含所有点到点最短路径长度的矩阵。

拓扑排序:有向图,从头开始,每次选择入度为 0 的点,删除其所有的出边,将删除的点放入序列,得到拓扑排序结果

关键路径:AOE网,active on the edge,边表示活动时间,从起点到终点的最长路径为关键路径,也就是完成一个事所需要的最长时间。其中一个算法是,每个边取相反数,然后用最短路径算法

图的染色:解决了不同问题是否可以在同一时间段内发生,按度数降序排列,然后依次对结点着色。相邻两点颜色不能相同

查找

二分查找:首先查找中间元素,判断是否相等,如果中间元素小于待查元素,那么在中间元素右边查找,反之在左边查找。递归的查找

索引查找:也叫分块查找,先查找对应的块,再查找块内位置

二叉排序树:左子树所有结点的值 < 根节点的值 < 右子树所有结点的值,中序遍历得到一个递增有序
当前结点值大于 key 遍历左子树,当前结点值小于 key 遍历右子树

平衡二叉树:左右子树高度之差不大于1,对二叉排序树的改进,防止树不平衡,导致查找长度太长,效率降低

B-树:m叉平衡查找树

散列表:给定一个关键字,通过一个Hash函数,映射到一个地址空间,理论的时间复杂度为 O(1),
常见哈希函数:除留余数法
如果冲突,就按某种探测序列向后再找一个位置存放该元素,比如线性探测法、平方探测法
拉链法

排序

比较排序
冒泡:重复地遍历要排序的数列,一次比较两个元素,如果它们的顺序错误就把它们交换过来。直到不需要再交换,此时排序完成
直接插入:将一个数据插入到已经排序的有序数据中,从而得到一个新的、个数加一的有序数据。首先,假定第一个元素已经被排序;接下来,从第二个元素开始,将每个元素插入到已经排序的数组中,直到整个列表排序完成。
简单选择:每次从未排序的部分找出最小(或最大)的元素,然后将其放置到已排序部分的末尾。和原序列是否有序无关
快速:通过一个轴值(pivot)将数组分为两个子数组,左边子数组的元素都比轴值小,右边子数组的元素都比轴值大,然后递归地对这两个子数组进行快速排序,直到整个数组排序完成。
希尔:
二路归并:用分治法的思想。将一个大数组分成两个小数组去解决。然后递归地将这两个小数组各自再分成两个更小的数组,如此继续,直到剩下的每个小数组只有一个元素或没有元素,认为每个小数组都已经排序。接下来是合并,将两个已经排序的小数组合并成一个有序的数组,重复这个过程,直到最后只剩下一个排序完成的大数组。
堆排序:将数据调整为大/小根堆,每次输出堆顶元素,然后再次建堆,直到堆空。大根堆:每个结点的值大于左右孩子的值。建立堆:从n/2处开始筛选,递归的建堆

非比较排序
计数排序:找到原数据的最大最小值,以这个长度构建一个计数数组,遍历原数组,在计数数组响应位置增加计数。按顺序输出计数数组的下标,计了几个数就输出几个,得到有序序列
桶排序:将待排序数据分到几个有序的桶里,每个桶里的数据再分别排序,最后将桶合并
基数排序:先对个位排序,再对十位,再对百位

其他

拓扑排序

计网

五层结构:物理层、数据链路层、网络层、传输层、应用层

物理层

电路交换:使用直通的物理线路,传输快,但无法并行
报文交换:端到端中间需要中转时使用,可以并行,适合突发通信
分组交换:将报文分组传输,可以并行,适合突发通信

码间串扰:高频分量在传输过程中衰减,无法正确识别码元
奈氏准则:码元在信道传输要小于一定速率,否则会码间串扰
香农定理:只要传输速率低于信道的容量,理论上就可以做到无误差地传输信息

数据链路层

数据帧是数据链路层的基本传输单位,帧 = 帧首部 + IP数据报 + 帧尾部
链路层检错编码:奇偶校验码、循环冗余码 CRC
链路层纠错编码:海明码

为什么流量控制?发送较快、接收较慢,造成传输错误;
流量控制方法:停等协议(发一帧就等对方确认信号)、后退N帧协议(只要有没确认的帧就都重传)、选择重传协议(只重传没确认的帧)

介质访问控制:采用一些措施,使得两对结点之间的通信不会互相干扰;
多路复用:将多个信号放在一条物理信道传输,共享信道资源
频分多路复用:分为不同频段
时分多路复用:分为不同时段
波分多路复用:分为不同波长
码分多路复用:分为不同码序

CSMA:“先听再说”发现信道空闲时再发送数据

局域网:某一区域内 由多台计算机互联成的计算机组,使用 广播信道 ;
广域网:覆盖范围广
交换机只能单个网络内交换分组;
路由器可以多个网络之间交换分组;
局域网强调数据传输,广域网强调数据共享;

网络层

网络地址转换NAT:将私网IP映射为公网IP
MAC地址(Media Access Control address):物理地址(硬件地址)
ARP协议:IP到MAC的映射
DHCP:动态主机配置协议:使服务器(路由器、交换机等)自动向客户端分配IP地址和其他网络配置参数。这些参数包括子网掩码、默认网关、DNS服务器地址等
ICMP:差错报告

路由算法:选择最短、最佳路径;监测拥塞;提高安全性

静态路由、动态路由、距离向量路由算法、链路状态路由算法、路径向量路由算法

传输层

IP地址 来区分主机,端口号 来区分进程。
将 IP地址 + 端口号 就构成 套接字(socket),用来唯一地标识网络中的一台主机及其上的一个应用进程;

传输协议:
UDP:不需建立连接,不保证可靠性,传输速度快,无流量控制和拥塞控制
TCP:需三次握手建立连接,可靠,传输慢,有流量控制和拥塞控制

三次握手:

  1. 发送端发送空的请求报文
  2. 接收端收到后返回确认报文,允许连接
  3. 发送端发送确认报文,并可携带数据

释放连接:

  1. 客户端发送释放报文
  2. 服务器发送确认报文,并发送最后的数据
  3. 客户端发送确认报文

超时重传:长时间未收到确认则重传

采用滑动窗口机制进行流量控制,发送窗口 = Min {接收窗口,拥塞窗口};

拥塞控制:慢开始、拥塞避免、快重传、快恢复

应用层

P2P:每个主机既是客户机也是服务器,可扩展性强

DNS 域名系统:使用 53 号端口,将域名如 baidu.com 解析为 IP 地址
先查询本地域名服务器,若没有再查询更高层的域名服务器

文件传输协议 FTP:使用两个并行的 TCP 链接传输文件
电子邮件 SMTP 协议:也是基于 TCP 的
超文本传输协议 HTTP:定义了浏览器怎样向万维网服务器(www)请求万维网文档,以及万维网服务器怎样将文档传回浏览器
cookie:一些万维网站点希望可以识别用户主机,使用cookie记录用户一段时间内的访问记录。cookie是服务器产生的、储存在用户主机中的文本文件

OS

​操作系统是一组 控制和管理 计算机软硬件资源,合理地 组织 多道程序的运行,方便 用户使用的程序的集合

操作系统的基本特征:并发、共享、虚拟、异步

并发:在同一段时间间隔发生
并行:在同时刻发生

内核态:特权指令
用户态:用户指令

进程是动态的,具有并发性和独立性,存在形式是进程实体(PCB + 程序段 + 数据段);程序是静态的
三种状态:运行态、就绪态、阻塞态
三种通信方式:共享储存、消息传递(将通信信息放在消息中)、管道通信

进程与线程
进程:资源分配的基本单位;进程内的线程共享进程分配的资源
线程:并发调度的基本单位
同一进程内切换线程不需要切换环境,系统开销小
调度:外存→内存→CPU

​ 一次仅允许一个进程使用的资源称为 临界资源;
​ 对于 临界资源 的访问,必须是 互斥 进行的;每个进程中,访问临界资源的那段代码成为 临界区;
信号量:将系统资源抽象为变量
管程:封装了信号量(系统资源)和相关P/V操作,可以使用管城解决生产者-消费者问题

死锁:两个以上的进程互相等待对方的资源,导致各进程都阻塞。(资源永远不会释放)
解决:银行家算法:先判断是否会死锁,再决定是否分配资源。

计组

计算机的工作流程
​ 1、把程序和数据装入主存储器(内存);
​ 2、将源程序转换成可执行文件;
​ 3、从可执行文件的首地址开始逐条执行指令;

主存 - 辅存 结构解决 容量 问题;
缓存 - 主存 结构解决 速度 问题;
​主存和CPU两者的速度存在不匹配问题,故使用 cache缓存 进行解决

CPU ↔ cache ↔ 主存 ↔ 辅存
cache:CPU缓存,集成在 CPU 芯片中的高速存储器
主存:也叫内存,随机存取存储器(RAM)允许数据的快速读写操作,但断电后其中的信息会丢失
辅存:硬盘驱动器、固态驱动器,断电不消失
DRAM:刷新 SRAM:不刷新

RAM:读写
ROM:只读

cache替换算法:随机替换、先进先出、近期使用最少、最近不经常使用

列出几个常用的存储方式
磁盘(机械硬盘),固态驱动器(无磁头)、USB、光盘、磁带、SRAM、DRAM、ROM、闪存、寄存器、cache

常见寻址算法:直接、间接、寄存器、隐含、基址、变址

CPU组成:运算器 (ALU) + 控制器 (CU) + 寄存器 + 中断系统
CPU功能:指令控制、操作控制、时间控制、数据加工、中断处理

总线:数据总线、地址总线、控制总线

中断请求

  1. 发出中断信号
  2. 响应中断,并设置中断屏蔽,不再响应其他中断请求
  3. 保存中断点
  4. 识别中断,进入中断服务程序
  5. 中断程序结束,恢复CPU

DMA:硬件中断

数据库

《数据库》_考研复试_面试篇
计算机考研复试面试常问问题 数据库篇

索引:是一个物理结构,相当于书的目录。比如 B+树索引、哈希索引
键是一个逻辑概念,主键相当于书的页码
视图是从一个或几个基本表中导出的表,用于简化用户操作,从多种角度看待同一数据
存取控制是指确保只授权给有资格的用户访问数据库的权限,且令所有未被授权的人员无法接近数据

数据库设计的基本步骤
需求分析。了解和分析用户需求;
概念结构设计。对用户需求进行抽象和归纳,形成一个独立于DBMS的概念模型(E-R图);
逻辑结构设计。将概念结构转换为数据模型,通常为关系模型;
物理结构设计。为逻辑数据模型选取一个最适合存储结构和存取方法;
数据库实施阶段。编写数据库,编写和调试应用程序;
数据库运行和维护。正式投入运行。

事物是什么?ACID特性包括?
答:事物是数据库进行操作的一个基本单位。
ACID特性包括:
隔离性:一个事务的执行不能被其他事务所干扰;
原子性:事务是一个不可分割的单位,要么全做,要么全不做;
一致性:事务执行的结果必须使数据库从一个一致性状态变到另一个一致性状态;
永久性:一旦事务被提交,它对数据库的改变就是永久的。

什么是锁?有哪两种锁?
答:锁是最常用的并发控制机构,是防止其他事务访问指定资源,实现并发控制的一种手段。
排他锁(X写锁):当数据被加上写锁,其他事务不能对该数据进行读和写;
共享锁(S读锁):当数据被加上读锁,允许其他事务对该数据进行读,不允许写。

高数

零点存在定理:函数在闭区间连续,且左右异号,则函数在闭区间内有零点
连续:左极限等于右极限等于函数值

中值定理
罗尔:闭区间连续,开区间可导,f(a)=f(b)f(a)=f(b),则有 f(ξ)˙=0\dot{f(ξ)}=0
拉格朗日:闭区间连续,开区间可导, f(ξ)˙=f(a)f(b)ab\dot{f(ξ)}=\frac{f(a)-f(b)}{a-b}
柯西:f(a)f(b)g(a)g(b)\frac{f(a)-f(b)}{g(a)-g(b)}

极值点:一阶导=0,且左右异号
拐点:函数左右凹凸性相反的点,二阶导=0,且左右异号

牛顿-莱布尼茨公式
abf(x)dx=F(b)F(a)\int_{a}^{b} f(x) \, dx = F(b) - F(a)

积分中值定理
f(c)=1baabf(x)dxf(c) = \frac{1}{b - a} \int_{a}^{b} f(x) \, dx

定积分几何意义:曲边梯形的面积
二重积分的几何意义:曲顶柱体的体积
三重积分:曲顶柱体的质量

内积:a点乘b,a的模乘以b的模再乘以夹角余弦。向量a在b方向上的投影
外积:
a×b=ijka1a2a3b1b2b3\boldsymbol{a} \times \boldsymbol{b} = \begin{vmatrix} \boldsymbol{i} & \boldsymbol{j} & \boldsymbol{k} \\ a_1 & a_2 & a_3 \\ b_1 & b_2 & b_3 \end{vmatrix}
得到一个垂直于原来的两个向量的新向量
混合积:
[a,b,c]=a(b×c)[\boldsymbol{a}, \boldsymbol{b}, \boldsymbol{c}] = \boldsymbol{a} \cdot (\boldsymbol{b} \times \boldsymbol{c})
表示平行六面体的体积。
如果混合积为零,则这三个向量共面。

格林公式:沟通了沿闭曲线的曲线积分与曲线所围区域上的二重积分之间的联系,将曲线积分转化成二重积分求解。
高斯公式:建立了沿空间封闭曲面的曲面积分与曲面所围区域的三重积分之间的联系,将曲面积分转化为三重积分求解。
斯托克斯公式:将三维上的曲线积分转化为曲面积分求解,它是格林公式的一般情形。

一型线积分:弧长,变力作功
一型面积分:面板质量
二型线积分:流量
二型面积分:流量

线性代数

矩阵的几何意义

表示对矩阵空间中向量的线性变换,定义了一个将输入向量映射到输出向量的规则

  1. 线性变换矩阵
    • 二维或三维空间中的变换:一个 (2 \times 2) 或 (3 \times 3) 矩阵可以表示平面或空间中的线性变换,如旋转、缩放、剪切、反射等。矩阵的列通常表示变换后基向量的方向和长度。
    • 更高维空间:在更高维的空间中,矩阵表示的线性变换更加复杂,但基本思想是相似的:矩阵定义了一个将输入向量映射到输出向量的规则。
  2. 基变换矩阵
    • 坐标变换:当我们从一个坐标系统转换到另一个坐标系统时,基向量发生了变化。基变换矩阵描述了如何从旧坐标系统中的向量计算出新坐标系统中的向量。
  3. 投影矩阵
    • 子空间投影:一个投影矩阵可以将一个向量投影到向量空间的一个子空间上。这在机器学习和数据分析中非常有用,用于降维或特征提取。
  4. 逆矩阵
    • 逆变换:一个矩阵的逆矩阵表示了该矩阵所定义的线性变换的逆。在几何上,这相当于将原始变换的效果“撤销”。
  5. 对称矩阵
    • 二次型:一个对称矩阵可以表示一个二次型,它在几何上对应于一个椭圆、双曲线或超椭圆的表面。
  6. 正交矩阵
    • 标准正交基:正交矩阵的列组成一个标准正交基,这意味着它们是两两正交且长度为1的向量。在几何上,正交矩阵表示旋转或反射,同时保持向量的长度不变。
  7. 对角矩阵
    • 对角化:对角矩阵表示一个线性变换,该变换在每个基向量上只进行标量乘法。这在几何上意味着每个基向量都被单独拉伸或压缩,而方向不变。

n维向量

向量组的定理辨析
梳理思路:从定义 到 方程组 到 方程组的直观理解 到 系数矩阵的秩 的解释

🔺向量组线性相关 ⇔ 至少存在一组非零系数使向量组为 0 ⇔
齐次方程组有非零解 ⇔ 行列式 = 0 ⇔ 未知数数量比方程组多 ⇔
n 维列向量对应 n 个方程组,s 个列向量对应 s 个未知数,s > n ⇔
系数矩阵为扁长方形则一定相关 ⇔ 有效方程组数量(向量组的秩)小于未知数个数 s(列数)

向量 α 和 β 线性相关,则 β=kα

🔺向量组线性无关 ⇔ 当且仅当 k1=k2=...=ks=0k_1=k_2=...=k_s=0 向量组 = 0 ⇔
齐次方程组只有零解 ⇔ 若为 nxn 则 行列式 ≠ 0(可逆)⇔ 未知数数量等于方程组
⇔ 向量组的秩(有效方程组数量)等于列数(未知数个数),即列满秩(A 为 m x n 矩阵,则有 0r(A)min(m,n)0 ≤ r(A) ≤ min(m,n))⇔ 向量组中至少有一个向量可由其余的向量线性表出

注意,有效方程组只能为扁长形和正方形,不能为竖长,竖长意味着方程组个数大于未知数,则无解

判定向量组线性无关
方程组只有零解 ⇔ 特殊情况:当矩阵为 nxn 时,行列式 ≠ 0 ⇔ 一般情况:矩阵满秩。行向量组线性无关 ⇔ 行满秩;列向量组线性无关 ⇔ 列满秩

相关无关判定
部分组相关 ⇒ 整体组相关
整体组无关 ⇒ 部分组无关

缩短组无关 ⇒ 延伸组无关
延伸组相关 ⇒ 缩短组相关

p68 定理 3.7 理解
相关的多数向量能用少数向量表出(少数向量是基底,多数向量为空间中的很多向量)
无关的少数向量能用多数向量表出(空间中的很多向量通过变换可以求出基底)

向量线性表出相关定理

  1. x1α1+x2α2+....=xnαn=βx_1α_1+x_2α_2+....=x_nα_n=β 有非零解
  2. [α1,α2,...,αn,β][α_1,α_2,...,α_n,β] 方程组有解,r(A)=r(A)r(A)=r(\overline A)
  3. 高维可以表示低维:α1,α2,...,αtα_1,α_2,...,α_t 可由 β1,β2,...,βtβ_1,β_2,...,β_t 表出,则 r(α1,α2,...,αt)r(β1,β2,...,βt)r(α_1,α_2,...,α_t) ≤ r(β_1,β_2,...,β_t)
  4. 向量组 α1,α2,...αmα_1,α_2,...α_m 线性相关 向量组中至少有一个向量可由其余的 m1m-1个向量线性表出
  5. 若向量组 α1,α2,...αmα_1,α_2,...α_m 线性无关,而 β,α1,α2,...αmβ,α_1,α_2,...α_m 线性相关,则 ββ 可由 α1,α2,...αmα_1,α_2,...α_m 线性表出,并且表示法唯一

向量空间

  1. 基底变换:由基 α1α2α3β1β2β3α_1,α_2,α_3 到 β_1,β_2,β_3
    αα 矩阵 列变换,右乘过渡矩阵 CCβ=αCβ=αC
  2. 坐标变换
    x=Cyx=Cyxx 是在 αα 下的坐标,yy 是在 ββ 下的坐标(交叉原则)

方程组有解

非齐次有解充要条件:A 的秩等于 A 增广的秩

特征向量

定义:Aα = λα(α 非零)
一个矩阵点乘一个向量就相当于对该向量进行旋转或者拉伸等一系列线性变换,特征向量在经过矩阵 A 的变换后,不改变方向,等价于由特征值 λ 进行缩放。如果特征值大于1,那么特征向量在变换后变长了;如果特征值小于1,特征向量变短了;如果特征值是负数,特征向量的方向会翻转。

特征向量指示了在进行矩阵变换时,矩阵空间中不变的方向。通过研究特征值和特征向量,可以简化一些矩阵的运算,抓住矩阵空间中的不变信息。

奇异值分解(Singular Value Decomposition,SVD)
特征值和特征向量是对方阵而言,对于非方阵(即行数和列数不相等的矩阵),通常不讨论特征向量和特征值,而是讨论奇异值分解(SVD)中的奇异向量和对角矩阵中的奇异值,这可以看作是特征值和特征向量的推广。奇异值分解是任何矩阵都可以进行的分解,它揭示了矩阵与特征值分解类似的某些性质,如数据压缩和结构简化。

特征值和特征向量可以写为:A=PDP1A = PDP^{-1} D为特征值矩阵,P为特征向量矩阵
而奇异值分解定义为:A=UΣVTA = U \Sigma V^T,U和V是正交矩阵,它们的列向量都是单位向量,且两两正交,U为 mxn,VTV^T为 nxm;Σ是一个 n×n 的对角矩阵,对角线上的非零元素称为奇异值,按从大到小的顺序排列,其余位置上的元素都是0。

最大的奇异值对应于数据中最主要的成分或特征,而较小的奇异值则对应于次要的成分。矩阵的秩等于其非零奇异值的数量。

在数据分析和信号处理中,可以通过保留最大的奇异值和对应的奇异向量来近似原始数据矩阵,从而实现数据压缩。这种压缩可以去除噪声和不重要的信息,同时保留数据的主要特征;最小二乘问题,SVD可以用来找到最小范数解;可以用于图像去噪、压缩、特征提取;PCA 中使用

矩阵的迹:tr(A)
迹:主对角线元素之和(不管怎么变化,矩阵的迹不会变),等于矩阵的特征值之和。

几种特殊矩阵

单位矩阵
对角线都是1,其余都是0

实对称矩阵(对称矩阵)
A=ATA=A^T
n 阶实对称矩阵必可以相似对角化

反对称矩阵
A=ATA=-A^T
对角线元素一定为 0

逆矩阵
P1P=EP^{-1}P = E

正交矩阵
转置等于其逆的矩阵
ATA=EA^TA=E
矩阵的行向量和列向量都是单位向量,且两两正交。

正定矩阵
对于任意非零向量 xx,都有 xTAx>0x^TAx>0,则 A 正定
性质:特征值全>0;顺序主子式全>0

矩阵关系

判断是否可以相似于对角矩阵
充要条件只需记“n 个特征值对应 n 个线性无关的特征向量”
注意,任何矩阵,不同特征值对应的特征向量线性无关(相同特征值不一定)

  1. 有 n 个不同的特征值
  2. k 重特征值对应 k 个线性无关的特征向量
  3. 实对称矩阵一定可相似对角化。因为实对称不同特征值特征向量必正交,同一特征值的不同特征向量线性无关(但不一定正交),即 n 个特征值对应 n 个线性无关的特征向量

矩阵等价 & 向量组等价
矩阵等价:A 经过有限次初等变换可以变成 B ⇔ r(A)=r(B)
向量组等价:两个向量组可以相互线性表出

矩阵等价,其行列向量组都可以不等价;矩阵等价和行列向量组等价无关

矩阵的等价,相似,合同
关系:
(((相似)合同 )等价 )

等价充要条件:存在可逆矩阵 PPQQ 使得 PAQ=BPAQ=B
等价性质:r(A)=r(B)
合同充要条件:CTAC=BC^TAC=BCC 可逆
相似充要条件:存在可逆矩阵 P,使 P1AP=BP^{-1}AP = B(AB为方阵)

概率论

贝叶斯和全概率

当一个事件可以由几个互不相容的事件导致时,全概率公式用于计算该随机事件发生的总概率
互不相容的事件称为完备事件组,假设互不相容的事件为 Bi,总事件为 A,全概率可以表示为,在 Bi 的条件下 A 发生的概率,乘以 Bi 发生的概率,然后对所有 Bi 求和

贝叶斯公式:
后验概率:总事件发生的条件下,是由单个原因导致的概率
先验概率:与后验相对,没有后验概率就没有先验概率的概念。指的是单独考虑事件 A 发生的概率,而后验概率是,A 已经发生了,但是发现是在某个条件 B 下发生的,求这个概率

贝叶斯公式就是求后验概率的过程,已知总事件发生,但是由多个原因导致的,求是由其中一个原因导致的的概率

分布函数和概率密度

分布函数 F(x) 表示的是 x 落在 (-∞,x) 上的概率
分布函数在 [0,1] 之间,趋向于负无穷是 0,趋向正无穷是 1
Fx 是单调不减的函数,右连续

概率密度在负无穷到正无穷的积分为 1,且 f(x) 恒大于零

离散型分布只有分布函数,没有概率密度

常见概率分布

0-1 分布(伯努利分布):投硬币模型,和二项分布的区别是0-1只进行一次实验
二项分布:一件事的结果只有两种取值,进行n次独立重复实验
泊松分布:用于描述在固定时间间隔或空间区域内发生某种事件的次数的概率分布。泊松分布特别适用于事件以恒定的平均速率随机且独立地发生的情况。
几何分布:n 次伯努利试验中,首次成功的概率。(1p)kp(1-p)^kp
正态分布:下面单独说
均匀分布:随机变量在一个连续的区间内取值,而且在这个区间内的任何一个点取值概率是相等的。
指数分布:适用于描述独立随机事件发生的时间间隔,其中事件以恒定的平均速率发生。例如灯泡使用寿命,具有无记忆性

期望和方差

DX=E(XEX)2DX = E(X-EX)^2
DX=EX2(EX2)DX = EX^2-(EX^2)
方差反映了数据点与其均值的偏差程度,方差越大,表示数据点之间的差异越大,数据的分散性也就越强。相反,方差越小,表示数据点围绕平均值更加集中,数据的分散性较弱。

协方差反映随机变量XY的相关程度
大于0:正相关;小于0:负相关;等于0:不相关

相关系数:将协方差限制在 -1 到 1 之间,1 表示完全正相关,-1 表示完全负相关,0 表示没有线性相关

ρ(X,Y)=cov(X,Y)σXσYρ(X, Y) = \frac{\text{cov}(X, Y)}{\sigma_X \sigma_Y}

三大分布和假设检验

卡方
X服从标准正态,从X1加到Xn的平方和,服从卡方n分布

t-分布
X服从标准正态,Y服从卡方n,X比上根号下n分之Y

F分布
X服从卡方n1,Y服从卡方n2,X比上n1比上Y比n2

假设检验

均用于假设检验

大数定理和中心极限定理

切比雪夫
切比雪夫不等式给出了随机变量偏离其期望值的概率的一个上界。可以提供一个关于随机变量行为的保守估计。μ是期望,σ2σ^2是方差

P{Xμɛ}σ2ɛ2P\{|X-μ|≥ɛ\}≤\frac{\sigma^2}{ɛ^2}
P{Xμɛ}1σ2ɛ2P\{|X-μ|≤ɛ\}≥1-\frac{\sigma^2}{ɛ^2}

大数定律
切比雪夫、辛钦大数定理:
算数平均值(样本均值)依概率收敛于期望

伯努利大数定理:
重复独立的伯努利试验中,试验结果的频率趋近于试验的概率。
也就是说,试验次数趋近于无穷的时候,P(A) 可以拿频率来近似计算

中心极限定理
高斯分布(正态分布)
方差越大,图像越扁平
均值只改变中轴在x轴的位置,均值为0以x=0为轴,均值为1以x=1为轴

大量随机变量的和近似服从正态分布
样本均值为正态分布的均值
样本方差为正态分布的方差
在批量归一化中使用

参数估计

矩估计

一阶原点矩:E(X)
二阶中心矩:D(X)

极大似然

现在发生了的某个事件,似然函数就变成了这个样本的理论概率,而现在的采样结果代表某个事件已经确定发生了,那这个事发生的理论概率应该尽量大 (在这个事件发生的理论概率中最大的那种情况),才会导致这个事件发生概率最大,所以要用极大似然函数估计。

步骤:

  1. 样本概率相乘
  2. 取对数求导找极值点
  3. 极值点处对应的参数值为最大似然估计值

无偏性
E(估计值)=真实值

高数

几何平均:ab\sqrt{ab}

算数平均:a+b2\frac{a+b}{2}

调和平均:2aba+b\frac{2ab}{a+b} 21a+1b\frac{2}{\frac{1}{a}+\frac{1}{b}}

F1值使用调和平均,调和平均给予较小的值更多的权重(取倒数)使得精确率和召回率能更好的平衡,否则若使用算数平均,较大的值对整体影响较大,无法起到调和的作用

赞赏