我的知识记录

告别循环，拥抱并行：一步步构建你自己的Transformer

在序列之思：从零推导循环神经网络与注意力机制一节中，已经探讨了如何通过交叉注意力解决RNN的“信息瓶颈”问题，但是并未解决RNN的序贯式的处理方式，这是限制处理速度的另一大关键问题。现在关键问题变为如何打破这种序贯式的处理方式，增加神经网络处理信息的速率和吞吐量？如果要打破RNN的这种序贯式处理

机器学习

4

0

2025-07-13

序列之思：从零推导循环神经网络与注意力机制

本文从第一性原理出发，系统性地探讨了现代神经网络处理序列数据的核心思想。文章首先剖析了传统神经网络在处理变长、有序数据时遇到的根本瓶颈，然后循序渐进，逻辑必然地推导出循环神经网络（RNN）的核心设计——参数共享。在此基础上，文章进一步构建了经典的编码器-解码器（Encoder-Decoder）架构，

机器学习

37

1

2025-06-18

深度解析卷积神经网络（CNN）：从像素到模型的完整指南

本文是一篇关于卷积神经网络（CNN）的综合性技术教程。文章从传统神经网络处理图像的局限性出发，系统性地阐述了CNN的设计哲学——归纳偏置。通过将卷积操作类比为滑动内积，深入剖析了其模式匹配的数学本质。文章逐层递进，详细介绍了从一维到多维、从单通道到多通道的卷积过程，以及填充、步长、池化、激活函数等核

机器学习

22

1

2025-06-15

从生物神经元到智能学习：深度解析神经网络的原理与反向传播

人工神经网络（ANNs）作为现代人工智能的核心，其灵感源于生物神经网络（BNNs），但本质上是对BNNs核心功能的高度抽象和数学化建模。本文深入探讨了这一抽象过程，详细阐述了生物神经元（如突触可塑性、全或无特性、频率编码）如何映射至人工神经元组件（如节点、可变权重、线性加权和与激活函数），并揭示了A

机器学习

57

1

2025-06-10

从二分类到多分类：Logistic回归、梯度下降与交叉熵损失的深度剖析

本文旨在系统地阐述机器学习中从二分类到多分类问题的基本建模方法、参数估计过程及其优化算法。我们将从概率分布的角度构建二分类模型（如Logistic回归），详细探讨如何利用最大似然估计（MLE）对模型参数进行求解，并深入分析为何该问题通常没有闭式解。随后，我们将引入梯度下降法这一核心数值优化工具，从其标准形式出发，严谨地证明在特定条件下（如强凸和光滑性），固定步长梯度下降法的收敛性，从而为机器学习中的参数优化提供坚实的理论基础。此外，文章还将讨论扩展至多分类问题，介绍了其概率模型（范畴分布）、Softmax激活函数以及对应的交叉熵损失函数，进一步深化了对分类任务的理解。

机器学习最优化理论

57

0

2025-06-07