michealxie94

置顶|发表于2023-07-06|LeetCode周赛

|字数总计: 30k|阅读时长: 1:49分钟| 条评论

日期竞赛竞赛分数/Δ rank/总人数百分比得分/总分 Knight/Guardian 2023-08-13 weekly-358 1752/+30 853 / 4475 前19.06% 12/18 / 分数难度题号 AC time 思路备注 3 2815. 数组中的最大数对和 0:04:40 模拟 4 2816. 翻倍以链表形式表示的数字 0:23:49 链表 WA4次 5 2817. 限制条件下元素之间的最小绝对差 0:56:28 库函数二分查找bisect 6 2818. 操作使得分最大单调栈+快速幂+质数+排序日期竞赛竞赛分数/Δ rank/总人数百分比得分/总分 Knight/Guardian 2023-08-06 weekly-357 1722/-24 2245 / 4265 前52.63% 3/18 1885/2266 分数难度7470 题号 AC time 思路备注 3 1192 2810. 故障键盘 ...

006 论文泛读

置顶|发表于2023-07-16|NLPLLM PEFT

|字数总计: 14k|阅读时长: 51 mins.分钟| 条评论

2019.06 Adapter Tuning@Parameter-Efficient Transfer Learning for NLPFine-tuning large pre-trained models is an effective transfer mechanism in NLP. However, in the presence of many downstream tasks, fine-tuning is parameter inefficient: an entire new model is required for every task. As an alternative, we propose transfer with adapter modules. Adapter modules yield a compact and extensible model;they add only a few trainable parameters per task,and new tasks can be added without revisiting prev ...

000 大模型学习之路指北

置顶|发表于2023-07-15|NLPLLM

|字数总计: 638|阅读时长: 2 mins.分钟| 条评论

001 阿里云搭建langchain-ChatGLM知识库问答-环境搭建002 大模型LLM-微调经验分享&总结-知乎-刘聪NLP003【LLM】从零开始训练大模型-知乎-何枝004 大模型微调总结-知乎-绝密伏击005 大语言模型综述[持续更新]-csdn-王嘉宁006 论文泛读007 详谈大模型训练和推理优化技术-csdn-王嘉宁

010-Flash Attention、Flash AttentionV2-知乎-毛毛雨

发表于2024-06-03|Attention•NLP

|字数总计: 29k|阅读时长: 1:47分钟| 条评论

Flash Attention on INTEL GPU - 知乎 Excerpt来源：https://zhuanlan.zhihu.com/p/607364156 之前是业余看论文写了这篇FlashAttention的介绍，后面team也在做LLM上的优化了，我刚好负责的是kernel的优化，于是花了一个多月的时间，针对intel的GPU实现了FlashAttention，这期间多了很多感悟，所以把文章更新… 之前是业余看论文写了这篇FlashAttention的介绍，后面team也在做LLM上的优化了，我刚好负责的是kernel的优化，于是花了一个多月的时间，针对intel的GPU实现了FlashAttention，这期间多了很多感悟，所以把文章更新下。自从2017年谷歌DeepMind推出Transformer模型[1]，Transformer便取代了RNN模型，成为了NLP领域的Top。如今大火的Bert，GPT系列，以及Stable-Diffusion都是基于Transformer。Transformer的核心是self-attention机制，这也是它区别于RNN ...

009-Transformer模型详解（图解最完整版）-知乎-初识CV

发表于2024-06-03

|字数总计: 16k|阅读时长: 58 mins.分钟| 条评论

Excerpt来源：https://zhuanlan.zhihu.com/p/338817680Transformer由论文《Attention is All You Need》提出，现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取，其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本，并注释该论文。建议大家看一下李宏毅老师讲解的Transformer，非常简单易懂（个人觉得史上最强transformer讲解）：https://www.youtube.com/watch?v=ugWDIIOHtPA&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4&index=60 前言Transformer由论文《Attention is All You Need》提出，现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取，其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本 ...

008 Transformer入门到精通

发表于2023-08-12|NLPBERT

|字数总计: 11k|阅读时长: 38 mins.分钟| 条评论

Chapter 1 课程介绍1.1 课程介绍Chapter 2 BERT原理解读2.1 BERT任务目标概述2.2 传统解决方案遇到的问题2.3 注意力机制的作用2.4 self-attention计算方法2.5 特征分配与softmax机制2.6 Multi-head的作用2.7 位置编码与多层堆叠1、位置信息表达不用one-hot进行编码，通过正弦和余弦的position位置信息2、Add与Normalize2.1 归一化原始数据x = (x1,x2,x3,x4)2.1.1 BatchNoralize按照batch的维度(x1i,x2i,x3i,x4i)(列的维度)进行归一化，均值为0，方差为12.1.2 LayerNormlize针对每个x进行归一化(xi1,xi2,xi3,xi4)2.2 连接：基本的残差连接原因：处理之后的x不一定比原始的x特征要好，至少不比原来差 2.8.transformer整体架构梳理1、Decoder1.1 Attention计算不同 Encoder部分提供K、V，Decoder部分提供Q，进行encoder-decoder attention计算 ...

面经03：美团-机器学习算法

发表于2023-11-30|面经机器学习|位运算•并查集•dfs•bfs

|字数总计: 9.4k|阅读时长: 34 mins.分钟| 条评论

项目1、数据2、过拟合处理方式3、模型更新八股文1、xgboost原理2、线性回归三种区别正则化3、rmse、R^2区别编程有一个具有 n 个顶点的双向图，其中每个顶点标记从 0 到 n - 1（包含 0 和 n - 1）。图中的边用一个二维整数数组 edges 表示，其中 edges[i] = [ui, vi] 表示顶点 ui 和顶点 vi 之间的双向边。每个顶点对由最多一条边连接，并且没有顶点存在与自身相连的边。请你确定是否存在从顶点 source 开始，到顶点 destination 结束的有效路径。给你数组 edges 和整数 n、source 和 destination，如果从 source 到 destination 存在有效路径，则返回 true，否则返回 false 。输入：n = 3, edges = [[0,1],[1,2],[2,0]], source = 0, destination = 2输出：true解释：存在由顶点 0 到顶点 2 的路径: 0 → 1 → 2 0 → 2</pre> 输入：n = 6, edge ...

Hexo Butterfly搭建过程和解决方案

发表于2023-07-05|hexo|hexo•butterfly

|字数总计: 9.3k|阅读时长: 34 mins.分钟| 条评论

博客按照文章更新时间排序 (2023.08.14)难度：easyhexo 自定义文章排序博客文章加密 (2023.07.23)难度：easy对 Hexo 博客文章进行加密Hexo博客 | 加密！给你的文章添加密码博客文章总结TianliGPT (2023.07.12收费没搞)难度：easyTianliGPThexo-theme-butterfly配置方法购买链接 markdown数学公式 (2023.07.06)难度：easyMarkdown数学符号&公式（史上最全公式表）添加文章置顶功能 (2023.07.06)难度：easyhexo博客主题 Butterfly优化之文章置顶报错spwan failed(2023.07.05)难度：easy解决hexo报错spwan failed 官方教程 (2023.07.05)Markdowntwikoo 添加表格 (2023.07.05)难度：easyMarkdown 单元格合并详解（rowspan、colspan）标题 1 标题 2 标题 3 ...

LC2818. 操作使得分最大

发表于2023-08-14|LeetCode-hardLeetCode-hard-待定|质数•LC周赛Q4•单调栈•快速幂

|字数总计: 2k|阅读时长: 7 mins.分钟| 条评论

给你一个长度为 n 的正整数数组 nums 和一个整数 k 。一开始，你的分数为 1 。你可以进行以下操作至多 k 次，目标是使你的分数最大：选择一个之前没有选过的非空子数组 nums[l, ..., r] 。从 nums[l, ..., r] 里面选择一个质数分数最高的元素 x 。如果多个元素质数分数相同且最高，选择下标最小的一个。将你的分数乘以 x 。 nums[l, ..., r] 表示 nums 中起始下标为 l ，结束下标为 r 的子数组，两个端点都包含。一个整数的质数分数等于 x 不同质因子的数目。比方说， 300 的质数分数为 3 ，因为 300 = 2 * 2 * 3 * 5 * 5 。请你返回进行至多 k&nbs ...

LC2817. 限制条件下元素之间的最小绝对差

发表于2023-08-14|LeetCode-mediumLeetCode-medium-待定|LC周赛Q3•二分查找

|字数总计: 1.3k|阅读时长: 5 mins.分钟| 条评论

给你一个下标从 0 开始的整数数组 nums 和一个整数 x 。请你找到数组中下标距离至少为 x 的两个元素的差值绝对值的最小值。换言之，请你找到两个下标 i 和 j ，满足 abs(i - j) >= x 且 abs(nums[i] - nums[j]) 的值最小。请你返回一个整数，表示下标距离至少为 x 的两个元素之间的差值绝对值的最小值。示例 1：输入：nums = [4,3,2,4], x = 2 输出：0 解释：我们选择 nums[0] = 4 和 nums[3] = 4 。它们下标距离满足至少为 2 ，差值绝对值为最小值 0 。 0 是最优解。示例 2：输入：nums = [5,3,2,10,15], x = 1 输出：1 解释：我们选择 nums[1] = 3 和 nums[2] = 2 。它们下标距离满足至少为 1 ，差值绝对值为最小值 1 ...