作者:禅与计算机程序设计艺术
9.3.1 数据匿名化与脱敏
9.3.1.1 背景介绍
在大数据时代,越来越多的个人信息被收集、处理和分析,导致个人隐私风险的显著增加。因此,保护个人隐私成为一个重要的课题,而数据匿名化与脱敏是一种常用的隐私保护技术。
数据匿名化与脱敏是指在发布数据时,去掉或替换敏感属性,使得数据无法还原到初始记录,从而实现隐私保护。数据匿名化与脱敏的基本思想是:通过某种方法,使得数据中的敏感信息对外界透露得尽可能少,同时保证数据的可用性。
9.3.1.2 核心概念与联系
9.3.1.2.1 数据匿名化
数据匿名化(Data
Anonymization),又称数据脱敏,是指在发布数据时,去掉或替换敏感属性,使得数据无法还原到初始记录,从而实现隐私保护。数据匿名化可以分为两类:完全匿名化和差分匿名化。完全匿名化是将所有敏感属性替换为其他值,使得数据无法恢复到初始状态;差分匿名化则仅替换部分敏感属性,保留部分数据的统计特征,以保证数据的可用性。
9.3.1.2.2 数据脱敏
数据脱敏(Data
Obscuration),也称数据伪造,是指在发布数据时,对敏感属性进行加密或模糊处理,使得数据对外界透露得尽可能少,从而实现隐私保护。数据脱敏可以分为两类:加密和模糊处理。加密是通过某种加密算法,将敏感属性转换为其他形式,使得攻击者无法获取真实信息;模糊处理是通过添加噪声或缩小精度等方式,降低数据的准确性,以达到隐私保护的目的。
9.3.1.2.3 区别
数据匿名化和数据脱敏都是隐私保护技术,但它们之间存在一定的区别。数据匿名化是通过替换敏感属性来实现隐私保护,而数据脱敏是通过加密或模糊处理来实现隐私保护。数据匿名化可以完全去除敏感信息,但会影响数据的可用性;数据脱敏则可以保留部分数据的统计特征,但不能完全去除敏感信息。
9.3.1.3 核心算法原理和具体操作步骤以及数学模型公式详细讲解
9.3.1.3.1 数据匿名化算法
数据匿名化算法的基本思想是:对敏感属性进行替换,使得数据无法恢复到初始状态。常见的数据匿名化算法包括:
- 基于全排列的数据匿名化算法
- 基于聚类的数据匿名化算法
- 基于决策树的数据匿名化算法
9.3.1.3.1.1 基于全排列的数据匿名化算法
基于全排列的数据匿名化算法是最早提出的数据匿名化算法。该算法的基本思想是:对敏感属性进行全排列,然后选择一种排列方式,将敏感属性替换为新的值。算法流程如下:
- 选择一种排列方式,例如升序或降序。
- 对敏感属性进行排序,并记录排序前的索引。
- 将敏感属性替换为新的值,新的值按照排序后的索引顺序排列。
- 输出匿名化后的数据。
示例代码如下:
9.3.1.3.1.2 基于聚类的数据匿名化算法
基于聚类的数据匿名化算法是基于聚类分析的数据匿名化算法。该算法的基本思想是:先对数据进行聚类分析,然后将敏感属性替换为聚类中心或随机值。算法流程如下:
- 对数据进行聚类分析,得到聚类中心。
<
今天只要你给我的文章点赞,我私藏的大模型学习资料一样免费共享给你们,来看看有哪些东西。
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【】
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。