| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> 数据分析技术在审计中的应用(一)- 学习笔记 -> 正文阅读 |
|
[大数据]数据分析技术在审计中的应用(一)- 学习笔记 |
一、理论学习(一)概念理解? ? 1. 数据式审计不是大数据审计。如果直接用SQL查询就能解决的问题,严格来讲不属于大数据审计。 ? ? 2. 大数据时代,各单位、部门的数字化程度越来越高,数字越来越完备,SQL查询的计算机审计将更有作为。 ? ? 3. 严格的大数据审计包括以下三个课题: ? ? ? ? (1)使用计算框架解决单台计算机计算能力不足的问题; ? ? ? ? (2)对非结构化的数据进行采集、分析、处理、解决非结构化数据转为结构化数据的问题; ? ? ? ? (3)对接数据挖掘算法,解决审计线索的发现难题。 (二)本福特和他的发现? ? 1. 本福特(Frank Benford,1883~1984)是一位美国电气工程师。工作中,他注意到自己所使用的对数表的书前面几页比后面几页的磨损程度更为严重,而前面页对应的是首位数字较小的数。受此现象启发,本福特推论首位数字较小的数在日常生活中会更频繁地用到。 ? ? 2. 为了验证自己得到的猜想,他从包括河流面积、人口统计、分子及原子重量、物理常数等多种来源中采集了20000多个随机数字。发现,大约31%的数字首位数是1,19%的数字首位数是2,越往后频率越低,首位数是9的数字只占5%。 ? ? 3. 可以证明,当数字自然地产生(不人为设置最大值或最小值)时,大量数字的首位数的确具有某种内在规律性。 ?(三)“信息熵”及其应用? ? 1. 信息熵(Information Entropy)是度量信息混乱程度的指标,越混乱值越大,越存粹越接近于0.利用信息熵可以审计“参保人员购药骗保”。 ? ? 2. 基于假设:不法分子倾向于在医保最高限额下,从多家不同药店和医院购买不同药物用于贩卖。因此,其购药行为特点是所关联的药店和医院数量多,且金额趋向于平均。 ? ? 3. 可见,若要有效锁定不法分子,不能仅仅看消费总额,还要看消费方式。信息熵提供了这样一种度量方式,购药金额信息熵高的人存在较高嫌疑。 ? ? 信息熵计算公示如下,其中p表示概率: ? ?二、实战训练? ? 1. 验证本福特定律中首位数为1~9概率之和为1 ? ? ? ? (1)验证前3219个斐波那契数列数
? ? ? ? (2)验证前3219个阶乘并绘图
? ? 2. 计算并展示购药总金额与本福特定律的吻合性
? ? 3. 验证下图左侧表格
? ? ?4. 数据探索与发现 ? ? ? ? (1)多少消费者?多少家店?多少种药?
? ? ? ? (2)单价最贵的药?
? ? ? ? (3)药品按单价由高到低排序
? ? ? ? (4)药品按销售额由高到低排序
? ? ? ? (5)药品按销量由高到低排序
? ? ? ? (6)购药者按照购药总金额由高到低排序
? ? 5. 购药者按照信息熵排序(传统编程思路)
? ? ? ? · 观察信息熵极高者的购药行为
? ? 6. 购药者按照信息熵排序(无循环)
? ? 7. 购药者按照光顾的店面数排序
? ? ※ 验证包含关系(信息熵高的是否门店数就多?)
? ? ※ 验证包含关系(信息熵高的是否总金额就高?)
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年3日历 | -2025/3/4 2:44:01- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |