首先,由于银行和公司出于信息安全的考虑,是不可能跟我们这个个人应用做直接的数据对接的,所以我们只能针对银行和商户或公司发给个人的账单做OCR文字识别来导入数据。 搞一个这样的项目可以先做一个电脑端网站或手机端的APP,接着上传个人银行账单的PDF文件和商户或公司提供的PDF个人账单导入后台服务器。上传的时候需要指定账单的类型,以便程序采用不同的策略来对 PDF文件中的内容进行OCR识别。然后在后台服务器上用OCR加机器学习的方法来解析pdf文件的内容,最后将账单数据导入用户资产数据库,并显示在界面上。具体操作上可以用ABBYY OCR SDK来按指定条件划定区域做OCR识别文字和数据,接着用机器学习的方法,先标定数据和数据表格的区域,然后跑机器学习调用OCR识别的pyspark程序,得到OCR识别的训练结果,以提高OCR程序解析PDF文件数据的准确率。对于账单中出现的复杂英文句子,需要将其中的词汇识别出来,放到数组里去。然后使用命名实体识别(NER)的方法,用搜集的词汇表和机器学习进行训练,最终得到一个比较让人满意的句子识别结果,让软件能够理解账单中句子的意思,将各种类型的财务数据写入最后的账单信息表中。这个软件测试结果的时候需要银行配合重算所有账务,看看是否能和程序跑出的资金余额平账。
|