色欲国产麻豆一精品一av一免费-髙清国产性猛交xxxand-久久久精品免费-国产一区二区精品久久

企業(yè)如何將智能OCR和RPA集成起來改進(jìn)工作流程

  文檔數(shù)據(jù)的提取是文檔理解的重要組成部分。在本節(jié)中,我們將討論如何將OCR與RPA集成,反之亦然。首先,我們都知道文檔在模板、樣式、格式和語言方面有不同的類型。因此,我們不能依靠簡(jiǎn)單的OCR技術(shù)從這些文檔中提取數(shù)據(jù)。為了解決這個(gè)問題,我們將在OCR中使用基于規(guī)則的方法和基于模型的方法來處理來自不同文檔結(jié)構(gòu)的數(shù)據(jù)?,F(xiàn)在,我們將看到OCR公司如何根據(jù)文檔的類型將RPA集成到他們現(xiàn)有的系統(tǒng)中。

  結(jié)構(gòu)化文件:

  在這種類型的文檔中,布局和模板通常是固定的,并且?guī)缀跏且恢碌?。例如,考慮一個(gè)使用政府頒發(fā)的ID(如護(hù)照或駕駛執(zhí)照)進(jìn)行KYC的組織。所有這些文檔將是相同的,并有相同的字段ID號(hào)碼,姓名,年齡,和很少其他在相同的位置。但只有細(xì)節(jié)不同。可能很少有約束,如表溢出或未歸檔的數(shù)據(jù)。

  通常,推薦的方法使用模板或基于規(guī)則的引擎來提取結(jié)構(gòu)化文檔的信息。這些可以包括正則表達(dá)式或簡(jiǎn)單的位置映射和OCR。因此,為了集成軟件機(jī)器人來實(shí)現(xiàn)信息提取的自動(dòng)化,我們可以使用預(yù)先存在的模板,也可以為我們的結(jié)構(gòu)化數(shù)據(jù)創(chuàng)建規(guī)則。使用基于規(guī)則的方法有一個(gè)缺點(diǎn),因?yàn)樗蕾囉诠潭ǖ牟糠郑词故潜韱谓Y(jié)構(gòu)的微小變化也會(huì)導(dǎo)致規(guī)則崩潰。

  半結(jié)構(gòu)化文件:

  這些文件有相同的信息,但排列在不同的位置。例如,考慮包含8-12個(gè)相同字段的發(fā)票。在一些發(fā)票中,商家地址可以位于頂部,而在另一些發(fā)票中,則可以在底部找到。通常,這些基于規(guī)則的方法不能提供高精度的信息,因此我們將機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型引入到圖像中,以便使用OCR進(jìn)行信息提取?;蛘?,在某些情況下,我們可以使用涉及規(guī)則和ML模型的混合模型。一些流行的預(yù)訓(xùn)練模型是FastRCNN、注意OCR、用于文檔信息提取的圖卷積。然而,這些模型也有一些缺點(diǎn);因此,我們使用諸如準(zhǔn)確性或置信度評(píng)分等指標(biāo)來衡量算法的性能。因?yàn)槟P褪窃趯W(xué)習(xí)模式,而不是按照具體的規(guī)則操作,所以它可能在修正后一開始就會(huì)犯錯(cuò)誤。然而,解決這些缺點(diǎn)的方法–ML模型處理的樣本越多,它學(xué)習(xí)的模式就越多,以確保準(zhǔn)確性。

  非結(jié)構(gòu)化文件:

  RPA目前無法直接管理非結(jié)構(gòu)化數(shù)據(jù),因此需要機(jī)器人首先使用OCR提取和創(chuàng)建結(jié)構(gòu)化數(shù)據(jù)。與結(jié)構(gòu)化和半結(jié)構(gòu)化文檔不同,非結(jié)構(gòu)化數(shù)據(jù)沒有幾個(gè)鍵值對(duì).例如,在一些發(fā)票中,我們看到一個(gè)商人的地址沒有任何鍵名;同樣,我們對(duì)日期、發(fā)票ID等其他字段也是如此。為了準(zhǔn)確地處理這些數(shù)據(jù),機(jī)器人需要學(xué)習(xí)如何將書面文本轉(zhuǎn)換為可操作的數(shù)據(jù),如電子郵件、電話號(hào)碼、地址等。然后,該模型將了解到,7位數(shù)或10位數(shù)的數(shù)字模式應(yīng)該被提取為電話號(hào)碼和包含五位數(shù)代碼和不同名詞的巨大文本。為了使這些模型更加準(zhǔn)確,我們還可以使用自然語言處理(NLP)的技術(shù),例如命名實(shí)體識(shí)別和單詞嵌入。

  總的來說,要理解文檔,首先須了解數(shù)據(jù),然后用RPA實(shí)現(xiàn)OCR。接下來,我們可以通過將規(guī)則和機(jī)器學(xué)習(xí)算法集成起來,記錄過程中發(fā)生的過程,而不是一步一步地繪制出一個(gè)過程,而不是一步一步地給機(jī)器人“做我要做的事情”。軟件機(jī)器人跟蹤您在屏幕上的單擊和操作,然后將它們轉(zhuǎn)換為可編輯的工作流。如果你完全在當(dāng)?shù)氐捻?xiàng)目中工作,你就需要知道這一點(diǎn)。