Polaroid Photo

Bilder från Daniel Nylander.se

Daniel Nylander.se

Ubuntu, Debian, Translation Project, GNU, Linux, UNIX, VoIP, IT-Säkerhet, experiment, väl valda ord och delvis sinnesnärvaro

Välj ett ämne:

ons
15
Nov '06

Snoka reda på skräppost med OCR

Många skräppostmeddelanden (spam) skickas som en enda bildfil.
De flesta antispamfilter på marknaden kan inte se att det faktiskt är ett spam, därför att det saknas text.

OCR, eller Optical Character Recognition, är en metod för att identifiera skrivbara tecken i en bild, till exempel faxmeddelanden.

Insticksmodulen FuzzyOCR för Spamassassin är lösningen!

Den använder programmet gocr för att läsa av texten i bildfilen.

Här har vi en exempelbild som vackert kom till min överfulla inkorg idag:

Helt vanligt gif-bild med text.

Om man kör gocr på denna bild ser det ut så här:

$ time gocr spam111.gif
___
PREMIER PHARMACY
t Lowest UIAGRA, _IALIS, LEUITRA OnI_ne Pr_ce!
VIACRA 3o $134,9s cIALIs 3o $169,9s
vALIum 3o $8s,4s somA 3o $7s,9s
PRoPEcIA 3o $64,9s AmBIEN 3o $1_o,99
_ xANAx 3o $1_3,4s uIAGRA son so $_so,99
_New _IALIS SOn 30 $__4,95
_ Save up to 80^_o on your prescr_pt_on Meds!
RX444.COM
Do not click, type in your browser www,rx444,com

real 0m0.114s
user 0m0.104s
sys 0m0.008s


Som ni ser tar det mycket kort tid att köra OCR-programvaran (0.114 sekunder).

Så vad väntar ni på? Installera det bums!

Start discussion »

Skriv ett svar