ML Kit to potężne narzędzie opracowane przez Google, które umożliwia tworzenie aplikacji mobilnych wykorzystujących technologie sztucznej inteligencji. To zestaw gotowych do użycia rozwiązań opartych na systemie uczenia maszynowego, które można w prosty sposób zaimplementować do aplikacji na Androida lub iOS.

ML Kit oferuje wiele funkcji – m.in. rozpoznawanie tekstu, wykrywanie twarzy, skanowanie kodów kreskowych, tłumaczenia w locie czy rozpoznawanie obiektów. Dzięki temu deweloperzy mogą dostarczać swoim użytkownikom jeszcze bardziej zaawansowane i inteligentne aplikacje.

 

Instalacja i konfiguracja ML Kit na Androidzie

Aby zacząć korzystać z ML Kit, wystarczy dodać odpowiednią zależność w pliku build.gradle aplikacji.Warto zaznaczyć, że korzystanie z Firebase nie jest już wymagane. W starszych wersjach ML Kit konieczne było dodanie pliku google-services.json i konfiguracja Firebase w projekcie, ale obecnie wystarczy samodzielna biblioteka z repozytorium Maven.

Jeżeli jednak planujemy korzystać z usług chmurowych (np. Cloud Text Recognition albo Cloud Translation), wtedy integracja z Firebase nadal będzie potrzebna.

 

Czy szukasz wykonawcy projektów IT ?
logo

Rozpoznawanie tekstu na obrazach – jak to działa?

Rozpoznawanie tekstu z użyciem ML Kit na Androidzie polega na zastosowaniu technologii uczenia maszynowego do przetwarzania i analizowania obrazów. Użytkownik dostarcza obraz zawierający tekst, a ML Kit za pomocą algorytmów OCR analizuje jego strukturę, identyfikując i „czytając” znaki.

ML Kit udostępnia dwa tryby rozpoznawania tekstu:

  • On-device Text Recognition (v2) – działa lokalnie, bez połączenia z internetem. Obsługuje wiele języków (m.in. łacińskie, chiński, japoński, koreański) i działa szybko oraz bezpiecznie.
  • Cloud Text Recognition – działa w chmurze Google, obsługuje więcej języków i daje lepsze wyniki w trudniejszych przypadkach (np. skomplikowane czcionki), ale wymaga internetu i jest płatne po przekroczeniu darmowego limitu.

rozpoznawanie/skanowanie twarzy, ML Kit

Przykłady zastosowań

Rozpoznawanie tekstu z obrazów przydaje się w wielu sytuacjach:

  • Automatyczne skanowanie dokumentów – aplikacja zamienia zdjęcie dokumentu na edytowalny tekst.
  • Tłumaczenie napisów w czasie rzeczywistym – wystarczy skierować aparat na obiekt z obcym tekstem, a aplikacja pokaże tłumaczenie.
  • Wsparcie dla osób niedowidzących – tekst rozpoznany z otoczenia może być konwertowany na mowę.
  • Nauka języków – użytkownik robi zdjęcie tekstu i od razu widzi jego tłumaczenie.
  • Aplikacje biznesowe – np. automatyczne wprowadzanie danych z faktur i paragonów.

 

Najczęściej napotykane problemy i ich rozwiązania

Podczas korzystania z ML Kit programiści mogą napotkać pewne wyzwania:

  • Jakość obrazu – tekst na zdjęciach niskiej jakości może być trudny do odczytania. Pomagają tu techniki przetwarzania obrazu (np. wyostrzanie, poprawa kontrastu, korekcja jasności).
  • Orientacja i układ tekstu – tekst obrócony pod kątem bywa źle rozpoznawany. Rozwiązaniem jest preprocessing obrazu np. z użyciem OpenCV.
  • Nietypowe czcionki i stylizowane napisy – OCR radzi sobie gorzej z ozdobnymi fontami czy logotypami. Tu pomocne może być wykorzystanie chmurowej wersji rozpoznawania tekstu albo trenowanie własnych modeli.
  • Obsługa języków – on-device OCR obsługuje tylko część języków. W przypadku braków warto sięgnąć po Cloud Text Recognition.

Nasza oferta

Powiązane artykuły

Zobacz wszystkie artykuły powiązane z #Mobile