خانه
جستجو
Close this search box.
جستجو
دانلود نسخه ی offline ocr tesseract با پشتیبانی از زبان فارسی و بیش از 100 زبان زنده ی دنیا!

توجه: ضمن تشکر از جناب آب روشن بابت ارسال این پست و لُطفشان نسبت به این مجموعه، پیشنهاد حمایت مالی صرفا از سوی ایشان مطرح شده و به سفارش مدیریت این مجموعه نمی‌باشد.

سلاااام.
چطوری.
با خود خودتم خوبی؟
من که تو این روز های کرونایی, گرونی, این مشکلاتی که برای افغانستان پیش اومده حال کلیم خوب نیست ولی سعی میکنم با کنجکاوی توی بعضی از مسائل حال خودم رو خوب نگه دارم.
بزن بریم!

** خیلی مهم

من خیلی از شرکت ها رو میبینم که ادعا میکنن یه نویسه خوان نوشتن و میخوان یک و دو ملیون بکنن تو پاچه ی ملت. نمونه ی این پست ها رو میتونی تو همین محله پیدا کنی.
یا چند وقت پیش یه شرکتی توی این گروه های تلگرامی نابینایی اومده بود و میگفت که یه عینک درست کرده که نویسه خوان داره و برای نابینا ها مفیده و این چرت و پرتها.
و قیمت 15 میلیونی میداد که میخواست با بهزیستی اینها رایزنی کنه و…
این نرم افزار رایگانه ولی اگه از این کنجکاوی های من و اشتراکش تو این محله خوشت میاد و میخوای حمایت کنی از همون لینک بالای محله که میگه “از اینجا هم اگر خواستی میتونی کمک مالی کنی” با حد اقل 5 تومن بزن حمایت کن و بذار تو کامنت ها که بقیه هم تشویق بشیم حمایت کنیم از محله ای که کلی چیز ازش یاد میگیریم.

من خیلی سعی نمیکنم از این شاخه به اون شاخه برم.
مثلا OCR یا هوش مصنوعی یه شاخه ی دیگست و توسعه ی نرم افزار های وب یه فیلد جدا.
ولی از اون جایی که هر نابینایی یا دوست داره OCR بنویسه یا TTS من هم چند وقت پیش توی این قضیه یه کم کنجکاو شدم خخخ.
اول بگم که OCR tesseract اون OCR نیست که توی گوگل درایو به کار رفته.
البته برای این منبع موثقی ندارم ولی وقتی در موردش تحقیق میکردم خیلی ها این رو میگفتن و به نظر درست هم میاد.
اگر هم همین OCR به کار رفته باشه یه سری image preprocessing روش انجام میشه که اون عکس رو برای ocr optimize میکنه.
مثلا عکسهایی با background سیاه و فونت سفید رو بهتر تشخیص میده.
یا عکس ها رو رزلوشنش رو تغییر میده و درشتتر میکنه.
و اگر عکسی برعکس باشه برمیگردونه تا درست OCR بشه.
از اون جایی که این کار ها خیلی وقت گیر بودن من فقط آخری رو انجام دادم یعنی برگردوندن عکس.
در ضمن بگم که بهتره که با resolution 300 dpi عکسها اسکن بشن.
پیش نیاز این برنامه jre 8 و • microsoft Visual C++ 2019 Redistributable هستش و اگه بخواید زبونی جز فارسی و انگلیسی رو تشخیص بده فایل های آموزشی مربوط به اون زبون هم نیازه.
بعد از دانلود و استخراج برنامه از حالت فشرده با اجرای run.bat برنامه رو اجرا کنید.
حواستون باشه که اگه فایل ocr.jar رو مستقیما اجرا کنید encoding کاراکتر های فارسی به هم میریزه.
تو کادری که میخواد زبون مورد نظر رو انتخاب کنید باید سه حرف اول فایل trainyData رو بنویسید که برای فارسی میشه fas و برای انگلیسی میشه eng.
اگه هم دوتا یا چند زبون رو خواستید با کاراکتر بعلاوه + جداش میکنید.
مثلا eng+fas
احتمالا این پست بروز میشه و همه ی زبون های موجود برای دانلود گذاشته میشه.
فایل های آموزشی که بعدا گذاشته میشه باید توی پوشه ی data\tesdata قرار داده بشه.
برای اطلاعات بیشتر میتونید راهنما رو هم مطالعه بکنید.

نمونه ی فایل ocr شده

چشمانم گرد می‌شود و لبانم به معنای چیزی در مایه‌های
پوزخند و کج‌خندِ درهم آمیخته شده به بالا منحنی می‌گردد.
هرگز برای صدم ثانیه هم از مغزم خطور نمی‌کرد که شهر
برای سنگ قبر آپلو هوا نمی‌کردند. اگرچه در روستای ما
سنگ قبری در کار نبود» که اگر می‌بود من بخت برگشته
برای برطرف کردن آرزوهای لیلی بانو دو هفته‌ی تمام ویلان
و سیلان شهر و دب‌دبه و کب‌کبه‌اش نمی‌شدم. آخر یکی
نیست بگوید ناز بانو» دردت به جانم؛ تو که بروی قلب در
تن من به مثال روحی سرگردان می‌ماند! یکی نیست آبگویدش
: سخن متی‌کشایم
.حاجی؛ قیمت بگو –
دستی بر سر تاسش می‌کشد و.پس از کمی من من و دست.
دست کردن پاسخ‌گو می‌شود
اقابل نداره –
خسته و بی هیچ حرفی نظاره‌گرش می‌شوم که بالاخره جواب
می‌دهد.» جواب که می‌دهد انگار که در سرم سوتی دمیده
باشند» گوش‌هایم از حالت عادی سنگین و سنگین‌تر می‌شود.
بدون هیچ جوابی مانند تمام لحظات دو هفته‌ی قبل تا به الان
4

دانلود برنامه

شما میتونید برنامه رو با حجمی حدودا 40 مگی از اینجا دانلود کنید.
به دوستاتون بگید به دوستاشون این پست رو معرفی کنند و سعی کنند اولین کسی باشن که تو زندگی برای خودشون اهمیت دارن.
شاد باشید و سعی کنید از کنجکاویهاتون اینجا بنویسید.

۲۹ دیدگاه دربارهٔ «دانلود نسخه ی offline ocr tesseract با پشتیبانی از زبان فارسی و بیش از 100 زبان زنده ی دنیا!»

جووووون. بهبه. بهبه. کلی ذوق زده شدم گر چه زیاد نیازم نمیشه.
خیلی دمت گررررم که نه کوره آتیش.
امیدوارم این برنامه یه روز بهترین بشه در نوع خودش.
راستی یه راه ارتباطی ازت میخواستم واسه تبدیل چند ایده به برنامه.
من با شماره
۰۹۱۹ ۵۸۶ ۵۷ ۹۰ تو تلگرام اسکایپ کلاب هوس هستم و واتساپ و اینستا هم با همین شماره راه اندازی خواهم کرد.
موفق باشی.

سلام. بسیار ممنون. دوست دارم امتحانش کنم.
راستی نمیشه برنامه های پیش نیاز داخل پست باشه که راحت دریافتش کنیم؟
یا این که همه برنامه های پیش نیاز به صورت یک برنامه پرتابل داخل یک بسته قرار بگیرن؟ البته من برنامه نویس نیستم. فقط نظر دادم شاید هم نشه. نمیدونم.

سلام
او سی آر گوگل (حد اقل الآن) از روشای مبتنی به ماشین لرنینگ استفاده میکنه که یکی یا شاید مهم ترینش شبکه های عصبی کانولوشنیه
نکته: این ocr خیلی دقیق نیست ، (حتی با image processing) و نباید خیلی بهش استناد کرد.
البته باید مدلایه بهتری براش آموزش داده بشه و تو نسخه آخری که من دیدم ، که tesseract ورژن ۴ باشه ، تا حدی شبکه عصبی هم بهش اضافه شده. (ولی مدل فارسیش مفت نمی ارزه).

ببین
آره بنظرم درست بگی.
البته کیفیت فارسیش توی این نسخه ی ۴ خیلی بهتر شده.
من یه برنامه ی image processing که داشتم و امتحان کردم خیلی میتونست نتایج رو بهتر کنه.
بعد هم خب وقتی برای انگلیسیش به همون کیفیت جواب میده احتمالا فارسیش هم اگه train بشه بهتر جواب بده.
من چندتا pdf باهاش اسکن کردم مثل اون ورژن آنلاینش عالی نبود ولی بد هم نبود.

سلام
نه انگلیسیش نسبت به گوگل به همون کیفیت نیست (و قاعدتا هم نمیتونه باشه به خیلی دلایل).
برای فارسی و (حتی انگلیسی) ، من خیلی روشایه image processing رو امتحان کردم (خیلی)!. از blur کردن ، تا درآوردن boundingbox مربوط به هر حرف و دادنش به tesseract برای دیتکشنه بهتر ، ولی جوابش که بهتر نشد (و در خیلی مواقع بدتر شد).
اما در ارتباط با dpi:
ببین dpi خیلی برای ocr مهم نیست (اندازه کاراکترا مهمه). البته نمیگم تاثیر نداره ، ولی اصل کاری به اندازه کاراکترا برمیگرده.

آقا من رفتم و برنامه رو دانلود کردم. فایل run.bat اجرا کردم. هیچ کادری باز نشد. که فایلی بهش بدم. بعدش رفتم برنامه های پیش نیاز رو دانلود کردم و بعد از نسب اونا هم، باز هیچ اتفاقی نیفتاد.
شاید من درست نفهمیدم که چه کاری باید انجام بدم. لطفا راهنمایی تکمیلی بکنید.

با سلام،
اومدم یه تشکر جانانه ازت بکنم.
چون کوچیکترین چیزی که به دستت میاد و فکر می کنی حتی یه درصد ممکن هست به درد کسی بخوره رو به اشتراک میذاری.
ای کاش ما هم مثل تو بشیم.
خیلی این روزا حس فارسی خوندن ندارم ولی قطعاً به دردم می خوره.

این از انگلیسی هم پشتیبانی میکنه با کیفیت خوب! برای فارسی و انگلیسی نمیخواد data train file بهش اضافه کنی.
اگه بخوای میتونی data train file برای آلمانی هم که کار میکنی بهش اضافه کنی تا ترکیبی از آلمانی و انگلیسی رو هم ocr کنی.
تشکر از لطفت بنظرم هر کی مثل خودش باشه بهتره.

بله قربان، خیلیها تو این سالها اصلاح شدند. حالا اینکه تو همین سالها خیلی ها هم تبدیل به قاتل شدند هم یه بحث دیگست. منظور من نفس کار بود. حتی اگر یه قاتل هم اصلاح بشه، به نظر من اتفاق بزرگی تو دنیا اتفاق افتاده.
متأسفانه مشکل ما این هست که فقط یه تکنولوژی عجیب و غریب و یا یه مدال تو یه رشته ورزشی رو یه کار مثبت می دونیم. وقتی هم یه قاتل تبدیل به یه انسان حسابی میشه، شما و امثال شما که چنین تفکری دارند، به اون به دید یه اتفاق مثبت نگاه نمی کنند. چون عادت دارند همیشه نیمه خالی رو ببینند.

سلام
اینکه نیمه پر لیوانو میبینم یا خالیش به کنار! ، و اینکه بعضیا هم یه تکنولوژی رو اتفاقه مثبت میدوننم به کنار
اما در ارتباط با اینکه حتی یه نفرم خوب بشه ، بله با این حرف موافقم ، ولی همه حکومتا تمایل به بد کردنه انسان و تکنولوژی به نفعه خودشونو دارن.
پس کار من و شما به خودیه خود فایده ای نداره.
در ارتباط با اینکه تکنولوژی مثبته یا نیستم باید بگم که در خیلی از مواقع همین تکنولوژی باعث قتل عام شده (نمونه بارزش همون هسته ای که بمب اتم ازش ساخته میشه).
قابل توجهت که به چنین تکنولوژی ای من و شما دسترسی نداریم (حکومتا دارن) و در ادامش باید خدمتت بگم که به گند کشیدنه دنیا کار همون حکومتاست.
گروهایی مثل همون داعش ، القاعده … محسول همون حکومتان که یه سری مزخرفات به خوردشون داده میشه تا به اسم (دین ، ایمان ، خدا یا همون انسانیت) بزنن کلی انسانو لت و پار کنن و کسی ککش نگزه (حتی خود شما) یا تو یه کشوری مثل کره شمالی مردم غذا برا خوردن نداشته باشن چرا؟ چون یه دیکتاتور داره که فقط دنباله اینه که بمب اتم قویتر بسازه بتونه بیشتر تهدید کنه بقیه رو باهاش.
اما برگردیم به بحثمون:
اگه یه خورده آماری به قضیه نگاه کنی ، میبینی درصد آدمایی که قتل عام میشن از افرادی که اصلاح میشن خیلی بیشتره. اونایی هم که اصلاح میشن ، تو این مواقع ۱. یا خودکشی میکنن برا این گندی که زدن ، ۲. میرن یه جور دیگه آدم میکشن ، ۳. میرن گوشه گیر میشن.
(در ارتباط با بحث آماری صحبت کردن هم میتونم ارجاع بدمت به ۱۱ سپتامبر که ۲۹۹۷ نفر فقط تو یه حمله قتل عام شدن).
باز برات ادامه بدم که ببینی دنیا عجب جای مزخرفیه ، ۳۰۰۰۰۰ نفر تو زمانه داعش تو همون سوریه بی خانمان شدن. کار به جایی کشیده شد که قوانینه پناهندگی رو سختگیر کردن ، چرا؟ چون برای همون افرادی که گند زده بودن به زندگیشون و خونه شون رو سرشون خراب شده بود جا نداشتن. خیلی از همونارو زدن ریختن تو دریا. چرا؟ چون منافع مزخرفشون به خطر میفتاد.
حالا به جای اینکه بقیه رو بیخودی سرزنش کنی ، اگه راه حلی داری که بخوای دنیا رو درست کنی بسمالله.

سلام
من همون اولم نوشتم:

یه خورده بحث منحرف میشه ها

و فقط یه جمله جواب دادم ، که بعدش شما اومدی و مته به خشخاش گذاشتی.
من که نگفتم شما موزعت مشخص هست یا نیست (که اصلا فکر نمیکنم قرار به موضع گیری باشه. حد اقلش من اینجوری نبودم. شاید شما موضعی داشتی که خدا داند.
هدفمم منحرف کردنه بحث نبوده ، و نیست. (اگه شما فکر میکنی بوده من همینجا معذرت میخوام).
به هر حال شاد و سر فراز و موفق باشی.

سلام.
ضمن تشکر از پستهای ارزشمندتون
من چند نکته رو متوجه نشدم.
۱. اولش فکر کردم که شما خودتون این برنامه رو نوشتین. آیا درست متوجه شدم؟
۲. رو چه ویندوزی نصب میشه؟ و ۳۲ بیته یا ۶۴ بیت؟
۳. چه سخت افزاری نیاز داره؟ خصوصا رم و cpu.
آخه برنامه های ocr معمولا سیستم قوی نیاز دارند!

سلام.
ماژول ocr رو گوگل نوشته و به صورت api در اختیار برنامه نویسان گذاشته.
من یه رابط کاربری براش درست کردم که بتونه روی سیستم های ما هم اجرا بشه.
سیستم خودم ۶۴ بیت و روی ۳۲ امتحان نکردم.
میتونید امتحان کنید نتیجه رو بگید.

آقا این جاوا به درستی نسب نشده بود واسه همین کار نمیکرد. الآن درست شد.
با تست‌هایی که من کردم. تبدیل برنامه نسبت به گوگل ocr ظعیف هست. نمیدونم دلیلش چی هست. البته pdf متنی و pdf سختی مثل این که عکس رو اول pdf کردم و بعد بهش دادم که کار سخت بشه. اینا رو نتونست با کیفیت برنامه ای که مهرداد صفا نوشته بود تبدیل کنه.
دو پیشنهاد.
۱- اگر بشه درصد پیشرفت رو بدونیم خیلی خوب میشه.
۲- اگر بجای نوشتن fas یا eng کادری برای انتخاب باشه به نظرم سرعت کار با برنامه میتونه بیشتر باشه.
سادگی برنامه و کار کردن باهاش به شدت لذتبخش بود.
نهایتا باید از تلاشی که کردی و میکنید یه تشکربزرگ داشته باشم. ممنون.

مرسی که تست کردی.
آره من تو پست هم گفتم که کیفیت فارسیش هنوز به اون نسخه ی آنلاین نمیرسه.
درصد عملیات هم خودم میخواستم که بگه ولی اون api که باهاش کار کردم اون مثالی که گذاشته بود برای این کار درست کار نمیکرد.
ولی زبون های دیگه مثل انگلیسیش خیلی بهتره.

سلام بر جناب آبروشن بزرگوار
پست بسیار عالیی بود
ممنون از اشتراک گذاری نرم افزار و توضیحاتتون با ما

توصیه پایانی پستتون هم عااالی بود

راستی ما نفهمیدیم آخرش قضیه لیلی چی شدا….. نصف نیمه بود ولی فکر کنم سنگ قبر گرون بود

سلام. وقتت بخیر. آره این teseract رو دیده بودم.
کار جالبیه.
ایشالا روز به روز هم بهتر بشه.
به هر حال به عنوان یه پروژه open source این تسرکت جای پیشرفت زیادی داره.
راستی audio player رو به لیست برنامه هایی که نابینا ها دوست دارن بنویسن هم اضافه کن.
الآن دو سه تا audio player تیمتاکی لا اقل من می شناسم.
مرسی زیاد.

دیدگاهتان را بنویسید