درود به همه
یه چند روزیه که فکر یه پرژهی جدید افتاده توی سرم.
من یه مدتیه هست که با پرژهی Gutenberg.org آشنا شدم. توی این پرژه، متن حدود 45000 کتاب انگلیسی که به صورت Public domain هستند و کپی رایت دیگه ازشون پشتیبانی نمیکنه جمعآوری شده و به صورت آنلاین در دسترس همه هست.
من خودم یه کرم کتاب حسابی هستم و کلی کتاب میخونم. البته بیشتر ادبیات داستانی. اخیرا زیاد کتاب فارسی نمیخونم چون اون همه کتاب فوق العادهی انگلیسی به اون آسونی در دسترسم هست. ولی به این فکر افتادم که یه چیزی مثل این پرژهی Gutenberg برای کتابهای فارسی درست کنم. البته نه به اون بزرگی. من یه نفرم. یعنی متن کتابهای فارسی که مشکل کپی رایت ندارن رو پیدا کنم، اصلاحشون کنم (اگه نیاز داشتن) و توی یه پایگاه داده جمعآوری کنم و شاید بعدش یه کلاینت وب یا یه کلاینت کامپیوتر بنویسم که به نابیناها و بیناها اجازه بده این کتابها رو بخونن. و از اونجایی که همهی کتابها متنی هستند افراد میتونن به سادگی توی همهی کتابها جستجو کنن. هدف اصلیم نابیناها هستند ولی اگه بشه به صورت عمومی باشه که بهتر هم میشه.
دیروز یکی دوتا کتاب PDF فارسی پیدا کردم و سعی کردم که به متن روان توی ورد تبدیلشون کنم. ولی کلی مشکل داشت. کتاب تایپ شدهی بوف کور بود. بعد از کلی جستجو به یه برنامه که قرار بود PDF فارسی رو بدون هیچ مشکلی تبدیل کنه برخوردم که اسمش بود PDF Grabber ولی کار نکرد. بهترین راهی که فعلا دارم کپی پیست کردن متن از توی Adobe Reader هست. ولی این کار رو هم که انجام دادم متن یه خورده خراب شد. یعنی بیشتر از یه خورده خراب شد. آیا هیچ کدوم از شما روش خوبی برای تبدیل اون PDF های کوفتی فارسی به متن آدموار سراغ دارید؟ منظورم PDF های تصویری نیست. اونها که به تایپ یا OCR نیاز دارم. نمیدونم چرا زبون فارسی اینقدر دردسر داره. دوست دارم نظرتون رو در مورد این ایده بدونم. به نظرتون شدنیه؟ و اگه شدنی باشه استقبال ازش میشه یا نه؟
۳۳ دیدگاه دربارهٔ «نظرسنجی در مورد یه پروژه»
خیلی عالیه این ایده و پروژه من خوندن کتاب متنی را خیلی دوست دارم قطعا میتونید راه حلی برای تبدیل کتاب ها به متن پیدا کنید.
درود
من هم کلا خودند کتابهای متنی رو ترجیح میدم. امید که بشه راهی پیدا کرد. مرسی از نظرتون. موفق باشید.
سلام بر آقای امینی گرامی
بنظر من که هم شدنی هست هم استقبال ازش میشه
البته در مورد شدنیش مطمئنم با علم و آگاهی و تخصص شما و در کنارش تلاشتون و پشت کارتون درست میشه و متأسفانه من نمیدونم راه کار این مشکلی که الآن باهاش مواجه شدید چی هست ولی هستند کتاب هایی که فایل متنیشون موجود هست یه تعدادیشون رو توی گروه ایستگاه سرگرمی و کتاب خوانی بچه ها پست کردند و فکر کنم اگر بگردید و بگردیم باز هم پیدا میکنیم ….
در هر حال بنظر من پروژه بسیار جالب و عالی و مفیدی هست و براتون آرزوی موفقیت دارم
درود
من سعیم رو میکنم که اینجا یه خورده اراده به خرج بدم و این ایده رو به جایی برسونم. مرسی از نظرتون.
درود داداش میثم. ایده ی خیلی خوبیه. ولی یک تنه کار خیلی پیش نمیره. باید دوستان دیگه هم که میتونن بیان و کتاب هایی که دسترسی دارن رو به تو بدن تا در یک مجموعه جمع آوری کنی.
بنظر من گذشته از متن های pdf کتاب های بسیاری هم موجوده که تایپ شده هستند و براحتی قابل استفاده هستند.
اما مشکلشون اینه که در دست رس همه نیستند . و توی سایت ها و وبلاگ های گم نام گم شدند که گاهی با جستجوی گوگل هم نمیشه براحتی بهشون دسترسی داشت.
مثلا اون وبلاگی که یه نفر معرفی کرد توی همین سایت.
فکر کنم ملیسا خانم بود که معرفیش کرد و من ازش خبر نداشتم. توی اون وب یه عالمه کتاب تکستی و متنی تایپ شده وجود داشت که براحتی با صفحه خوان ها قابل خوانش بود.
فقط مشکلش این بود که فصل های هر رمان از آخر به اول بود.
همین که ما این کتاب ها رو صد ها رمانی که توی همچین وب هایی هست جمع کنیم و در یک پایگاه در اختیار همه بزاریم حرکت اولد اسکولیه.
با سپاس
درود نیمای عزیز
باهات موافقم که تنها به جایی نمیرسم. من باید یه خورده تحقیق کنم و ببینم چه کاری دقیقا میخوام انجام بدم. استانداردها رو مشخص کنم و اینها. بعد از اون اگه دیدم خوب کار پیش میره از دیگران کمک میگیرم.
در مورد اینکه کتابها پراکنده هستند هم حق کاملا با تو هست. من متاسفانه قسمت الکترونیکی کتابخونهی فارسیم کامل پاک شده. الآن دارم دنبال یه فروشگاه میگردم که چند هزارتا کتاب فارسی رو توی چندتا DVD ارایه بده. اونو میخرم و با گشتن توی محتوا PDF هایی که قابل دسترس هستند رو جدا میکنم. خیلی از این PDF ها پر از غلط هستند. شاید بعضی از این غلطهای برای بیناها قابل تشخیص نباشه ولی ما که از صفحه خوان استفاده میکنیم اونها رو خوب متوجه میشم. و این مشکلات خودند کتاب رو ناخوشآیند میکنن. پس باید اصلاح بشن. خیلی کار داره در کل.
موفق باشی داداش.
درود این کار چند مزیت داره اول اینکه حجم منابع word قابل مقایسه با منابع صوتی نیست دوم اینکه دستیابی به مطلب مورد نظر در منابع متنی بسیار سریعتر از منابع گویا هست سوم اینکه کتب بریل مطلقا و کتب صوتی چندان قابلیت ارجاع ندارن اما در کتب متنی شما براحتی میتونید به فلان صفحه ارجاع بدید با این روش بخش اعظم مسائل پایاننامه نویسی و مقاله حل میشه البته همه اینها منوط به این هست که بشه این کتابا رو به word تبدیل کرد. دوست عزیز این ایده خیلی خوبی هست امیدوارم دوستانی که تخصص دارن کمک کنن تا این ایده زیبا اجرایی بشه
درود
دقیقا، به علاه یه مزیت دیگه هم که من میتونم فکر کنم در موردش اینه که امکان چاپ این کتب به صورت بریل هست. برای کسایی که بریل رو ترجیه میدن.
امیدوارم به جایی برسم. موفق باشید.
سلام میثم جان. با طرحت اکیدا موافقم.
البته مدتها پیش مجتبی هم چنین طرحی را مطرح کرد که یک کتابخانه فراگیر داشته باشیم که البته مستلزم مقداری هزینه بود که در آن موقع مجتبی ظاهرا مبلغ سالیانه ۵۰۰هزار تومن را برآورد کرده بود که خلاصه به نتیجه نرسید.
به هر حال من اعلام آمادگی میکنم که حاضرم برای پیشبرد این طرح تلاش کنم البته تخصص شما را ندارم ولی در ویرایش و تصحیح متون میتونم همکاری کنم.
موفق باشی.
درود عمو حسین عزیز
اون طرحی که مجتبی داشت برای کتب صوتی بود. این در مورد کتب متنی هست. اگه حتی چند هزارتا کتاب متنی هم جمع بشه نهایتا چند گیگابایت جا بخواد که مجتبی قولش رو داده که روی همین سرور گوش کن در اختیارم بزاره. اگه سرور گوش کن هم نشد. حدود صد و پنجاه هزار در سال میشه. خیلی چیز وحشتناکی نیست. من امیدوارم که وسط کار مثل خیلی از تصمیمهای دیگم رهاش نکنم. پایهریزی که بشه اونوقت خود بچهها کنترل رو به دست میگیرند و همکاری میکنن. وقتی چند نفر با هم روش کار کنن میتونه طرح موفقی باشه.
راستی توی یه دیدگاه که نتونسته بودم جواب بدم از من خواسته بودید که آهنگی رو که پشت زمینهی آموزش winamp گذاشته بودم رو توی سایت با ترجمه بزارم. به چشم در اسرع وقت. موفق باشید.
سلام و درود بر همگی هم محله ای های عزیز و آقای امینی.
از دوستان گوشکنی عذرخواهی می کنم که تقریبا هر روز مطالبشون رو می خونم اما نظر نمیدم.
اما در مورد این پروژه ی آقای امینی:
من هم چند ایده داشتم که فکر کردم شاید مفید باشه.
اول: در مورد تبدیل PDF های متنی به تکست قابل ویرایش،
من در این زمینه نرم افزارهای زیادی رو امتحان کردم،
حتی اون PDF Grabber رو هم که اشاره کردید رو چند سال پیش امتحان کردم،
اما تنها یک برنامه بود که نسبت به بقیه PDF فارسی رو بهتر تبدیل می کرد،
اون برنامه، برنامه ی E-PDF to TEXT Converter هست،
البته همین برنامه هم نقص هایی داره و این هم به خود فایل PDF بر می گرده،
اما نسبت به بقیه بهتره.
دوم: این سایت به گونه ای باشه که همه در کامل کردن مجموعه ی کتب مشارکت داشته باشن.
اگر با سایت ویکیپدیا کار کرده باشید منظورم رو می فهمید.
در اون سایت یه گروهی ویرایشگر هستند، یه گروهی مدیر هستند که بر مقاله های ایجاد شده یا ویرایش شده نظارت می کنن، و غیره.
این طوری هر کس هر کتابی که داشت می تونه اضافه کنه،
و هر کس هم که در حال خوندن کتابی بود و غلط تایپی یا املایی دید می تونه ویرایش کنه.
البته قطعا باید نظارت مدیران بر ویرایش یا اضافه ی کتب باشه تا مشکلی پیش نیاد.
دوم: سایت طوری باشه که کامل کردن یک کتاب به عهده ی کسی که تایپ کتاب رو شروع کرده نباشه.
یعنی چه طوری؟
مثلا من امروز فصل اول یک کتابی رو اضافه می کنم.
شما میاید می بینید که اتفاقا خودتون هم این کتابو دارید،
پس مثلا فصل دومش رو شما اضافه می کنید.
این طور سرعت تکمیل خود کتاب ها هم بیشتر میشه.
علاوه بر این،
بسیاری از دوستان هستند که مجموعه ی عظیمی از کتب صوتی دارند،
اگر این دوستان هم دست به کار شوند و به تایپ این کتاب ها بپردازند این مجموعه سریعتر رشد می کنه.
سوم: بهتر هم هست که این سایت عمومی باشه و فقط مختص نابینایان نباشه.
چراکه در طی مدت طولانی که بازدید این سایت بالا میره افراد بینا هم ممکنه کتبی رو در این سایت تایپ کنن که تا به حال در دسترس نابینایان نبوده.
نهایتا، اگر روی نوشتن کلاینت وب کار کنید بهتره.
چون که اگر کلاینت وب باشه با هر سیستم عاملی که مرورگر اینترنت داشته باشه میشه از این کتابخونه استفاده کرد (مثل ویندوز، لینوکس، اندروید و غیره)
البته نوشتن چنین اسکریپتی مقداری سخت و وقتگیر هست.
این ها همش در حد پیشنهاد بود،
امیدوارم که با نظراتم تونسته باشم کمکی کنم.
درود
واقعا از این نظر لذت بردم. ممنون از پیشنهادهای عالیتون. حتما در نظرشون میگیرم. اون برنامه رو هم مرسی بابتش. قبلا داشتم ولی کلا یادم رفته بود.
من اول قصد داشتم یه کلاینت نسبتا ساده بنویسم. ولی با این برنامههای جدید اگه پروژه واقعا شروع بشه باید از یه وب دزاینر کمک بگیرم. تا ببینم چه شود.
موفق باشید.
سلام میثم.
چند روز پیش یه نرم افزار یا روش تبدیل متون pdf به ورد معرفی شد که هم توی گوشکن و هم در گروه نابینایان و ایران راوی در موردش صحبت شد.
نمیدونم اون نرم افزار بتونه کمک کنه یا نه؟
درود بر میثم عزیز
میثم طرحت حرف نداره خیلیم خوبه اصلا اگه همچین چیزی راه بیفته که عاااااالیه!
اگه فکر میکنی میتونی راهش بندازی یا علی
بر و بچ محله هم حتما کمکت میکنن
فقط میدونی عزیزم یه مشکلی هست اونم اینکه خوندن کتابهای فارسی با صداهایی مثل پارس آوا و ای اسپیک و از این قبیل صداها یه کم خسته کننده هستش چون کتاب رو یک نواخت میخونن آدم حوصلش سر میره و نمیفهمه جملات چه حسی رو القاء میکنن به همین دلیل با خودم میگم کاش یه موتور صوتی توپ داشتیم که جملات رو با لحن خودشون میخوند اونوقت خوندن کتاب به صورت نوشتاری هم دلچسب میشد
به هر حال حتما طرحتو پیگیری کن و به سر انجام برسون
پیروز و شادکام باشی
درود
مرسی از همایتتون. بله موافقم که TTS های فارسی همه از دم مزخرفن. توی همهی اونها فقط ESpeak احساساتی مثل تعجب و سوال رو منعکس میکنن. ولی خوب کیفیت صدا افتضاحه. ولی به هر حال بعضی از کتابهای متنی بیشتر خوششون مییاد. تازی گاهی از افراد نمایشگر بریل دارن. با اون میتونن کتابها رو بخونن.
پیروز باشید.
با درود:
من حرفای عمو حسینو کاملاً می لااییکم و اضافه می کنم که این طرح می تونه زیر مجموعه طرح مجتبی باشه و منافات زیادی با اون طرح نداره.
هدف دست رس پذیر کردن منابع پژوهشی و فوق برنامه برای نابینایان برای مطالعه این قشر از جامعه ست.
درود
طرح مجتبی که به نتیجهای نرسید. اگه برسه البته، به راحتی میتونن با هم هماهنگ باشن.
سلام میثم جان
من هم مثل همه با طرح شما موافقم
و کمکی که از دستم بر میآد این است که حدود ۴ هزار تا کتاب متنی که اکثرا در قالب h t m هستند تو آرشیوم دارم که میتونم همرو در اختیار شما قرار بدم
درود
علی جان خیلی خوشحال میشم اگه برام بفرستی کتابها رو. من الآن با بهران بی کتابی رو به رو هستم. اگه کامنتها رو خونده باشی توضیح دادم که کتابهای فارسی الکترونیکی بیزبونم همه به فنا رفتن. اگه کل کتابها رو به فرمت rar یا zip در بیاری گمون نمیکنم خیلی سنگین بشه. بعد میتونی برام ایمیلش کنی. اگه کس دیگهای هم هست اینجا که حاضر کتاب بفرسته llk,k ld al hc ;l;a. این ایمیل من هست: meisamamini21@gmail.com
موفق و پیروز باشی علی عزیز.
سلام. همونطور که خودتون فرمودید تبدیل فایل پی دی اف به ورد ممکنه اما این مسیله که بعد تمام اون متن باید خط به خط ویرایش بشه خیلی سخت و وقتگیره. من قصد داشتم کتابایی رو که دارم توی وبلاگ خودم بزارم ولی مسیله سر همین ویرایش بود و زود خستهم کرد. اما خیلی طرح خوبیه و تا جایی که وقت داشته باشم توی ویرایش کمک خواهم کرد و چندتا کتاب هم براتون میفرستم شاید به درد بخوره. امیدوارم موفق باشید. خوش به حالتون که میتونید کتابای انگلیسی رو راحت بخونید.
سلام
ایده ی خوبی هست
فکر کنم نرم افزار dopdf بتونه کمکتون کنه .
سلام آقا میثم گل. در بی نظیر بودن طرحت شکی نیست، بنده هم کتب متنی دارم که حاضرم تقدیم کنم. یا علی.
سلام دوست عزیز من تو این مورد اگر کمکی از دست بر بیاد هستم ضمن اینکه پیشنهاد می کنم با فایر فاکر ۲۵ به بالا فایلهای پی دی اف رو باز کنید واسه کپی راحت ترید علاوه بر اون در پی این طرح میشه از سایتهایی مثل ۹۸یا کمک گرفت و فایل ورد کتابهایی رو که تایپ می کنن رو ازشون دریافت کرد اگر هم پایگاه فقط برای نابینایان باشه کارهای دیگه ای هم میشه کرد.
درود
خیلی ممنون از کمکتون. نمیدونستم فایر فاکس PDF میخونه. این اواخر یه خورده از مرحله پرتم. در مورد ۹۸ia شنیدم. سر نزدم ببینم چطوره. ممنونم.
سلام دوست عزیز،
همین ماهوری که هی میزنید تو سرش یه ابزار جالب به اسم نگاشت داره که پی دی اف
رو به متن تبدیل میکنه البته پی دی اف های متنی رو
من الآن یه کتاب رو براتون تبدیل میکنم و براتون ایمیل میکنم ببینید چطوره
درود دوست عزیز
مرسی متنی رو که فرستادید رو دیدم خیلی خوب بود. ولی مشکل اینجاست که من نگاشت رو از سایت گاتا دانلود و نصب کردم. ولی نمیدونم چرا PDF باز نمیکنه. فقط ورد و اینطور چیزها. یعنی این نسخهی قدیمیش هست؟
ممنون میشم راهنمایی کنید.
سلام.
من دو تا راه دارم ۱.
از برنامه ی نگاشت گاتا استفاده کنی که رایگان هم هست.
۲. با لینوکس تبدیل کنی!
من خودم راه دوم رو رفتم و یه جوابایی گرفتم.
اگه بشه چیمیشههههههههه خیلی خوب میشه.
من با vinux تونستم چندتا کتاب رو TXT کنم.
بد نبود.
کارم رو راه انداخت
درود
مرسی داداش. ولی همینطور که برای دوست بالایی نوشتم نگاشتی که من دانلود کردم PDF رو ساپورت نمیکنه. میدونی مشکل چیه؟ ممنون میشم از کمکت.
موفق باشی.
سلام عزیز.
میدونی این متن رو که برات فرستادم با نگاشت که روی خوده ماهور حرفه ای قرار دادن تبدیل کردم.
بدی این برنامه هم اینه که پولیه،
ولی اگر دلت میخاد که بخریش اول برو پیش چند نفر که این برنامه رو دارن با اون کار کن و بعد اگر دیدی به درد میخوره بخر.
آخه همه میگم این خوب نیست و من هم میترسم که به تو بگم بخر یا نخر
و بعد نفرینم کنی.
راستی اگر زنگ زدی به شرکت گاتا و گفتن بیا و سحره عمومی رو بخر حواست باشه من دارم ولی برنامه خیلی جالبی نیست و اگر ماهور بخری دست کم صفحه خوان داری .
در اخر اگر کتابی رو برام بفرستی سعی میکنم برات تبدیل کنم. ولی من زیاد وقت ندارم و شاید طول بکشه.
درود
آها مرسی از اطلاعاتت. راستش من ماهور حرفهای رو خریدم. بعد که دیدم با پارسآوا ۲ مشکل ایجاد میکنه پاکش کردم. الآن کدشو گم کردم. باید ببینم توی ایمیلم میتونم پیداش کنم یا نه. بازم مرسی. موفق باشی.
آقای امینی برای فعال کردن مجدد ماهور نیازی به کدش نیست نصب کنید بعدش فقط شماره مبایل و نام و کد شهر اینها رو بدید اگر به اینترنت وصل باشید دریافت کد فعالسازی رو بزنید خودش حل میشه نیازی نیست دستی وارد کنید. برای خوندن پی دی اف هم با فایر فاکس کافیه با کنترل +O رو بزنید و فایل رو بدید باز می کنه من ایده برای این کار زیاد دارم اگر آدرس ایمیلتون رو برام بزارید فک ر کننم بهتر بتونم براتون بگم.
درود
خیلی ممنون از راهنماییتون. من واقعا از مرحله پرتم این روزها. ایمیلم هم حتما، آدرسش هست: meisamamini21@gmail.com
موفق باشید.
سلام ایده خیلی خوب و جالبیه. من که خودم خیلی به خوندن کتب به شکل متنی علاقه دارم و خیلی دوست دارم دسترسیم به این دست کتابها زیاد باشه. علی آقا که ۴۰۰۰ کتب متنی دارید یا بقیه دوستای عزیز اگه امکانش باشه کتاباتونو از طریق ایمیل در اختیارم بذارید خیلی خیلی ازتون ممنون میشم. پایدار باشید