✅ کار با فایل های متنی بزرگ


🔹 اگر بخواهیم فایل متنی مثل یک فایل نوت پد رو با پسوند txt رو بخوانیم باید از دستور open استفاده کنیم. فرمت دستور open به این صورت است که ورودی اول باید نام فایل یا آدرس محلی که فایل متنی در آنجا قرار دارد، باشد. ورودی دوم مد r هست که برای خوندن استفاده میشه و ورودی سوم رو هم از utf8 استفاده میکنیم، دلیل گذاشتن این ورودی سوم اینه که اگر شما این ساختار رو مشخص نکنید پایتون در خروجی یکسری کارکترهای اضافی در ابتدا نمایش خواهد داد.مثال رو ببنیم:


>>> f = open('D:\Text mining\week-1\Lesson-2\humans.txt','r',encoding='utf-8-sig')



🔹 اگر بخواهیم فایل فوق رو بصورت خط به خط بخونیم باید از دستور readline بصورت زیر استفاده کنیم. (در برنامه نویسی انتهای هر خط با n/ مشخص میشه)


>>> f.readline()

'Python is an interpreted high-levelprogramming\n'


▪️نکته ای که در این بخش هست اینه که با هر بار اجرای دستور فوق یک خط خوانده می شود. دقت کنید که پایتون زمانی انتهای خط را تشخیص خواهد داد که دکمه اینتر زده شود.بنابراین اگر پارگراف نوشته شد اما فقط در انتهای پارگراف اینتر زده شد، تمام پارگراف را یک خط تشخیص خواهد داد.


🔹 خواندن کل فایل : برای اینکه مشخص کنیم از کجای فایل متن رو باید بخونیم میتونیم از تابع seek برای اینکار استفاده کنیم. دقت کنید که عبارت داخل پرانتر تابع seek اندیس شروع خوندن رو نشون میده که پیش فرض صفر خواهد بود. حالا ما در این مثال هم میخواهیم از ابتدا شروع کنیم کل فایل رو بخونیم، بنابراین داریم :


>>> f.seek(0)

0

>>> text9 = f.read()

>>> len(text9)

2672


▪️همانطور که در بالا میبینید کل فایل از اندیس صفر شروع به خوندن میکنیم و تعداد کارکترهای که داخل متنمون قرار داشت 2672 بود.


🔹حالا اگر بخواهیم کل فایل رو خط به خط جدا کنیم و در یک لیستی قرار بدهیم کافیه از تابع splitlines برای اینکار بصورت زیر استفاده کنیم


>>> text10 = text9.splitlines()

>>> len(text10)

21

>>> text10[0]

'Python is an interpreted high-levelprogramming'


▪️تعداد خطهای این فایل 21 بود و با اندیس میتونیم هر خطی که خواستیم در خروجی نمایش بدهیم.


✅ عملیات روی فایل

🔹 اولین دستور همون تابع open است که در تایپک قبلی مثالش رو زدیم و برای باز کردن فایل ازش استفاده میکنیم .

f = open(filename,mode)

🔹توابعی که برای خواندن خط به خط فایل،یا کل فایل،یا اینکه تعداد کارکتری خاصی از فایل رو بخونیم.این توابع بصورت زیر هستند

f.readline()
f.read()
f.read(n)

🔹برای مشخص کردن موقعیت فایل از تابع seek استفاده میکنیم

f.seek(n)

🔹برای نوشتن در یک فایل از تابع write استفاده خواهیم کرد.

f.write(message)

🔹و برای بستن فایل هم از تابع close استفاده خواهیم کرد.دقت کنید بعد از پایان کار با فایل، باید با این دستور فایل باز شده رو ببندید.

f.close()

🔹و اگر میخواهید چک کنید که فایلتون بسته شده یا خیر میتونید از تابع closed برای اینکار استفاده کنید .و در پاسخ true یا false خواهد داد.

f.closed

🔻  حذف n/ از انتهای خطوط

🔹همانطور که در مثال دیده بودید وقتی یک فایل رو میخونیم یک n/ در انتهای خط به معنای پایان خط نمایش داده می شود برای اینکه بتونیم حذفش کنیم کافیه دستور rstrip که قبلا هم در موردش توضیح دادیم و گفتیم از انتها یک کارکتر رو حذف خواهد کرد استفاده میکنیم.مثال زیر رو ببنید

>>> f = open('D:\Text mining\week-1\Lesson-2\humans.txt','r',encoding='utf-8-sig')

>>> text11 = f.readline()
>>> text11
'Python is an interpreted high-levelprogramming\n'

>>> text11.rstrip()
'Python is an interpreted high-levelprogramming'