❇️ در درس اول، در مورد اینکه چرا متن ابزاری مفیدی بر ما هست، و کجاها استفاده شد و چه حجمی از متن رو ما داریم و از این دیتاهای متنی چه استفاده ای میکنیم خدمتتون عرض کردیم.

❇️ در درس دوم در مورد ساختار اولیه متن بررسی های انجام میدهیم و با استفاده از زبان پایتون، عملیات و توابعی که بر روی متن قابل استفاده هستند رو بیان خواهیم کرد.


✅ ساختار اولیه متن

1️⃣ جملات یا رشته های ورودی ( در واقع جملات از یکسری کلمات تشکیل شده است)
2️⃣ کلمات یا نشانه ها ( کلمات از کارکترها تشکیل شده و منظور از نشانه ها علائم نگارشی مثل نقطه، فاصله و ... هست)
3️⃣کارکترها (که کوچکترین جز یک متن رو تشکیل خواهد داد)
4️⃣ سندهای متنی یا فایل های بزرگتر (شما اگر یک سند word در نظر بگیرید از یکسری جملات تشکیل شده که ممکنه تعداد این جملات بسیار زیاد باشه که فایل های بزرگی بوجود خواهد آورد)

◀️ در این درس بر روی این ساختارهای اولیه متن و ویژگی هاش میپردازیم

✅ مثال : در ابتدا یک متن ایجاد میکنیم و داخل متغیر text1 ذخیره میکنیم.

>>> text1 = "Ethics are built right into the ideals and objectives of the United Nations."

▪️برای اینکه طول متن را بدست آوردیم از تابع len برای اینکار استفاده خواهیم کرد.

>>> len(text1)
76

▪️و اگر بخواهیم کلمات داخل متن رو جدا کنیم،میتوانیم از تابع ()split برای اینکار استفاده کنیم، دقت کنید که مقدار داخل پرانتز، کارکتری خواهد بود که سبب جدا شدن کلمات میگردند،که در اینجا باید از اسپس (فاصله) استفاده کنیم

>>> text2 = text1.split(' ')
>>> len(text2)
13

همانطور که مشاهده میکنید بعد از اجرای دستور فوق عدد 13 به معنی تعداد کلمات این جمله در خروجی چاپ خواهد شد.که در پایین مشاهده میکنید.

>>> text2
['Ethics', 'are', 'built', 'right', 'into', 'the', 'ideals', 'and', 'objectives', 'of', 'the', 'United', 'Nations.']

ادامه دارد...