مرکز آموزش و رقابت برنامه نویسی پایتون

۴ مطلب در اسفند ۱۳۹۷ ثبت شده است

کار با متن در پایتون (2)

✅ پیدا کردن کلمات با ویژگی های خاص


1️⃣ اگر بخواهیم کلماتی که بیش از سه حرف داشته باشند رو، کلمات طولانی بنامیم. با استفاده از حلقه for و تابع len میتوانیم این کلمات رو از جمله فوق استخراج کنیم.


>>> [w for w in text2 if len(w)>3]

['Ethics', 'built', 'right', 'into', 'ideals', 'objectives', 'United', 'Nations.']


▪️ همانطور که در نتیجه مشاهده میکنید تمام کلمات بیش از سه حرف هستند


2️⃣ معمولا در زبان انگلیسی حرف اول اسامی و یا اولین کلمه موجود در جمله با حروف بزرگ نوشته می شود. حالا اگر بخواهیم این کلمات را از جمله استخراج کنیم؛ تابع ()istitle در پایتون اینکار رو برامون انجام میده.


>>> [w for w in text2 if w.istitle()]

['Ethics', 'United', 'Nations.']


▪️ تمام کلماتی که با کارکتر بزرگ شروع میگردند را نمایش داد.


3️⃣ در پایتون اگر بخواهیم کلماتی که به یک کارکتر خاص ختم می شوند رو نمایش بدهیم کافیه از تابع ()endswith استفاده کنیم. داخل پرانتز کارکتری که میخواهیم بهش ختم بشه رو وارد میکنیم. مثال زیر رو ببینید.


>>> [w for w in text2 if w.endswith('s')]

['Ethics', 'ideals', 'objectives']


▪️ نمایش تمام کلماتی که به s ختم می شوند


۰ نظر موافقین ۰ مخالفین ۰

کار با متن در پایتون (1)

❇️ در درس اول، در مورد اینکه چرا متن ابزاری مفیدی بر ما هست، و کجاها استفاده شد و چه حجمی از متن رو ما داریم و از این دیتاهای متنی چه استفاده ای میکنیم خدمتتون عرض کردیم.

❇️ در درس دوم در مورد ساختار اولیه متن بررسی های انجام میدهیم و با استفاده از زبان پایتون، عملیات و توابعی که بر روی متن قابل استفاده هستند رو بیان خواهیم کرد.


✅ ساختار اولیه متن

1️⃣ جملات یا رشته های ورودی ( در واقع جملات از یکسری کلمات تشکیل شده است)
2️⃣ کلمات یا نشانه ها ( کلمات از کارکترها تشکیل شده و منظور از نشانه ها علائم نگارشی مثل نقطه، فاصله و ... هست)
3️⃣کارکترها (که کوچکترین جز یک متن رو تشکیل خواهد داد)
4️⃣ سندهای متنی یا فایل های بزرگتر (شما اگر یک سند word در نظر بگیرید از یکسری جملات تشکیل شده که ممکنه تعداد این جملات بسیار زیاد باشه که فایل های بزرگی بوجود خواهد آورد)

◀️ در این درس بر روی این ساختارهای اولیه متن و ویژگی هاش میپردازیم

✅ مثال : در ابتدا یک متن ایجاد میکنیم و داخل متغیر text1 ذخیره میکنیم.

>>> text1 = "Ethics are built right into the ideals and objectives of the United Nations."

▪️برای اینکه طول متن را بدست آوردیم از تابع len برای اینکار استفاده خواهیم کرد.

>>> len(text1)
76

▪️و اگر بخواهیم کلمات داخل متن رو جدا کنیم،میتوانیم از تابع ()split برای اینکار استفاده کنیم، دقت کنید که مقدار داخل پرانتز، کارکتری خواهد بود که سبب جدا شدن کلمات میگردند،که در اینجا باید از اسپس (فاصله) استفاده کنیم

>>> text2 = text1.split(' ')
>>> len(text2)
13

همانطور که مشاهده میکنید بعد از اجرای دستور فوق عدد 13 به معنی تعداد کلمات این جمله در خروجی چاپ خواهد شد.که در پایین مشاهده میکنید.

>>> text2
['Ethics', 'are', 'built', 'right', 'into', 'the', 'ideals', 'and', 'objectives', 'of', 'the', 'United', 'Nations.']

ادامه دارد...

۰ نظر موافقین ۰ مخالفین ۰

مقدمه ای به اهمیت متن و متن کاوی

سازمان دهی دانش و متن کاوی، در بازیابی دقیق اطلاعات کاربرد بسیاری دارند. از این رو، متن کاوی می تواند کارکردهای بسیاری در بهبود سازمان دهی دانش داشته باشد. اگرچه متن کاوی، به ویژه در بخش یادگیری ماشینی و به دست آوردن اسناد و نمونه های آموزشی، نیازمند نظام های اصطلاح نامه، طبقه بندی، فهرست نویسی و نمایه سازی است، سازمان دهی برای تسریع کار خود، نیازمند فنون متن کاوی و نتیجه کارهای آن خواهد بود تا هم سرعت کار خویش را افزایش دهد و هم هزینه هایش را بکاهد. در این نوشتار، به کارکردهای متن کاوی در حوزه سازمان دهی دانش پرداخته خواهد شد.


۰ نظر موافقین ۰ مخالفین ۰

آموزش دسته‌بندی ایمیل‌های اسپم با روش یادگیری Naive Bayes

در این دوره تمامی مراحل لازم برای ساختن یک ماشین یادگیری تشخیص ایمیل اسپم آموزش داده می‌شود. آموزش‌ها از مباحث تئوری احتمالات آغاز شده و تا یادگیری Bayesian ادامه می‌یابد. سپس مراحل لازم جهت پیاده‌سازی مباحث تئوری در پایتون از 0 تا 100 طی شده است.

مخاطبان این دوره می‌توانند روش یادگیری Bayesian را که یکی از مشهورترین شیوه‌های یادگیری ماشین (Machine Learning) می‌باشد، بصورت تئوری فراگرفته و با بکار گیری آن در عمل به درک و شهود واقعی از آن برسند.

مقدمات برنامه‌نویسی این دوره نیز بصورت کامل در آن آموزش داده می‌شود تا حتی عزیزانی که در حد مقدماتی و پایین‌تر با پایتون آَشنایی دارند، بتوانند با ما همراه باشند.

پروژه عملی آموزش داده شده در این دوره می‌تواند در کاربردهای وسیع‌تر پردازش متن، از جمله تشخیص انواع متون از یکدیگر (مثل تشخیص متون سیاسی از غیر سیاسی، ورزشی از غیر ورزشی و ...) بکار گرفته شود. این دوره برای کسانی که پیش زمینه اندکی از ماشین لرنینگ و یا آمار و احتمالات در حد مقدماتی دارند مناسب می‌باشد.

لازم به ذکر است جهت درک بهتر، در این دوره از هیچ کتابخانه آماده هوش مصنوعی و ماشین لرنینگ و دیپ لرنینگ استفاده نشده و تمامی مراحل لازم از 0 تا 100 پیاده‌سازی شده است.

📘 فرمت تمام ویدئوها بصورت mp4 می باشد که به راحتی با نرم افزارهای پخش مدیا اجرا خواهند شد.

📘 در صورت بروز هر گونه مشکل در خرید و دانلود با پست الکترونیکی sendticket.py@gmail.com با ما در ارتباط باشید.

📘 سرفصل دوره در بخش زیر قابل مشاهده می‌باشد، بخشهای که به رنگ آبی است بصورت رایگان قابل دانلود می‌باشد.

قیمت: ۵۰,۰۰۰ تومان

 

۰ نظر موافقین ۰ مخالفین ۰