کارشناس Semalt راهنمایی برای خراشیدن وب با جاوا اسکریپت ارائه می دهد

scrap کردن وب می تواند منبع عالی از داده های مهم باشد که در فرآیند تصمیم گیری در هر شغل مورد استفاده قرار می گیرد. بنابراین ، در هسته تجزیه و تحلیل داده ها قرار دارد زیرا این یک راه مطمئن برای جمع آوری داده های معتبر است. اما ، به دلیل اینکه مقدار محتوای آنلاین در دسترس برای رها کردن همیشه در حال افزایش است ، ممکن است ضبط هر صفحه به صورت دستی غیرممکن باشد. این خواستار اتوماسیون است.

در حالی که ابزارهای زیادی در آنجا وجود دارد که برای پروژه های خودکار قراضه مختلف طراحی شده اند ، اما اکثر آنها حق بیمه هستند و برای شما ثروت هزینه می کنند. اینجاست که Puppeteer + Chrome + Node.JS وارد می شود. این آموزش شما را در طی فرآیند راهنمایی می کند که می توانید وب سایت ها را با سهولت به طور خودکار ضبط کنید.

تنظیمات چگونه کار می کند؟

توجه به این نکته مهم است که داشتن دانش کمی در مورد جاوا اسکریپت در این پروژه بسیار مفید خواهد بود. برای مبتدیان ، شما باید 3 برنامه فوق را جداگانه دریافت کنید. Puppeteer یک کتابخانه گره است که می تواند برای کنترل Chrome بدون سر استفاده شود. Headless Chrome به فرآیند اجرای کروم بدون GUI آن یا به عبارتی دیگر بدون اجرای کروم اشاره دارد. شما باید نود 8+ را از وب سایت رسمی آن نصب کنید.

با نصب برنامه ها ، زمان آن رسیده است که یک پروژه جدید ایجاد کنید تا شروع به طراحی کد کنید. در حالت ایده آل ، این جاوا اسکریپت است که می توانید با استفاده از کد ، فرایند خراش دادن را به صورت خودکار انجام دهید. برای اطلاعات بیشتر در مورد Puppeteer به مستندات آن مراجعه کنید ، صدها نمونه برای بازی در اینجا وجود دارد.

نحوه خودکار سازی ضبط کردن جاوا اسکریپت

برای ایجاد یک پروژه جدید ، به ایجاد پرونده (.js) بروید. در خط اول ، شما باید وابستگی Puppeteer را که قبلاً نصب کرده بودید ، فراخوانی کنید. این سپس توسط یک تابع اصلی "getPic ()" که تمام کد اتوماسیون را نگه می دارد ، دنبال می شود. خط سوم تابع "getPic ()" را برای اجرای آن فراخوانی می کند. با توجه به اینکه تابع getPic () یک تابع "async" است ، می توانیم از عبارت await استفاده کنیم که در حین انتظار برای حل "وعده" قبل از حرکت به خط بعدی کد ، عملکرد را متوقف می کند. این به عنوان تابع اتوماسیون اولیه عمل خواهد کرد.

نحوه تماس با کروم بی سر و صدا

خط بعدی کد: "const browser = await puppeteer.Launch ()؛" بطور خودکار توله سگ را راه اندازی می کند و نمونه ای از کروم را اجرا می کند و آن را به متغیر "مرورگر" تازه ایجاد شده ما تبدیل می کند. برای ایجاد صفحه ای که سپس برای حرکت به URL که می خواهید ضربت بزنید ، استفاده می شود.

نحوه ضبط داده ها

Puppeteer API به شما امکان می دهد تا با ورودی های وب سایت های مختلف از قبیل ساعت بندی ، پر کردن فرم و همچنین خواندن داده ها در اطراف بازی کنید. برای مشاهده دقیق نحوه چگونگی خودکارسازی این فرآیندها می توانید به آن مراجعه کنید. تابع "scrap ()" برای وارد کردن کد scraping ما استفاده خواهد شد. برای شروع کار scrape.js ، گره را شروع کنید. سپس کل تنظیمات باید به طور خودکار شروع به تولید محتوای مورد نیاز کنند. مهم است که به یاد داشته باشید که کد خود را طی کرده و بررسی کنید که همه چیز طبق طراحی کار می کند تا در طول مسیر از خطا جلوگیری کنید.

mass gmail