英迪戈數據株式會社(總公司:東京都中央區,代表取締役:大藏陽一)已發布專注於數據收集的新法人AI「PigData Scraping AI」。 本服務是一種新的網頁抓取方法,AI會解析網站結構,並在理解欲獲取資訊的意圖(上下文)的同時進行數據收集。 近年來,市場調查、價格監控、競爭對手分析、新業務開發等領域,利用網路資訊的需求迅速增加。然而,傳統的網頁抓取方法需要針對每個網站進行個別設計和實施,存在因UI變更導致收集中斷的風險以及營運負擔等課題。 「PigData Scraping AI」是解決這些課題的次世代數據收集AI。 確認服務詳情 PigData Scraping AI的特點(與傳統方法的差異) PigData Scraping AI不是像傳統方法那樣為每個網站設定獲取規則並製作專用程式,而是AI在讀取頁面結構的同時提取所需資訊。 因此,可以在減輕針對各網站個別處理的負擔的同時,更靈活地推進數據收集。 適用於任何網站的靈活性(減少工數・提高速度) 傳統方法需要時間整理網站規格和個別實施,導致啟動延遲。 PigData Scraping AI透過AI解析網站結構,即使是設計性高或結構複雜的網站也能輕鬆推進驗證,並且可以透過自然語言指定獲取項目(欄位)。結果,可以在短時間內對目標網站的收集可行性做出初步判斷,加快啟動速度。 支援超過1000個網站的網頁抓取(節省成本・預算) 傳統方法隨著目標網站數量的增加,設計和調整會不斷累積,費用容易膨脹。 PigData Scraping AI可以有效率地進行多個網站的驗證和設定,即使是大規模調查・監控也能更容易地制定計畫,並能順利從PoC(概念驗證)推進到正式營運。 對目標網站變更具有強大穩定性(不受營運・UI變更影響) 傳統方法每次UI・結構變更都需要修改,營運負擔容易增加。 PigData Scraping AI透過AI進行解析和解釋來嘗試獲取,旨在實現不易受變更影響的營運,有助於減少返工和修改負擔。 查看詳情 推薦的應用場景 【行銷/業務企劃人員】 希望持續監控競爭對手和銷售管道的價差,但無法追蹤多個網站的確認工作 例:持續確認自家服務或商品的價格、特典、適用條件在官方網站、代理商網站、入口網站上的刊登情況,並應用於業務策略和客戶應對。然而,價格常在費率頁面、特典在活動頁面、條件在FAQ或注意事項頁面分散,且各網站的表達方式也不同。僅僅確認是不夠的,需要整理成公司內部便於比較的格式,並能追蹤與上次的變化。 希望定期收集提案和企劃立案的參考資訊,但公司內部營運無法持續更新 例:希望定期收集展覽會・研討會等資訊,將主題、目標產業、主辦者等列表化,作為企劃主題的考慮材料。但目標網站眾多,資訊也分散在多個頁面,每次重新收集就需要耗費工數。需要每月更新,持續關注哪些主題聚集了需求。 → PigData Scraping AI可以將分散在多個網站・多個頁面的資訊,以相同的項目統一收集,並實現即使是變更頻繁的網站也能輕鬆持續追蹤的營運。 【新事業/業務開發人員】 希望收集海外市場比較和進入判斷所需的資訊,但各國的視角不一致,無法整理成可供業務計畫使用的格式 例:在考慮海外拓展或進入新市場時,需要從新聞、行政機關、研究機構的資訊中提取各國的法規內容、施行時期、適用範圍、主要參與者等,並彙整成比較表或簽呈資料。然而,資訊的格式和語言各不相同,每次都從頭開始閱讀和整理會耗費工數。此外,這類資訊需要在關鍵節點重新確認,追蹤與上次的差異,但僅靠生成式AI進行單次整理,難以確保以相同格式重新獲取和比較的再現性。 希望進行PoC,卻因需求整理・規格検討過於耗時而無法「開始運作」 例:僅僅是想要提交給簽呈或經營會議的根據數據,但收集設計過於繁重導致啟動延遲。「先試著獲取看看」無法實現,討論又回到抽象論。 → PigData Scraping AI可以讓您在初期階段就能更容易地判斷,是否能將多個網站・多語言的資訊,以相同的切入點整理成比較所需的項目。首先快速建立業務判斷所需的最小限度數據,即使途中增加了候選網站,也能以相同的條件輕鬆追加確認・反映,因此更容易應對PoC或業務判斷節點的更新。 【調查/研究人員】 研究設計已完成,卻在數據化(收集・整理)階段受阻 例:在求職・房地產・商店・活動等領域希望統一「共通項目」,但網站結構不同,手動前處理(整理・比對)增加,導致交期緊迫。 數據清理(表記差異・缺失)過於繁重,無法進入分析階段 例:即使是相同意思的寫法也不同(例:所在地表記、步行時間、價格區間),因此花費時間在建立正規化規則和修正上。無法達到可匯總的狀態。 → PigData Scraping AI可以讓結構不同的網站或以文字為主的頁面,更容易地將所需資訊匯總成「相同格式的數據」。 【營運/產品負責人(持續營