Başka siteden veri çekme

2,963 views
Skip to first unread message

Selçuk Itmiş

unread,
Feb 16, 2017, 6:41:30 AM2/16/17
to istanbul-coders
Merhaba arkadaşlar,

milliyet, hürriyet gibi sitelerden yüklü miktarda veri çekmek istiyorum. Yazılımı C# ile yapacağım (ancak bu iş için ne kadar doğru olduğunu bilmiyorum)

Karşılaştığım problemler;

  1. Belli bir request sayısından sonra sunucu tarafından bloklanmak.
    • Bu iş işin amazon lambda veya iron.io servisini kullanmayı düşünüyorum. Bir worker kullanırsam sürekli farklı IP adreslerinden request geleceği için sunucu beni bloklamak çok zorlaşacak. 
  2. Döngünün bir yerinden sonra webclient oldukça performanssız oluyor. Bunu hızlandırmanın yolu ne olabilir? 
  3. MSSQL bir yerden sonra çok yavaş iş yapıyor. Veri tabanı olarak MSSQL yerine döküman tabanlı bir DB kullanırsam performans sorununu çözebilir miyim? Ya da elasticsearch?
Öneri ve görüşlerinizi alabilir miyim?

Teşekkürler

Fikret AKIN

unread,
Feb 16, 2017, 6:55:39 AM2/16/17
to istanbu...@googlegroups.com
Merhaba,
Anladığım kadarıyla, açıkça emek ve veri hırsızlığı yapmak istiyorum diyorsun.
Tehlikeli sular dasın bence.
Hem o yazdığın sistemler de çalışanlar ve yöneticileri de bu platforma üyedir...

16 Şubat 2017 14:41 tarihinde Selçuk Itmiş <petr...@gmail.com> yazdı:

--
DİKKAT! Yeni Platformumuza uye oldunuz mu?:
---> https://talk.istanbulcoders.org <---
 
İstanbul Coders Grubu Kurallarını okuyun: https://groups.google.com/forum/#!topic/istanbul-coders/LuV8_2lSO0w
---
Bu iletiyi Google Grupları'ndaki "istanbul-coders" grubuna abone olduğunuz için aldınız.
Bu grubun aboneliğinden çıkmak ve bu gruptan artık e-posta almamak için istanbul-coders+unsubscribe@googlegroups.com adresine e-posta gönderin.
Daha fazla seçenek için https://groups.google.com/d/optout adresini ziyaret edin.



--
 

 

İyi Çalışmalar,

 

Fikret AKIN
Personal web: www.fikretakin.com

Umut Çağdaş Coşkun

unread,
Feb 16, 2017, 6:57:12 AM2/16/17
to istanbu...@googlegroups.com

Hürriyet'in public API'ı var ona bir bak derim bakmadıysan

Bu grubun aboneliğinden çıkmak ve bu gruptan artık e-posta almamak için istanbul-code...@googlegroups.com adresine e-posta gönderin.

Selçuk Itmiş

unread,
Feb 16, 2017, 7:31:28 AM2/16/17
to istanbul-coders
İnsanların ne yapacağını bilmeden suçlayan birinden yardım beklemiyoruz! Yorumunuzu kendinize saklayın. 

İlgili platformların yöneticilerinin burada olmasında da bir sakınca yok. Zira bahsettiğim platformlar tüm dünyaya açık ve veriler istenildiği gibi kopyalanabilir. 

Ancak telif hakkı bulunan veriyi kullanıldığında suç duyurusunda bulunulabilir. Bizim amacımız birbiriyle alakalı verilerin analizini yapıp, insanlara faydalı bilgi vermek, verinin içeriğini veya kendisini "çalmak" değil.

Grupta bulunma amacınız, dilerseniz insanlara yardımcı olmak ya da paylaşılan bilgilerinden faydalanmak; bilip bilmeden birilerini töhmet altında bırakmak değil.

Kişisel web sitenizde yazan bilgiye göre 2002 den bu yana yazılımcı olduğunuzu söylemişsiniz. Öyle zannediyorum ki bunun en az 10 yılı veri kopyalama ve kullanma işi yaptığınız için hemen neler yapabiliriz diye düşündünüz. Tabii ne de olsa kişi kendinden bilir işi. 

16 Şubat 2017 Perşembe 14:55:39 UTC+3 tarihinde Fikret Akin yazdı:
Merhaba,
Anladığım kadarıyla, açıkça emek ve veri hırsızlığı yapmak istiyorum diyorsun.
Tehlikeli sular dasın bence.
Hem o yazdığın sistemler de çalışanlar ve yöneticileri de bu platforma üyedir...
16 Şubat 2017 14:41 tarihinde Selçuk Itmiş <petr...@gmail.com> yazdı:
Merhaba arkadaşlar,

milliyet, hürriyet gibi sitelerden yüklü miktarda veri çekmek istiyorum. Yazılımı C# ile yapacağım (ancak bu iş için ne kadar doğru olduğunu bilmiyorum)

Karşılaştığım problemler;

  1. Belli bir request sayısından sonra sunucu tarafından bloklanmak.
    • Bu iş işin amazon lambda veya iron.io servisini kullanmayı düşünüyorum. Bir worker kullanırsam sürekli farklı IP adreslerinden request geleceği için sunucu beni bloklamak çok zorlaşacak. 
  2. Döngünün bir yerinden sonra webclient oldukça performanssız oluyor. Bunu hızlandırmanın yolu ne olabilir? 
  3. MSSQL bir yerden sonra çok yavaş iş yapıyor. Veri tabanı olarak MSSQL yerine döküman tabanlı bir DB kullanırsam performans sorununu çözebilir miyim? Ya da elasticsearch?
Öneri ve görüşlerinizi alabilir miyim?

Teşekkürler

--
DİKKAT! Yeni Platformumuza uye oldunuz mu?:
---> https://talk.istanbulcoders.org <---
 
İstanbul Coders Grubu Kurallarını okuyun: https://groups.google.com/forum/#!topic/istanbul-coders/LuV8_2lSO0w
---
Bu iletiyi Google Grupları'ndaki "istanbul-coders" grubuna abone olduğunuz için aldınız.
Bu grubun aboneliğinden çıkmak ve bu gruptan artık e-posta almamak için istanbul-code...@googlegroups.com adresine e-posta gönderin.

Daha fazla seçenek için https://groups.google.com/d/optout adresini ziyaret edin.

Selçuk Itmiş

unread,
Feb 16, 2017, 7:32:10 AM2/16/17
to istanbul-coders
Teşekkür ederim. bakıyorum

16 Şubat 2017 Perşembe 14:57:12 UTC+3 tarihinde Umut Çağdaş Coşkun yazdı:

Hürriyet'in public API'ı var ona bir bak derim bakmadıysan


On 16-02-2017 14:55, Fikret AKIN wrote:
Merhaba,
Anladığım kadarıyla, açıkça emek ve veri hırsızlığı yapmak istiyorum diyorsun.
Tehlikeli sular dasın bence.
Hem o yazdığın sistemler de çalışanlar ve yöneticileri de bu platforma üyedir...
16 Şubat 2017 14:41 tarihinde Selçuk Itmiş <petr...@gmail.com> yazdı:
Merhaba arkadaşlar,

milliyet, hürriyet gibi sitelerden yüklü miktarda veri çekmek istiyorum. Yazılımı C# ile yapacağım (ancak bu iş için ne kadar doğru olduğunu bilmiyorum)

Karşılaştığım problemler;

  1. Belli bir request sayısından sonra sunucu tarafından bloklanmak.
    • Bu iş işin amazon lambda veya iron.io servisini kullanmayı düşünüyorum. Bir worker kullanırsam sürekli farklı IP adreslerinden request geleceği için sunucu beni bloklamak çok zorlaşacak. 
  2. Döngünün bir yerinden sonra webclient oldukça performanssız oluyor. Bunu hızlandırmanın yolu ne olabilir? 
  3. MSSQL bir yerden sonra çok yavaş iş yapıyor. Veri tabanı olarak MSSQL yerine döküman tabanlı bir DB kullanırsam performans sorununu çözebilir miyim? Ya da elasticsearch?
Öneri ve görüşlerinizi alabilir miyim?

Teşekkürler
--
DİKKAT! Yeni Platformumuza uye oldunuz mu?:
---> https://talk.istanbulcoders.org <---
 
İstanbul Coders Grubu Kurallarını okuyun: https://groups.google.com/forum/#!topic/istanbul-coders/LuV8_2lSO0w
---
Bu iletiyi Google Grupları'ndaki "istanbul-coders" grubuna abone olduğunuz için aldınız.
Bu grubun aboneliğinden çıkmak ve bu gruptan artık e-posta almamak için istanbul-code...@googlegroups.com adresine e-posta gönderin.
Daha fazla seçenek için https://groups.google.com/d/optout adresini ziyaret edin.



--
 

 

İyi Çalışmalar,

 

Fikret AKIN
Personal web: www.fikretakin.com

E. Çağlar Avcı

unread,
Feb 16, 2017, 7:50:14 AM2/16/17
to istanbu...@googlegroups.com
Lütfen kirli zihniyetlerinizi kendinize saklayın. Google ve diğer arama motorlarıda hırsız ozaman. Adamın bu bilgiyi nerde kullanacağını bilmeden saçma sapan yorumlarda bulunmayın. 

@Selcuk sana mongodb ve elasticsearch tavsiyesinde bulunabilirim. Mssql'in yetersiz kalacağının kanaatindeyim.


16 Şub 2017 13:55 tarihinde "Fikret AKIN" <yazilimci....@gmail.com> yazdı:

Fikret AKIN

unread,
Feb 16, 2017, 7:51:53 AM2/16/17
to istanbu...@googlegroups.com
Merhaba, 
Bir yerden bot ile hiç bir şey çekmeye çalışmadım ve bu tip işte ilgili kurum ve kuruluşlar tarafından verilen api ile veri alışverişi yaptım,  şuan ki çalıştığın kurumu çok iyi tanıyorum ve bizzat kendileri ile görüştüm. Artı benimle ilgili bir bilgi sahibi olmadan fikir yürütmenin anlamı yok. 
Sana meslek hayatında başarılar dilerim. 

16 Şub 2017 15:31 tarihinde "Selçuk Itmiş" <petr...@gmail.com> yazdı:
Bu grubun aboneliğinden çıkmak ve bu gruptan artık e-posta almamak için istanbul-coders+unsubscribe@googlegroups.com adresine e-posta gönderin.

Ilhan çetin

unread,
Feb 16, 2017, 7:58:27 AM2/16/17
to istanbu...@googlegroups.com
Merhaba hocam,
ETL (Extract - Transform - Load) tasarım desenlerine bakmak iyi bir başlangıç olabilir öncelikle.

Datanın ilk çekilen halini HBASE yada Mongo gibi bir yerde tutup, anlamlı hale getirilmiş (analiz yapılabilir) halini Elastic'e atarsanız çok daha iyi verim alırsınız kanısındayım. Bloklanmadan kaçınma yöntemi olarak IP'değiştirme yada belli bir interval aralığında sorgu yapma dışında aklıma bir şey gelmiyor.

Kullanımı zahmetli olmakla beraber Pentaho'ya bakabilirsiniz, data dönüştürme/taşıma işlerinde kullanışlı baya.

İyi Çalışmalar

16 Şubat 2017 14:51 tarihinde Fikret AKIN <yazilimci....@gmail.com> yazdı:

Fikret AKIN

unread,
Feb 16, 2017, 8:51:04 AM2/16/17
to istanbu...@googlegroups.com
@Çağlar,
Yazdığını görmemezlikten gelmek isterdim, ama şunu bilmelisin ki ben arkadaşın yazdığı sorunlar da ki 1 no lu olana dayanarak yorumumu paylaştım ve kendisi gereken cevabı verdi ve kendisine de ben cevap verdim.

2006 yılın da hürriyet gurubu ile yaptığımız görüşmelerde bizimle veri paylaşımların da cüzi bir miktar da ücret talep ettiler ve bizim danışmalığını yaptığımız alam firma da gerekli ücreti karşılayarak veri erişimine sahip oldular.

Sahibi olduğum firma zamanında bana gelen bir müşterim de veri toplanması için talep te bulundu ve biz kendisine ilgili gurup ile görüşmesini sağlayarak verileri yasal yoldan almasını sağladık.

Google ve diğer arama motorları ilgili kurumların kenidisine vermiş olduğu sitemap veya bot erişim izinleri ile indexleme yaparak erişim sağlıyor ve bunun karşılığında da ilgili kuruma ödeme yapabilir.

2015 yılında Ankara' da resmi bir kuruma bu konu da danışmalık yaptık.

Uzun lafın kısası tecrübelerime dayanarak cevap verdim ilgili arkadaşa.

İsteyen bana sataşmadan arkadaşa soruları için gerekli cevabı verir.


16 Şub 2017 15:50 tarihinde "E. Çağlar Avcı" <emn....@gmail.com> yazdı:
Lütfen kirli zihniyetlerinizi kendinize saklayın. Google ve diğer arama motorlarıda hırsız ozaman. Adamın bu bilgiyi nerde kullanacağını bilmeden saçma sapan yorumlarda bulunmayın. 

@Selcuk sana mongodb ve elasticsearch tavsiyesinde bulunabilirim. Mssql'in yetersiz kalacağının kanaatindeyim.


16 Şub 2017 13:55 tarihinde "Fikret AKIN" <yazilimci.fikret.akin@gmail.com> yazdı:

Ozan Saral

unread,
Feb 16, 2017, 9:05:14 AM2/16/17
to istanbu...@googlegroups.com
Merhabalar,
Doğruların ;sesi yükselterek ya da mail ortamında daha baskın ifadeler ve sataşmalarla kendini var ettiği bir ortamda yaşıyor olsak da, en azından bu grupta belli bir veriye dayanarak var olmasını saygıyla karşılamak gerekir. Veriyi işlemek için kullandığınız sistemler size ait olsa dahi işlediğiniz verinin bir sahibi varsa,ve siz bunu o sahibinden izin almadan kullanıyorsanız bırakın yasaları etik anlamda bir bilgi hırsızlığı yapıyorsunuzdur. Hürriyet sitesini belli bir kullanıcının dolaşabilmesine özel dizayn ettiyse,asıl sebep serverlardaki yükten kaçınmak değil verinin çalınmasını engellemektir. Sadece içerik üzerinden para kazanan bir oluşumun verisini anlamlandıracak bir teknolojiyi iş birliğiyle kullanmanız tavsiye edilmekte, güzel bir öneri bu. Türkiye'de Api kültürü tam yerleşmediği için veriye doğru olmayan yollardan ulaşma anlayışı bir hak gibi görülebiliyor. Böyle durumlarda kendimizi aklayacak dayanaklar bulmaktansa, basit bir empati yoluyla bu verinin sahibi aslında siz olsaydınız ve binlerce insan bundan ekmek yiyor olsaydı, verinizi bu şekilde almak isteyenlere nasıl yaklaşırdınızı sorgulamak gerekiyor.

16 Şub 2017 14:58 tarihinde "Ilhan çetin" <iilha...@gmail.com> yazdı:
Merhaba hocam,
ETL (Extract - Transform - Load) tasarım desenlerine bakmak iyi bir başlangıç olabilir öncelikle.

Datanın ilk çekilen halini HBASE yada Mongo gibi bir yerde tutup, anlamlı hale getirilmiş (analiz yapılabilir) halini Elastic'e atarsanız çok daha iyi verim alırsınız kanısındayım. Bloklanmadan kaçınma yöntemi olarak IP'değiştirme yada belli bir interval aralığında sorgu yapma dışında aklıma bir şey gelmiyor.

Kullanımı zahmetli olmakla beraber Pentaho'ya bakabilirsiniz, data dönüştürme/taşıma işlerinde kullanışlı baya.

İyi Çalışmalar

16 Şubat 2017 14:51 tarihinde Fikret AKIN <yazilimci.fikret.akin@gmail.com> yazdı:

Selçuk Itmiş

unread,
Feb 16, 2017, 9:12:36 AM2/16/17
to istanbul-coders
Teşekkür ederim Çağlar, ben de bu yönde düşünüyorum.

16 Şubat 2017 Perşembe 15:50:14 UTC+3 tarihinde E. Çağlar Avcı yazdı:
Lütfen kirli zihniyetlerinizi kendinize saklayın. Google ve diğer arama motorlarıda hırsız ozaman. Adamın bu bilgiyi nerde kullanacağını bilmeden saçma sapan yorumlarda bulunmayın. 

@Selcuk sana mongodb ve elasticsearch tavsiyesinde bulunabilirim. Mssql'in yetersiz kalacağının kanaatindeyim.
16 Şub 2017 13:55 tarihinde "Fikret AKIN" <yazilimci....@gmail.com> yazdı:
Merhaba,
Anladığım kadarıyla, açıkça emek ve veri hırsızlığı yapmak istiyorum diyorsun.
Tehlikeli sular dasın bence.
Hem o yazdığın sistemler de çalışanlar ve yöneticileri de bu platforma üyedir...
16 Şubat 2017 14:41 tarihinde Selçuk Itmiş <petr...@gmail.com> yazdı:
Merhaba arkadaşlar,

milliyet, hürriyet gibi sitelerden yüklü miktarda veri çekmek istiyorum. Yazılımı C# ile yapacağım (ancak bu iş için ne kadar doğru olduğunu bilmiyorum)

Karşılaştığım problemler;

  1. Belli bir request sayısından sonra sunucu tarafından bloklanmak.
    • Bu iş işin amazon lambda veya iron.io servisini kullanmayı düşünüyorum. Bir worker kullanırsam sürekli farklı IP adreslerinden request geleceği için sunucu beni bloklamak çok zorlaşacak. 
  2. Döngünün bir yerinden sonra webclient oldukça performanssız oluyor. Bunu hızlandırmanın yolu ne olabilir? 
  3. MSSQL bir yerden sonra çok yavaş iş yapıyor. Veri tabanı olarak MSSQL yerine döküman tabanlı bir DB kullanırsam performans sorununu çözebilir miyim? Ya da elasticsearch?
Öneri ve görüşlerinizi alabilir miyim?

Teşekkürler

--
DİKKAT! Yeni Platformumuza uye oldunuz mu?:
---> https://talk.istanbulcoders.org <---
 
İstanbul Coders Grubu Kurallarını okuyun: https://groups.google.com/forum/#!topic/istanbul-coders/LuV8_2lSO0w
---
Bu iletiyi Google Grupları'ndaki "istanbul-coders" grubuna abone olduğunuz için aldınız.
Bu grubun aboneliğinden çıkmak ve bu gruptan artık e-posta almamak için istanbul-code...@googlegroups.com adresine e-posta gönderin.

Daha fazla seçenek için https://groups.google.com/d/optout adresini ziyaret edin.



--
 

 

İyi Çalışmalar,

 

Fikret AKIN
Personal web: www.fikretakin.com

--
DİKKAT! Yeni Platformumuza uye oldunuz mu?:
---> https://talk.istanbulcoders.org <---
 
İstanbul Coders Grubu Kurallarını okuyun: https://groups.google.com/forum/#!topic/istanbul-coders/LuV8_2lSO0w
---
Bu iletiyi Google Grupları'ndaki "istanbul-coders" grubuna abone olduğunuz için aldınız.
Bu grubun aboneliğinden çıkmak ve bu gruptan artık e-posta almamak için istanbul-code...@googlegroups.com adresine e-posta gönderin.

Selçuk Itmiş

unread,
Feb 16, 2017, 9:13:26 AM2/16/17
to istanbul-coders
Tamamdır İlhan, teşekkür ederim. Dediklerine bakacağım.

16 Şubat 2017 Perşembe 15:58:27 UTC+3 tarihinde Ilhan çetin yazdı:

Selçuk Itmiş

unread,
Feb 16, 2017, 9:18:40 AM2/16/17
to istanbul-coders
Merhaba,

Öncelikle burası tartışma veya etik, adalet, hak, hukuk gibi kavramların tartışıldığı bir platform değil. Emin olabilirsiniz sizin bildikleriniz veya düşündüklerinizden fazlasını bilerek, düşünerek bir şeyler yapmaya çalışıyoruz. 

Sorduğum soruların yanıtları hakkında bir fikriniz varsa dinlemek isterim, yoksa lütfen konuyu dağıtmayın. 
Doğrularınız size kalsın, şu an ona ihtiyacımız yok.

Kolaylıklar gelsin. 

16 Şubat 2017 Perşembe 17:05:14 UTC+3 tarihinde Ozan Saral yazdı:
Merhabalar,
Doğruların ;sesi yükselterek ya da mail ortamında daha baskın ifadeler ve sataşmalarla kendini var ettiği bir ortamda yaşıyor olsak da, en azından bu grupta belli bir veriye dayanarak var olmasını saygıyla karşılamak gerekir. Veriyi işlemek için kullandığınız sistemler size ait olsa dahi işlediğiniz verinin bir sahibi varsa,ve siz bunu o sahibinden izin almadan kullanıyorsanız bırakın yasaları etik anlamda bir bilgi hırsızlığı yapıyorsunuzdur. Hürriyet sitesini belli bir kullanıcının dolaşabilmesine özel dizayn ettiyse,asıl sebep serverlardaki yükten kaçınmak değil verinin çalınmasını engellemektir. Sadece içerik üzerinden para kazanan bir oluşumun verisini anlamlandıracak bir teknolojiyi iş birliğiyle kullanmanız tavsiye edilmekte, güzel bir öneri bu. Türkiye'de Api kültürü tam yerleşmediği için veriye doğru olmayan yollardan ulaşma anlayışı bir hak gibi görülebiliyor. Böyle durumlarda kendimizi aklayacak dayanaklar bulmaktansa, basit bir empati yoluyla bu verinin sahibi aslında siz olsaydınız ve binlerce insan bundan ekmek yiyor olsaydı, verinizi bu şekilde almak isteyenlere nasıl yaklaşırdınızı sorgulamak gerekiyor.
16 Şub 2017 14:58 tarihinde "Ilhan çetin" <iilha...@gmail.com> yazdı:
Merhaba hocam,
ETL (Extract - Transform - Load) tasarım desenlerine bakmak iyi bir başlangıç olabilir öncelikle.

Datanın ilk çekilen halini HBASE yada Mongo gibi bir yerde tutup, anlamlı hale getirilmiş (analiz yapılabilir) halini Elastic'e atarsanız çok daha iyi verim alırsınız kanısındayım. Bloklanmadan kaçınma yöntemi olarak IP'değiştirme yada belli bir interval aralığında sorgu yapma dışında aklıma bir şey gelmiyor.

Kullanımı zahmetli olmakla beraber Pentaho'ya bakabilirsiniz, data dönüştürme/taşıma işlerinde kullanışlı baya.

İyi Çalışmalar

16 Şubat 2017 14:51 tarihinde Fikret AKIN <yazilimci....@gmail.com> yazdı:

Norm

unread,
Feb 16, 2017, 9:30:32 AM2/16/17
to istanbu...@googlegroups.com
Döngünün bir yerinden sonra webclient oldukça performanssız oluyor.

N​eden​
 
​olduğunu ölçtünüz mü? memory/cpu profili mi kontrolden çıkıyor? Async işlemler diye tahmin ediyorum; o zaman belki sıradaki işlemler öncekilerin bitmesini (ya da timeout'a düşmelerini) bekliyor olabilir?

AbdulKadir DİLSİZ

unread,
Feb 16, 2017, 9:41:21 AM2/16/17
to istanbu...@googlegroups.com
Ben şu yöntemi kullanarak veri çekmiştim


YQL ile örnek verecek olursa  -  SELECT * FROM html WHERE url = "http://siteurl.com" AND xpath="//table/tbody/tr" 

Sistemide şu şekilde oluşturdum thread ile yapacağımdan dolayı go yu tercih ettim json veriyi php'de işlemesi daha rahat olduğu için go ile oluşturduğum program ile url listesinden veriyi çekip php de yazdığım api ye göndererek verileri çok iyi bir şekilde işledim. Sistem mantığı sana kalmış ama dediğim gibi yql gayet iyi bir çözüm gibi geldi bana. Yql xml veya json çıktısı veriyor. Limit konusunda da verdiği limit iyi gibi 

16 Şubat 2017 17:29 tarihinde Norm <dor...@gmail.com> yazdı:
Döngünün bir yerinden sonra webclient oldukça performanssız oluyor.

N​eden​
 
​olduğunu ölçtünüz mü? memory/cpu profili mi kontrolden çıkıyor? Async işlemler diye tahmin ediyorum; o zaman belki sıradaki işlemler öncekilerin bitmesini (ya da timeout'a düşmelerini) bekliyor olabilir?

--
DİKKAT! Yeni Platformumuza uye oldunuz mu?:
---> https://talk.istanbulcoders.org <---
 
İstanbul Coders Grubu Kurallarını okuyun: https://groups.google.com/forum/#!topic/istanbul-coders/LuV8_2lSO0w
---
Bu iletiyi Google Grupları'ndaki "istanbul-coders" grubuna abone olduğunuz için aldınız.
Bu grubun aboneliğinden çıkmak ve bu gruptan artık e-posta almamak için istanbul-coders+unsubscribe@googlegroups.com adresine e-posta gönderin.

erdal bitik

unread,
Feb 16, 2017, 9:45:11 AM2/16/17
to istanbu...@googlegroups.com
 Apache Nutch işini görmez mi?

16 Şubat 2017 14:41 tarihinde Selçuk Itmiş <petr...@gmail.com> yazdı:
Merhaba arkadaşlar,

--

Ethem KIZIL

unread,
Feb 16, 2017, 10:21:26 AM2/16/17
to istanbul-coders
Ben son zamanlarda xpath kullanıyorum regex kullanıyorsan daha iyi olabilir xpath e geçmen, sunucu mimarine gelincede tecrübeyle sabit karşı sunucu seni bir yerde kıstırıyorsa ne yaparsan yap aşamıyorsun. Api edinmeyi deniyebilirsin, api yoksa C# önermem, hatta hiç c#'a girme, java kullan, python kullan serverside bişiler kullanmanda fayda var, başka türlü performans, senkronizasyon vs. çok uğraşırsın.

Ayrıca @Caglar a katılıyorum, faydasız yorum bırakmanın anlamı yok, bide artık https://talk.istanbulcoders.org/ kullanıyoruz, oraya geçmenizi öneririm, gördüğüm kadarıyla orası bu konularda daha iyi ilerliyor.

Sonuç olarak GG & WP

16 Şubat 2017 Perşembe 14:41:30 UTC+3 tarihinde Selçuk Itmiş yazdı:
Reply all
Reply to author
Forward
0 new messages