--
DİKKAT! Yeni Platformumuza uye oldunuz mu?:
---> https://talk.istanbulcoders.org <---
İstanbul Coders Grubu Kurallarını okuyun: https://groups.google.com/forum/#!topic/istanbul-coders/LuV8_2lSO0w
---
Bu iletiyi Google Grupları'ndaki "istanbul-coders" grubuna abone olduğunuz için aldınız.
Bu grubun aboneliğinden çıkmak ve bu gruptan artık e-posta almamak için istanbul-coders+unsubscribe@googlegroups.com adresine e-posta gönderin.
Daha fazla seçenek için https://groups.google.com/d/optout adresini ziyaret edin.
Hürriyet'in public API'ı var ona bir bak derim bakmadıysan
Bu grubun aboneliğinden çıkmak ve bu gruptan artık e-posta almamak için istanbul-code...@googlegroups.com adresine e-posta gönderin.
Merhaba,Anladığım kadarıyla, açıkça emek ve veri hırsızlığı yapmak istiyorum diyorsun.Tehlikeli sular dasın bence.Hem o yazdığın sistemler de çalışanlar ve yöneticileri de bu platforma üyedir...
16 Şubat 2017 14:41 tarihinde Selçuk Itmiş <petr...@gmail.com> yazdı:
Merhaba arkadaşlar,milliyet, hürriyet gibi sitelerden yüklü miktarda veri çekmek istiyorum. Yazılımı C# ile yapacağım (ancak bu iş için ne kadar doğru olduğunu bilmiyorum)Karşılaştığım problemler;
- Belli bir request sayısından sonra sunucu tarafından bloklanmak.
- Bu iş işin amazon lambda veya iron.io servisini kullanmayı düşünüyorum. Bir worker kullanırsam sürekli farklı IP adreslerinden request geleceği için sunucu beni bloklamak çok zorlaşacak.
- Döngünün bir yerinden sonra webclient oldukça performanssız oluyor. Bunu hızlandırmanın yolu ne olabilir?
- MSSQL bir yerden sonra çok yavaş iş yapıyor. Veri tabanı olarak MSSQL yerine döküman tabanlı bir DB kullanırsam performans sorununu çözebilir miyim? Ya da elasticsearch?
Öneri ve görüşlerinizi alabilir miyim?Teşekkürler
--
DİKKAT! Yeni Platformumuza uye oldunuz mu?:
---> https://talk.istanbulcoders.org <---
İstanbul Coders Grubu Kurallarını okuyun: https://groups.google.com/forum/#!topic/istanbul-coders/LuV8_2lSO0w
---
Bu iletiyi Google Grupları'ndaki "istanbul-coders" grubuna abone olduğunuz için aldınız.
Bu grubun aboneliğinden çıkmak ve bu gruptan artık e-posta almamak için istanbul-code...@googlegroups.com adresine e-posta gönderin.
Daha fazla seçenek için https://groups.google.com/d/optout adresini ziyaret edin.
Hürriyet'in public API'ı var ona bir bak derim bakmadıysan
On 16-02-2017 14:55, Fikret AKIN wrote:
Merhaba,Anladığım kadarıyla, açıkça emek ve veri hırsızlığı yapmak istiyorum diyorsun.Tehlikeli sular dasın bence.Hem o yazdığın sistemler de çalışanlar ve yöneticileri de bu platforma üyedir...
16 Şubat 2017 14:41 tarihinde Selçuk Itmiş <petr...@gmail.com> yazdı:
Merhaba arkadaşlar,
milliyet, hürriyet gibi sitelerden yüklü miktarda veri çekmek istiyorum. Yazılımı C# ile yapacağım (ancak bu iş için ne kadar doğru olduğunu bilmiyorum)
Karşılaştığım problemler;
- Belli bir request sayısından sonra sunucu tarafından bloklanmak.
- Bu iş işin amazon lambda veya iron.io servisini kullanmayı düşünüyorum. Bir worker kullanırsam sürekli farklı IP adreslerinden request geleceği için sunucu beni bloklamak çok zorlaşacak.
- Döngünün bir yerinden sonra webclient oldukça performanssız oluyor. Bunu hızlandırmanın yolu ne olabilir?
- MSSQL bir yerden sonra çok yavaş iş yapıyor. Veri tabanı olarak MSSQL yerine döküman tabanlı bir DB kullanırsam performans sorununu çözebilir miyim? Ya da elasticsearch?
Öneri ve görüşlerinizi alabilir miyim?
Teşekkürler
--
DİKKAT! Yeni Platformumuza uye oldunuz mu?:
---> https://talk.istanbulcoders.org <---
İstanbul Coders Grubu Kurallarını okuyun: https://groups.google.com/forum/#!topic/istanbul-coders/LuV8_2lSO0w
---
Bu iletiyi Google Grupları'ndaki "istanbul-coders" grubuna abone olduğunuz için aldınız.
Bu grubun aboneliğinden çıkmak ve bu gruptan artık e-posta almamak için istanbul-code...@googlegroups.com adresine e-posta gönderin.
Daha fazla seçenek için https://groups.google.com/d/optout adresini ziyaret edin.
Bu grubun aboneliğinden çıkmak ve bu gruptan artık e-posta almamak için istanbul-coders+unsubscribe@googlegroups.com adresine e-posta gönderin.
Lütfen kirli zihniyetlerinizi kendinize saklayın. Google ve diğer arama motorlarıda hırsız ozaman. Adamın bu bilgiyi nerde kullanacağını bilmeden saçma sapan yorumlarda bulunmayın.@Selcuk sana mongodb ve elasticsearch tavsiyesinde bulunabilirim. Mssql'in yetersiz kalacağının kanaatindeyim.
16 Şub 2017 13:55 tarihinde "Fikret AKIN" <yazilimci.fikret.akin@gmail.com> yazdı:
Merhaba hocam,ETL (Extract - Transform - Load) tasarım desenlerine bakmak iyi bir başlangıç olabilir öncelikle.Datanın ilk çekilen halini HBASE yada Mongo gibi bir yerde tutup, anlamlı hale getirilmiş (analiz yapılabilir) halini Elastic'e atarsanız çok daha iyi verim alırsınız kanısındayım. Bloklanmadan kaçınma yöntemi olarak IP'değiştirme yada belli bir interval aralığında sorgu yapma dışında aklıma bir şey gelmiyor.Kullanımı zahmetli olmakla beraber Pentaho'ya bakabilirsiniz, data dönüştürme/taşıma işlerinde kullanışlı baya.İyi Çalışmalar
16 Şubat 2017 14:51 tarihinde Fikret AKIN <yazilimci.fikret.akin@gmail.com> yazdı:
Lütfen kirli zihniyetlerinizi kendinize saklayın. Google ve diğer arama motorlarıda hırsız ozaman. Adamın bu bilgiyi nerde kullanacağını bilmeden saçma sapan yorumlarda bulunmayın.@Selcuk sana mongodb ve elasticsearch tavsiyesinde bulunabilirim. Mssql'in yetersiz kalacağının kanaatindeyim.
16 Şub 2017 13:55 tarihinde "Fikret AKIN" <yazilimci....@gmail.com> yazdı:
Merhaba,Anladığım kadarıyla, açıkça emek ve veri hırsızlığı yapmak istiyorum diyorsun.Tehlikeli sular dasın bence.Hem o yazdığın sistemler de çalışanlar ve yöneticileri de bu platforma üyedir...
16 Şubat 2017 14:41 tarihinde Selçuk Itmiş <petr...@gmail.com> yazdı:
Merhaba arkadaşlar,milliyet, hürriyet gibi sitelerden yüklü miktarda veri çekmek istiyorum. Yazılımı C# ile yapacağım (ancak bu iş için ne kadar doğru olduğunu bilmiyorum)Karşılaştığım problemler;
- Belli bir request sayısından sonra sunucu tarafından bloklanmak.
- Bu iş işin amazon lambda veya iron.io servisini kullanmayı düşünüyorum. Bir worker kullanırsam sürekli farklı IP adreslerinden request geleceği için sunucu beni bloklamak çok zorlaşacak.
- Döngünün bir yerinden sonra webclient oldukça performanssız oluyor. Bunu hızlandırmanın yolu ne olabilir?
- MSSQL bir yerden sonra çok yavaş iş yapıyor. Veri tabanı olarak MSSQL yerine döküman tabanlı bir DB kullanırsam performans sorununu çözebilir miyim? Ya da elasticsearch?
Öneri ve görüşlerinizi alabilir miyim?Teşekkürler
--
DİKKAT! Yeni Platformumuza uye oldunuz mu?:
---> https://talk.istanbulcoders.org <---
İstanbul Coders Grubu Kurallarını okuyun: https://groups.google.com/forum/#!topic/istanbul-coders/LuV8_2lSO0w
---
Bu iletiyi Google Grupları'ndaki "istanbul-coders" grubuna abone olduğunuz için aldınız.
Bu grubun aboneliğinden çıkmak ve bu gruptan artık e-posta almamak için istanbul-code...@googlegroups.com adresine e-posta gönderin.
Daha fazla seçenek için https://groups.google.com/d/optout adresini ziyaret edin.
--
DİKKAT! Yeni Platformumuza uye oldunuz mu?:
---> https://talk.istanbulcoders.org <---
İstanbul Coders Grubu Kurallarını okuyun: https://groups.google.com/forum/#!topic/istanbul-coders/LuV8_2lSO0w
---
Bu iletiyi Google Grupları'ndaki "istanbul-coders" grubuna abone olduğunuz için aldınız.
Bu grubun aboneliğinden çıkmak ve bu gruptan artık e-posta almamak için istanbul-code...@googlegroups.com adresine e-posta gönderin.
Merhabalar,Doğruların ;sesi yükselterek ya da mail ortamında daha baskın ifadeler ve sataşmalarla kendini var ettiği bir ortamda yaşıyor olsak da, en azından bu grupta belli bir veriye dayanarak var olmasını saygıyla karşılamak gerekir. Veriyi işlemek için kullandığınız sistemler size ait olsa dahi işlediğiniz verinin bir sahibi varsa,ve siz bunu o sahibinden izin almadan kullanıyorsanız bırakın yasaları etik anlamda bir bilgi hırsızlığı yapıyorsunuzdur. Hürriyet sitesini belli bir kullanıcının dolaşabilmesine özel dizayn ettiyse,asıl sebep serverlardaki yükten kaçınmak değil verinin çalınmasını engellemektir. Sadece içerik üzerinden para kazanan bir oluşumun verisini anlamlandıracak bir teknolojiyi iş birliğiyle kullanmanız tavsiye edilmekte, güzel bir öneri bu. Türkiye'de Api kültürü tam yerleşmediği için veriye doğru olmayan yollardan ulaşma anlayışı bir hak gibi görülebiliyor. Böyle durumlarda kendimizi aklayacak dayanaklar bulmaktansa, basit bir empati yoluyla bu verinin sahibi aslında siz olsaydınız ve binlerce insan bundan ekmek yiyor olsaydı, verinizi bu şekilde almak isteyenlere nasıl yaklaşırdınızı sorgulamak gerekiyor.
16 Şub 2017 14:58 tarihinde "Ilhan çetin" <iilha...@gmail.com> yazdı:
Merhaba hocam,ETL (Extract - Transform - Load) tasarım desenlerine bakmak iyi bir başlangıç olabilir öncelikle.Datanın ilk çekilen halini HBASE yada Mongo gibi bir yerde tutup, anlamlı hale getirilmiş (analiz yapılabilir) halini Elastic'e atarsanız çok daha iyi verim alırsınız kanısındayım. Bloklanmadan kaçınma yöntemi olarak IP'değiştirme yada belli bir interval aralığında sorgu yapma dışında aklıma bir şey gelmiyor.Kullanımı zahmetli olmakla beraber Pentaho'ya bakabilirsiniz, data dönüştürme/taşıma işlerinde kullanışlı baya.İyi Çalışmalar
16 Şubat 2017 14:51 tarihinde Fikret AKIN <yazilimci....@gmail.com> yazdı:
Döngünün bir yerinden sonra webclient oldukça performanssız oluyor.
Döngünün bir yerinden sonra webclient oldukça performanssız oluyor.Nedenolduğunu ölçtünüz mü? memory/cpu profili mi kontrolden çıkıyor? Async işlemler diye tahmin ediyorum; o zaman belki sıradaki işlemler öncekilerin bitmesini (ya da timeout'a düşmelerini) bekliyor olabilir?
--
DİKKAT! Yeni Platformumuza uye oldunuz mu?:
---> https://talk.istanbulcoders.org <---
İstanbul Coders Grubu Kurallarını okuyun: https://groups.google.com/forum/#!topic/istanbul-coders/LuV8_2lSO0w
---
Bu iletiyi Google Grupları'ndaki "istanbul-coders" grubuna abone olduğunuz için aldınız.
Bu grubun aboneliğinden çıkmak ve bu gruptan artık e-posta almamak için istanbul-coders+unsubscribe@googlegroups.com adresine e-posta gönderin.
Merhaba arkadaşlar,
--