wapiti Posté 7 janvier 2005 Signaler Posté 7 janvier 2005 Tout à fait, Cocoon parse les pages HTML pour les transformer en XML propre, puis à l'aide d'une feuille de style XSLT, tu peux extraire les articles et les transformer en documents XML à la syntaxe uniforme. Après tu peux en faire tout ce que tu veux, les aggreger sur une page unique en leur donnant la présentation que tu veux, faire des recherches dans tous les articles … Il faudrait juste obtenir l'autorisation des auteurs pour récupérer leurs articles.
Chitah Posté 7 janvier 2005 Signaler Posté 7 janvier 2005 Tout à fait, Cocoon parse les pages HTML pour les transformer en XML propre, puis à l'aide d'une feuille de style XSLT, tu peux extraire les articles et les transformer en documents XML à la syntaxe uniforme. Après tu peux en faire tout ce que tu veux, les aggreger sur une page unique en leur donnant la présentation que tu veux, faire des recherches dans tous les articles … Il faudrait juste obtenir l'autorisation des auteurs pour récupérer leurs articles. <{POST_SNAPBACK}> En fait, je vais te dire pourquoi je te demande ca. C'est plutot pour un moteur de recherche Google 100% libéral, en utilisant l'API de Google, etc… Or, le probleme est que l'acces à l'API (super pratique) se fait par une clé, qui limite à 1000 requetes par jour (chacune ne donnant que 10 resultats). Je pensais concaténer les résultats des diverses requetes "site:www.liberal-a-mort.com XXX" avec XXX le mot clé recherché. Ainsi, si je veux faire une recherche sur 10 sites libéraux, ca me "coute" 10 requetes sur les 1000, etc… Par contre, si on peut absorber ce que crache Gogole directement… Qu'en penses-tu?
wapiti Posté 7 janvier 2005 Signaler Posté 7 janvier 2005 Tiens avec cette technique, tu peux aussi créer des feeds RSS ou ATOM pour des sites qui n'en ont pas. Juste une petite restriction, il faut qu'il y ait une certaine homogénéité dans le code HTML du site d'origine (qu'on puisse identifier ou commence et ou fini un article, quel est son titre etc.), sinon c'est un peu dur d'en extraire automatiquement les articles. Le site d'Albert Li, par exemple ça risque d'être un peu chaud, mais quand même jouable en utilisant par exemple le fait que les titres sont toujours de cette forme : <p><b><span>titre</span></b></p> et que ça a peu de chance d'être le cas pour autre chose qu'un titre.
wapiti Posté 7 janvier 2005 Signaler Posté 7 janvier 2005 En fait, je vais te dire pourquoi je te demande ca. C'est plutot pour un moteur de recherche Google 100% libéral, en utilisant l'API de Google, etc… Or, le probleme est que l'acces à l'API (super pratique) se fait par une clé, qui limite à 1000 requetes par jour (chacune ne donnant que 10 resultats).Je pensais concaténer les résultats des diverses requetes "site:www.liberal-a-mort.com XXX" avec XXX le mot clé recherché. Ainsi, si je veux faire une recherche sur 10 sites libéraux, ca me "coute" 10 requetes sur les 1000, etc… Par contre, si on peut absorber ce que crache Gogole directement… Qu'en penses-tu? <{POST_SNAPBACK}> Techniquement, c'est tout à fait faisable, légalement, j'en suis moins sûr.
Rolanddezar Posté 7 janvier 2005 Signaler Posté 7 janvier 2005 En fait, je vais te dire pourquoi je te demande ca. C'est plutot pour un moteur de recherche Google 100% libéral, en utilisant l'API de Google, etc… Or, le probleme est que l'acces à l'API (super pratique) se fait par une clé, qui limite à 1000 requetes par jour (chacune ne donnant que 10 resultats).Je pensais concaténer les résultats des diverses requetes "site:www.liberal-a-mort.com XXX" avec XXX le mot clé recherché. Avec XXX tu risques pas de tomber sur des sites libéraux :icon_mrgreen: Sinon la solution de wapiti semble bonne! en plus avec un moteur de recherche intégré, ca serait nickel !!
ricotrutt Posté 7 janvier 2005 Signaler Posté 7 janvier 2005 Un petit complément sur la base de données communes.La première chose à faire dans cette histoire, c'est de trouver suffisamment de gens motivés par ce projet et prêts à lacher leur site perso, blogs, etc… pour ne plus alimenter que cette base de données. Tant qu'il n'y aura pas suffisamment de gens intéressés (taille critique), ça ne sert absolument à rien d'aller plus loin. Le démenagement d'un site ou deux sur une même base de données n'a aucun intérêt que des inconvénients. Voilà pourquoi je parle de ce projet mais sans rien faire de plus car tant qu'il n'y aura pas suffisamment de gens intéressés, ça ne sert à rien. Même chose pour le canard enchainé libéral. Tant qu'il n'y aura pas une équipe motivée et capable de tenir la distance, rien ne sert de se lancer. <{POST_SNAPBACK}> Souviens toi de ce que tu m'as dit: tu ne lacheras pas ton site si le projet ne te semble pas le remplacer vraiment. Or l'idée d'une BDD est ton idée, donc à toi elle te parait réalisable. Par cotnre pour qqn qui a un blog, il ne va jamais s'engager à lacher son blog pour s'engager dans ton projet si tu n'as rien à lui proposer de manière CONCRETE. Tu peux parfaitement commencer seul, au début. Si tout le monde était tout le temps motivé immédiatement ce serait trop facile. Mais je crois que ton idée est bonne donc tu aurais surement vite des gens intéressés…si tu leur proposais plus qu'une idée abstraite
Jerome Morrow Posté 8 janvier 2005 Signaler Posté 8 janvier 2005 Souviens toi de ce que tu m'as dit: tu ne lacheras pas ton site si le projet ne te semble pas le remplacer vraiment. Or l'idée d'une BDD est ton idée, donc à toi elle te parait réalisable. Par cotnre pour qqn qui a un blog, il ne va jamais s'engager à lacher son blog pour s'engager dans ton projet si tu n'as rien à lui proposer de manière CONCRETE. Tu peux parfaitement commencer seul, au début. Si tout le monde était tout le temps motivé immédiatement ce serait trop facile. Mais je crois que ton idée est bonne donc tu aurais surement vite des gens intéressés…si tu leur proposais plus qu'une idée abstraite Voilà une remarque de bon sens. C'est à la base de toute entreprenariat il me semble.
Invité Albert Li Posté 8 janvier 2005 Signaler Posté 8 janvier 2005 Excusez moi de n'être capable que de proposer une "bonne idée". C'est vraiment indigne de vous tous et vous méritez bien mieux je vous l'accorde bien volontier. Je vous laisse donc le soin de faire mieux que moi ce que vous ne sauriez manquer de faire.
ricotrutt Posté 8 janvier 2005 Signaler Posté 8 janvier 2005 alala albert li tu ne comprends pas ce que je veux te dire j'ai dit dans mon post que je croyais ton idée bonne. Je t'ai aussi dit que je t'aiderais si tu te lançais. La seule chose que je veux te dire c'est qu'il vaut mieux à mon sens commencer par te lancer pour ensuite proposer aux gens de collaborer avec toi, tu vois? Je ne discute pas du tout de ton idée.
Invité Albert Li Posté 8 janvier 2005 Signaler Posté 8 janvier 2005 alala albert li tu ne comprends pas ce que je veux te dire j'ai dit dans mon post que je croyais ton idée bonne. Je t'ai aussi dit que je t'aiderais si tu te lançais. La seule chose que je veux te dire c'est qu'il vaut mieux à mon sens commencer par te lancer pour ensuite proposer aux gens de collaborer avec toi, tu vois? Je ne discute pas du tout de ton idée. <{POST_SNAPBACK}> Je voulais d'abord te faire une réponse perso puis j'ai fait une réponse générale en oubliant de virer ton post. C'est réparé. Merci de m'accorder que l'idée est bonne. J'ai bien compris que tu voulais que je me lance pour rallier ensuite plus facilement d'autres gens à cette idée. Mais selon moi, il faut d'abord trouver suffisamment de gens intéressés pour se lancer ensuite. Merci de ta proposition d'aide. Cdt AL
Messages recommandés
Archivé
Ce sujet est désormais archivé et ne peut plus recevoir de nouvelles réponses.